介绍几款优秀的英文分词系统和中文分词系统
本文档由 悠悠 分享于2011-11-06 15:10
1、 英文分词的原理 基本的处理流程是:输入文本、词汇分割、词汇过滤(去除停留词)、词干提取(形态还原)、大写转为小写、结果输出。 2、 中文分词原理 中文分词比较复杂,并没有英文分词那么简单。这主要是因为中文的词与词之间并不像英文中那样用空格来隔开。 主要的方法有三种:基于词典匹配的分词方法、基于语义理解的分词、基于词频统计的分词。
君,已阅读到文档的结尾了呢~~