介绍几款优秀的英文分词系统和中文分词系统

本文档由 悠悠 分享于2011-11-06 15:10

1、 英文分词的原理 基本的处理流程是:输入文本、词汇分割、词汇过滤(去除停留词)、词干提取(形态还原)、大写转为小写、结果输出。 2、 中文分词原理 中文分词比较复杂,并没有英文分词那么简单。这主要是因为中文的词与词之间并不像英文中那样用空格来隔开。 主要的方法有三种:基于词典匹配的分词方法、基于语义理解的分词、基于词频统计的分词。
文档格式:
.doc
文档大小:
33.0K
文档页数:
4
顶 /踩数:
0 0
收藏人数:
17
评论次数:
0
文档热度:
文档分类:
IT计算机  —  软件工程
添加到豆单
文档标签:
英文分词 中文分词
系统标签:
分词 中文 分词方法 英文 词典 词汇
下载文档
收藏
打印

扫扫二维码,随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP  

获取二维码

分享文档

将文档分享至:
分享完整地址
文档地址: 复制
粘贴到BBS或博客
flash地址: 复制

支持嵌入FLASH地址的网站使用

html代码: 复制

默认尺寸450px*300px480px*400px650px*490px

支持嵌入HTML代码的网站使用

分享到