硕士论文 面向大规模信息检索的中文分词技术研究

本文档由 白登道 分享于2010-09-05 15:23

本文首先介绍了中文分词的难点,以及目前常用的一些切分算法。然后综合分析了 分词技术对中文信息检索的影响,在此基础上系统地提出了适用于信息检索应用的分词 技术的特点,并且根据这些特点给出我们自己的分词算法。 由于面向大规模信息检索的分词算法对时间性能要求较高,我们的词典算法采用了 双数组Trie树优化算法。该算法查询一个词语最多只需要进行n-1次整数相加,时间复 杂度是O(n),n为查询词长度。
文档格式:
.pdf
文档大小:
2.33M
文档页数:
76
顶 /踩数:
0 0
收藏人数:
12
评论次数:
0
文档热度:
文档分类:
论文  —  毕业论文
添加到豆单
文档标签:
信息检索 中文分词 双数组 Trie树 双字耦 合度 文本处理
系统标签:
分词 检索 大规模 技术研究 词识别 面向
下载文档
收藏
打印

扫扫二维码,随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP  

获取二维码

分享文档

将文档分享至:
分享完整地址
文档地址: 复制
粘贴到BBS或博客
flash地址: 复制

支持嵌入FLASH地址的网站使用

html代码: 复制

默认尺寸450px*300px480px*400px650px*490px

支持嵌入HTML代码的网站使用

分享到