硕士论文面向大规模信息检索的中文分词技术研究

本文档由白登道分享于2010-09-05 15:23

本文首先介绍了中文分词的难点，以及目前常用的一些切分算法。然后综合分析了分词技术对中文信息检索的影响，在此基础上系统地提出了适用于信息检索应用的分词技术的特点，并且根据这些特点给出我们自己的分词算法。由于面向大规模信息检索的分词算法对时间性能要求较高，我们的词典算法采用了双数组Trie树优化算法。该算法查询一个词语最多只需要进行n-1次整数相加，时间复杂度是O(n)，n为查询词长度。

文档格式：: .pdf
文档大小：: 2.33M
文档页数：: 76页
顶 /踩数：: 0 / 0
收藏人数：: 12
评论次数：: 0
文档热度：
文档分类：: 论文 — 毕业论文; 添加到豆单