硕士论文 面向大规模信息检索的中文分词技术研究
本文档由 白登道 分享于2010-09-05 15:23
本文首先介绍了中文分词的难点,以及目前常用的一些切分算法。然后综合分析了 分词技术对中文信息检索的影响,在此基础上系统地提出了适用于信息检索应用的分词 技术的特点,并且根据这些特点给出我们自己的分词算法。 由于面向大规模信息检索的分词算法对时间性能要求较高,我们的词典算法采用了 双数组Trie树优化算法。该算法查询一个词语最多只需要进行n-1次整数相加,时间复 杂度是O(n),n为查询词长度。
君,已阅读到文档的结尾了呢~~