CJK中文分词模块是很重要的工具。imdict-chinese-analyzer采用了隐马模型(HMM)进行切词。并得到优于ictclas4j的效果。
但同为隐马模型在中文分词模块中的应用,ictclas4j同imdict-chinese-analyzer还是有很大不同。
imdict-chinese-analyzer的介绍片段如下:
……
中文与西方语言最大的区别就在于语句的词汇之间没有明显的分词界限,但是计算机自然语言处理是按词汇来进行分析的,因此中文分词的效果直接影响中文检索和自然语言处理的准确性。例如: “我购买了道具和服装”,如果采用比较简单的正向最大匹配算法,分词结果是“我 购买 了 道具 和服 装”,明显偏离了原句的意思;而采用基于HMM的智能分词模型,能够综合分析句子的结构、各个词的频率以及各个词汇之间的跳转频率,从而能产生最优化的分词结果:“我 购买 了 道具 和 服装”
……
通过介绍和对其代码的初步研究,imdict-chinese-analyzer应该是使用了viterbi算法求出概率最大的观测序列,而不涉及到词性的分析。
ictclas4j似乎是有一个词性的概率转移矩阵。有待进一步确认。
imdict-chinese-analyzer中文分词模块在GoogleCode的地址:
http://code.google.com/p/imdict-chinese-analyzer/
- 大小: 16.4 KB
分享到:
相关推荐
《Java实现的中文分词程序——imdict-chinese-analyzer》 在信息技术领域,中文分词是处理中文文本的关键步骤,它将连续的汉字序列分割成具有独立语义的词语,为后续的文本分析、信息检索、自然语言处理等任务奠定...
改造nutch,将原来的中文分词程序改成imdict-chinese-analyzer,这个是根据中科院的c版分词程序而来的纯java版
Imdict-chinese-analyzer是一种基于Java的中文分词器,使用HHMM分词模型。Imdict-chinese-analyzer的优点是分词准确率高、支持多种语言、可扩展性强等。 6. Stanford Word Segmenter Stanford Word Segmenter是一...
IK全称是Intelligent Chinese Analyzer,它是一款针对Lucene优化的中文分词组件。IK以其强大的词库管理和动态加载功能而知名,支持多种分词模式,包括精确模式、全模式、最短路径模式等,以适应不同的应用场景。IK...
NULL 博文链接:https://onedear.iteye.com/blog/673724
3,分享一波分词器SDK开发包及使用手册(IK分词器、imdict(ictclas)分词器、je分词器、mmseg分词器、paoding分词器、Shuzhen分词器、庖丁解羊分词器、增强版lucene分词器) 文件比较大,请耐心下载。
为了实现更好的中文处理,我们可以选用第三方分词器,如Paoding、Imdict、IK Analyzer和Mmseg4j。在这些分词器中,Mmseg4j因其较高的准确率(98%)和简单的配置而被选中。通过在Solr的schema.xml中定义新的fieldType...
常见的中文分词工具有Scws(基于词频词典)、Paoding(基于Lucene)、Imdict(智能词典)和Mmseg4j(封装mmseg算法,自带Sogou词库)。这些工具帮助搜索引擎理解中文文本,提高搜索准确性。 4. Sphinx与Coreseek的...