关于imdict-chinese-analyzer中文分词模块 - summerbell - ITeye博客

`

summerbell

浏览: 816820 次
性别:
来自: 武汉

最近访客更多访客>>

wangweihuamy

icnd

wyhappiness

玫瑰步道

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

107x：不错，谢谢！
log4j.properties配置详解
gzklyzf：为啥我解析的PDF文档没有作者、文章题目等信息啊，下面是我的代 ...
Apache Lucene Tika 文件内容提取工具
mervyn1024：解压密码是啥
ictclas4j调整
百卉含英：如果我的文件输出路径是这个log4j.appender.Fil ...
log4j.properties配置详解
lxhxklyy： mark……
log4j.properties配置详解

关于imdict-chinese-analyzer中文分词模块

博客分类：

Lucene&切分词

阅读更多

CJK中文分词模块是很重要的工具。imdict-chinese-analyzer采用了隐马模型（HMM）进行切词。并得到优于ictclas4j的效果。

但同为隐马模型在中文分词模块中的应用，ictclas4j同imdict-chinese-analyzer还是有很大不同。

imdict-chinese-analyzer的介绍片段如下：

……

中文与西方语言最大的区别就在于语句的词汇之间没有明显的分词界限，但是计算机自然语言处理是按词汇来进行分析的，因此中文分词的效果直接影响中文检索和自然语言处理的准确性。例如： “我购买了道具和服装”，如果采用比较简单的正向最大匹配算法，分词结果是“我购买了道具和服装”，明显偏离了原句的意思；而采用基于HMM的智能分词模型，能够综合分析句子的结构、各个词的频率以及各个词汇之间的跳转频率，从而能产生最优化的分词结果：“我购买了道具和服装”

……

通过介绍和对其代码的初步研究，imdict-chinese-analyzer应该是使用了viterbi算法求出概率最大的观测序列，而不涉及到词性的分析。

ictclas4j似乎是有一个词性的概率转移矩阵。有待进一步确认。

imdict-chinese-analyzer中文分词模块在GoogleCode的地址：

http://code.google.com/p/imdict-chinese-analyzer/

查看图片附件

分享到：

ictclas4j分词模块 | 隐马尔可夫模型中的Viterbi算法zz

2009-05-19 12:00
浏览 3202
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

imdict-chinese-analyzer-java5.zip: 《Java实现的中文分词程序——imdict-chinese-analyzer》在信息技术领域，中文分词是处理中文文本的关键步骤，它将连续的汉字序列分割成具有独立语义的词语，为后续的文本分析、信息检索、自然语言处理等任务奠定...

imdict-chinese-analyzer-java1.4: 改造nutch，将原来的中文分词程序改成imdict-chinese-analyzer，这个是根据中科院的c版分词程序而来的纯java版

常用中文分词器及地址链接: Imdict-chinese-analyzer是一种基于Java的中文分词器，使用HHMM分词模型。Imdict-chinese-analyzer的优点是分词准确率高、支持多种语言、可扩展性强等。 6. Stanford Word Segmenter Stanford Word Segmenter是一...

开源中文词法文本分析程序整理: imdict-chinese-analyzer 是一个基于 Java 的中文词法分析程序，重新实现了 ictclas 中文分词程序，具有高速处理能力，支持停止词过滤。这些开源中文词法文本分析程序都具有其特点和优势，可以根据实际需求选择...

基于Lucene的中文分词器代码paoding,IK,imdict,mmseg4j: IK全称是Intelligent Chinese Analyzer，它是一款针对Lucene优化的中文分词组件。IK以其强大的词库管理和动态加载功能而知名，支持多种分词模式，包括精确模式、全模式、最短路径模式等，以适应不同的应用场景。IK...

扩展imdict中文分词改进版: NULL 博文链接：https://onedear.iteye.com/blog/673724

全文检索之分词器分享.zip: 3，分享一波分词器SDK开发包及使用手册（IK分词器、imdict(ictclas)分词器、je分词器、mmseg分词器、paoding分词器、Shuzhen分词器、庖丁解羊分词器、增强版lucene分词器）文件比较大，请耐心下载。

solr技术方案.pdf: 为了实现更好的中文处理，我们可以选用第三方分词器，如Paoding、Imdict、IK Analyzer和Mmseg4j。在这些分词器中，Mmseg4j因其较高的准确率（98%）和简单的配置而被选中。通过在Solr的schema.xml中定义新的fieldType...

网站搜索的进化PPT学习教案.pptx: 常见的中文分词工具有Scws（基于词频词典）、Paoding（基于Lucene）、Imdict（智能词典）和Mmseg4j（封装mmseg算法，自带Sogou词库）。这些工具帮助搜索引擎理解中文文本，提高搜索准确性。 4. Sphinx与Coreseek的...

Global site tag (gtag.js) - Google Analytics