中文分词

wutao8818

浏览: 624713 次
性别:
来自: 杭州

最近访客更多访客>>

KevinTeng

malson

rapin

shi007

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene Google Apache 软件测试算法

imdict-chinese-analyzer
http://code.google.com/p/imdict-chinese-analyzer/

SmartChineseAnalyzer 是一个智能中文分词模块，与 ChineseAnalyzer （切分每个汉字）和 CJKAnalyzer （组合每两个汉字）不同，它能够利用概率对汉语句子进行最优切分，并内嵌英文tokenizer，能有效处理中英文混合的文本内容。目前SmartChineseAnalyzer的词典库只支持简体中文。

它的原理基于自然语言处理领域的隐马尔科夫模型(HMM)，利用大量语料库的训练来统计汉语词汇的词频和跳转概率，从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分。

三种分词模块的分词结果比较, 由此可以看出智能分词更符合句子的原本语义，从而提高搜索的准确率。

语句：我是中国人

   1. SmartChineseAnalyzer: 我－是－中国－人
   2. ChineseAnalyzer: 我－是－中－国－人
   3. CJKAnalyzer: 我是－是中－中国－国人

分词词典的设置

因为智能分词需要词典来保存词汇的统计值，默认情况下，SmartChineseAnalyzer使用内置的词典库，当需要指定的词典库时，需要指定词典位置，如何指定词典位置请参考 org.apache.lucene.analysis.cn.smart.AnalyzerProfile

词库的下载地址为：http://code.google.com/p/imdict-chinese-analyzer/downloads/list 下载文件analysis-data.zip保存到本地，解压即可使用。

最简单的指定词典库的办法就是运行时加上参数-Danalysis.data.dir

如： java -Danalysis.data.dir=/path/to/analysis-data com.example.YourApplication

版本要求

SmartChineseAnalyzer的JVM要求java 1.4及以上版本；Lucene 要求2.4.0及以上版本，Lucene 2.3.X版应该也可以使用，但未经测试，有需要的用户可自行测试。
源文件和文本编码
除特定的二进制码文件外，SmartChineseAnalyzer的所有文本和Java源码都采用UTF-8编码，因此在读取文本和编译Java源码是请注意采用正确的方式，以避免产生乱码错误。
SmartChineseAnalyzer的授权

SmartChineseAnalyzer的算法和语料库词典来自于ictclas1.0项目(http://www.ictclas.org)，其中词典已经著作权人www.ictclas.org允许，以apache license v2(APLv2)协议发布。在遵循APLv2的条件下，欢迎用户使用。在此感谢www.ictclas.org以及ictclas分词软件的工作人员的辛勤工作和无私奉献！

分享到：

找到火星人的老家了 | JDK 7

2009-06-25 17:33
浏览 3094
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

中文分词

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

中文分词

评论

发表评论

相关推荐

手机之家网站搜索系统Lucene应用

如何利用 lucene score机制来实现 关键字 竞价排名

IndexSearcher

IndexWriter合并索引

lucene几个类的含义3

lucene几个类的含义2

lucene几个类的含义

solr1.3已经支持分布式搜索

solr 分词 后 结果

solr 查询 排序

solr 创建，删除，更新索引

solr 几个有用的过滤器

Solr scalability improvements

Solr应用开发笔记

最近访客更多访客>>

如何利用 lucene score机制来实现关键字竞价排名

solr 分词后结果

solr 查询排序