mmseg4j 中文分词 1.6 版发布

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 2498 次

锁定老帖子主题：mmseg4j 中文分词 1.6 版发布精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
chenlb 等级: 性别: 文章: 140 积分: 143 来自: 杭州	发表时间：2009-04-07 相关推荐: mmseg4j java_中文分词器：mmseg4j mmseg4j 中文分词器的一些简介整理 solr+mmseg4j 中文分词 solr mmseg4j linux,solr4.5安装配置 linux+tomcat6.0+mmseg4j-1.9.1分词 Solr中文分词器配置讲解 (IKAnalyzer和mmseg4j) 更多相关推荐企业应用经过几天的开发与调试，mmseg4j 1.6 版可以发布了。1.6 版主要实现与下功能：实现多分词，在complex基础上，把长的词（大于2）拆出多个词。按二元分词，且把不存在的词去了，如：“西伯利亚” -> "西\|伯利\|利亚"，"西伯" 不存在词库中；“中国人民银行”-> "中国\|国人\|人民\|银行" 支持多个词库文件，在词库目录中放"words"前缀且".dic"后缀的文件。如：data/words-my.dic 单字的单位独立一个文件(data/units.dic, 已经放入jar包里)，也可以自定义覆盖它。加单字的单位处理分词比较好点，如：“年”在units.dic文件中，“2008年中有很多事情” -> “2008\|年\|中有\|很多\|事情”，否则，就分成了“2008\|年中\|有\|很多\|事情”。这功能是试行，如果不喜欢它，可以空的units.dic文件覆盖它。 MMSegAnalyzer 和 MMSegTokenizerFactory 默认的分词方式改为max-word。当然你可以单独地使用SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer。多分词的效果： public void testEffect() throws IOException { String words = segW.segWords("共和国", "\|"); assertEquals("共和\|国", words); } public void testEffect1() throws IOException { String words = segW.segWords("中国人民银行", "\|"); assertEquals("中国\|国人\|人民\|银行", words); } public void testEffect2() throws IOException { String words = segW.segWords("西伯利亚", "\|"); assertEquals("西\|伯利\|利亚", words); } public void testEffect3() throws IOException { String words = segW.segWords("中华人民共和国", "\|"); assertEquals("中华\|华人\|人民\|共和\|国", words); } public void testEffect4() throws IOException { String words = segW.segWords("羽毛球拍", "\|"); assertEquals("羽毛\|球拍", words); } public void testEffect6() throws IOException { String words = segW.segWords("为什么", "\|"); assertEquals("为\|什么", words); } public void testEffect7() throws IOException { String words = segW.segWords("很好听", "\|"); assertEquals("很好\|好听", words); } public void testEffect8() throws IOException { String words = segW.segWords("强冷空气", "\|"); assertEquals("强\|冷\|空气", words); } public void testEffect10() throws IOException { String words = segW.segWords("清华大学", "\|"); assertEquals("清华\|大学", words); } public void testEffect11() throws IOException { String words = segW.segWords("华南理工大学", "\|"); assertEquals("华南\|理工\|工大\|大学", words); } public void testEffect12() throws IOException { String words = segW.segWords("广东工业大学", "\|"); assertEquals("广东\|工业\|大学", words); } solr 中使用 <fieldType name="textMaxWord" class="solr.TextField" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/> </analyzer> </fieldType> google code 已经提供下载。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

johnnyhg 等级: 初级会员文章: 191 积分: 35 来自: NA	发表时间：2009-04-07 能够跟paoding做一个比较的说明帖子？期待！
返回顶楼	回帖地址 0 0 请登录后投票

chenlb 等级: 性别: 文章: 140 积分: 143 来自: 杭州	发表时间：2009-04-13 johnnyhg 写道能够跟paoding做一个比较的说明帖子？期待！ http://chenlb.iteye.com/blog/366361
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: