浏览 2498 次
锁定老帖子 主题:mmseg4j 中文分词 1.6 版发布
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2009-04-07
MMSegAnalyzer 和 MMSegTokenizerFactory 默认的分词方式改为max-word。当然你可以单独地使用SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer。 多分词的效果: public void testEffect() throws IOException { String words = segW.segWords("共和国", "|"); assertEquals("共和|国", words); } public void testEffect1() throws IOException { String words = segW.segWords("中国人民银行", "|"); assertEquals("中国|国人|人民|银行", words); } public void testEffect2() throws IOException { String words = segW.segWords("西伯利亚", "|"); assertEquals("西|伯利|利亚", words); } public void testEffect3() throws IOException { String words = segW.segWords("中华人民共和国", "|"); assertEquals("中华|华人|人民|共和|国", words); } public void testEffect4() throws IOException { String words = segW.segWords("羽毛球拍", "|"); assertEquals("羽毛|球拍", words); } public void testEffect6() throws IOException { String words = segW.segWords("为什么", "|"); assertEquals("为|什么", words); } public void testEffect7() throws IOException { String words = segW.segWords("很好听", "|"); assertEquals("很好|好听", words); } public void testEffect8() throws IOException { String words = segW.segWords("强冷空气", "|"); assertEquals("强|冷|空气", words); } public void testEffect10() throws IOException { String words = segW.segWords("清华大学", "|"); assertEquals("清华|大学", words); } public void testEffect11() throws IOException { String words = segW.segWords("华南理工大学", "|"); assertEquals("华南|理工|工大|大学", words); } public void testEffect12() throws IOException { String words = segW.segWords("广东工业大学", "|"); assertEquals("广东|工业|大学", words); } solr 中使用 <fieldType name="textMaxWord" class="solr.TextField" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/> </analyzer> </fieldType> google code 已经提供下载。 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2009-04-07
能够跟paoding做一个比较的说明帖子?期待!
|
|
返回顶楼 | |
发表时间:2009-04-13
|
|
返回顶楼 | |