刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本而出名。
几年过去了,Lucene和Solr都发展到了4.7.x版本,重拾中文分词,发现庖丁中文分词不再是首选,mmseg4j是更佳的选择。
1、mmseg4j支持最多分词,是一款很优秀的中文分词器,是用Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
2、MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。
- 1.5版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右,(测试机:AMD athlon 64 2800+ 1G内存 xp)。
- 1.6版在complex基础上实现了最多分词(max-word)。“很好听” -> "很好|好听"; “中华人民共和国” -> "中华|华人|共和|国"; “中国人民银行” -> "中国|人民|银行"。
- 1.7-beta 版, 目前 complex 1200kb/s左右, simple 1900kb/s左右, 但内存开销了50M左右. 上几个版都是在10M左右.
- 1.8 后,增加 CutLetterDigitFilter过虑器,切分“字母和数”混在一起的过虑器。比如:mb991ch 切为 "mb 991 ch"。
mmseg4j实现的功能详情请看:
要想在Solr中整合mmseg4j其实很容易,只需要如下几个步骤
1、下载(https://code.google.com/p/mmseg4j/downloads/list)并解压mmseg4j-1.9.1.zip,把dist下面的所有jar文件拷贝到你应用服务器下的solr/WEB-INF/lib中。(如果你的应用服务器下面没有solr,请参考《Tomcat中安装Solr》)。
有3个jar文件:mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar,mmseg4j-solr-1.9.1.jar。
顺便提下,如果是在mmseg4j-1.9.0前,则需要copy data目录到solr_home/solr中(与core平级),并改名为dic。进入到你想使用mmseg4j分词器的core中(此处以solr自带的collection1为例),用编辑器打开collection1/conf/schema.xml配置文件,添加如下代码:
<!-- mmseg4j分词器 --> <fieldType name="text_mmseg4j" class="solr.TextField" > <analyzer type="index"> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" /><!--此处为分词器词典所处位置--> </analyzer> <analyzer type="query"> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" /><!--此处为分词器词典所处位置--> </analyzer> </fieldType>
2、在mmseg4j-1.9.0后,如本例的mmseg4j-1.9.1中,就 可以不用 dicPath 参数,可以使用 mmseg4j-core-1.9.0.jar 里的 words.dic ,在Schema.xml中加入如下配置
<!-- mmseg4j--> <fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/> </analyzer> </fieldType> <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/> </analyzer> </fieldType> <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" > <analyzer> <!-- <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/> --> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/> </analyzer> </fieldType> <!-- mmseg4j-->
注意:
如果使用的词典为words.dic,其位于目录:/root/solr/solr-data/solr/circle/conf 下,那么dicPath的值为:/root/solr/solr-data/solr/circle/conf 即 dicPath="/root/solr/solr-data/solr/circle/conf" 而不是dicPath="/root/solr/solr-data/solr/circle/conf/words.dic"/>
即
<!-- mmseg4j--> <fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/root/solr/solr-data/solr/circle/conf"/> </analyzer> </fieldType> <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/root/solr/solr-data/solr/circle/conf"/> </analyzer> </fieldType> <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/root/solr/solr-data/solr/circle/conf"/> </analyzer> </fieldType> <!-- mmseg4j-->
3、引用mmseg4j分词器
只需要在该schema.xml中加入如下配置便可引用对应的mmseg4j分词器
<field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/> <field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/> <field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/>
通过以上步骤就可以成功配置mmseg4j分词器到solr中了。
然后就可以打开Solr Admin的Page进行分词分析了。但当输入中文(华南理工大学)并点击“Analyse Values”进行分析时,会发现如下的错误: TokenStream contract violation: reset()/close() call missing, reset() called multiple times, or subclass does not call super.reset(). Please see Javadocs of TokenStream class for more information about the correct consuming workflow.
该原因是源码的一个bug引起的,需要修改上面下载的mmseg4j-analysis-1.9.1.zip解压后的mmseg4j-analysis目录下的类:MMSegTokenizer.java,修改reset()方法并加上下面注释中的这一句
public void reset() throws IOException { //lucene 4.0 //org.apache.lucene.analysis.Tokenizer.setReader(Reader) //setReader 自动被调用, input 自动被设置。 super.reset(); //加这一句 mmSeg.reset(input); }
修改后运行mvn clean package -DskipTests进行打包得到最新的mmseg4j-analysis-1.9.1.jar 并替换Tomcat下的solr下的WEB-INF/lib下的mmseg4j-analysis-1.9.1.jar。
重新启动Tomcat并访问Solr Admin Page,并在“Analysis”中输入中文进行分析,可以看到已经成功的进行分析。
这样这个Bug就解决了。
另外,mmseg4j中文分词和庖丁中文分词的对比效果可以参照下面的结果,从结果可以看出,mmseg4j比起庖丁中文分词来说,是更好的选择。
paoding 分词效果:
- --------------------------
- 清华大学
- 清华 | 大 | 华大 | 大学 |
- --------------------------
- 华南理工大学
- 华南 | 理工 | 大 | 大学 |
- --------------------------
- 广东工业大学
- 广东 | 工业 | 大 | 业大 | 大学 |
- --------------------------
- 西伯利亚
- 西伯 | 伯利 | 西伯利亚 |
- --------------------------
- 研究生命起源
- 研究 | 研究生 | 生命 | 起源 |
- --------------------------
- 为首要考虑
- 为首 | 首要 | 考虑 |
- --------------------------
- 化装和服装
- 化装 | 和服 | 服装 |
- --------------------------
- 中国人民银行
- 中国 | 国人 | 人民 | 银行 |
- --------------------------
- 中华人民共和国
- 中华 | 华人 | 人民 | 共和 | 共和国 |
- --------------------------
- 羽毛球拍
- 羽毛 | 羽毛球 | 球拍 |
- --------------------------
- 人民币
- 人民 | 人民币 |
- --------------------------
- 很好听
- 很好 | 好听 |
- --------------------------
- 下一个
- 下一 | 一个 |
- --------------------------
- 为什么
- 为什么 |
- --------------------------
- 北京首都机场
- 北京 | 首都 | 机场 |
- --------------------------
- 东西已经拍卖了
- 东西 | 已经 | 拍卖 | 卖了 |
- --------------------------
- 主人因之生气
- 主人 | 生气 |
- --------------------------
- 虽然某些动物很凶恶
- 动物 | 凶恶 |
- --------------------------
- 朋友真背叛了你了
- 朋友 | 真 | 背叛 |
- --------------------------
- 建设盒蟹社会
- 建设 | 盒蟹 | 社会 |
- --------------------------
- 建设盒少蟹社会
- 建设 | 盒少 | 少蟹 | 社会 |
- --------------------------
- 我们家门前的大水沟很难过。
- 我们 | 家门 | 前 | 门前 | 前的 | 大 | 大水 | 水沟 | 很难 | 难过 |
- --------------------------
- 罐头不如果汁营养丰富。
- 罐头 | 不如 | 如果 | 果汁 | 营养 | 丰富 |
- --------------------------
- 今天真热,是游泳的好日子。
- 今天 | 天真 | 热 | 游泳 | 日子 | 好日子 |
- --------------------------
- 妹妹的数学只考十分,真丢脸。
- 妹妹 | 数学 | 只考 | 十分 | 真 | 丢脸 |
- --------------------------
- 我做事情,都是先从容易的做起。
- 做事 | 事情 | 都是 | 先从 | 从容 | 容易 | 容易的 | 做起 |
- --------------------------
- 老师说明天每个人参加大队接力时,一定要尽力。
- 老师 | 师说 | 说明 | 明天 | 每个 | 个人 | 人参 | 参加 | 大 | 加大 | 大队 | 接力 | 时 | 一定 | 定要 | 要尽 | 尽力 |
- --------------------------
- 小明把大便当作每天早上起床第一件要做的事
- 小明 | 大 | 大便 | 便当 | 当作 | 每天 | 早上 | 上起 | 起床 | 床第 | 第一 | 一件 | 要做 | 做的 | 的事 |
mmseg4j maxword 分词效果:
- --------------------------
- 清华大学
- 清华 | 大学 |
- --------------------------
- 华南理工大学
- 华南 | 理工 | 工大 | 大学 |
- --------------------------
- 广东工业大学
- 广东 | 工业 | 大学 |
- --------------------------
- 西伯利亚
- 西 | 伯利 | 利亚 |
- --------------------------
- 研究生命起源
- 研究 | 生命 | 起源 |
- --------------------------
- 为首要考虑
- 为首 | 要 | 考虑 |
- --------------------------
- 化装和服装
- 化装 | 和 | 服装 |
- --------------------------
- 中国人民银行
- 中国 | 国人 | 人民 | 银行 |
- --------------------------
- 中华人民共和国
- 中华 | 华人 | 人民 | 共和 | 国 |
- --------------------------
- 羽毛球拍
- 羽毛 | 球拍 |
- --------------------------
- 人民币
- 人民 | 币 |
- --------------------------
- 很好听
- 很好 | 好听 |
- --------------------------
- 下一个
- 下一 | 一个 |
- --------------------------
- 为什么
- 为 | 什么 |
- --------------------------
- 北京首都机场
- 北京 | 首都 | 机场 |
- --------------------------
- 东西已经拍卖了
- 东西 | 已经 | 拍卖 | 了 |
- --------------------------
- 主人因之生气
- 主人 | 因 | 之 | 生气 |
- --------------------------
- 虽然某些动物很凶恶
- 虽然 | 某些 | 动物 | 很 | 凶恶 |
- --------------------------
- 朋友真背叛了你了
- 朋友 | 真 | 背叛 | 了 | 你了 |
- --------------------------
- 建设盒蟹社会
- 建设 | 盒 | 蟹 | 社会 |
- --------------------------
- 建设盒少蟹社会
- 建设 | 盒 | 少 | 蟹 | 社会 |
- --------------------------
- 我们家门前的大水沟很难过。
- 我们 | 家 | 门前 | 的 | 大水 | 水沟 | 很难 | 过 |
- --------------------------
- 罐头不如果汁营养丰富。
- 罐头 | 不如 | 果汁 | 营养 | 丰富 |
- --------------------------
- 今天真热,是游泳的好日子。
- 今天 | 天真 | 热 | 是 | 游泳 | 的 | 好 | 日子 |
- --------------------------
- 妹妹的数学只考十分,真丢脸。
- 妹妹 | 的 | 数学 | 只 | 考 | 十分 | 真 | 丢脸 |
- --------------------------
- 我做事情,都是先从容易的做起。
- 我做 | 事情 | 都是 | 先 | 从容 | 易 | 的 | 做起 |
- --------------------------
- 老师说明天每个人参加大队接力时,一定要尽力。
- 老师 | 师说 | 明天 | 每个 | 个人 | 参加 | 大队 | 接力 | 时 | 一定 | 要 | 尽力 |
- --------------------------
- 小明把大便当作每天早上起床第一件要做的事
- 小明 | 把 | 大便 | 当作 | 每天 | 早上 | 起床 | 第一 | 一件 | 要做 | 的 | 事 |
mmseg4j中丰富词库需要注意什么?
mmseg4j中的词库:(强制使用 UTF-8):
- data/chars.dic 是单字与语料中的频率,一般不用改动,1.5版本中已经加到mmseg4j的jar里了,我们不需要关心它,当然你在词库目录放这个文件可以覆盖它。
- data/units.dic 是单字的单位,默认读jar包里的,你也可以自定义覆盖它,这个功能是试行,如果不喜欢它,可以用空的units.dic文件(放到你的词库目录下)覆盖它。
- data/words.dic 是词库文件,一行一词,当然你也可以使用自己的,1.5版本使用 sogou 词库,1.0的版本是用 rmmseg 自带的词库。
- data/wordsxxx.dic 1.6版支持多个词库文件,data 目录(或你定义的目录)下读到"words"前缀且".dic"为后缀的文件。如:data/words-my.dic。
- 由于 utf-8 文件有带与不带 BOM 之分,建议词库第一行为空行或为无 BOM 格式的 utf-8 文件。
相关推荐
本人用的solr是4.10的,经过本人亲测可用,放心下载,包含以下3个jar包: mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar, mmseg4j-solr-2.2.0.jar
"兼容solr4.10.3的mmseg4j-1.9.1分词器" 这个标题表明我们正在讨论的是一个针对Solr 4.10.3版本优化的mmseg4j分词器,版本号为1.9.1。mmseg4j是一款广泛使用的Java实现的中文分词库,它提供了高效且精准的中文分词...
在mmseg4j-1.9.1\mmseg4j-analysis\src\main\java\com\chenlb\mmseg4j\analysis\MMSegTokenizer.java 中的 public void reset() throws IOException(){ ... super.reset();//已添加完这个,重新打包 }
而mmseg4j-solr-2.4.0.jar是mmseg4j分词库的Solr插件版本,专为Solr设计,使得开发者可以方便地将mmseg4j的分词功能集成到Solr中,以提升搜索性能和精确度。 在Solr 6.3版本下,要使用mmseg4j-solr-2.4.0.jar,首先...
在这个压缩包中,包含的两个核心文件mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.2.0.jar是实现Solr中文分词功能的关键。mmseg4j-core-1.10.0.jar是mmseg4j的核心分词引擎,提供了基本的分词算法和数据结构。而mmseg4j...
《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...
reset close call missing reset called multiple times or subclass does not call super reset Please see Javadocs of ...mmseg4j analysis 1 9 1 jar">在solr4 7中使用mmseg4j1 9 1时会出现contract violation...
mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。
mmseg4j-solr是一个专门针对Solr的中文分词组件,它在2.2.0版本中提供了高效的分词能力,为中文信息检索带来了显著的改进。 首先,我们来理解一下mmseg4j-solr的核心——mmseg(Maximum Matching Segment,最大匹配...
总结来说,掌握mmseg4j-solr的配置和使用是提升Solr中文搜索能力的关键。从选择合适的版本,到正确配置Solr的schema,再到设定词典路径,每个环节都需要细致入微的考虑。通过深入理解这些知识点,开发者能够为自己的...
里面包含了mmseg4j-solr-2.0.0.jar,mmseg4j-solr-2.1.0.jar,mmseg4j-solr-2.2.0.jar,mmseg4j-solr-2.3.0.jar总共4个文件,其中: mmseg4j-solr-2.0.0.jar 要求 lucene/solr >= 4.3.0。在 lucene/solr [4.3.0, 4.7.1]...
该压缩包包含`mmseg4j-solr-2.3.2.jar`和`mmseg4j-core-1.10.0.jar`,其中solr-2.3.2不是官方的版本,该版本有改动,使得mmseg4j可以很好的支持Solr6,如果你的Solr低于Solr6,请使用官方的mmseg4j-solr-2.3.0.jar...
mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex...
mmseg4j中文分词器 mmseg4j-core-1.10.0.jar mmseg4j-solr-2.3.0.jar两个主要依赖包
mmseg4j-1.8.4.zip是一个包含mmseg4j所有相关文件的压缩包,用于集成到Solr环境中,以提升对中文文档的处理能力。 在mmseg4j-1.8.4.zip的文件列表中,我们可以看到以下几个关键文件: 1. mmseg4j-all-1.8.4-with-...
总的来说,mmseg4j-solr作为一款强大的中文分词工具,其高效的分词算法和灵活的配置选项使其在Solr环境中的应用广泛。通过对mmseg4j的深入理解和实践,开发者可以更好地解决中文文本处理中的挑战,为各种信息检索和...
mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传
《mmseg4j在Solr中的应用与分词技术详解》 在中文信息处理领域,分词是文本分析的关键步骤,而mmseg4j作为一款高效、精准的Java实现中文分词工具,广泛应用于各种系统中,特别是搜索引擎的构建。本篇文章将详细探讨...
在提供的压缩包文件中,包含了三个主要的jar文件:mmseg4j-core-1.10.0.jar、mmseg4j-solr-2.4.0.jar和mmseg4j-analysis-1.9.1.jar。每个组件都有其特定的功能: 1. **mmseg4j-core-1.10.0.jar**:这是mmseg4j的...
Solr3.2 + mmseg4j-1.8.4中文搜索引擎Demo是一个演示项目,旨在展示如何在Solr...这个Demo不仅展示了Solr的灵活性和可扩展性,还突显了mmseg4j在中文处理上的优势,对于学习和实践Solr中文搜索是一个非常实用的资源。