前面,笔者已经介绍过solr里面另外2种中文分词的配置,今天就来就简述一下mmseg4j在solr4.3里面的配置,mmseg4j也是一款很优秀的中文分词器,是用Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
其实,配置分词很简单,只要有分词jar包,然后在solr的schemal.xml里面配置一个分词器,就可以了,如果还想在专业一点,可以自定义词典库,禁用词库,相似词库等等,这些的实现都也很简便,在schemal.xml同一级目录里面,放进去需要定义词库的txt文件就可以了,然后在配置里面加上相应的配置就可以了,在这里仅说说基本的入门配置
下面给出在schemal.xml里面的配置
<!-- 配置 mmseg4j分词器 -->
<fieldType name="text_msg" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<!-- 索引时候的分词器-->
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/>
</analyzer>
<analyzer type="query">
<!-- 查询时候的分词器 -->
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/>
</analyzer>
</fieldType>
然后,在注册一个字段类型
<!-- mmseg4j的引用字段 -->
<field name="msg" type="text_msg" indexed="true" stored="true" multiValued="true"/>
最后把分词的jar包,放入solr里面就可以
F:\tomcat\webapps\solr\WEB-INF\lib
mmseg4j的3个jar包
mmseg4j-analysis-1.9.1.jar
mmseg4j-core-1.9.1.jar
mmseg4j-solr-1.9.1.jar
下面会附上3个jar,包当然也可以自己去官网上下载
https://code.google.com/p/mmseg4j/downloads/list
至此就配置完了,启动solr就可以在UI页面分析测试了。
分享到:
相关推荐
《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...
值得注意的是,mmseg4j-solr-2.4.0.jar中的mmseg4j-2.4.0子目录包含了mmseg4j的核心组件,包括分词算法的实现和相关的配置文件。开发者可以通过阅读源代码和文档,更深入地了解其工作原理和优化技巧。 总之,mmseg4...
在这个压缩包中,包含的两个核心文件mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.2.0.jar是实现Solr中文分词功能的关键。mmseg4j-core-1.10.0.jar是mmseg4j的核心分词引擎,提供了基本的分词算法和数据结构。而mmseg4j...
在Solr6中配置mmseg4j是为了实现中文分词,从而提升搜索效果。mmseg4j是基于Java的一个高性能中文分词库,它提供了多种分词算法,如最长匹配、最短路径等,以满足不同的分词需求。 首先,我们需要理解Solr6的基本...
mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传
而mmseg4j是Solr中常用的中文分词组件,它的加入增强了Solr在中文处理上的能力。 **压缩包子文件的文件名称列表解析:** 1. `mmseg4j-core-1.9.1.jar`:这是mmseg4j的核心库文件,包含了mmseg4j的主要分词算法和...
最新版solr4.3的IK分词器,中文分词效果良好!对付一般的大众分词没有问题
mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。
总结来说,掌握mmseg4j-solr的配置和使用是提升Solr中文搜索能力的关键。从选择合适的版本,到正确配置Solr的schema,再到设定词典路径,每个环节都需要细致入微的考虑。通过深入理解这些知识点,开发者能够为自己的...
Solr,作为一款强大的开源全文搜索引擎,提供了多种分词器供用户选择,其中之一就是MMSeg4J。本篇文章将带你深入学习如何在Solr5中集成并使用MMSeg4J分词器,提升中文处理能力。 首先,我们来了解一下MMSeg4J。这是...
4. **索引构建与查询**:在配置完成后,Solr会使用mmseg4j-solr对输入的中文文本进行分词,然后构建索引。在查询时,同样会应用分词策略,提高查询的精确度。 5. **性能监控**:在系统运行过程中,可以通过Solr的...
该压缩包包含`mmseg4j-solr-2.3.2.jar`和`mmseg4j-core-1.10.0.jar`,其中solr-2.3.2不是官方的版本,该版本有改动,使得mmseg4j可以很好的支持Solr6,如果你的Solr低于Solr6,请使用官方的mmseg4j-solr-2.3.0.jar...
集成后,用户可以在Solr的配置文件中指定使用mmseg4j作为默认的中文分词器,从而提升搜索的准确性和效率。 在Solr5.0中,自定义词库的设置是一项重要的任务,因为合理的词库能有效提高搜索的相关性。mmseg4j支持...
里面包含了mmseg4j-solr-2.0.0.jar,mmseg4j-solr-2.1.0.jar,mmseg4j-solr-2.2.0.jar,mmseg4j-solr-2.3.0.jar总共4个文件,其中: mmseg4j-solr-2.0.0.jar 要求 lucene/solr >= 4.3.0。在 lucene/solr [4.3.0, 4.7.1]...
集成mmseg4j到Solr中,首先需要将jar包添加到Solr的lib目录下,然后在Solr的配置文件中指定分词器。通过自定义分析器,可以配置mmseg4j进行中文分词。同时,根据实际需求,还可以对字典进行定制,提高分词的准确性和...
mmseg4j采用四向最大匹配算法(MaxMatch Four Direction),并结合了词典分词和统计分词,能够处理复杂多样的中文语境,提高分词的准确率。其1.10.0版本的`mmseg4j-core-1.10.0.jar`包含了mmseg4j的核心算法实现。 ...
最高版本的 solr 中文分词配置 , 小弟已经测试过了 里面的 jar 要到各官网上下载
4. **与Solr集成**:`mmseg4j`可以很好地与流行的全文搜索引擎Apache Solr集成,为Solr提供强大的中文分词能力,提升搜索效果。 **mmseg4j的安装与使用** 1. **下载与解压**:从官方或者第三方源获取`mmseg4j1.9.1...
在Solr6版本中,为了实现中文分词,我们通常会引入第三方分词器,如mmseg4j。mmseg4j是一个基于Java的高效中文分词库,它可以提供灵活的分词规则,适用于各种应用场景。 配置mmseg4j涉及到的主要步骤包括: 1. **...
Solr3.2 + mmseg4j-1.8.4中文搜索引擎Demo是一个演示项目,旨在展示如何在Solr...这个Demo不仅展示了Solr的灵活性和可扩展性,还突显了mmseg4j在中文处理上的优势,对于学习和实践Solr中文搜索是一个非常实用的资源。