`
qindongliang1922
  • 浏览: 2189059 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117677
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:126079
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:60034
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71405
社区版块
存档分类
最新评论

solr4.3之配置中文分词mmseg4j

    博客分类:
  • Solr
阅读更多
前面,笔者已经介绍过solr里面另外2种中文分词的配置,今天就来就简述一下mmseg4j在solr4.3里面的配置,mmseg4j也是一款很优秀的中文分词器,是用Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。


其实,配置分词很简单,只要有分词jar包,然后在solr的schemal.xml里面配置一个分词器,就可以了,如果还想在专业一点,可以自定义词典库,禁用词库,相似词库等等,这些的实现都也很简便,在schemal.xml同一级目录里面,放进去需要定义词库的txt文件就可以了,然后在配置里面加上相应的配置就可以了,在这里仅说说基本的入门配置

下面给出在schemal.xml里面的配置
	<!--         配置        	mmseg4j分词器       -->
	<fieldType name="text_msg" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
	  <!--  索引时候的分词器-->
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/>
      </analyzer>
      <analyzer type="query">
	     <!-- 查询时候的分词器 -->
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/>
      </analyzer>
    </fieldType>


然后,在注册一个字段类型
  <!-- mmseg4j的引用字段 -->
  <field name="msg" type="text_msg" indexed="true" stored="true"        multiValued="true"/>



最后把分词的jar包,放入solr里面就可以

F:\tomcat\webapps\solr\WEB-INF\lib


mmseg4j的3个jar包
mmseg4j-analysis-1.9.1.jar

mmseg4j-core-1.9.1.jar

mmseg4j-solr-1.9.1.jar


下面会附上3个jar,包当然也可以自己去官网上下载
https://code.google.com/p/mmseg4j/downloads/list

至此就配置完了,启动solr就可以在UI页面分析测试了。



分享到:
评论
2 楼 zuoyetian 2013-08-13  
不好意思,这类是lucene4.3之后有的?
1 楼 zuoyetian 2013-08-13  
org.apache.lucene.analysis.util.ResourceLoaderAware
这个包不知道您是怎么编译成功的,压根就不会有上面这个类呀

相关推荐

    mmseg4j-solr-2.1.0-with-mmseg4j-core.zip

    《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...

    mmseg4j-solr-2.4.0.jar

    值得注意的是,mmseg4j-solr-2.4.0.jar中的mmseg4j-2.4.0子目录包含了mmseg4j的核心组件,包括分词算法的实现和相关的配置文件。开发者可以通过阅读源代码和文档,更深入地了解其工作原理和优化技巧。 总之,mmseg4...

    mmseg4j-solr-2.2.0-with-mmseg4j-core.zip

    在这个压缩包中,包含的两个核心文件mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.2.0.jar是实现Solr中文分词功能的关键。mmseg4j-core-1.10.0.jar是mmseg4j的核心分词引擎,提供了基本的分词算法和数据结构。而mmseg4j...

    solr6配置mmseg4j

    在Solr6中配置mmseg4j是为了实现中文分词,从而提升搜索效果。mmseg4j是基于Java的一个高性能中文分词库,它提供了多种分词算法,如最长匹配、最短路径等,以满足不同的分词需求。 首先,我们需要理解Solr6的基本...

    solr mmseg4j 中文分词器

    mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传

    兼容solr4.10.3的mmseg4j-1.9.1分词器

    而mmseg4j是Solr中常用的中文分词组件,它的加入增强了Solr在中文处理上的能力。 **压缩包子文件的文件名称列表解析:** 1. `mmseg4j-core-1.9.1.jar`:这是mmseg4j的核心库文件,包含了mmseg4j的主要分词算法和...

    solr4.3的IK分词器

    最新版solr4.3的IK分词器,中文分词效果良好!对付一般的大众分词没有问题

    solr中文分词包mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar

    mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。

    mmseg4j-solr全版本及配置

    总结来说,掌握mmseg4j-solr的配置和使用是提升Solr中文搜索能力的关键。从选择合适的版本,到正确配置Solr的schema,再到设定词典路径,每个环节都需要细致入微的考虑。通过深入理解这些知识点,开发者能够为自己的...

    跟益达学Solr5之使用MMSeg4J分词器

    Solr,作为一款强大的开源全文搜索引擎,提供了多种分词器供用户选择,其中之一就是MMSeg4J。本篇文章将带你深入学习如何在Solr5中集成并使用MMSeg4J分词器,提升中文处理能力。 首先,我们来了解一下MMSeg4J。这是...

    mmseg4j-solr-mmseg4j-solr-2.2.0.zip

    4. **索引构建与查询**:在配置完成后,Solr会使用mmseg4j-solr对输入的中文文本进行分词,然后构建索引。在查询时,同样会应用分词策略,提高查询的精确度。 5. **性能监控**:在系统运行过程中,可以通过Solr的...

    mmseg4j-solr-2.3.2-with-mmseg4j-core

    该压缩包包含`mmseg4j-solr-2.3.2.jar`和`mmseg4j-core-1.10.0.jar`,其中solr-2.3.2不是官方的版本,该版本有改动,使得mmseg4j可以很好的支持Solr6,如果你的Solr低于Solr6,请使用官方的mmseg4j-solr-2.3.0.jar...

    mmseg4j-solr-2.3.0&mmseg4j;-core.zip

    集成后,用户可以在Solr的配置文件中指定使用mmseg4j作为默认的中文分词器,从而提升搜索的准确性和效率。 在Solr5.0中,自定义词库的设置是一项重要的任务,因为合理的词库能有效提高搜索的相关性。mmseg4j支持...

    mmseg4j-solr总共4个文件

    里面包含了mmseg4j-solr-2.0.0.jar,mmseg4j-solr-2.1.0.jar,mmseg4j-solr-2.2.0.jar,mmseg4j-solr-2.3.0.jar总共4个文件,其中: mmseg4j-solr-2.0.0.jar 要求 lucene/solr &gt;= 4.3.0。在 lucene/solr [4.3.0, 4.7.1]...

    solr全文检索中需要的mmseg4j-1[1].8.4.zip

    集成mmseg4j到Solr中,首先需要将jar包添加到Solr的lib目录下,然后在Solr的配置文件中指定分词器。通过自定义分析器,可以配置mmseg4j进行中文分词。同时,根据实际需求,还可以对字典进行定制,提高分词的准确性和...

    mmseg4j完美适配solr5.2.1

    mmseg4j采用四向最大匹配算法(MaxMatch Four Direction),并结合了词典分词和统计分词,能够处理复杂多样的中文语境,提高分词的准确率。其1.10.0版本的`mmseg4j-core-1.10.0.jar`包含了mmseg4j的核心算法实现。 ...

    Solr4.3 版本中文分词组件

    最高版本的 solr 中文分词配置 , 小弟已经测试过了 里面的 jar 要到各官网上下载

    mmseg4j1.9.1.zip 中文分词器

    4. **与Solr集成**:`mmseg4j`可以很好地与流行的全文搜索引擎Apache Solr集成,为Solr提供强大的中文分词能力,提升搜索效果。 **mmseg4j的安装与使用** 1. **下载与解压**:从官方或者第三方源获取`mmseg4j1.9.1...

    solr6配置mmseg4j所需jar包和dic文件

    在Solr6版本中,为了实现中文分词,我们通常会引入第三方分词器,如mmseg4j。mmseg4j是一个基于Java的高效中文分词库,它可以提供灵活的分词规则,适用于各种应用场景。 配置mmseg4j涉及到的主要步骤包括: 1. **...

    Solr3.2 + mmseg4j-1.8.4中文搜索引擎_Demo

    Solr3.2 + mmseg4j-1.8.4中文搜索引擎Demo是一个演示项目,旨在展示如何在Solr...这个Demo不仅展示了Solr的灵活性和可扩展性,还突显了mmseg4j在中文处理上的优势,对于学习和实践Solr中文搜索是一个非常实用的资源。

Global site tag (gtag.js) - Google Analytics