`
qindongliang1922
  • 浏览: 2201474 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:118080
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:126427
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:60442
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71729
社区版块
存档分类
最新评论

solr4.3之配置中文分词mmseg4j

    博客分类:
  • Solr
阅读更多
前面,笔者已经介绍过solr里面另外2种中文分词的配置,今天就来就简述一下mmseg4j在solr4.3里面的配置,mmseg4j也是一款很优秀的中文分词器,是用Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。


其实,配置分词很简单,只要有分词jar包,然后在solr的schemal.xml里面配置一个分词器,就可以了,如果还想在专业一点,可以自定义词典库,禁用词库,相似词库等等,这些的实现都也很简便,在schemal.xml同一级目录里面,放进去需要定义词库的txt文件就可以了,然后在配置里面加上相应的配置就可以了,在这里仅说说基本的入门配置

下面给出在schemal.xml里面的配置
	<!--         配置        	mmseg4j分词器       -->
	<fieldType name="text_msg" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
	  <!--  索引时候的分词器-->
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/>
      </analyzer>
      <analyzer type="query">
	     <!-- 查询时候的分词器 -->
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/>
      </analyzer>
    </fieldType>


然后,在注册一个字段类型
  <!-- mmseg4j的引用字段 -->
  <field name="msg" type="text_msg" indexed="true" stored="true"        multiValued="true"/>



最后把分词的jar包,放入solr里面就可以

F:\tomcat\webapps\solr\WEB-INF\lib


mmseg4j的3个jar包
mmseg4j-analysis-1.9.1.jar

mmseg4j-core-1.9.1.jar

mmseg4j-solr-1.9.1.jar


下面会附上3个jar,包当然也可以自己去官网上下载
https://code.google.com/p/mmseg4j/downloads/list

至此就配置完了,启动solr就可以在UI页面分析测试了。



分享到:
评论
2 楼 zuoyetian 2013-08-13  
不好意思,这类是lucene4.3之后有的?
1 楼 zuoyetian 2013-08-13  
org.apache.lucene.analysis.util.ResourceLoaderAware
这个包不知道您是怎么编译成功的,压根就不会有上面这个类呀

相关推荐

    solr教材-PDF版

    - **2.2.1 mmseg4j**:一种常用的中文分词工具,适用于处理中文文本,提高搜索准确性。 - **2.2.2 paoding**:另一种流行的中文分词工具,同样用于提高中文搜索的质量。 **2.3 多核(MultiCore)配置** - **2.3.1 ...

    Solr3.5开发应用指导

    - **2.2.1 mmseg4j**:这是一种基于词典的中文分词工具,适用于精确度要求较高的场景。 - **2.2.2 paoding**:Paoding是一种高性能的中文分词器,支持多种分词模式,包括精确模式、全模式等。 **2.3 多核...

    开源企业搜索引擎SOLR的 应用教程

    mmseg4j是一种用于中文分词的工具,可以集成到Solr中。安装步骤如下: 1. 下载mmseg4j插件。 2. 将插件jar包放置在Solr的lib目录下。 3. 在schema.xml中定义使用mmseg4j的Analyzer。 - **2.2.2 paoding** Paoding...

    开源企业搜索引擎SOLR的应用教程

    - **2.2.1 mmseg4j**:mmseg4j是一种基于最大匹配算法的中文分词库,可以在Solr中使用它来提高中文文本的搜索效果。 - **2.2.2 paoding**:paoding是一款高性能的中文分词工具,同样适用于Solr,支持自定义词典和...

    Solrj 中文教程

    - **2.2.1 mmseg4j**:一种常用的中文分词库。 - **2.2.2 paoding**:另一种常用的中文分词库。 ##### 2.3 多核(MultiCore)配置 - **2.3.1 MultiCore的配置方法**:介绍如何在Solr中设置多核。 - **2.3.2 为何...

Global site tag (gtag.js) - Google Analytics