solr4.3之配置中文分词mmseg4j

qindongliang1922

浏览: 2208013 次
性别:
来自: 北京

最近访客更多访客>>

北风norther

godandghost

youhere

tanss

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：118250

: 证道Hadoop
浏览量：126635

: 证道shell编程
浏览量：60700

: ELK修真
浏览量：71866

文章分类

社区版块

存档分类

博客分类：

Solr

solr 中分分词 mmseg4j

前面，笔者已经介绍过solr里面另外2种中文分词的配置，今天就来就简述一下mmseg4j在solr4.3里面的配置，mmseg4j也是一款很优秀的中文分词器，是用Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。

其实，配置分词很简单，只要有分词jar包，然后在solr的schemal.xml里面配置一个分词器，就可以了，如果还想在专业一点，可以自定义词典库，禁用词库，相似词库等等，这些的实现都也很简便，在schemal.xml同一级目录里面，放进去需要定义词库的txt文件就可以了，然后在配置里面加上相应的配置就可以了，在这里仅说说基本的入门配置

下面给出在schemal.xml里面的配置

	<!--         配置        	mmseg4j分词器       -->
	<fieldType name="text_msg" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
	  <!--  索引时候的分词器-->
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/>
      </analyzer>
      <analyzer type="query">
	     <!-- 查询时候的分词器 -->
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/>
      </analyzer>
    </fieldType>

然后，在注册一个字段类型

  <!-- mmseg4j的引用字段 -->
  <field name="msg" type="text_msg" indexed="true" stored="true"        multiValued="true"/>

最后把分词的jar包，放入solr里面就可以

F:\tomcat\webapps\solr\WEB-INF\lib

mmseg4j的3个jar包

mmseg4j-analysis-1.9.1.jar

mmseg4j-core-1.9.1.jar

mmseg4j-solr-1.9.1.jar

下面会附上3个jar，包当然也可以自己去官网上下载
https://code.google.com/p/mmseg4j/downloads/list

至此就配置完了，启动solr就可以在UI页面分析测试了。

mmseg4j-analysis-1.9.1.jar (9 KB)
下载次数: 78

mmseg4j-core-1.9.1.jar (685.8 KB)
下载次数: 53

mmseg4j-solr-1.9.1.jar (7.2 KB)
下载次数: 49

分享到：

java之使用阻塞队列实现生产者，消费者模式 | solr4.3之检索建议suggest功能

2013-07-19 15:24
浏览 4041
评论(2)
分类:开源软件
查看更多

2 楼 zuoyetian 2013-08-13

不好意思，这类是lucene4.3之后有的?

1 楼 zuoyetian 2013-08-13

org.apache.lucene.analysis.util.ResourceLoaderAware
这个包不知道您是怎么编译成功的，压根就不会有上面这个类呀

发表评论

您还没有登录,请您登录后再发表评论