`
liujiekasini0312
  • 浏览: 147390 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Solr配置中文分词器mmseg4j详解

 
阅读更多

针对solr的分词器比较多,其中最常用的的两个是mmseg4j和ik-analyzer,至于他们的区别可以网上查找比较下,这两个分词器都挺好用。我搭建的solr环境(上一篇)是4.10.3的最新版本,以下将详细说下mmseg4j的配置。

1.首先下载对应的jar包。

版本号一定要对应上否则可能会报错,下载地址为:http://code.google.com/p/mmseg4j/但是这个网址好像需要,所以大家可以到我的上传资源下载:http://download.csdn.net/download/tjcyjd/8394095

2.将jar包拷贝到服务器solr的lib包下。

三个包:mmseg4j-solr-2.2.0.jar,mmseg4j-analysis-1.9.1.jar,mmseg4j-solr-2.2.0.jar

3.配置schema.xml。

schema.xml的配置也挺简单,首先需要在schema.xml文件中配置一个fieldType节点,如下:

  1. <!--mmseg4j-->
  2. <fieldTypename="text_zh"class="solr.TextField"positionIncrementGap="100">
  3. <spanstyle="white-space:pre"></span><analyzer>
  4. <spanstyle="white-space:pre"></span><tokenizerclass="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="complex"/>
  5. <spanstyle="white-space:pre"></span></analyzer>
  6. </fieldType>
然后就可以在field节点中引用该filedType了,假设你有个字段叫my_content需要支持中文分词,只需要定义示例filed节点如下:
  1. <fieldname="my_content"type="text_zh"indexed="true"stored="false"multiValued="true"/>

4.重启Solr服务器。


5.测试。

浏览器输入地址:http://localhost:8080/solr/

解析“有什么好的电影推荐吗”的效果如下图:


分享到:
评论

相关推荐

    mmseg4j-solr-2.1.0-with-mmseg4j-core.zip

    《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...

    mmseg4j-solr全版本及配置

    《mmseg4j-solr全版本与配置详解》 在大数据时代,搜索引擎技术成为信息检索的关键工具。其中,Solr作为一款强大的开源全文搜索引擎,广泛应用于各类信息系统的搜索功能。而mmseg4j则是Solr中常用的中文分词组件,...

    mmseg4j1.9.1.zip 中文分词器

    **中文分词器mmseg4j详解** 在自然语言处理(NLP)领域,中文分词是基础且关键的一环。中文不同于英文,其词汇之间没有明显的边界,因此需要通过分词来识别句子中的词语。`mmseg4j`便是一款专为Java平台设计的高效...

    mmseg4j-solr-2.3.0&mmseg4j;-core.zip

    集成后,用户可以在Solr的配置文件中指定使用mmseg4j作为默认的中文分词器,从而提升搜索的准确性和效率。 在Solr5.0中,自定义词库的设置是一项重要的任务,因为合理的词库能有效提高搜索的相关性。mmseg4j支持...

    mmseg4j.jar

    《mmseg4j在中文分词中的应用与详解》 mmseg4j是Java实现的中文分词库,广泛应用于搜索引擎、文本分析等领域。在Java社区中,它因其高效、灵活的特点而备受青睐。本篇文章将围绕mmseg4j的核心组件、功能特性以及在...

    solr中的mmesg4j中文分词器安装

    ### Solr中的MMSeg4J中文分词器安装与配置详解 #### 一、MMSeg4J简介 MMSeg4J是一款高效的Java实现的中文分词工具包,它基于统计和规则混合的方法来处理中文文本的分词问题。在搜索引擎如Solr中,通过集成MMSeg4J...

    mmseg4j 2.3 jar包

    **mmseg4j 2.3 Jar包:Lucene中文分词器详解** 在中文信息处理领域,分词是至关重要的第一步,它涉及到文本的预处理、搜索索引的构建以及信息检索等多个环节。mmseg4j是一款针对Java平台设计的高效、灵活的中文分词...

    solr全文检索中需要的mmseg4j-1[1].8.4.zip

    集成mmseg4j到Solr中,首先需要将jar包添加到Solr的lib目录下,然后在Solr的配置文件中指定分词器。通过自定义分析器,可以配置mmseg4j进行中文分词。同时,根据实际需求,还可以对字典进行定制,提高分词的准确性和...

    mmseg4j分词

    **mmseg4j分词详解** 在中文信息处理领域,分词是文本分析的重要环节,它将连续的汉字序列划分为具有独立语义的词语,为后续的文本挖掘、搜索引擎索引、情感分析等任务奠定基础。mmseg4j是一款针对Java平台的高效...

    lucene整合mmseg4j实例和项目实例

    然而,在处理中文分词时,Lucene原生的分词器可能无法满足复杂的中文语境需求,这时就需要引入第三方分词工具,如MMSEG4J。本文将深入探讨如何在Lucene项目中整合MMSEG4J,并提供一个实际的项目实例作为参考。 一、...

    solr3.5与tomcat6集成,添加自己的分词器

    编辑`E:\Solr\home\conf\schema.xml`文件,添加mmseg4j分词器的配置: ```xml &lt;fieldType name="textComplex" class="solr.TextField"&gt; &lt;tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode=...

    meseg4j分词技术

    在Solr中,我们可以通过配置Analyzer来使用meseg4j,将MMSegAnalyzer指定为默认的分词器,从而提升中文文本的索引和查询效果。 例如,在Solr的schema.xml配置文件中,我们可以这样设置分词器: ```xml ...

    优秀的开源搜索引擎solr的配置

    以下是关于Solr配置的详细步骤以及如何设置中文分词器的说明。 **一、Solr搭建企业搜索平台** 1. **运行环境与组件准备** - **运行容器**:推荐使用Tomcat作为Solr的运行容器,例如Tomcat 6.x或5.x。 - **Solr...

    solr与tomcat整合

    将mmseg分词器的JAR文件(如`mmseg-solr.jar`, `mmseg-core.jar`, `mmseg-analyzer.jar`或`mmseg-all.jar`)复制到`server/solr/WEB-INF/lib`目录下。 2. **修改schema.xml**: 打开`home/config/schema.xml`文件...

    SOLR搭建企业搜索平台,步骤清晰,适合初学者

    - **分词器**:mmseg4j-1.6.2,用于处理中文分词,这对于中文搜索非常重要。 - **词库**:sogou-dic,这是一个常用的中文词库,用于增强mmseg4j的分词效果。 #### 三、具体步骤详解 1. **下载并安装Tomcat6.0.20**...

    solr教材-PDF版

    - **3.6.4 Solr分词器、过滤器、分析器**:解释如何使用不同的分词器、过滤器和分析器来处理索引数据。 - **3.6.5 Solr高亮使用**:指导如何在搜索结果中突出显示关键词。 #### 四、SolrJ的用法 **4.1 搜索接口的...

    solr文档.docx

    - **修改配置文件**:根据需求修改配置文件,如集成mmseg4j进行中文分词处理等。 **7. 上传配置文件到ZooKeeper** - 使用Solr提供的zkcli工具将配置文件上传到ZooKeeper: ``` sh /opt/solr-cloud/solr-5.5.3/...

Global site tag (gtag.js) - Google Analytics