`

solr 中文分词 配置

 
阅读更多

效果:

     输入中国人民,包涵中国的结果能出来,包涵人民的结果也能出来。

    比较流行的中文分词是ik分词、mmseg4j分词

配置步骤(mmseg4j):

1.下载jar包 (2个 名称:mmseg4j-solr-2.3.1-SNAPSHOT.jar   mmseg4j-core-1.10.1-SNAPSHOT.jar)

 http://code.google.com/p/mmseg4j/              需要|翻|墙

http://download.csdn.net/detail/limeng650419/9531100      mmseg4j-solr-2.3.1-SNAPSHOT.jar       无需|翻|墙

http://download.csdn.net/detail/limeng650419/9531097      mmseg4j-core-1.10.1-SNAPSHOT.jar    无需|翻|墙

 

2.将jar包放在solr的lib目录下

   例:solr.war/WEB-INF/lib

 

3.在solr的conf目录下找到schema.xml 文件,配置fieldType节点

  例:<!-- mmseg4j -->

<fieldType name="mmse4j_zh" class="solr.TextField" positionIncrementGap="100">

<analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" />

</analyzer>

</fieldType>

 

 4.配置一个field做测试用,然后重启solr服务器

     <field name="text" type="mmse4j_zh" indexed="true" stored="true"/> 

 

 5.验证


 

————————完————

6.高级配置

   <!-- 中文分词mmseg4j -->

    <!--最少化分词-->

<fieldtype name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100">

   <analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/data0/SolrCloud/WordsConf/mmseg4j/words" />

   </analyzer>

</fieldtype>

  <!-- 一般分词-->

<fieldtype name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100">

   <analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/data0/SolrCloud/WordsConf/mmseg4j/words" />

   </analyzer>

</fieldtype>

  <!-- 最多化分词-->

<fieldtype name="text_mmseg4j_maxWord" class="solr.TextField" positionIncrementGap="100">

   <analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/data0/SolrCloud/WordsConf/mmseg4j/words" />

   </analyzer>

 

</fieldtype>

<!--注:dicPath可以去掉-->

 

  • 大小: 225.4 KB
分享到:
评论

相关推荐

    solr中文分词器

    Solr中文分词器是针对Apache Solr全文检索引擎在处理中文文本时的不足而设计的一种解决方案。Solr默认的分词策略主要针对英文文本,它以空格为分隔符进行分词,而对于中文这种没有明显分隔符的语言,就需要特定的...

    solr中文分词高版本

    "solr中文分词高版本"的标题表明我们在这里讨论的是适用于Solr 6.5及以上版本的中文分词解决方案,因为默认的Solr分词器可能不支持这些较高版本,或者在使用过程中会出现问题。 描述中提到的“网上提供的solr中文...

    solr 中文分词

    总的来说,"solr 中文分词" 是 Solr 在处理中文内容时的关键技术,涉及到如何选择和配置合适的分词器,以及如何优化分词效果以提升搜索引擎的性能和准确度。通过深入了解和实践,我们可以更好地利用 Solr 处理中文...

    solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0

    4. **与Solr的整合**:Ik Analyzer为Solr提供了专门的配置,可以无缝对接,实现对Solr索引的中文分词处理。 在实际应用中,Ik Analyzer的集成步骤大致如下: 1. **下载与解压**:获取ik-analyzer-7.5.0.jar文件,...

    solr ik分词器

    Solr是中国最流行的开源搜索引擎平台之一,而IK Analyzer是一款针对中文的高性能分词器,尤其在处理现代汉语的复杂情况时表现出色。本教程将详细解释如何在Solr中安装和使用IK分词器。 首先,让我们理解一下什么是...

    solr5配置中文分词

    中文分词是Solr5处理中文文档的关键步骤,因为中文句子不像英文那样有明显的空格分隔单词,需要通过分词器来将连续的汉字序列切分成有意义的词汇单元。本篇文章将深入探讨在Solr5中配置中文分词的过程。 首先,我们...

    ikanalyzer-solr中文分词包兼容solr7.5

    ikanalyzer-solr中文分词包是专门为Apache Solr设计的一款强大的中文分词工具,它在处理中文文本时能够有效地进行词语切分,提高搜索准确性和效率。标题中提到的"ikanalyzer-solr中文分词包兼容solr7.5"意味着这个...

    solr ik中文分词

    在处理中文文本时,由于中文的特殊性(词与词之间没有明显的分隔符),需要使用专门的分词器进行预处理,将连续的汉字流分割成有意义的词语,这个过程称为中文分词。IK Analyzer(简称IK)就是为了解决这个问题而...

    solr中文分词器文件及配置.zip

    solr搜索框架的中文分词器文件及配置详解供大家下载,亲测可用.解压出来的jar包放到apache-tomcat-9.0.20\webapps\solr\WEB-INF\lib下(Tomcat项目里solr项目)其他三个文件放到apache-tomcat-9.0.20\webapps\solr\...

    solr7.3.1中文分词器

    Solr是中国最流行的开源搜索引擎系统Lucene的一个...总的来说,这个压缩包提供了Solr 7.3.1处理中文内容所需的关键组件,包括IK分词器和mmseg4j,用户可以通过合理的配置和调优,实现高效且精准的中文全文检索功能。

    solr 中文分词其IKAnalyzer 支持solr版本5.X-7.X

    描述中提到的"solr中文分词器 IKAnalyzer 支持solr版本5.x到7.x 亲测可用,我用的是7.2版本"进一步证实了IKAnalyzer在Solr 7.2版本中的实际应用,这为其他用户提供了信心,确保了在不同Solr版本下的稳定运行。...

    solr 5.x 和 6.x 最新中文分词器

    一、Solr中文分词器概述 在处理中文文档时,由于中文句子没有明显的分隔符,如英文的空格,因此需要使用分词器进行预处理。Solr支持多种中文分词器,如IK Analyzer、Smart Chinese Analyzer、Paoding Analyzer等,...

    solr分词器

    在实际应用中,Solr的分词器配置可以在schema.xml文件中进行,通过设置analyzer元素来指定分词器类型和相关参数。同时,可以通过Solr的分析器工具(Analysis UI)来实时查看分词效果,方便调试和优化。 总的来说,...

    solr中文分词器ik-analyzer-solr7.x

    **Solr中文分词器IK Analyzer** Solr作为一款强大的全文搜索引擎,对于中文处理有着特殊的需求,因为中文的语义分析比英文复杂得多。IK Analyzer是专门为了解决这个问题而设计的,它是一款开源的、高性能的、适用于...

    Solr5.4中文分词

    在Solr 5.4版本中,对中文分词的支持是通过特定的分词器实现的。本文将详细介绍如何在Solr 5.4中配置中文分词库。 首先,"Solr5.4中文分词"这个标题表明我们关注的是针对Solr 5.4的一个特定分词解决方案。这通常...

    solr(中文分词器)集群

    IK分词器(Intelligent Chinese Analyzer for Solr)是针对Solr优化的中文分词工具,它支持多种分词模式,包括精确模式、全模式、关键词模式等,以满足不同场景的需求。在Solr的`schema.xml`配置文件中,你可以指定...

    solr cloud6.1.0拼音分词

    拼音分词是处理中文文本的一种策略,它将汉字转换为其对应的拼音,从而允许用户通过输入拼音来搜索相关的中文内容。 在Solr中,拼音分词主要依赖于特定的分析器和过滤器。这些组件在索引和查询阶段处理文本,将汉字...

    lucene、solr中文分词器

    在Solr中,我们可以直接配置这些第三方分词器,例如在solrconfig.xml文件中设置Analyzer,以实现对中文文档的高效索引和检索。 在使用这些中文分词器时,需要注意以下几点: 1. 配置:正确配置分词器的字典文件和...

Global site tag (gtag.js) - Google Analytics