效果:
输入中国人民,包涵中国的结果能出来,包涵人民的结果也能出来。
比较流行的中文分词是ik分词、mmseg4j分词
配置步骤(mmseg4j):
1.下载jar包 (2个 名称:mmseg4j-solr-2.3.1-SNAPSHOT.jar mmseg4j-core-1.10.1-SNAPSHOT.jar)
http://code.google.com/p/mmseg4j/ 需要|翻|墙
http://download.csdn.net/detail/limeng650419/9531100 mmseg4j-solr-2.3.1-SNAPSHOT.jar 无需|翻|墙
http://download.csdn.net/detail/limeng650419/9531097 mmseg4j-core-1.10.1-SNAPSHOT.jar 无需|翻|墙
2.将jar包放在solr的lib目录下
例:solr.war/WEB-INF/lib
3.在solr的conf目录下找到schema.xml 文件,配置fieldType节点
例:<!-- mmseg4j -->
<fieldType name="mmse4j_zh" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" />
</analyzer>
</fieldType>
4.配置一个field做测试用,然后重启solr服务器
<field name="text" type="mmse4j_zh" indexed="true" stored="true"/>
5.验证
————————完————
6.高级配置
<!-- 中文分词mmseg4j -->
<!--最少化分词-->
<fieldtype name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/data0/SolrCloud/WordsConf/mmseg4j/words" />
</analyzer>
</fieldtype>
<!-- 一般分词-->
<fieldtype name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/data0/SolrCloud/WordsConf/mmseg4j/words" />
</analyzer>
</fieldtype>
<!-- 最多化分词--><fieldtype name="text_mmseg4j_maxWord" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/data0/SolrCloud/WordsConf/mmseg4j/words" />
</analyzer>
</fieldtype>
<!--注:dicPath可以去掉-->
相关推荐
Solr中文分词器是针对Apache Solr全文检索引擎在处理中文文本时的不足而设计的一种解决方案。Solr默认的分词策略主要针对英文文本,它以空格为分隔符进行分词,而对于中文这种没有明显分隔符的语言,就需要特定的...
"solr中文分词高版本"的标题表明我们在这里讨论的是适用于Solr 6.5及以上版本的中文分词解决方案,因为默认的Solr分词器可能不支持这些较高版本,或者在使用过程中会出现问题。 描述中提到的“网上提供的solr中文...
总的来说,"solr 中文分词" 是 Solr 在处理中文内容时的关键技术,涉及到如何选择和配置合适的分词器,以及如何优化分词效果以提升搜索引擎的性能和准确度。通过深入了解和实践,我们可以更好地利用 Solr 处理中文...
4. **与Solr的整合**:Ik Analyzer为Solr提供了专门的配置,可以无缝对接,实现对Solr索引的中文分词处理。 在实际应用中,Ik Analyzer的集成步骤大致如下: 1. **下载与解压**:获取ik-analyzer-7.5.0.jar文件,...
Solr是中国最流行的开源搜索引擎平台之一,而IK Analyzer是一款针对中文的高性能分词器,尤其在处理现代汉语的复杂情况时表现出色。本教程将详细解释如何在Solr中安装和使用IK分词器。 首先,让我们理解一下什么是...
中文分词是Solr5处理中文文档的关键步骤,因为中文句子不像英文那样有明显的空格分隔单词,需要通过分词器来将连续的汉字序列切分成有意义的词汇单元。本篇文章将深入探讨在Solr5中配置中文分词的过程。 首先,我们...
ikanalyzer-solr中文分词包是专门为Apache Solr设计的一款强大的中文分词工具,它在处理中文文本时能够有效地进行词语切分,提高搜索准确性和效率。标题中提到的"ikanalyzer-solr中文分词包兼容solr7.5"意味着这个...
在处理中文文本时,由于中文的特殊性(词与词之间没有明显的分隔符),需要使用专门的分词器进行预处理,将连续的汉字流分割成有意义的词语,这个过程称为中文分词。IK Analyzer(简称IK)就是为了解决这个问题而...
solr搜索框架的中文分词器文件及配置详解供大家下载,亲测可用.解压出来的jar包放到apache-tomcat-9.0.20\webapps\solr\WEB-INF\lib下(Tomcat项目里solr项目)其他三个文件放到apache-tomcat-9.0.20\webapps\solr\...
Solr是中国最流行的开源搜索引擎系统Lucene的一个...总的来说,这个压缩包提供了Solr 7.3.1处理中文内容所需的关键组件,包括IK分词器和mmseg4j,用户可以通过合理的配置和调优,实现高效且精准的中文全文检索功能。
描述中提到的"solr中文分词器 IKAnalyzer 支持solr版本5.x到7.x 亲测可用,我用的是7.2版本"进一步证实了IKAnalyzer在Solr 7.2版本中的实际应用,这为其他用户提供了信心,确保了在不同Solr版本下的稳定运行。...
一、Solr中文分词器概述 在处理中文文档时,由于中文句子没有明显的分隔符,如英文的空格,因此需要使用分词器进行预处理。Solr支持多种中文分词器,如IK Analyzer、Smart Chinese Analyzer、Paoding Analyzer等,...
在实际应用中,Solr的分词器配置可以在schema.xml文件中进行,通过设置analyzer元素来指定分词器类型和相关参数。同时,可以通过Solr的分析器工具(Analysis UI)来实时查看分词效果,方便调试和优化。 总的来说,...
**Solr中文分词器IK Analyzer** Solr作为一款强大的全文搜索引擎,对于中文处理有着特殊的需求,因为中文的语义分析比英文复杂得多。IK Analyzer是专门为了解决这个问题而设计的,它是一款开源的、高性能的、适用于...
在Solr 5.4版本中,对中文分词的支持是通过特定的分词器实现的。本文将详细介绍如何在Solr 5.4中配置中文分词库。 首先,"Solr5.4中文分词"这个标题表明我们关注的是针对Solr 5.4的一个特定分词解决方案。这通常...
IK分词器(Intelligent Chinese Analyzer for Solr)是针对Solr优化的中文分词工具,它支持多种分词模式,包括精确模式、全模式、关键词模式等,以满足不同场景的需求。在Solr的`schema.xml`配置文件中,你可以指定...
拼音分词是处理中文文本的一种策略,它将汉字转换为其对应的拼音,从而允许用户通过输入拼音来搜索相关的中文内容。 在Solr中,拼音分词主要依赖于特定的分析器和过滤器。这些组件在索引和查询阶段处理文本,将汉字...
在Solr中,我们可以直接配置这些第三方分词器,例如在solrconfig.xml文件中设置Analyzer,以实现对中文文档的高效索引和检索。 在使用这些中文分词器时,需要注意以下几点: 1. 配置:正确配置分词器的字典文件和...