最近在折腾solr,现在需要让其支持中文分词,在网上看到了很多关于使用paoding中文分词的文章,但是测试很久都不行,而且paoding这个分词工具很久没更新了,最新版本是paoding-analysis-2.0.4-beta.zip,于是在想有没有其它的分词工具可以使用,后来找到了IKAnalyzer,仔细看了下,感觉很不错,关键是配置很容易,参照一篇文章中的例子http://blog.sina.com.cn/s/blog_722364920100v80u.html(在这里非常感谢这位楼主的文章),就跑起来了。在这里特意把其中关键的部分记载下来。
1、下载IKAnalyzer,并将其放置到solr/WEB-INF/lib目录下
IKAnalyzer 下载地址:http://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer3.2.8%20bin.zip&can=2&q=
2、修改solr中conf目录中的schema.xml配置文件,添加如下内容:
<!-- IKAnalyzer3.2.8 中文分词-->
<fieldType name="text" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
如果采用上面的这种方式,那么相当于我们重新定义了一种fieldType,在后面的fields中需要把那些text_general修改为text,为了避免这种麻烦,我们可以修改原有的text_general类型:
找到fieldType name="text_general" ,修改其中的<tokenizer class="solr.StandardTokenizerFactory"/>为
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
这样就不需要修改后面的配置了。
3、测试
在浏览器中打开http://127.0.0.1:8080/solr/admin/analysis.jsp
在Field中选择type,在后面的输入框中输入text
在Field Value(Index)中输入:solr 中使用IKAnalyzer 中文分词
在Filed Value(Query)中输入:中文分词
最后点击Analyze,就会看到测试结果:
- 大小: 24.3 KB
分享到:
相关推荐
ikanalyzer 是一个专门为Java开发的中文...总之,ikanalyzer-solr8.4.0 是 Solr 8.4.0 版本下用于中文分词的重要工具,通过合理的配置和使用,可以显著提高 Solr 对中文文本的处理能力,从而提升搜索质量和用户体验。
这篇博客“solr 3.4 中文分词配置问题”很可能详细介绍了如何在Solr 3.4中为中文内容进行有效的分词处理。 首先,我们需要理解分词器的作用。分词器是将连续的文本分解成独立的词汇单元(如词语或短语)的工具,这...
总之,IKAnalyzer3.2.8是一款强大的中文分词工具,它的出现极大地推动了中文信息处理技术的发展,为开发者提供了高效、便捷的中文分词解决方案。通过不断的优化和升级,IKAnalyzer将继续在中文信息处理领域发挥重要...
4. **与Solr的整合**:Ik Analyzer为Solr提供了专门的配置,可以无缝对接,实现对Solr索引的中文分词处理。 在实际应用中,Ik Analyzer的集成步骤大致如下: 1. **下载与解压**:获取ik-analyzer-7.5.0.jar文件,...
"solr分词 IKAnalyzer2012FF_hf1.rar" 包含的是一个针对Solr优化的IK分词器版本,即IKAnalyzer2012FF_hf1。这个版本在原版IKAnalyzer的基础上进行了改进,提高了对中文词汇的处理能力,特别是对于复杂语境和新词识别...
IKAnalyzer在Solr中的集成使得用户可以方便地在Solr中使用它进行中文文本的预处理,包括分词、去停用词等步骤,这对于提高搜索的准确性和效率至关重要。在Solr7.x版本中,IKAnalyzer可能已经针对该版本的特性和需求...
描述中提到的"solr中文分词器 IKAnalyzer 支持solr版本5.x到7.x 亲测可用,我用的是7.2版本"进一步证实了IKAnalyzer在Solr 7.2版本中的实际应用,这为其他用户提供了信心,确保了在不同Solr版本下的稳定运行。...
Solr是Apache Lucene项目的一个开源搜索引擎服务器,它提供了全文检索、...总之,配置IKAnalyzer智能分词对于提升Solr在处理中文数据时的检索效果至关重要。理解并正确配置这些步骤,可以显著改善你的搜索引擎的性能。
适应solr5.x的中文分词IKAnalyzer
### Solr安装与整合中文分词IKAnalyzer ...通过以上步骤,不仅完成了Solr的基本安装配置,还成功地集成了IKAnalyzer,实现了对中文文本的有效分词处理,这对于处理中文数据的全文检索应用来说非常重要。
配置IK分词器是Solr用于处理中文的关键步骤,下面将详细介绍如何在Solr 6.4.1中配置IK分词器。 首先,你需要下载并解压提供的压缩包 "solr6.4.1 IK分词",其中可能包含了IK分词器的jar包以及相关的配置文件。这些...
Solr是一款强大的全文搜索引擎,广泛...总的来说,正确配置ikanalyzer是提升Solr中文搜索性能的关键步骤。通过上述步骤,你应该能在Solr 6.0环境中成功使用ikanalyzer进行中文分词,为你的应用提供更精准的搜索体验。
标题 "solr5.5.x的中文分词IKAnalyzer" 指的是在Apache Solr 5.5.x版本中使用IKAnalyzer进行中文文本的分词处理。Solr是一款流行的开源搜索服务器,它允许对大量数据进行高效、复杂的全文检索。而中文分词是中文文本...
IKAnalyzer中文分词器本身已经不支持最新的solr 5,集成到solr中分词会报错,这里将解决了solr 5支持问题的最新IK包共享出来,希望能帮到各位! 附上IK在schema.xml中的配置: <fieldType name="text_ik" class=...
总的来说,IKAnalyzer中文分词器为Solr4.X提供了强大的中文处理能力,通过合理配置和使用,可以极大地提升中文搜索的质量和效率。在实际应用中,用户可以根据自身需求进行定制化配置,以满足特定场景的分词要求。
IK分词器(Intelligent Chinese Analyzer for Solr,简称IK)是一款针对中文的高效分词工具,专为Solr和Lucene设计,旨在提高中文文本检索的准确性。 标题和描述提到的是针对Solr 5.5和Solr 6.0版本的IK分词器支持...
solr6的中文分词器ik-analyzer-solr-6.0.jar,在solr上亲测可用
**Solr中文分词器IK Analyzer** Solr作为一款强大的全文搜索引擎,对于中文处理有着特殊的需求,因为中文的语义分析比英文复杂得多。IK Analyzer是专门为了解决这个问题而设计的,它是一款开源的、高性能的、适用于...
IK Analyzer 2012FF_hf1 是一个针对中文的分词器,专为处理中文文本而设计,旨在提高中文文本的索引和搜索效率。这个组合在描述中提到已经过测试,证明它们可以协同工作,为中文搜索引擎应用提供有效的支持。 Solr ...