1.下载中文分词器IKAnalyzer
地址:http://code.google.com/p/ik-analyzer/downloads/list
2.修改schema.xml文件,加入以下配置:
<fieldType name="textik" class="solr.TextField" > <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/> <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> </analyzer> <analyzer type="query"> <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/> <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> </analyzer> </fieldType>
然后定义需要使用中文分词功能的字段,比如我这里是title,代码如下:
<fields> <field name="title" type="textik" indexed="true" stored="true" required="true" /> </fields>
3. 将下载的IKAnalyzer目录下的IKAnalyzer3.2.8.jar放入 TOMCAT/webapps/该solr工程/WEB-INFO/lib 目录下
4. 将下载的IKAnalyzer目录下的IKAnalyzer.cfg.xml和ext_stopword.dic文件放入 TOMCAT/webapps/该solr工程/classes 目录下,你也可以自己定义停用词字典,然后在IKAnalyzer.cfg.xml中进行配置,多个停用词字典之间用逗号隔开
5. 重启tomcat,输入http://域名:端口号/该solr工程/admin/analysis.jsp,效果如下:
相关推荐
IK分词器(Intelligent Chinese Analyzer for Solr,简称IK)是一款针对中文的高效分词工具,专为Solr和Lucene设计,旨在提高中文文本检索的准确性。 标题和描述提到的是针对Solr 5.5和Solr 6.0版本的IK分词器支持...
3. **配置Solr核心**:接下来,你需要在你的Solr核心(collection)配置文件`solrconfig.xml`中添加IK分词器的相关配置。在`<requestHandler>`或者`<searchComponent>`部分添加以下代码: ```xml <filter class="...
在 Solr 环境中,ikanalyzer 的作用是为中文文档提供精确的分词服务,从而提升搜索质量和效率。Solr8.4.0 是 Apache Solr 的一个版本,这是一个高度可配置、高性能的全文搜索和分析引擎,广泛用于构建企业级搜索应用...
Solr是中国最流行的全文搜索引擎框架之一,而IK(Intelligent Word)分词器是Solr中广泛使用的中文分词插件。在Solr6.0版本中,IK分词器的使用对于提升搜索准确性和效率至关重要。下面我们将深入探讨如何在Solr6.0中...
在本教程中,我们将深入探讨如何搭建Solr 7.2.1环境,并配置中文分词器IKAnalyzer以支持中文搜索。 首先,我们来了解Solr 7.2.1的安装步骤: 1. **下载Solr**:访问Apache Solr官方网站,下载最新稳定版的Solr,...
打开`server/solr/configsets/_default/conf/solrconfig.xml`文件,找到`<analysis>`部分,添加以下配置来指定使用IK分词器: ```xml <tokenizer class="org.apache.lucene.analysis....
在这个说明中,我们将详细讲解如何在Solr 6.0中配置ikanalyzer分词文件,以实现对中文文本的有效处理。 1. **ikanalyzer简介** ikanalyzer是一款专门为Java语言设计的开源中文分词库,它基于Apache Lucene项目,...
在同一个配置文件中,找到`<analysis>`部分,添加IK分词器的相关配置: ```xml ``` `useSmart`参数控制分词模式,设为`true`使用智能分词,设为`false`使用全模式。根据需求选择合适的分词策略。 完成...
3. 修改Solr的配置文件`solrconfig.xml`,在`<searcher>`标签内添加IK分析器的定义: ```xml <tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer"/> ...
在本压缩包"solr7.2.1 ik"中,重点是针对Solr 7.2.1版本集成了IK(Intelligent Keyword)分词器,这是一款广泛应用于中文分词的工具,尤其适用于Solr和Elasticsearch的全文检索场景。 IK分词器是由开源社区维护的一...
Solr是中国最流行的全文搜索引擎框架Apache Lucene的一个扩展,它提供了高级的搜索功能,而IK分词器则是Solr在处理中文文本时的关键组件。"solr ik分词器 6.6.1版本"指的是该分词器的一个特定稳定版本,针对的是Solr...
- 在Solr管理界面上测试中文分词效果:在Analysis模块中,选择刚刚配置的`text_ik`字段类型,输入一段中文文本,点击“Analyse Values”按钮查看分词结果。 通过以上步骤,不仅完成了Solr的基本安装配置,还成功地...
4. **测试分词效果**: 可以通过Solr的Admin UI中的Analysis页面,输入中文文本测试分词结果,确认IK分词器已经正确配置并工作。 除了基本配置,还可以通过自定义扩展词典来提高分词的准确性。IK分词器支持动态加载...
3. **修改Solr配置**:在`solrconfig.xml`中,添加IK Analyzer的相关配置,比如资源加载路径,以便Solr启动时能正确加载分词器: ```xml ${solr.install.dir}/dist/" regex=".*analyzer-.*\.jar" /> ``` 4. **...
在Solr6.0及以上版本中,为了更好地支持中文分词,我们可以配置IKAnalyzer(智能中文分析器)。IKAnalyzer是一个专门针对中文的开源分词器,设计目标是提供一个灵活且易扩展的中文分词组件。 **IKAnalyzer简介** IK...
总之,"solr中文分词高版本"是解决高版本Solr与中文分词器兼容性问题的一个解决方案,ikanalyzer作为一个成熟的中文分词工具,其高版本可以很好地适应Solr 6.5及更高版本,为用户提供高效的中文文本处理能力。...
我们需要在其中添加IKAnalyzer作为某个字段的分析器,例如: ```xml <fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"> <tokenizer class="org.apache.lucene.analysis....
在Solr中,IK分词器作为重要的插件被广泛使用,用于对中文文本进行精确且高效的分词,从而提高搜索质量和效率。 标题中的"ik分词器jar包.zip"指的是IK分词器的Java Archive (JAR) 文件的压缩包。这个压缩包包含了两...
标题 "solr5.5.x的中文分词IKAnalyzer" 指的是在Apache Solr 5.5.x版本中使用IKAnalyzer进行中文文本的分词处理。Solr是一款流行的开源搜索服务器,它允许对大量数据进行高效、复杂的全文检索。而中文分词是中文文本...
Solr是一款强大的全文搜索引擎服务器,而IKAnalyzer是针对中文的开源分词器,广泛应用于Solr和Elasticsearch等搜索引擎中。IKAnalyzer的设计目标是提供一个灵活且易扩展的中文分词解决方案,以满足不同场景下的分词...