`

Solr添加IKAnalysis中文分词

    博客分类:
  • Solr
阅读更多

1.下载中文分词器IKAnalyzer

地址:http://code.google.com/p/ik-analyzer/downloads/list

 

2.修改schema.xml文件,加入以下配置:

 <fieldType name="textik" class="solr.TextField" >
               <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>  
       
               <analyzer type="index">  
                   <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>  
                   <filter class="solr.StopFilterFactory"  
                           ignoreCase="true" words="stopwords.txt"/>  
                   <filter class="solr.WordDelimiterFilterFactory"  
                           generateWordParts="1"  
                           generateNumberParts="1"  
                           catenateWords="1"  
                           catenateNumbers="1"  
                           catenateAll="0"  
                           splitOnCaseChange="1"/>  
                   <filter class="solr.LowerCaseFilterFactory"/>  
                   <filter class="solr.EnglishPorterFilterFactory"  
                       protected="protwords.txt"/>  
                   <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>  
               </analyzer>  
     			<analyzer type="query">  
                   <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>  
                   <filter class="solr.StopFilterFactory"  
                           ignoreCase="true" words="stopwords.txt"/>  
                   <filter class="solr.WordDelimiterFilterFactory"  
                           generateWordParts="1"  
                           generateNumberParts="1"  
                           catenateWords="1"  
                           catenateNumbers="1"  
                           catenateAll="0"  
                           splitOnCaseChange="1"/>  
                   <filter class="solr.LowerCaseFilterFactory"/>  
                   <filter class="solr.EnglishPorterFilterFactory"  
                       protected="protwords.txt"/>  
                   <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>  
               </analyzer>  
       
</fieldType>

 然后定义需要使用中文分词功能的字段,比如我这里是title,代码如下:

 

 <fields>
  <field name="title" type="textik" indexed="true" stored="true" required="true" /> 
 </fields>

 

 

3. 将下载的IKAnalyzer目录下的IKAnalyzer3.2.8.jar放入 TOMCAT/webapps/该solr工程/WEB-INFO/lib 目录下

 

4. 将下载的IKAnalyzer目录下的IKAnalyzer.cfg.xml和ext_stopword.dic文件放入 TOMCAT/webapps/该solr工程/classes 目录下,你也可以自己定义停用词字典,然后在IKAnalyzer.cfg.xml中进行配置,多个停用词字典之间用逗号隔开

 

5. 重启tomcat,输入http://域名:端口号/该solr工程/admin/analysis.jsp,效果如下:



 

 

 

  • 大小: 53.6 KB
分享到:
评论

相关推荐

    支持solr5.5 solr6.0中IK分词需要的资料

    IK分词器(Intelligent Chinese Analyzer for Solr,简称IK)是一款针对中文的高效分词工具,专为Solr和Lucene设计,旨在提高中文文本检索的准确性。 标题和描述提到的是针对Solr 5.5和Solr 6.0版本的IK分词器支持...

    solr ik分词器

    3. **配置Solr核心**:接下来,你需要在你的Solr核心(collection)配置文件`solrconfig.xml`中添加IK分词器的相关配置。在`&lt;requestHandler&gt;`或者`&lt;searchComponent&gt;`部分添加以下代码: ```xml &lt;filter class="...

    ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_

    在 Solr 环境中,ikanalyzer 的作用是为中文文档提供精确的分词服务,从而提升搜索质量和效率。Solr8.4.0 是 Apache Solr 的一个版本,这是一个高度可配置、高性能的全文搜索和分析引擎,广泛用于构建企业级搜索应用...

    solr IK分词需要的资料

    Solr是中国最流行的全文搜索引擎框架之一,而IK(Intelligent Word)分词器是Solr中广泛使用的中文分词插件。在Solr6.0版本中,IK分词器的使用对于提升搜索准确性和效率至关重要。下面我们将深入探讨如何在Solr6.0中...

    solr环境搭建和中文分词器IK配置

    在本教程中,我们将深入探讨如何搭建Solr 7.2.1环境,并配置中文分词器IKAnalyzer以支持中文搜索。 首先,我们来了解Solr 7.2.1的安装步骤: 1. **下载Solr**:访问Apache Solr官方网站,下载最新稳定版的Solr,...

    solr与IK中文分词器的安装包及配置

    打开`server/solr/configsets/_default/conf/solrconfig.xml`文件,找到`&lt;analysis&gt;`部分,添加以下配置来指定使用IK分词器: ```xml &lt;tokenizer class="org.apache.lucene.analysis....

    solr配置ikanalyzer分词文件以使用说明

    在这个说明中,我们将详细讲解如何在Solr 6.0中配置ikanalyzer分词文件,以实现对中文文本的有效处理。 1. **ikanalyzer简介** ikanalyzer是一款专门为Java语言设计的开源中文分词库,它基于Apache Lucene项目,...

    ubuntu下solr7的ik分词及配置使用

    在同一个配置文件中,找到`&lt;analysis&gt;`部分,添加IK分词器的相关配置: ```xml ``` `useSmart`参数控制分词模式,设为`true`使用智能分词,设为`false`使用全模式。根据需求选择合适的分词策略。 完成...

    solr6.x_IK中文分词工具

    3. 修改Solr的配置文件`solrconfig.xml`,在`&lt;searcher&gt;`标签内添加IK分析器的定义: ```xml &lt;tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer"/&gt; ...

    solr7.2.1 ik

    在本压缩包"solr7.2.1 ik"中,重点是针对Solr 7.2.1版本集成了IK(Intelligent Keyword)分词器,这是一款广泛应用于中文分词的工具,尤其适用于Solr和Elasticsearch的全文检索场景。 IK分词器是由开源社区维护的一...

    solr ik分词器 6.6.1版本

    Solr是中国最流行的全文搜索引擎框架Apache Lucene的一个扩展,它提供了高级的搜索功能,而IK分词器则是Solr在处理中文文本时的关键组件。"solr ik分词器 6.6.1版本"指的是该分词器的一个特定稳定版本,针对的是Solr...

    Solr安装与整合中文分词IKAnalyzer

    - 在Solr管理界面上测试中文分词效果:在Analysis模块中,选择刚刚配置的`text_ik`字段类型,输入一段中文文本,点击“Analyse Values”按钮查看分词结果。 通过以上步骤,不仅完成了Solr的基本安装配置,还成功地...

    solr 6.4.1配置中文分词IK

    4. **测试分词效果**: 可以通过Solr的Admin UI中的Analysis页面,输入中文文本测试分词结果,确认IK分词器已经正确配置并工作。 除了基本配置,还可以通过自定义扩展词典来提高分词的准确性。IK分词器支持动态加载...

    solr中文分词器

    3. **修改Solr配置**:在`solrconfig.xml`中,添加IK Analyzer的相关配置,比如资源加载路径,以便Solr启动时能正确加载分词器: ```xml ${solr.install.dir}/dist/" regex=".*analyzer-.*\.jar" /&gt; ``` 4. **...

    solr6.0以上版本可以配置的IKAnalyzer分词器

    在Solr6.0及以上版本中,为了更好地支持中文分词,我们可以配置IKAnalyzer(智能中文分析器)。IKAnalyzer是一个专门针对中文的开源分词器,设计目标是提供一个灵活且易扩展的中文分词组件。 **IKAnalyzer简介** IK...

    solr中文分词高版本

    总之,"solr中文分词高版本"是解决高版本Solr与中文分词器兼容性问题的一个解决方案,ikanalyzer作为一个成熟的中文分词工具,其高版本可以很好地适应Solr 6.5及更高版本,为用户提供高效的中文文本处理能力。...

    solr6.x的IKAnalyzer配置智能分词

    我们需要在其中添加IKAnalyzer作为某个字段的分析器,例如: ```xml &lt;fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"&gt; &lt;tokenizer class="org.apache.lucene.analysis....

    ik分词器jar包.zip

    在Solr中,IK分词器作为重要的插件被广泛使用,用于对中文文本进行精确且高效的分词,从而提高搜索质量和效率。 标题中的"ik分词器jar包.zip"指的是IK分词器的Java Archive (JAR) 文件的压缩包。这个压缩包包含了两...

    solr5.5.x的中文分词IKAnalyzer

    标题 "solr5.5.x的中文分词IKAnalyzer" 指的是在Apache Solr 5.5.x版本中使用IKAnalyzer进行中文文本的分词处理。Solr是一款流行的开源搜索服务器,它允许对大量数据进行高效、复杂的全文检索。而中文分词是中文文本...

    solr分词器IKAnalyzer

    Solr是一款强大的全文搜索引擎服务器,而IKAnalyzer是针对中文的开源分词器,广泛应用于Solr和Elasticsearch等搜索引擎中。IKAnalyzer的设计目标是提供一个灵活且易扩展的中文分词解决方案,以满足不同场景下的分词...

Global site tag (gtag.js) - Google Analytics