配置好了solr环境 (查看 solr环境搭建), 就可以加入solr中文分词,其步骤如下:
1) 下载IK中文分词
http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip
2)将解压后的stopword.dic,IKAnalyzer.cfg.xml,IKAnalyzer2012FF_u1.jar加入tomcat webapp中相关solr实例的lib文件夹下(WEB-INF中的lib)。
3)修改 ${catalina_home}\solr_config\solr\collection1\conf\schema.xml文件,在<types></types>标签中添加分词器.
<fieldType name="text_ik" class="solr.TextField"> <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType>
4)添加完成后,要设定一个字段运用这个分词器,就暂定为name字段吧,还是在这个xml中的顶上处修改一下,将以前的text_general改成text_ik。
<!-- <field name="name" type="text_general" indexed="true" stored="true"/>--> <field name="name" type="text_ik" indexed="true" stored="true"/>
5)重启tomcat,打开solr,选择collection1,并点击Analysis,在右边的页面上如下图设置,可看到相关的分词信息。
相关推荐
Solr是中国最流行的开源搜索引擎平台之一,而IK Analyzer是一款针对中文的高性能分词器,尤其在处理现代汉语的复杂情况时表现出色。本教程将详细解释如何在Solr中安装和使用IK分词器。 首先,让我们理解一下什么是...
二、中文分词的重要性 中文分词是自然语言处理中的基础步骤,对于搜索引擎而言,正确的分词能提高搜索结果的相关性和精确性。由于中文没有明显的词边界,如空格或标点符号,因此需要专门的分词算法来识别和切分词语...
标签中的"ik-ana"是Ik Analyzer的简称,"solr 中文分词"强调了这个分词器在Solr中的应用场景。文件列表中的"ik-analyzer-7.5.0.jar"即是我们需要集成到Solr中的核心组件。 总之,Ik Analyzer 7.5.0是Solr处理中文...
"solr中文分词高版本"的标题表明我们在这里讨论的是适用于Solr 6.5及以上版本的中文分词解决方案,因为默认的Solr分词器可能不支持这些较高版本,或者在使用过程中会出现问题。 描述中提到的“网上提供的solr中文...
"solr 中文分词" 主要涉及的是 Solr 如何对中文文档进行有效的分词处理,以便于搜索和匹配。 1. **中文分词的重要性** 中文与英文不同,单词之间没有明显的分隔符,如空格。因此,为了准确地理解和检索中文内容,...
Solr分词器是Apache Solr搜索引擎中的一个重要组件,它负责对输入的文本进行分词处理,以便于索引和查询。在理解Solr分词器之前,我们首先要明白Solr是一个开源的企业级搜索平台,它提供了高效、可扩展的全文检索、...
**Solr与IK中文分词器** Solr是一款开源的企业级全文搜索引擎,它提供了一个高效、灵活、可扩展的搜索平台。在处理中文文本时,由于中文的特殊性(词与词之间没有明显的分隔符),需要使用专门的分词器进行预处理,...
在Solr中,拼音分词主要依赖于特定的分析器和过滤器。这些组件在索引和查询阶段处理文本,将汉字转化为拼音,以便于匹配。例如,"北京大学"会被转化为"bei da xue jia"。Solr 提供了若干种实现这个功能的插件,如...
Solr是中国最流行的全文搜索引擎框架之一,而IK(Intelligent Word)分词器是Solr中广泛使用的中文分词插件。在Solr6.0版本中,IK分词器的使用对于提升搜索准确性和效率至关重要。下面我们将深入探讨如何在Solr6.0中...
在实际应用中,安装ikanalyzer-solr分词包的步骤大致如下: 1. 将`ik-analyzer-solr5-5.x.jar`添加到Solr服务器的`lib`目录下。 2. 把`ext.dic`和`stopword.dic`放置到相应的配置文件夹,例如`conf/`目录。 3. 更新...
IK分词器,支持solr6.60高版本,支持智能分词和细粒度分词,经本人测试可以使用的,支持高版本,智能分词用IKCrudeAnalyzer
标题中的"solr7.3.1中文分词器"指的就是为Solr 7.3.1版本特别优化的中文分词解决方案。 描述中提到的"solr7.3.1种需要的中文IK分词器",IK(Intelligent Chinese Analyzer)分词器是一个强大的、成熟的中文分词组件...
Solr,作为一款强大的全文搜索引擎,对于中文处理的能力至关重要,特别是在中文分词方面。IKAnalyzer是专门为Java设计的中文分词器,它在处理中文文本时表现优秀,尤其适合于信息检索、数据挖掘等场景。在Solr中,IK...
solr搜索框架的中文分词器文件及配置详解供大家下载,亲测可用.解压出来的jar包放到apache-tomcat-9.0.20\webapps\solr\WEB-INF\lib下(Tomcat项目里solr项目)其他三个文件放到apache-tomcat-9.0.20\webapps\solr\...
Solr分词器是搜索引擎Apache Solr中的一个重要组件,它负责对输入的文本进行分析,将其拆分成可索引的基本单元——词语。"k-analyzer-solr" 是一个特定的分词器实现,用于优化Solr的文本处理流程。在Solr中,分词器...
solr 中文查询分词器,把一串字符分作多个词语进行查询
自定义的Solr 分词器,可以通过竖线"|"来分词,可以在博客http://blog.csdn.net/jiangchao858/article/details/68954044看到生成过程与使用步骤。