开场白:
本章简单讲述如何在solr中配置著名的 IK Analyzer 分词器。
本章建立在 Solr学习(一) 基础上进行配置。
通过(一)的介绍,目前已经成功部署好单实例 solr+tomcat
声明:描述的比较笼统繁琐,有偏差的地方请大家毫不留情的拍砖
准备工作:
下载 “IK Analyzer 2012FF_hf1.zip”包。 详见:IK Analyzer中文分词器创始人 林良益 博客
名词解释:
IK源目录:解压缩“IK Analyzer 2012FF_hf1.zip”后得到的文件夹路径。解压缩后得到下图结构东东
IK三把刀:上图被选中的3个文件(IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、stopword.dic)
Tomcat :以下全部指 tomcat根目录。(例:E:\\apache-tomcat-6.0.35\\)。
开始生产
步骤1:将 IK三把刀”放入目录“...\Tomcat\webapps\solr\WEB-INF\lib”中,(注意!这里此时由于项目原来启动过一次,webapps下的“solr.war”包已经被成功发布部署成文“solr”文件夹了。所以这里是在solr文件内打开 WEB-INF\lib目录, 不然WAR包是不允许放入文件到特定目录)。
步骤2:开始设置IK分词器在“schema.xml”文件中的配置(schema.xml目录位置在 “...\Tomcat\solrapp\solr\collection1\conf”此处的 collection1 是默认的文件夹,有些朋友在先前配置时候会去改变此文件夹名称,请注意自行匹配);
打开schema.xml文件(尽量使用UE打开,防止乱码)在<types></types>中增加如下内容
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
这样就OK了。 增加了用 IK分词算法提供的字段类型。 (IK分词算法的其他扩展配置请自行参考IK算法的配置说明文档。在“IK三把刀”目录里头的PDF文件里有。)
测试阶段
可能一些朋友会想看看效果,确认一下IK分词器成功配置,接下来我们来尝试测试一下IK分词效果吧。
(看到此处的朋友,其实可以跳到看 schema.xml的具体字段说明文章去。 大概了解一下schema.xml是干嘛用的,不过不看也无妨,我们只是为了证明IK配置成功。)
我们在 schema.xml 文件里头。找到如下代码片段。(schema.xml文件在哪里?看步骤2 ...)
<field name="name" type="text_general" indexed="true" stored="true"/>
意思是这里有一个字段标示名字叫做name,类型text_general,这个时候我们把类型改变成刚刚添加的IK类型text_ik; 变成:
<field name="name" type="text_ik" indexed="true" stored="true"/>
瞎扯:我想看到这里一些朋友应该就能明白schema.xml干嘛的吧。Schema.xml 就像一张很大很大的描述索引样子的表。里头有很多字段field,然后要定义字段的类型fieldType。在在field里头引用fieldType(有点springIOC的味道 - -..)。
启动tomcat ..
进入solr界面 http://localhost:8080/solr
新手可能对solr的界面还不熟悉。我这里截图说明下。
选择core (这里没有默认配置。要去选一个);我们这里选 collection1
然后再选择 analysis
这个是分词界面。
选择刚刚我们针对配置的 name 字段。 然后输入要分词的词语 “魔兽世界” ,点按钮 “analyse values”; 会发现出现了分词为 “魔兽”“世界”
我们再试试其他没有引用分词器的字段的分词效果。 我选择了 “content” 字段,出现的结果就是全字分词了(solr默认的一种分词方式)。
结束!!!
这里分词的多样化根据分词器来设定。。 个人喜欢使用IK Analyzer分词器;而且配置SOLR比较方便。
相关推荐
在 Solr 环境中,ikanalyzer 的作用是为中文文档提供精确的分词服务,从而提升搜索质量和效率。Solr8.4.0 是 Apache Solr 的一个版本,这是一个高度可配置、高性能的全文搜索和分析引擎,广泛用于构建企业级搜索应用...
【标题】"tomcat8.5+solr7+IKAnalyzer5+ikpinyin直装版" 提供了一个集成的搜索引擎环境,其中包含了Tomcat 8.5作为应用服务器,Solr 7作为核心搜索引擎,以及IKAnalyzer5和ikpinyin这两个中文分词插件。这个组合特别...
在这个过程中,我们将详细介绍如何在Tomcat7上安装Solr 5.0.0,并结合IKAnalyzer实现中文分词。 首先,我们需要下载Solr 5.0.0的压缩包和Tomcat7。确保你的系统已经安装了Java开发环境(JDK),因为Solr和Tomcat都...
Solr和IK Analyzer是两个在中文分词和全文检索领域常用的工具。Solr是一个开源的搜索服务器,由Apache Lucene项目提供支持,它允许开发者构建和维护高度可扩展的、高性能的搜索应用。而IK Analyzer是一款针对中文的...
NULL 博文链接:https://lpyyn.iteye.com/blog/2074539
标题"tomcat8.5+solr7+IKAnalyzer5"指出这是一个集成项目,其中包含了三个关键组件:Tomcat 8.5版本,Solr 7版本,以及IKAnalyzer 5版本。Tomcat是Apache软件基金会的一个开源项目,用作Java Servlet和JavaServer ...
IKAnalyzer是一款开源的中文分词器,最初设计用于Solr,但后来也被广泛应用于Elasticsearch。它支持多种分词模式,包括精确模式、全模式、快速模式以及自定义词典。IKAnalyzer的优势在于其对中文词汇的精准识别,...
解压"ik-analyzer-solr7.zip"后,你会得到ik-analyzer-solr7.x目录,这个目录包含了IKAnalyzer在Solr中的所有相关组件。通常,这些组件包括配置文件、分词器的JAR库以及可能的字典文件。配置文件(如`schema.xml`或`...
总之,"solr-7.7.2+ik-analyzer-solr7x.zip"提供了Solr 7.7.2版本与Ik Analyzer的整合,使得在处理中文搜索时,可以充分利用Solr的强大功能和Ik Analyzer的智能分词特性,为企业级的中文搜索应用提供高效、准确的...
《深入理解Lucene 4.3.0与IK Analyzer 2012FF》 Lucene,作为Apache软件基金会下的一个开源全文检索库,为Java开发者提供了强大的文本搜索功能。其核心功能包括文档的索引、搜索以及相关性排序。Lucene 4.3.0是该库...
《Lucene5.21与IkAnalyzer2012_V5入门详解》 在信息技术领域,数据检索和搜索引擎是至关重要的部分,而Lucene和IkAnalyzer则是其中的两大利器。本文将详细介绍如何使用Lucene 5.21版本结合IkAnalyzer 2012_V5进行...
ikanalyzer-solr5 是一个专门为 Solr 5 及以上版本设计的中文分词器插件。在信息检索和自然语言处理领域,分词器是至关重要的工具,它负责将连续的文本切割成有意义的词语,以进行索引和查询操作。ikanalyzer 是一个...
总之,IKAnalyzer2012_u6是一个为了解决中文信息处理中的分词难题而设计的工具,它与Apache Solr的结合使得全文检索功能更加完善,广泛应用于各种需要处理中文数据的系统中。通过深入理解和正确使用IKAnalyzer,可以...
总的来说,IK Analyzer 2012FF_hf1是专门为中文文本处理设计的分词工具,它的存在使得Solr等搜索引擎在处理中文数据时更加精准和高效。在使用时,用户可以根据项目需求,通过调整配置和定制插件,进一步优化其性能。
标题中的"IKAnalyzer2012FF_hf1.zip"指的是IK Analyzer的2012年最终版(Final)的高频率更新1(Hot Fix 1)。IK Analyzer是一款开源的、基于Java语言开发的轻量级中文分词器,主要用于Java环境下对中文文本的分词...
《ikanalyzer-solr:Solr的中文分词利器》 在信息检索和文本分析领域,中文分词是至关重要的一步,它能够将连续的汉字序列切分成具有语义的词汇单元,为后续的文本处理提供基础。ikanalyzer-solr正是一款专为Apache...
使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar solr-4.10.3下载地址:...
"solr4的IK中文分词器IKAnalyzer2012FF_u1.jar和相关xml文件"是用于优化Solr在处理中文内容时的关键组件。 IKAnalyzer2012FF_u1.jar是一个Java库,它是IK Analyzer的一个版本,专门设计用于中文分词。IK Analyzer是...