solr同时配置三种中文分词器到schema.xml。
关键点在三种分词器的词库配置。
先下载三种不同版本的分词器
mmseg4j-1.8.5.zip;
IKAnalyzer3.2.8 bin.zip
paoding-analysis-2.0.4-beta.zip
solr版本:3.5
web服务器:tomcat6
开始配置到schema.xml
(1)mmseg4j-1.8.5.zip
关键点在dicPath
<fieldType name="随便叫" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index"> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="zip包中的dic文件夹,dic放哪里就指定哪里"/>
<filter SynonymFilterFactory StopFilterFactory WordDelimiterFilterFactory...很多filter/>
</analyzer>
<analyzer type="query">
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="zip包中的dic文件夹,dic放哪里就指定哪里"/>
<filter SynonymFilterFactory StopFilterFactory WordDelimiterFilterFactory...很多filter/> </fieldType>
(2)paoding-analysis-2.0.4-beta.zip
词库信息在zip包中的dic文件夹,把整个文件夹拷入TOMCAT_HOME/webapps\solr\WEB-INF\classes;
把zip包中的src下的所有properties文件放入同样位置;
很关键一点,每次修改了dic文件夹中的dic文件,必须删除.compiled文件夹,重启后会再次生成
<fieldType name="随便叫" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index"> <tokenizer class="net.paoding.analysis.analyzer.solr.ChineseTokenizerFactory" mode="most-words" /> <filter SynonymFilterFactory StopFilterFactory WordDelimiterFilterFactory...很多filter/>
</analyzer>
<analyzer type="query">
<tokenizer class="net.paoding.analysis.analyzer.solr.ChineseTokenizerFactory" mode="most-words" /><filter SynonymFilterFactory StopFilterFactory WordDelimiterFilterFactory...很多filter/> </fieldType>
(3)IKAnalyzer3.2.8 bin.zip
把zip包中的IKAnalyzer.cfg.xml文件拷入TOMCAT_HOME/webapps\solr\WEB-INF\classes;
zip包中的ext_stopword.dic文件拷入同样位置,可以使用任意*.dic词库,但必须修改成mydict.dic文件名,放入同样位置;
修改IKAnalyzer.cfg.xml,放开注释即可,打开都能看明白
<fieldType name="随便叫" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index"> <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/> <filter SynonymFilterFactory StopFilterFactory WordDelimiterFilterFactory...很多filter/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/> <filter SynonymFilterFactory StopFilterFactory WordDelimiterFilterFactory...很多filter/> </fieldType>
如果有一些帮助,来个关注吧,马上会加上热门搜索词汇,搜索提示等实例功能
分享到:
相关推荐
能兼容solr-4.10.2的分词器,大礼包...包括IK分词器,mmseg4j分词器,庖丁分词器.都是经本人测试可用,其中mmseg4j与庖丁都是下载源码,修改重编译并测试生成的.希望大家喜欢.至于与solr的整合方式,网上很多,这里就不介绍了.
同时,ikanalyzer 还提供了全模式和最细粒度模式两种分词策略,全模式尽可能切出更多的词,而最细粒度模式则更注重词语的完整度。 总之,ikanalyzer-solr8.4.0 是 Solr 8.4.0 版本下用于中文分词的重要工具,通过...
"兼容solr4.10.3的mmseg4j-1.9.1分词器" 这个标题表明我们正在讨论的是一个针对Solr 4.10.3版本优化的mmseg4j分词器,版本号为1.9.1。mmseg4j是一款广泛使用的Java实现的中文分词库,它提供了高效且精准的中文分词...
提到的两个分词器,mmseg4j 和 IKAnalyzer,都是为中文处理设计的。 1. **mmseg4j** 是一款由 Java 实现的中文分词库,它采用了 MaxMatch(最大匹配)算法。mmseg4j 提供了多种分词模式,如简短模式、精确模式、全...
在 Solr 6.1 版本中,IK+MMSEG 分词器的整合意味着用户可以在享受 IK Analyzer 高效分词性能的同时,利用 MMSEG 的复杂词汇处理能力。这种组合可以处理各种复杂的中文文本,包括网络语言、专业术语等,对于提升搜索...
4. **配置schema.xml**:在Solr的schema.xml文件中,为需要进行分词的字段指定mmseg4j分词器。例如: ``` <fieldType name="text_mmseg" class="solr.TextField" positionIncrementGap="100"> <analyzer type=...
在描述中提到的"ik-analyzer-solr7.zip"是一个专门为Apache Solr 7.x版本定制的IKAnalyzer分词器插件。Solr是Apache软件基金会的一个项目,它是一款强大的全文搜索服务器,提供了诸如索引、搜索、高亮显示、拼写检查...
4. **与Solr的整合**:Ik Analyzer为Solr提供了专门的配置,可以无缝对接,实现对Solr索引的中文分词处理。 在实际应用中,Ik Analyzer的集成步骤大致如下: 1. **下载与解压**:获取ik-analyzer-7.5.0.jar文件,...
通常,这涉及到创建一个新的字段类型,并配置对应的分析器,如`<fieldType name="text_mmseg" class="solr.TextField">`,然后在`<analyzer>`标签内指定`<tokenizer class="com.chenlb.mmseg4j.solr....
- **下载与解压**:首先需要从官方或第三方源获取IKAnalyzer的jar包,同时确保已经安装并运行了Solr 6.6。 - **修改schema.xml**:在Solr的`conf`目录下,找到`schema.xml`文件,这是定义字段类型和字段的配置文件...
通过以上步骤,我们已经完成了在Tomcat环境下搭建Solr 3.5及MMSEG4J中文分词器的基础配置工作。这些配置使得Solr能够更好地处理中文文档,并提供更准确的中文检索结果。此外,通过MMSEG4J提供的不同分词模式,可以...
总的来说,IKAnalyzer中文分词器为Solr4.X提供了强大的中文处理能力,通过合理配置和使用,可以极大地提升中文搜索的质量和效率。在实际应用中,用户可以根据自身需求进行定制化配置,以满足特定场景的分词要求。
《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...
IKAnalyzer是一款基于Java实现的开源中文分词器,主要应用于搜索引擎和文本分析领域。它是由尹国平(iK)发起并维护的项目,旨在提供一个高效且易用的中文分词解决方案。IKAnalyzer支持自定义扩展字典,允许用户根据...
mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传
几种分词工具都试过,对于中文来说的的话个人觉得IKAnalyzer 最好用,不同版本的IKAnalyzer jar包,包括IKAnalyzer6.5.0、IKAnalyzer5.0、IKAnalyzer2012,IKAnalyzer6.5.0可完美兼容Lucene6+,IKAnalyzer5.0兼容...
安装这个插件后,只需在Solr的配置文件中指定mmseg4j作为默认的分词器,即可开启中文分词功能。同时,mmseg4j提供了丰富的参数调整选项,如词语长度限制、分词模式等,以适应不同场景的需求。 README.md文件通常...
在这个说明中,我们将详细讲解如何在Solr 6.0中配置ikanalyzer分词文件,以实现对中文文本的有效处理。 1. **ikanalyzer简介** ikanalyzer是一款专门为Java语言设计的开源中文分词库,它基于Apache Lucene项目,...
ikanalyzer-solr6.5 是一个专门为Solr 6.5版本设计的中文分词器,它基于ikanalyzer,并且进行了优化以更好地适应Solr的索引和搜索需求。ikanalyzer是一个开源的、基于Java实现的中文分词库,主要用于解决中文文本...
1. **安装与配置**:首先,将`ikanalyzer-solr5`这样的压缩包解压,并将其中的IKAnalyzer相关的JAR文件添加到Solr的lib目录下,确保Solr启动时能加载到该分词器。 2. **配置schema.xml**:在Solr的配置文件`schema....