1. 从附件中下载中文停止词,如果有需要,你也可以下载英文停止词,操作步骤一样。
2. 可以在Tomcat的Solr 中的某个位置创建一个文件,比如叫stopwords.txt,此处我直接将stopwords.txt放在core目录下,即和schema.xml在同一个目录中。
3.将上面下载的中英文停止词加入到stopwords.txt中
4.如果你还不懂怎么在solr中配置mmseg4j,可参照我之前的博客。
5.修改schema.xml,
1)确保schema.xml中有这样的配置:
<filter class="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt" />
2) 在mmseg4j相应的field定义中加入该过滤器
<!-- mmseg4j--> <fieldType name="text_mmseg4j_complex"class="solr.TextField"positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="complex"dicPath="dic"/> <filter class="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt" /> </analyzer> </fieldType> <fieldType name="text_mmseg4j_maxword"class="solr.TextField"positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="max-word"dicPath="dic"/> <filter class="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt" /> </analyzer> </fieldType> <fieldType name="text_mmseg4j_simple"class="solr.TextField"positionIncrementGap="100" > <analyzer> <!-- <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/> --> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="simple"dicPath="dic"/> <filter class="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt" /> </analyzer> </fieldType> <!-- mmseg4j-->
3)重启tomcat
测试你会发现相应的停止词如的、地、得等已经不会再影响分词结果。
相关推荐
在Solr6中配置mmseg4j是为了实现中文分词,从而提升搜索效果。mmseg4j是基于Java的一个高性能中文分词库,它提供了多种分词算法,如最长匹配、最短路径等,以满足不同的分词需求。 首先,我们需要理解Solr6的基本...
5. **API使用**:在Solr中集成mmseg4j,需要配置Solr的schema.xml和solrconfig.xml文件,设置分析器和过滤器链。同时,开发者可能需要了解mmseg4j提供的API,以便自定义分词规则或进行特殊需求的处理。 6. **性能...
1. **安装与配置**:将mmseg4j-solr-2.2.0的jar包添加到Solr的lib目录下,然后在Solr的schema.xml中配置分词器,指定使用mmseg4j-solr的分词算法。 2. **定制词典**:mmseg4j-solr允许用户自定义词典,以适应特定...
本文将深入探讨mmseg4j在Solr中的应用,以及如何在Solr 6.3版本中集成并使用mmseg4j-solr-2.4.0.jar这个库。 首先,mmseg4j是由李智勇开发的一个基于Java的中文分词工具,它的全称是“Minimum Match Segmentation ...
mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传
在"Solr3.2+mmseg4j-1.8.4中文搜索引擎 demo"项目中,`paoding-analysis.jar`是包含mmseg4j分析器的Java库文件,它提供了与Solr交互的接口,使得Solr能够使用mmseg4j进行中文分词。`readme.txt`通常包含了关于如何...
为了在Solr4.8中使用mmseg4j,我们需要进行以下步骤: 1. 解压下载的"mmseg4j-solr-2.1.0-with-mmseg4j-core.zip",并将其中的两个JAR文件放入Solr的lib目录下。这一步是为了让Solr能够识别并加载mmseg4j的相关组件...
在Solr中集成mmseg4j,可以提高中文搜索的准确性,因为它能有效地处理中文词汇的拆分问题。 6. **集成mmseg4j到Solr**:首先,你需要在Solr的lib目录下添加mmseg4j的jar文件。然后,在Solr的`schema.xml`中添加...
总结来说,掌握mmseg4j-solr的配置和使用是提升Solr中文搜索能力的关键。从选择合适的版本,到正确配置Solr的schema,再到设定词典路径,每个环节都需要细致入微的考虑。通过深入理解这些知识点,开发者能够为自己的...
通过以上步骤,我们成功地在Solr5.2.1中集成了mmseg4j,实现了对中文文本的高效分词。这不仅提高了搜索效率,也提升了搜索结果的相关性。同时,对于那些因为找不到与新版本Solr匹配的mmseg4j版本而困扰的开发者来说...
在这个压缩包中,包含的两个核心文件mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.2.0.jar是实现Solr中文分词功能的关键。mmseg4j-core-1.10.0.jar是mmseg4j的核心分词引擎,提供了基本的分词算法和数据结构。而mmseg4j...
本文将详细介绍如何将mmseg4j最新版的jar文件完美地整合到Solr-5.3.0中,以实现更高效的中文分词功能。 首先,mmseg4j-solr-2.3.1-SNAPSHOT.jar和mmseg4j-core-1.10.1-SNAPSHOT.jar是mmseg4j的核心组件,分别提供了...
solr6配置mmseg4j所需dic文件和jar包,包括word.dic,mmseg4j-core-1.10.0.jar,mmseg4j-solr-2.3.0.jar
通过理解mmseg4j的基本原理,掌握其在Solr中的配置和自定义词库的使用,我们可以更好地利用这一工具来优化搜索引擎,提升中文信息检索的效果。在实际应用中,根据业务需求灵活调整分词策略,充分利用mmseg4j的各种...
在Solr5中使用MMSeg4J,我们需要进行以下步骤: 1. **安装依赖**:首先,确保你的项目中包含了MMSeg4J的库。这通常通过在你的构建文件(如Maven的pom.xml或Gradle的build.gradle)中添加相应的依赖完成。Maven用户...
本人用的solr是4.10的,经过本人亲测可用,放心下载,包含以下3个jar包: mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar, mmseg4j-solr-2.2.0.jar
里面包含了mmseg4j-solr-2.0.0.jar,mmseg4j-solr-2.1.0.jar,mmseg4j-solr-2.2.0.jar,mmseg4j-solr-2.3.0.jar总共4个文件,其中: mmseg4j-solr-2.0.0.jar 要求 lucene/solr >= 4.3.0。在 lucene/solr [4.3.0, 4.7.1]...
本文将深入探讨mmseg4j-solr的使用、分词原理以及其在实际应用中的效果。 首先,我们来了解mmseg4j-solr的下载、安装与运行过程。mmseg4j-solr是开源项目,用户可以通过GitHub等平台下载源码或直接获取预编译的二...
该压缩包包含`mmseg4j-solr-2.3.2.jar`和`mmseg4j-core-1.10.0.jar`,其中solr-2.3.2不是官方的版本,该版本有改动,使得mmseg4j可以很好的支持Solr6,如果你的Solr低于Solr6,请使用官方的mmseg4j-solr-2.3.0.jar...