`
Josh_Persistence
  • 浏览: 1655631 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类

Solr 在mmseg4j中使用中文停止词(的、地、得)

    博客分类:
  • Solr
阅读更多

1. 从附件中下载中文停止词,如果有需要,你也可以下载英文停止词,操作步骤一样。

 

2. 可以在Tomcat的Solr 中的某个位置创建一个文件,比如叫stopwords.txt,此处我直接将stopwords.txt放在core目录下,即和schema.xml在同一个目录中。

 

3.将上面下载的中英文停止词加入到stopwords.txt中

 

4.如果你还不懂怎么在solr中配置mmseg4j,可参照我之前的博客。

 

5.修改schema.xml,

1)确保schema.xml中有这样的配置:

 

 <filter class="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt" />

 

 

2) 在mmseg4j相应的field定义中加入该过滤器

 

<!-- mmseg4j-->
    <fieldType name="text_mmseg4j_complex"class="solr.TextField"positionIncrementGap="100" >
        <analyzer>
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="complex"dicPath="dic"/>
 
            <filter class="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt" />
        </analyzer>
    </fieldType>
    <fieldType name="text_mmseg4j_maxword"class="solr.TextField"positionIncrementGap="100" >
        <analyzer>
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="max-word"dicPath="dic"/>
 
        <filter class="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt" />
 
        </analyzer>
    </fieldType>
    <fieldType name="text_mmseg4j_simple"class="solr.TextField"positionIncrementGap="100" >
        <analyzer>
          <!--  
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>   
            -->
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="simple"dicPath="dic"/>
 
        <filter class="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt" />
        </analyzer>
    </fieldType>
 
    <!-- mmseg4j-->

 

 

3)重启tomcat

测试你会发现相应的停止词如的、地、得等已经不会再影响分词结果。

 

 

1
0
分享到:
评论

相关推荐

    solr6配置mmseg4j

    在Solr6中配置mmseg4j是为了实现中文分词,从而提升搜索效果。mmseg4j是基于Java的一个高性能中文分词库,它提供了多种分词算法,如最长匹配、最短路径等,以满足不同的分词需求。 首先,我们需要理解Solr6的基本...

    兼容solr4.10.3的mmseg4j-1.9.1分词器

    5. **API使用**:在Solr中集成mmseg4j,需要配置Solr的schema.xml和solrconfig.xml文件,设置分析器和过滤器链。同时,开发者可能需要了解mmseg4j提供的API,以便自定义分词规则或进行特殊需求的处理。 6. **性能...

    mmseg4j-solr-mmseg4j-solr-2.2.0.zip

    1. **安装与配置**:将mmseg4j-solr-2.2.0的jar包添加到Solr的lib目录下,然后在Solr的schema.xml中配置分词器,指定使用mmseg4j-solr的分词算法。 2. **定制词典**:mmseg4j-solr允许用户自定义词典,以适应特定...

    mmseg4j-solr-2.4.0.jar

    本文将深入探讨mmseg4j在Solr中的应用,以及如何在Solr 6.3版本中集成并使用mmseg4j-solr-2.4.0.jar这个库。 首先,mmseg4j是由李智勇开发的一个基于Java的中文分词工具,它的全称是“Minimum Match Segmentation ...

    solr mmseg4j 中文分词器

    mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传

    Solr3.2 + mmseg4j-1.8.4中文搜索引擎_Demo

    在"Solr3.2+mmseg4j-1.8.4中文搜索引擎 demo"项目中,`paoding-analysis.jar`是包含mmseg4j分析器的Java库文件,它提供了与Solr交互的接口,使得Solr能够使用mmseg4j进行中文分词。`readme.txt`通常包含了关于如何...

    mmseg4j-solr-2.1.0-with-mmseg4j-core.zip

    为了在Solr4.8中使用mmseg4j,我们需要进行以下步骤: 1. 解压下载的"mmseg4j-solr-2.1.0-with-mmseg4j-core.zip",并将其中的两个JAR文件放入Solr的lib目录下。这一步是为了让Solr能够识别并加载mmseg4j的相关组件...

    在tomcat环境下搭建solr和mmseg4j搜索引擎

    在Solr中集成mmseg4j,可以提高中文搜索的准确性,因为它能有效地处理中文词汇的拆分问题。 6. **集成mmseg4j到Solr**:首先,你需要在Solr的lib目录下添加mmseg4j的jar文件。然后,在Solr的`schema.xml`中添加...

    mmseg4j-solr全版本及配置

    总结来说,掌握mmseg4j-solr的配置和使用是提升Solr中文搜索能力的关键。从选择合适的版本,到正确配置Solr的schema,再到设定词典路径,每个环节都需要细致入微的考虑。通过深入理解这些知识点,开发者能够为自己的...

    mmseg4j完美适配solr5.2.1

    通过以上步骤,我们成功地在Solr5.2.1中集成了mmseg4j,实现了对中文文本的高效分词。这不仅提高了搜索效率,也提升了搜索结果的相关性。同时,对于那些因为找不到与新版本Solr匹配的mmseg4j版本而困扰的开发者来说...

    mmseg4j-solr-2.2.0-with-mmseg4j-core.zip

    在这个压缩包中,包含的两个核心文件mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.2.0.jar是实现Solr中文分词功能的关键。mmseg4j-core-1.10.0.jar是mmseg4j的核心分词引擎,提供了基本的分词算法和数据结构。而mmseg4j...

    mmseg4j最新jar完美整合solr-5.3.0

    本文将详细介绍如何将mmseg4j最新版的jar文件完美地整合到Solr-5.3.0中,以实现更高效的中文分词功能。 首先,mmseg4j-solr-2.3.1-SNAPSHOT.jar和mmseg4j-core-1.10.1-SNAPSHOT.jar是mmseg4j的核心组件,分别提供了...

    solr6配置mmseg4j所需dic文件和jar包

    solr6配置mmseg4j所需dic文件和jar包,包括word.dic,mmseg4j-core-1.10.0.jar,mmseg4j-solr-2.3.0.jar

    mmseg4j-solr-2.3.0&mmseg4j;-core.zip

    通过理解mmseg4j的基本原理,掌握其在Solr中的配置和自定义词库的使用,我们可以更好地利用这一工具来优化搜索引擎,提升中文信息检索的效果。在实际应用中,根据业务需求灵活调整分词策略,充分利用mmseg4j的各种...

    跟益达学Solr5之使用MMSeg4J分词器

    在Solr5中使用MMSeg4J,我们需要进行以下步骤: 1. **安装依赖**:首先,确保你的项目中包含了MMSeg4J的库。这通常通过在你的构建文件(如Maven的pom.xml或Gradle的build.gradle)中添加相应的依赖完成。Maven用户...

    mmseg4j-solr-2.2.0.jar mmseg4j-analysis-1.9.1.jar mmseg4j-solr-2.2.0.jar

    本人用的solr是4.10的,经过本人亲测可用,放心下载,包含以下3个jar包: mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar, mmseg4j-solr-2.2.0.jar

    mmseg4j-solr总共4个文件

    里面包含了mmseg4j-solr-2.0.0.jar,mmseg4j-solr-2.1.0.jar,mmseg4j-solr-2.2.0.jar,mmseg4j-solr-2.3.0.jar总共4个文件,其中: mmseg4j-solr-2.0.0.jar 要求 lucene/solr &gt;= 4.3.0。在 lucene/solr [4.3.0, 4.7.1]...

    mmseg4j-solr-master

    本文将深入探讨mmseg4j-solr的使用、分词原理以及其在实际应用中的效果。 首先,我们来了解mmseg4j-solr的下载、安装与运行过程。mmseg4j-solr是开源项目,用户可以通过GitHub等平台下载源码或直接获取预编译的二...

    mmseg4j-solr-2.3.2-with-mmseg4j-core

    该压缩包包含`mmseg4j-solr-2.3.2.jar`和`mmseg4j-core-1.10.0.jar`,其中solr-2.3.2不是官方的版本,该版本有改动,使得mmseg4j可以很好的支持Solr6,如果你的Solr低于Solr6,请使用官方的mmseg4j-solr-2.3.0.jar...

Global site tag (gtag.js) - Google Analytics