`

中文分词mmseg4j+solr 5.3.1配置

阅读更多
基础环境:
solr 5.3.1
mmseg4j-solr-2.3.0.jar
mmseg4j-core-1.10.0.jar
CentOS release 6.2 (Final)
java version "1.7.0_71"

jar添加:
位置:solr-5.3.1/server/solr-webapp/webapp/WEB-INF/lib
配置:
在schema.xml中加上如下配置
<!-- mmseg4j-->
<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
                <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex"/>
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        </analyzer>
</fieldtype>
<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
                <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        </analyzer>
        </fieldtype>
        <fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
        <analyzer>
                <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="my-ext-dic" />
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        </analyzer>
  </fieldtype>
<!-- mmseg4j-->

重新启动环境,就可以在solr 管理台看到对应的分词器了
分享到:
评论

相关推荐

    mmseg4j-solr-2.4.0.jar

    值得注意的是,mmseg4j-solr-2.4.0.jar中的mmseg4j-2.4.0子目录包含了mmseg4j的核心组件,包括分词算法的实现和相关的配置文件。开发者可以通过阅读源代码和文档,更深入地了解其工作原理和优化技巧。 总之,mmseg4...

    mmseg4j-solr全版本及配置

    而mmseg4j则是Solr中常用的中文分词组件,它能够高效地对中文文本进行分词处理。本文将深入探讨mmseg4j-solr的各个版本及其配置,旨在帮助开发者更好地理解和应用这一技术。 首先,我们需要理解mmseg4j-solr的核心...

    mmseg4j-solr-mmseg4j-solr-2.2.0.zip

    4. **索引构建与查询**:在配置完成后,Solr会使用mmseg4j-solr对输入的中文文本进行分词,然后构建索引。在查询时,同样会应用分词策略,提高查询的精确度。 5. **性能监控**:在系统运行过程中,可以通过Solr的...

    mmseg4j-solr-2.1.0-with-mmseg4j-core.zip

    《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...

    mmseg4j-solr总共4个文件

    里面包含了mmseg4j-solr-2.0.0.jar,mmseg4j-solr-2.1.0.jar,mmseg4j-solr-2.2.0.jar,mmseg4j-solr-2.3.0.jar总共4个文件,其中: mmseg4j-solr-2.0.0.jar 要求 lucene/solr &gt;= 4.3.0。在 lucene/solr [4.3.0, 4.7.1]...

    mmseg4j-solr-2.2.0-with-mmseg4j-core.zip

    《mmseg4j-solr-2.2.0-with-mmseg4j-core.zip:中文分词在Solr中的应用》 在现代信息检索系统中,中文分词是至关重要的一步,它能有效地将中文文本转化为可处理的词汇单元,为搜索引擎提供精准的索引与查询服务。...

    solr6配置mmseg4j

    在Solr6中配置mmseg4j是为了实现中文分词,从而提升搜索效果。mmseg4j是基于Java的一个高性能中文分词库,它提供了多种分词算法,如最长匹配、最短路径等,以满足不同的分词需求。 首先,我们需要理解Solr6的基本...

    mmseg4j-solr-2.3.0.jar

    mmseg4j中文分词器 mmseg4j-core-1.10.0.jar mmseg4j-solr-2.3.0.jar两个主要依赖包

    mmseg4j-solr-master

    总的来说,mmseg4j-solr作为一款强大的中文分词工具,其高效的分词算法和灵活的配置选项使其在Solr环境中的应用广泛。通过对mmseg4j的深入理解和实践,开发者可以更好地解决中文文本处理中的挑战,为各种信息检索和...

    solr中文分词包mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar

    mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。

    mmseg4j-solr-2.2.0.jar mmseg4j-analysis-1.9.1.jar mmseg4j-solr-2.2.0.jar

    本人用的solr是4.10的,经过本人亲测可用,放心下载,包含以下3个jar包: mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar, mmseg4j-solr-2.2.0.jar

    mmseg4j-solr-2.3.0&mmseg4j;-core.zip

    集成后,用户可以在Solr的配置文件中指定使用mmseg4j作为默认的中文分词器,从而提升搜索的准确性和效率。 在Solr5.0中,自定义词库的设置是一项重要的任务,因为合理的词库能有效提高搜索的相关性。mmseg4j支持...

    solr mmseg4j 中文分词器

    mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传

    mmseg4j-solr-2.3.2-with-mmseg4j-core

    该压缩包包含`mmseg4j-solr-2.3.2.jar`和`mmseg4j-core-1.10.0.jar`,其中solr-2.3.2不是官方的版本,该版本有改动,使得mmseg4j可以很好的支持Solr6,如果你的Solr低于Solr6,请使用官方的mmseg4j-solr-2.3.0.jar...

    兼容solr4.10.3的mmseg4j-1.9.1分词器

    而mmseg4j是Solr中常用的中文分词组件,它的加入增强了Solr在中文处理上的能力。 **压缩包子文件的文件名称列表解析:** 1. `mmseg4j-core-1.9.1.jar`:这是mmseg4j的核心库文件,包含了mmseg4j的主要分词算法和...

    mmseg4j完美适配solr5.2.1

    在实际应用中,我们需要在Solr的配置文件中指定使用mmseg4j分词器。这通常涉及修改`schema.xml`文件,定义一个新的字段类型,并指定分词器为`mmseg4j`。例如: ```xml &lt;fieldType name="text_mmseg" class="solr....

    中文分词器(mmseg4j + luncene5.X)源码+jar包

    《中文分词器mmseg4j与Lucene5.x整合详解及源码解析》 中文分词是自然语言处理中的重要一环,尤其在中文文本分析、信息检索、机器翻译等领域有着广泛的应用。mmseg4j是一款高效、灵活的Java实现的中文分词工具,而...

    mmseg4j最新jar完美整合solr-5.3.0

    本文将详细介绍如何将mmseg4j最新版的jar文件完美地整合到Solr-5.3.0中,以实现更高效的中文分词功能。 首先,mmseg4j-solr-2.3.1-SNAPSHOT.jar和mmseg4j-core-1.10.1-SNAPSHOT.jar是mmseg4j的核心组件,分别提供了...

    tomcat+solr3.6+mmseg4j

    2. **集成MMSEG4J**:下载MMSEG4J库,将其添加到Solr的lib目录,更新Solr配置文件schema.xml,定义分词器和过滤器链。 3. **配置分词器**:在solrconfig.xml中添加自定义分析器,指定使用MMSEG4J分词器。 4. **测试...

Global site tag (gtag.js) - Google Analytics