`

mmseg4j动态加载词库

    博客分类:
  • solr
 
阅读更多

 

1:schema.xml:

<!-- 中文分词mmseg4j -->
	<fieldtype name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100">
	    <analyzer>
		<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/data1/SolrCloud/WordsConf/mmseg4j/words" />
<filter class="solr.LowerCaseFilterFactory"/>
	    </analyzer>
	</fieldtype>
	<fieldtype name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100">
	    <analyzer>
		<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/data1/SolrCloud/WordsConf/mmseg4j/words" />
<filter class="solr.LowerCaseFilterFactory"/>
	    </analyzer>
	</fieldtype>
	<fieldtype name="text_mmseg4j_maxWord" class="solr.TextField" positionIncrementGap="100">
	    <analyzer>
		<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/data1/SolrCloud/WordsConf/mmseg4j/words" />
<filter class="solr.LowerCaseFilterFactory"/>
	    </analyzer>
	</fieldtype>

 2: solrconfig.xml:

<!-- mmseg4j reload words handler -->
  <requestHandler name="/mmseg4j/reloadwords" class="com.chenlb.mmseg4j.solr.MMseg4jHandler">
        <lst name="defaults">
        	<str name="dicPath">/data1/SolrCloud/WordsConf/mmseg4j/words</str>
        	<str name="check">true</str>
        	<str name="reload">true</str>
        </lst>
  </requestHandler>

 

3:在 /data1/SolrCloud/WordsConf/mmseg4j/words 目录下放入:

   3.1: mmseg4j-core-1.10.0.jar 中的 chars.dic, units.dic, words,dic , 这三个都是官方词库,你可以更改以便覆盖官方配置, 也可以不更改.

   3.2: 放入以文件名为words开头, .dic为文件结尾的UTF-8格式的文件, 如果是带BOM的UTF8文件, 第一行为空即可. 每行一个词.

 

4: 中文分词文件重新加载: 以下是单个节点的,如果涉及到多个节点或是SolrCloud,则每个节点都要执行以下访问方可使所有节点(可从zookeeper读取)都生效:

http://172.28.4.83:11010/solr/common_shard1_1_replica3/mmseg4j/reloadwords

=基本路径:http://172.28.4.83:11010/solr/common_shard1_1_replica3

+

handler路径:/mmseg4j/reloadwords

 

5:若有的节点加载但未生效, 执行以下reload命令:

curl 'http://172.28.4.83:11010/solr/admin/collections?action=RELOAD&name=common'

分享到:
评论

相关推荐

    MMseg4j中文分词词库

    《MMseg4j中文分词词库:深入理解与应用》 在中文信息处理领域,分词是文本分析的基础步骤,它将连续的汉字序列分割成具有语义的词汇单元。MMseg4j是一个广泛应用于Java环境中的中文分词工具,它以其高效、灵活和...

    mmseg4j-solr-2.4.0.jar

    在Solr 6.3版本下,要使用mmseg4j-solr-2.4.0.jar,首先需要将其添加到Solr的lib目录下,这样Solr启动时会自动加载该库。接着,在Solr的schema.xml配置文件中,我们需要定义一个使用mmseg4j的分析器。通常,这涉及到...

    mmseg4j\mmseg4j-1.8.5.zip

    如果需要预装词典,可以选择`mmseg4j-all-1.8.5-with-dic.jar`,它包含了完整的词典数据,能够更好地支持分词任务。`build.xml`是Ant构建工具的配置文件,用于编译、打包和测试项目。`dist`目录通常存放的是打包后的...

    mmseg4j-solr-2.1.0-with-mmseg4j-core.zip

    mmseg4j是一款基于Java实现的高效中文分词库,其全称为"Minimum Match Segmentation for Java"。它采用了最小匹配算法,能够在处理中文文本时实现较高的分词准确率和速度。mmseg4j的核心在于它的分词策略,它通过...

    mmseg4j-solr-mmseg4j-solr-2.2.0.zip

    mmseg4j是Java实现的中文分词库,它支持多种分词模式,包括最短路径分词、最长匹配分词以及全模式分词等,可以根据实际需求选择合适的模式。 当mmseg4j与Solr结合时,mmseg4j-solr便成为了一个强大的中文处理插件。...

    mmseg4j分词器,内含词库

    此外,mmseg4j还引入了动态规划思想,通过计算每个候选词的期望概率来优化分词结果。 **版本1.9.1特性** mmseg4j的1.9.1版本包含了若干改进和优化,可能包括对分词效率的提升、错误修复以及对新词汇的适应性增强。...

    solr6配置mmseg4j

    2. **添加依赖到Solr的lib目录**:将下载的mmseg4j jar包放入Solr的server/solr-webapp/webapp/WEB-INF/lib目录下,这样Solr启动时会自动加载这个库。 3. **配置solrconfig.xml**:在Solr的配置文件solrconfig.xml...

    mmseg4j-all-with-dic-1.8.6-sources.jar和mmseg4j-all-with-dic-1.8.6.jar

    同时,mmseg4j支持动态加载词典,使得在运行时更新词典成为可能,适应了信息快速变化的环境。 在实际开发中,mmseg4j的使用步骤大致如下: 1. 引入mmseg4j的jar包到项目中。 2. 创建分词器实例,如`SimpleSeg`或`...

    mmseg4j 2.3 jar包

    - `mmseg4j-core-1.10.0.jar`:mmseg4j的核心库,包含了分词算法和基本数据结构。 - `mmseg4j-solr-2.3.0.jar`:针对Solr的扩展库,方便在Solr中使用mmseg4j。 - `README.md`:通常包含项目的基本介绍、使用说明和...

    mmseg4j最新jar完美整合solr-5.3.0

    mmseg4j作为一个强大的开源Java实现的中文分词库,因其高效、灵活的特点,被广泛应用于搜索引擎和自然语言处理领域。本文将详细介绍如何将mmseg4j最新版的jar文件完美地整合到Solr-5.3.0中,以实现更高效的中文分词...

    mmseg4j分词器jar包

    **mmseg4j分词器** 是一个专为Java平台设计的中文分词库,它在中文信息处理领域中扮演着重要的角色。该库的主要功能是将连续的汉字序列分割成具有语义意义的词语,这是自然语言处理(NLP)中的基础任务,对搜索引擎...

    mmseg4j-1.9.1 分词器 包含修复bug的mmseg4j-analysis-1.9.1.jar

    mmseg4j是一个基于Java实现的中文分词库,它主要用于将中文文本拆分成一系列的词语,是信息检索、自然语言处理、搜索引擎等领域的基础工具。在1.9.1版本中,开发者对原有的功能进行了优化,并修复了一些已知的bug,...

    兼容solr4.10.3的mmseg4j-1.9.1分词器

    1. `mmseg4j-core-1.9.1.jar`:这是mmseg4j的核心库文件,包含了mmseg4j的主要分词算法和数据结构。该版本号1.9.1与标题中的版本相匹配,用于实现基本的中文分词功能。 2. `mmseg4j-analysis-1.9.2-SNAPSHOT.jar`:...

    mmseg4j-1.9.1.v20130120-SNAPSHOT

    本文将深入探讨mmseg4j的特性和使用方法,帮助读者更好地理解和应用这一强大的分词库。 mmseg4j源自搜狗公司的开源项目,它的全称是"Minimum Edit Distance Segmentation for Java",即基于最小编辑距离的Java分词...

    mmseg4j-1.8.5

    **mmseg4j-1.8.5** 是一个针对Lucene搜索引擎的中文分词库,主要用于提升中文信息处理的效率和准确性。该版本与Lucene 3.1版本兼容,意味着它可以在基于Lucene 3.1构建的信息检索系统中无缝集成,提供高效的中文分词...

    在tomcat环境下搭建solr和mmseg4j搜索引擎

    5. **mmseg4j**:mmseg4j是一个Java实现的中文分词库,它支持多种分词算法,如新词发现、基于词典的四字分词法等。在Solr中集成mmseg4j,可以提高中文搜索的准确性,因为它能有效地处理中文词汇的拆分问题。 6. **...

    mmseg4j-1.9.1

    《mmseg4j-1.9.1:中文分词利器与词库解析》 mmseg4j是一款针对Java平台的高效中文分词工具,版本号1.9.1是其最新的迭代成果,旨在为开发者提供更加准确和快速的中文文本处理能力。这款工具在中文信息处理领域具有...

    solr6配置mmseg4j所需jar包和dic文件

    mmseg4j是一个基于Java的高效中文分词库,它可以提供灵活的分词规则,适用于各种应用场景。 配置mmseg4j涉及到的主要步骤包括: 1. **下载和准备mmseg4j相关的jar包**: 首先,你需要从mmseg4j的官方网站或GitHub...

    tomcat+solr3.6+mmseg4j

    本教程将详细介绍如何在Tomcat中整合Solr3.6版本,并引入MMSEG4J中文分词库,实现高效的中文文本处理。 【Solr3.6核心概念】 1. **SolrCloud**:Solr3.6引入了分布式搜索和管理功能,称为SolrCloud,提供了...

    solr 分词器 mmseg4j IKAnalyzer

    1. **mmseg4j** 是一款由 Java 实现的中文分词库,它采用了 MaxMatch(最大匹配)算法。mmseg4j 提供了多种分词模式,如简短模式、精确模式、全模式等,以适应不同场景的需求。例如,精确模式在确保分词准确度的同时...

Global site tag (gtag.js) - Google Analytics