1:schema.xml:
<!-- 中文分词mmseg4j --> <fieldtype name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/data1/SolrCloud/WordsConf/mmseg4j/words" /> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldtype> <fieldtype name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/data1/SolrCloud/WordsConf/mmseg4j/words" /> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldtype> <fieldtype name="text_mmseg4j_maxWord" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/data1/SolrCloud/WordsConf/mmseg4j/words" /> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldtype>
2: solrconfig.xml:
<!-- mmseg4j reload words handler --> <requestHandler name="/mmseg4j/reloadwords" class="com.chenlb.mmseg4j.solr.MMseg4jHandler"> <lst name="defaults"> <str name="dicPath">/data1/SolrCloud/WordsConf/mmseg4j/words</str> <str name="check">true</str> <str name="reload">true</str> </lst> </requestHandler>
3:在 /data1/SolrCloud/WordsConf/mmseg4j/words 目录下放入:
3.1: mmseg4j-core-1.10.0.jar 中的 chars.dic, units.dic, words,dic , 这三个都是官方词库,你可以更改以便覆盖官方配置, 也可以不更改.
3.2: 放入以文件名为words开头, .dic为文件结尾的UTF-8格式的文件, 如果是带BOM的UTF8文件, 第一行为空即可. 每行一个词.
4: 中文分词文件重新加载: 以下是单个节点的,如果涉及到多个节点或是SolrCloud,则每个节点都要执行以下访问方可使所有节点(可从zookeeper读取)都生效:
http://172.28.4.83:11010/solr/common_shard1_1_replica3/mmseg4j/reloadwords
=基本路径:http://172.28.4.83:11010/solr/common_shard1_1_replica3
+
handler路径:/mmseg4j/reloadwords
5:若有的节点加载但未生效, 执行以下reload命令:
curl 'http://172.28.4.83:11010/solr/admin/collections?action=RELOAD&name=common'
相关推荐
《MMseg4j中文分词词库:深入理解与应用》 在中文信息处理领域,分词是文本分析的基础步骤,它将连续的汉字序列分割成具有语义的词汇单元。MMseg4j是一个广泛应用于Java环境中的中文分词工具,它以其高效、灵活和...
在Solr 6.3版本下,要使用mmseg4j-solr-2.4.0.jar,首先需要将其添加到Solr的lib目录下,这样Solr启动时会自动加载该库。接着,在Solr的schema.xml配置文件中,我们需要定义一个使用mmseg4j的分析器。通常,这涉及到...
如果需要预装词典,可以选择`mmseg4j-all-1.8.5-with-dic.jar`,它包含了完整的词典数据,能够更好地支持分词任务。`build.xml`是Ant构建工具的配置文件,用于编译、打包和测试项目。`dist`目录通常存放的是打包后的...
mmseg4j是一款基于Java实现的高效中文分词库,其全称为"Minimum Match Segmentation for Java"。它采用了最小匹配算法,能够在处理中文文本时实现较高的分词准确率和速度。mmseg4j的核心在于它的分词策略,它通过...
mmseg4j是Java实现的中文分词库,它支持多种分词模式,包括最短路径分词、最长匹配分词以及全模式分词等,可以根据实际需求选择合适的模式。 当mmseg4j与Solr结合时,mmseg4j-solr便成为了一个强大的中文处理插件。...
此外,mmseg4j还引入了动态规划思想,通过计算每个候选词的期望概率来优化分词结果。 **版本1.9.1特性** mmseg4j的1.9.1版本包含了若干改进和优化,可能包括对分词效率的提升、错误修复以及对新词汇的适应性增强。...
2. **添加依赖到Solr的lib目录**:将下载的mmseg4j jar包放入Solr的server/solr-webapp/webapp/WEB-INF/lib目录下,这样Solr启动时会自动加载这个库。 3. **配置solrconfig.xml**:在Solr的配置文件solrconfig.xml...
同时,mmseg4j支持动态加载词典,使得在运行时更新词典成为可能,适应了信息快速变化的环境。 在实际开发中,mmseg4j的使用步骤大致如下: 1. 引入mmseg4j的jar包到项目中。 2. 创建分词器实例,如`SimpleSeg`或`...
- `mmseg4j-core-1.10.0.jar`:mmseg4j的核心库,包含了分词算法和基本数据结构。 - `mmseg4j-solr-2.3.0.jar`:针对Solr的扩展库,方便在Solr中使用mmseg4j。 - `README.md`:通常包含项目的基本介绍、使用说明和...
mmseg4j作为一个强大的开源Java实现的中文分词库,因其高效、灵活的特点,被广泛应用于搜索引擎和自然语言处理领域。本文将详细介绍如何将mmseg4j最新版的jar文件完美地整合到Solr-5.3.0中,以实现更高效的中文分词...
**mmseg4j分词器** 是一个专为Java平台设计的中文分词库,它在中文信息处理领域中扮演着重要的角色。该库的主要功能是将连续的汉字序列分割成具有语义意义的词语,这是自然语言处理(NLP)中的基础任务,对搜索引擎...
mmseg4j是一个基于Java实现的中文分词库,它主要用于将中文文本拆分成一系列的词语,是信息检索、自然语言处理、搜索引擎等领域的基础工具。在1.9.1版本中,开发者对原有的功能进行了优化,并修复了一些已知的bug,...
1. `mmseg4j-core-1.9.1.jar`:这是mmseg4j的核心库文件,包含了mmseg4j的主要分词算法和数据结构。该版本号1.9.1与标题中的版本相匹配,用于实现基本的中文分词功能。 2. `mmseg4j-analysis-1.9.2-SNAPSHOT.jar`:...
本文将深入探讨mmseg4j的特性和使用方法,帮助读者更好地理解和应用这一强大的分词库。 mmseg4j源自搜狗公司的开源项目,它的全称是"Minimum Edit Distance Segmentation for Java",即基于最小编辑距离的Java分词...
**mmseg4j-1.8.5** 是一个针对Lucene搜索引擎的中文分词库,主要用于提升中文信息处理的效率和准确性。该版本与Lucene 3.1版本兼容,意味着它可以在基于Lucene 3.1构建的信息检索系统中无缝集成,提供高效的中文分词...
5. **mmseg4j**:mmseg4j是一个Java实现的中文分词库,它支持多种分词算法,如新词发现、基于词典的四字分词法等。在Solr中集成mmseg4j,可以提高中文搜索的准确性,因为它能有效地处理中文词汇的拆分问题。 6. **...
《mmseg4j-1.9.1:中文分词利器与词库解析》 mmseg4j是一款针对Java平台的高效中文分词工具,版本号1.9.1是其最新的迭代成果,旨在为开发者提供更加准确和快速的中文文本处理能力。这款工具在中文信息处理领域具有...
mmseg4j是一个基于Java的高效中文分词库,它可以提供灵活的分词规则,适用于各种应用场景。 配置mmseg4j涉及到的主要步骤包括: 1. **下载和准备mmseg4j相关的jar包**: 首先,你需要从mmseg4j的官方网站或GitHub...
本教程将详细介绍如何在Tomcat中整合Solr3.6版本,并引入MMSEG4J中文分词库,实现高效的中文文本处理。 【Solr3.6核心概念】 1. **SolrCloud**:Solr3.6引入了分布式搜索和管理功能,称为SolrCloud,提供了...
1. **mmseg4j** 是一款由 Java 实现的中文分词库,它采用了 MaxMatch(最大匹配)算法。mmseg4j 提供了多种分词模式,如简短模式、精确模式、全模式等,以适应不同场景的需求。例如,精确模式在确保分词准确度的同时...