原文出处:http://blog.chenlb.com/2009/04/chinese-segment-mmseg4j-dictionary-format.html
有个网友 email 问题词库格式怎么样?他想为繁体中文进行分词,所以想词库换成繁体的。很遗憾我目前还没找到繁体版的词库。目前 mmseg4j 的词库全是简体版,包括 chars.dic、units.dic、words.dic,并且强制使用 UTF-8 编码。
下面一一解说下词库的格式。
1、chars.dic,是单个字,和对应的频率,一行一对,字在全面,频率在后面,中间用空格分开。这个文件的信息是 complex 模式要用到的。在最后一条过虑规则中使用了频率信息。从 1.5 版后已经把它打包进 jar 里,一般不用关心它。不过可以在词库目录下放一个同名文件覆盖它。
2、units.dic,是单位的字,如:分、秒、年。这一文件是我在 mmseg4j 1.6 后加入的,也是一行一条。主要是在数字后面的单位信息切分好,不与words.dic中的词有混淆。同时也打包进 jar 里,目前还是试行,如果不喜欢它,可以用空的文件放到词库目录下覆盖它。
3、words.dic,是核心的词库文件,一行一条,不需要其它任何数据(如词长)。1.0 版是用 rmmseg(ruby 的 mmseg 实现) 的词库。1.5版后 mmseg4j 改用 sogou 词库,可以 http://www.sogou.com/labs/dl/w.html 找到下载。然后我把它去了频率等信息,并转为 UTF-8 编码。
4、wordsXXX.dic,是自定义词库文件(其实是 mmseg4j 可以从多个文件读取词)。这功能是 1.6 版加入的。它的格式与 words.dic 一样,只不过 XXX 部分是如您自己写的名字,如:源码包里的 data/words-my.dic。注意:自定义词库文件名必需是 "words" 为前缀和 ".dic" 为后缀。
mmseg4j 默认从当前目录下的 data 目录读取上面的文件。当然也可以指定别的目录,如:new ComplexAnalyzer("./my_dic"),在 solr 中可以用 dicPath 属性指定它。
延伸:
如果加了自定义的词,要用 simple 或 complex 分词模式是检验它是否有效。因为目前 max-word 模式分出来的词长不会超过2。
相关推荐
总之,mmseg4j 1.9.0版本的词库文件是其分词功能的关键,虽然后续版本不再内置,但理解词库的结构和作用对于有效利用mmseg4j进行中文文本处理至关重要。开发者应当根据实际需求,灵活地管理和定制词库,以提升分词...
《MMseg4j中文分词词库:深入理解与应用》 在中文信息处理领域,分词是文本分析的基础步骤,它将连续的汉字序列分割成具有语义的词汇单元。MMseg4j是一个广泛应用于Java环境中的中文分词工具,它以其高效、灵活和...
mmseg4j是一个基于Java实现的中文分词工具,它在中文信息处理领域有着广泛的应用。该工具的主要功能是将连续的汉字序列分割成具有语义的词语,这一过程称为分词。在中文自然语言处理(NLP)中,分词是基础步骤,对于...
mmseg4j是一款广泛使用的Java实现的中文分词库,它提供了高效且精准的中文分词功能。而“兼容solr4.10.3”意味着这个分词器已经过测试,可以无缝集成到Solr 4.10.3的搜索引擎环境中,用于提高中文文本处理的性能。 ...
在Java环境下,mmseg4j是一个广泛使用的开源中文分词库,它为Java开发者提供了强大的中文处理能力。本文将深入探讨mmseg4j在Solr中的应用,以及如何在Solr 6.3版本中集成并使用mmseg4j-solr-2.4.0.jar这个库。 首先...
**mmseg4j分词器** 是一个专为Java平台设计的中文分词库,它在中文信息处理领域中扮演着重要的角色。该库的主要功能是将连续的汉字序列分割成具有语义意义的词语,这是自然语言处理(NLP)中的基础任务,对搜索引擎...
mmseg4j是一个基于Java实现的中文分词库,它主要用于将中文文本拆分成一系列的词语,是信息检索、自然语言处理、搜索引擎等领域的基础工具。在1.9.1版本中,开发者对原有的功能进行了优化,并修复了一些已知的bug,...
mmseg4j是Java实现的中文分词库,它支持多种分词模式,包括最短路径分词、最长匹配分词以及全模式分词等,可以根据实际需求选择合适的模式。 当mmseg4j与Solr结合时,mmseg4j-solr便成为了一个强大的中文处理插件。...
mmseg4j是Java实现的中文分词库,广泛应用于搜索引擎、文本分析等领域。在Java社区中,它因其高效、灵活的特点而备受青睐。本篇文章将围绕mmseg4j的核心组件、功能特性以及在实际项目中的应用展开详细讨论。 首先,...
mmseg4j是一款基于Java实现的高效中文分词库,其全称为"Minimum Match Segmentation for Java"。它采用了最小匹配算法,能够在处理中文文本时实现较高的分词准确率和速度。mmseg4j的核心在于它的分词策略,它通过...
mmseg4j是一个专为Java设计的高效中文分词库,它的核心是基于"最小编辑距离"算法的分词方法,旨在提高中文文本处理的效率和准确性。在Java开发环境中,面对海量中文文本的处理,mmseg4j扮演了至关重要的角色。 在...
**mmseg4j 2.3 Jar包:Lucene中文分词器详解** 在中文信息处理领域,分词是至关重要的第一步,它涉及到文本的预处理、搜索索引的构建以及信息检索等多个环节。mmseg4j是一款针对Java平台设计的高效、灵活的中文分词...
《mmseg4j-1.9.1:中文分词技术的卓越实践》 在中文信息处理领域,分词是至关重要的第一步,它涉及到搜索引擎、文本挖掘、机器翻译等多个应用场景。mmseg4j是一个专门为Java设计的高效中文分词工具,它的出现极大地...
mmseg4j是基于Java的一个高性能中文分词库,它提供了多种分词算法,如最长匹配、最短路径等,以满足不同的分词需求。 首先,我们需要理解Solr6的基本架构。Solr是一个基于Apache Lucene的搜索服务器,它提供了一个...
《mmseg4j在Lucene中文分词中的应用与实现》 在中文信息处理领域,分词是至关重要的一步,它决定了后续文本分析的准确性和效率。mmseg4j是Java环境下广泛使用的中文分词库,尤其在搜索引擎构建和文本挖掘中发挥着...
mmseg4j作为一个强大的开源Java实现的中文分词库,因其高效、灵活的特点,被广泛应用于搜索引擎和自然语言处理领域。本文将详细介绍如何将mmseg4j最新版的jar文件完美地整合到Solr-5.3.0中,以实现更高效的中文分词...
在中文信息处理领域,分词是文本分析的关键步骤,而mmseg4j作为一款高效、精准的Java实现中文分词工具,广泛应用于各种系统中,特别是搜索引擎的构建。本篇文章将详细探讨mmseg4j在Solr中的应用以及其与Solr的集成,...
**mmseg4j jar包** 是一个专门为Java开发的中文分词库,广泛应用于搜索引擎、文本分析、自然语言处理等领域。这个资源包适用于Solr5.3.1版本,表明它与Apache Solr的集成非常良好,使得用户可以方便地在Solr中实现...
mmseg4j采用四向最大匹配算法(MaxMatch Four Direction),并结合了词典分词和统计分词,能够处理复杂多样的中文语境,提高分词的准确率。其1.10.0版本的`mmseg4j-core-1.10.0.jar`包含了mmseg4j的核心算法实现。 ...