经过几天的开发与调试,mmseg4j 1.6 版可以发布了。1.6 版主要实现与下功能:
- 实现多分词,在complex基础上,把长的词(大于2)拆出多个词。按二元分词,且把不存在的词去了,如:“西伯利亚” -> "西|伯利|利亚","西伯" 不存在词库中;“中国人民银行”-> "中国|国人|人民|银行"
- 支持多个词库文件,在词库目录中放"words"前缀且".dic"后缀的文件。如:data/words-my.dic
- 单字的单位独立一个文件(data/units.dic, 已经放入jar包里),也可以自定义覆盖它。加单字的单位处理分词比较好点,如:“年”在units.dic文件中,“2008年中有很多事情” -> “2008|年|中有|很多|事情”,否则,就分成了“2008|年中|有|很多|事情”。这功能是试行,如果不喜欢它,可以空的units.dic文件覆盖它。
MMSegAnalyzer 和 MMSegTokenizerFactory 默认的分词方式改为max-word。当然你可以单独地使用SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer。
多分词的效果:
public void testEffect() throws IOException {
String words = segW.segWords("共和国", "|");
assertEquals("共和|国", words);
}
public void testEffect1() throws IOException {
String words = segW.segWords("中国人民银行", "|");
assertEquals("中国|国人|人民|银行", words);
}
public void testEffect2() throws IOException {
String words = segW.segWords("西伯利亚", "|");
assertEquals("西|伯利|利亚", words);
}
public void testEffect3() throws IOException {
String words = segW.segWords("中华人民共和国", "|");
assertEquals("中华|华人|人民|共和|国", words);
}
public void testEffect4() throws IOException {
String words = segW.segWords("羽毛球拍", "|");
assertEquals("羽毛|球拍", words);
}
public void testEffect6() throws IOException {
String words = segW.segWords("为什么", "|");
assertEquals("为|什么", words);
}
public void testEffect7() throws IOException {
String words = segW.segWords("很好听", "|");
assertEquals("很好|好听", words);
}
public void testEffect8() throws IOException {
String words = segW.segWords("强冷空气", "|");
assertEquals("强|冷|空气", words);
}
public void testEffect10() throws IOException {
String words = segW.segWords("清华大学", "|");
assertEquals("清华|大学", words);
}
public void testEffect11() throws IOException {
String words = segW.segWords("华南理工大学", "|");
assertEquals("华南|理工|工大|大学", words);
}
public void testEffect12() throws IOException {
String words = segW.segWords("广东工业大学", "|");
assertEquals("广东|工业|大学", words);
}
solr 中使用
<fieldType name="textMaxWord" class="solr.TextField" >
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
</analyzer>
</fieldType>
google code 已经提供下载。
分享到:
相关推荐
mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传
文件名"dic"很可能代表“dictionary”(词典),这是MMseg4j分词器需要的核心组件。词典文件通常包含了词的列表,每个词后面可能跟着对应的词频或其他属性,用于优化分词算法。在实际使用时,用户可以根据需要选择...
"兼容solr4.10.3的mmseg4j-1.9.1分词器" 这个标题表明我们正在讨论的是一个针对Solr 4.10.3版本优化的mmseg4j分词器,版本号为1.9.1。mmseg4j是一款广泛使用的Java实现的中文分词库,它提供了高效且精准的中文分词...
**mmseg4j中文分词器** mmseg4j是一个基于Java实现的高效、灵活的中文分词工具,主要用于处理中文文本的分词任务。它借鉴了MaxEnt(最大熵模型)和MMSeg算法,提供了高效且准确的中文分词效果。在处理大量中文文本...
**mmseg4j分词器** 是一个专为Java平台设计的中文分词库,它在中文信息处理领域中扮演着重要的角色。该库的主要功能是将连续的汉字序列分割成具有语义意义的词语,这是自然语言处理(NLP)中的基础任务,对搜索引擎...
**mmseg4j分词器详解** mmseg4j是一个基于Java实现的中文分词库,它主要用于将中文文本拆分成一系列的词语,是信息检索、自然语言处理、搜索引擎等领域的基础工具。在1.9.1版本中,开发者对原有的功能进行了优化,...
mmseg4j1.8.4分词工具,可以方便的集成在lucene后者solr中。
而mmseg4j则是Solr中常用的中文分词组件,它能够高效地对中文文本进行分词处理。本文将深入探讨mmseg4j-solr的各个版本及其配置,旨在帮助开发者更好地理解和应用这一技术。 首先,我们需要理解mmseg4j-solr的核心...
而mmseg4j-solr-2.4.0.jar是mmseg4j分词库的Solr插件版本,专为Solr设计,使得开发者可以方便地将mmseg4j的分词功能集成到Solr中,以提升搜索性能和精确度。 在Solr 6.3版本下,要使用mmseg4j-solr-2.4.0.jar,首先...
《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...
综上所述,mmseg4j分词器以其高效、灵活的特性,在处理中文文本时表现出色。配合合适的词库和合理的配置,可以满足各种复杂的分词需求。对于Java开发者而言,了解并掌握mmseg4j的使用,无疑能提升其在NLP领域的实践...
在com.chenlb.mmseg4j.analysis包里扩展lucene analyzer。 MMSegAnalyzer默认使用max-word方式分词(还有:ComplexAnalyzer, SimplexAnalyzer, MaxWordAnalyzer)。
**mmseg4j分词详解** 在中文信息处理领域,分词是文本分析的重要环节,它将连续的汉字序列划分为具有独立语义的词语,为后续的文本挖掘、搜索引擎索引、情感分析等任务奠定基础。mmseg4j是一款针对Java平台的高效...
**中文分词器mmseg4j详解** 在自然语言处理(NLP)领域,中文分词是基础且关键的一环。中文不同于英文,其词汇之间没有明显的边界,因此需要通过分词来识别句子中的词语。`mmseg4j`便是一款专为Java平台设计的高效...
本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及它们在实际应用中的效果评估。 首先,ansj分词器是由李弄潮开发的一款开源分词工具,它具有强大的词典支持和...
4. **配置schema.xml**:在Solr的schema.xml文件中,为需要进行分词的字段指定mmseg4j分词器。例如: ``` <fieldType name="text_mmseg" class="solr.TextField" positionIncrementGap="100"> ...
**friso中文分词1.6版**是一个开源的中文分词工具,它采用C语言编写,具有高效、模块化的特点。此版本1.6在先前的基础上进行了优化和改进,旨在提供更稳定、准确的中文分词服务。**mmseg算法**是friso的核心技术,该...
本篇文章将带你深入学习如何在Solr5中集成并使用MMSeg4J分词器,提升中文处理能力。 首先,我们来了解一下MMSeg4J。这是一个高效、灵活的Java实现的中文分词库,它采用了基于词频的动态最大匹配算法(MaxMatch),...
《mmseg4j在中文分词中的应用与详解》 mmseg4j是Java实现的中文分词库,广泛应用于搜索引擎、文本分析等领域。在Java社区中,它因其高效、灵活的特点而备受青睐。本篇文章将围绕mmseg4j的核心组件、功能特性以及在...
**mmseg4j 2.3 Jar包:Lucene中文分词器详解** 在中文信息处理领域,分词是至关重要的第一步,它涉及到文本的预处理、搜索索引的构建以及信息检索等多个环节。mmseg4j是一款针对Java平台设计的高效、灵活的中文分词...