`
chenlb
  • 浏览: 696472 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

mmseg4j 中文分词 1.6 版发布

阅读更多
经过几天的开发与调试,mmseg4j 1.6 版可以发布了。1.6 版主要实现与下功能:

  • 实现多分词,在complex基础上,把长的词(大于2)拆出多个词。按二元分词,且把不存在的词去了,如:“西伯利亚” -> "西|伯利|利亚","西伯" 不存在词库中;“中国人民银行”-> "中国|国人|人民|银行"
  • 支持多个词库文件,在词库目录中放"words"前缀且".dic"后缀的文件。如:data/words-my.dic
  • 单字的单位独立一个文件(data/units.dic, 已经放入jar包里),也可以自定义覆盖它。加单字的单位处理分词比较好点,如:“年”在units.dic文件中,“2008年中有很多事情” -> “2008|年|中有|很多|事情”,否则,就分成了“2008|年中|有|很多|事情”。这功能是试行,如果不喜欢它,可以空的units.dic文件覆盖它。


MMSegAnalyzer 和 MMSegTokenizerFactory 默认的分词方式改为max-word。当然你可以单独地使用SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer。

多分词的效果:
public void testEffect() throws IOException {   
    String words = segW.segWords("共和国", "|");   
    assertEquals("共和|国", words);   
}   
  
public void testEffect1() throws IOException {   
    String words = segW.segWords("中国人民银行", "|");   
    assertEquals("中国|国人|人民|银行", words);   
}   
  
public void testEffect2() throws IOException {   
    String words = segW.segWords("西伯利亚", "|");   
    assertEquals("西|伯利|利亚", words);   
}   
  
public void testEffect3() throws IOException {   
    String words = segW.segWords("中华人民共和国", "|");   
    assertEquals("中华|华人|人民|共和|国", words);   
}   
  
public void testEffect4() throws IOException {   
    String words = segW.segWords("羽毛球拍", "|");   
    assertEquals("羽毛|球拍", words);   
}   
  
public void testEffect6() throws IOException {   
    String words = segW.segWords("为什么", "|");   
    assertEquals("为|什么", words);   
}   
  
public void testEffect7() throws IOException {   
    String words = segW.segWords("很好听", "|");   
    assertEquals("很好|好听", words);   
}   
  
public void testEffect8() throws IOException {   
    String words = segW.segWords("强冷空气", "|");   
    assertEquals("强|冷|空气", words);   
}   
public void testEffect10() throws IOException {   
    String words = segW.segWords("清华大学", "|");   
    assertEquals("清华|大学", words);   
}   
  
public void testEffect11() throws IOException {   
    String words = segW.segWords("华南理工大学", "|");   
    assertEquals("华南|理工|工大|大学", words);   
}   
  
public void testEffect12() throws IOException {   
    String words = segW.segWords("广东工业大学", "|");   
    assertEquals("广东|工业|大学", words);   
}  


solr 中使用
<fieldType name="textMaxWord" class="solr.TextField" >  
     <analyzer>  
       <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>  
     </analyzer>  
</fieldType> 


google code 已经提供下载。

分享到:
评论
2 楼 chenlb 2009-04-13  
johnnyhg 写道

能够跟paoding做一个比较的说明帖子?期待!



http://chenlb.iteye.com/blog/366361
1 楼 johnnyhg 2009-04-07  
能够跟paoding做一个比较的说明帖子?期待!

相关推荐

    solr mmseg4j 中文分词器

    mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传

    MMseg4j中文分词词库

    文件名"dic"很可能代表“dictionary”(词典),这是MMseg4j分词器需要的核心组件。词典文件通常包含了词的列表,每个词后面可能跟着对应的词频或其他属性,用于优化分词算法。在实际使用时,用户可以根据需要选择...

    兼容solr4.10.3的mmseg4j-1.9.1分词器

    "兼容solr4.10.3的mmseg4j-1.9.1分词器" 这个标题表明我们正在讨论的是一个针对Solr 4.10.3版本优化的mmseg4j分词器,版本号为1.9.1。mmseg4j是一款广泛使用的Java实现的中文分词库,它提供了高效且精准的中文分词...

    mmseg4j中文分词器

    **mmseg4j中文分词器** mmseg4j是一个基于Java实现的高效、灵活的中文分词工具,主要用于处理中文文本的分词任务。它借鉴了MaxEnt(最大熵模型)和MMSeg算法,提供了高效且准确的中文分词效果。在处理大量中文文本...

    mmseg4j分词器jar包

    **mmseg4j分词器** 是一个专为Java平台设计的中文分词库,它在中文信息处理领域中扮演着重要的角色。该库的主要功能是将连续的汉字序列分割成具有语义意义的词语,这是自然语言处理(NLP)中的基础任务,对搜索引擎...

    mmseg4j-1.9.1 分词器 包含修复bug的mmseg4j-analysis-1.9.1.jar

    **mmseg4j分词器详解** mmseg4j是一个基于Java实现的中文分词库,它主要用于将中文文本拆分成一系列的词语,是信息检索、自然语言处理、搜索引擎等领域的基础工具。在1.9.1版本中,开发者对原有的功能进行了优化,...

    mmseg4j1.8.4分词工具

    mmseg4j1.8.4分词工具,可以方便的集成在lucene后者solr中。

    mmseg4j-solr全版本及配置

    而mmseg4j则是Solr中常用的中文分词组件,它能够高效地对中文文本进行分词处理。本文将深入探讨mmseg4j-solr的各个版本及其配置,旨在帮助开发者更好地理解和应用这一技术。 首先,我们需要理解mmseg4j-solr的核心...

    mmseg4j-solr-2.4.0.jar

    而mmseg4j-solr-2.4.0.jar是mmseg4j分词库的Solr插件版本,专为Solr设计,使得开发者可以方便地将mmseg4j的分词功能集成到Solr中,以提升搜索性能和精确度。 在Solr 6.3版本下,要使用mmseg4j-solr-2.4.0.jar,首先...

    mmseg4j-solr-2.1.0-with-mmseg4j-core.zip

    《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...

    mmseg4j分词器,内含词库

    综上所述,mmseg4j分词器以其高效、灵活的特性,在处理中文文本时表现出色。配合合适的词库和合理的配置,可以满足各种复杂的分词需求。对于Java开发者而言,了解并掌握mmseg4j的使用,无疑能提升其在NLP领域的实践...

    mmseg4j分词器

    在com.chenlb.mmseg4j.analysis包里扩展lucene analyzer。 MMSegAnalyzer默认使用max-word方式分词(还有:ComplexAnalyzer, SimplexAnalyzer, MaxWordAnalyzer)。

    mmseg4j分词

    **mmseg4j分词详解** 在中文信息处理领域,分词是文本分析的重要环节,它将连续的汉字序列划分为具有独立语义的词语,为后续的文本挖掘、搜索引擎索引、情感分析等任务奠定基础。mmseg4j是一款针对Java平台的高效...

    mmseg4j1.9.1.zip 中文分词器

    **中文分词器mmseg4j详解** 在自然语言处理(NLP)领域,中文分词是基础且关键的一环。中文不同于英文,其词汇之间没有明显的边界,因此需要通过分词来识别句子中的词语。`mmseg4j`便是一款专为Java平台设计的高效...

    word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

    本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及它们在实际应用中的效果评估。 首先,ansj分词器是由李弄潮开发的一款开源分词工具,它具有强大的词典支持和...

    solr6配置mmseg4j

    4. **配置schema.xml**:在Solr的schema.xml文件中,为需要进行分词的字段指定mmseg4j分词器。例如: ``` &lt;fieldType name="text_mmseg" class="solr.TextField" positionIncrementGap="100"&gt; ...

    friso中文分词1.6版

    **friso中文分词1.6版**是一个开源的中文分词工具,它采用C语言编写,具有高效、模块化的特点。此版本1.6在先前的基础上进行了优化和改进,旨在提供更稳定、准确的中文分词服务。**mmseg算法**是friso的核心技术,该...

    跟益达学Solr5之使用MMSeg4J分词器

    本篇文章将带你深入学习如何在Solr5中集成并使用MMSeg4J分词器,提升中文处理能力。 首先,我们来了解一下MMSeg4J。这是一个高效、灵活的Java实现的中文分词库,它采用了基于词频的动态最大匹配算法(MaxMatch),...

    mmseg4j.jar

    《mmseg4j在中文分词中的应用与详解》 mmseg4j是Java实现的中文分词库,广泛应用于搜索引擎、文本分析等领域。在Java社区中,它因其高效、灵活的特点而备受青睐。本篇文章将围绕mmseg4j的核心组件、功能特性以及在...

    mmseg4j 2.3 jar包

    **mmseg4j 2.3 Jar包:Lucene中文分词器详解** 在中文信息处理领域,分词是至关重要的第一步,它涉及到文本的预处理、搜索索引的构建以及信息检索等多个环节。mmseg4j是一款针对Java平台设计的高效、灵活的中文分词...

Global site tag (gtag.js) - Google Analytics