`
chenlb
  • 浏览: 695563 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

mmseg4j 中文分词 1.5 版发布

阅读更多
经过几天的开发与调试,新版的 mmseg4j 可以发布了。定为1.5版,是因为变动比较大。

mmseg4j 1.5变更:

  • 使用 sogou 词库,是从 http://www.sogou.com/labs/dl/w.html ,下载的,然后转换下(一行一词)。
  • 把chars.dic文件放到jar里, 我们不需要关心它,当然你在词库目录放这个文件可能覆盖它。
  • 最长匹配遍历调整(基本不受长词的影响)
  • 优化了程序,除去没有必要的数组复制等,性能提升40%
  • ant 在jdk 1.5 下也可以编译(上一版本用了Collections二分查找)

说明:

1、sogou 词库,不是用官方的文件,因为官方的文件有词频等信息,加载比较慢。就把这些信息去了,转换了下,一行一词,并且转换为UTF-8的文件,目前sogou词库有15W多。

2、把上一个版本的 chars.dic 文件隐藏在jar里,这个文件我们基本不需要关心的。如果想自定义,可以修改并把它放到词库目录中覆盖默认的。

3、1.5版做了一些优化,mmseg4j-1.5 版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右,(测试机:AMD athlon 64 2800+ 1G内存 xp)。经测试是 complex 比IK, MIK, je要快,没 paoding快(900Kb/s左右),simple方式比paoding快。

4、其它:词库默认在./data目录下的words.dic文件,也可以指定其它目录,如

Analyzer analyzer = new ComplexAnalyzer("./sogou");
 


5、solr中的使用方式没变,请看:中文分词 mmseg4j

mmseg4j 可以到 google code下载。

分享到:
评论

相关推荐

    solr mmseg4j 中文分词器

    mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传

    MMseg4j中文分词词库

    文件名"dic"很可能代表“dictionary”(词典),这是MMseg4j分词器需要的核心组件。词典文件通常包含了词的列表,每个词后面可能跟着对应的词频或其他属性,用于优化分词算法。在实际使用时,用户可以根据需要选择...

    兼容solr4.10.3的mmseg4j-1.9.1分词器

    "兼容solr4.10.3的mmseg4j-1.9.1分词器" 这个标题表明我们正在讨论的是一个针对Solr 4.10.3版本优化的mmseg4j分词器,版本号为1.9.1。mmseg4j是一款广泛使用的Java实现的中文分词库,它提供了高效且精准的中文分词...

    mmseg4j中文分词器

    **mmseg4j中文分词器** mmseg4j是一个基于Java实现的高效、灵活的中文分词工具,主要用于处理中文文本的分词任务。它借鉴了MaxEnt(最大熵模型)和MMSeg算法,提供了高效且准确的中文分词效果。在处理大量中文文本...

    mmseg4j分词器jar包

    **mmseg4j分词器** 是一个专为Java平台设计的中文分词库,它在中文信息处理领域中扮演着重要的角色。该库的主要功能是将连续的汉字序列分割成具有语义意义的词语,这是自然语言处理(NLP)中的基础任务,对搜索引擎...

    mmseg4j-1.9.1 分词器 包含修复bug的mmseg4j-analysis-1.9.1.jar

    **mmseg4j分词器详解** mmseg4j是一个基于Java实现的中文分词库,它主要用于将中文文本拆分成一系列的词语,是信息检索、自然语言处理、搜索引擎等领域的基础工具。在1.9.1版本中,开发者对原有的功能进行了优化,...

    mmseg4j1.8.4分词工具

    mmseg4j1.8.4分词工具,可以方便的集成在lucene后者solr中。

    mmseg4j-solr全版本及配置

    而mmseg4j则是Solr中常用的中文分词组件,它能够高效地对中文文本进行分词处理。本文将深入探讨mmseg4j-solr的各个版本及其配置,旨在帮助开发者更好地理解和应用这一技术。 首先,我们需要理解mmseg4j-solr的核心...

    mmseg4j-solr-2.4.0.jar

    而mmseg4j-solr-2.4.0.jar是mmseg4j分词库的Solr插件版本,专为Solr设计,使得开发者可以方便地将mmseg4j的分词功能集成到Solr中,以提升搜索性能和精确度。 在Solr 6.3版本下,要使用mmseg4j-solr-2.4.0.jar,首先...

    mmseg4j-solr-2.1.0-with-mmseg4j-core.zip

    《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...

    mmseg4j分词器

    在com.chenlb.mmseg4j.analysis包里扩展lucene analyzer。 MMSegAnalyzer默认使用max-word方式分词(还有:ComplexAnalyzer, SimplexAnalyzer, MaxWordAnalyzer)。

    mmseg4j分词器,内含词库

    综上所述,mmseg4j分词器以其高效、灵活的特性,在处理中文文本时表现出色。配合合适的词库和合理的配置,可以满足各种复杂的分词需求。对于Java开发者而言,了解并掌握mmseg4j的使用,无疑能提升其在NLP领域的实践...

    mmseg4j分词

    **mmseg4j分词详解** 在中文信息处理领域,分词是文本分析的重要环节,它将连续的汉字序列划分为具有独立语义的词语,为后续的文本挖掘、搜索引擎索引、情感分析等任务奠定基础。mmseg4j是一款针对Java平台的高效...

    mmseg4j1.9.1.zip 中文分词器

    **中文分词器mmseg4j详解** 在自然语言处理(NLP)领域,中文分词是基础且关键的一环。中文不同于英文,其词汇之间没有明显的边界,因此需要通过分词来识别句子中的词语。`mmseg4j`便是一款专为Java平台设计的高效...

    word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

    本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及它们在实际应用中的效果评估。 首先,ansj分词器是由李弄潮开发的一款开源分词工具,它具有强大的词典支持和...

    solr6配置mmseg4j

    4. **配置schema.xml**:在Solr的schema.xml文件中,为需要进行分词的字段指定mmseg4j分词器。例如: ``` <fieldType name="text_mmseg" class="solr.TextField" positionIncrementGap="100"> ...

    mmseg4j.jar

    《mmseg4j在中文分词中的应用与详解》 mmseg4j是Java实现的中文分词库,广泛应用于搜索引擎、文本分析等领域。在Java社区中,它因其高效、灵活的特点而备受青睐。本篇文章将围绕mmseg4j的核心组件、功能特性以及在...

    跟益达学Solr5之使用MMSeg4J分词器

    本篇文章将带你深入学习如何在Solr5中集成并使用MMSeg4J分词器,提升中文处理能力。 首先,我们来了解一下MMSeg4J。这是一个高效、灵活的Java实现的中文分词库,它采用了基于词频的动态最大匹配算法(MaxMatch),...

    mmseg4j 2.3 jar包

    **mmseg4j 2.3 Jar包:Lucene中文分词器详解** 在中文信息处理领域,分词是至关重要的第一步,它涉及到文本的预处理、搜索索引的构建以及信息检索等多个环节。mmseg4j是一款针对Java平台设计的高效、灵活的中文分词...

    mmseg4j\mmseg4j-1.8.5.zip

    《mmseg4j:中文分词利器》 mmseg4j是一个专为Java设计的高效中文分词库,它的核心是基于"最小编辑距离"算法的分词方法,旨在提高中文文本处理的效率和准确性。在Java开发环境中,面对海量中文文本的处理,mmseg4j...

Global site tag (gtag.js) - Google Analytics