`
chenlb
  • 浏览: 696467 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

mmseg4j 分词速度

阅读更多
看一下 mmseg4j 的分词速度如何,下载了两篇长篇小说共2.5M左右,可以到 http://mmseg4j.googlecode.com/files/txt.zip。2.5M的数据,用Complex模式是 5.3秒左右,不知是快还是慢(因为没有对比),Simple 模式用了2.9秒。(AMD athlon 64 2800+ 1G内存 xp)

以上数据是在 eclipse 上运行

代码有两个版本:用Analyzer方式的和不依赖Lucene Analyzer方式的,前者比较简洁

可以到 svn 上看:http://mmseg4j.googlecode.com/svn/trunk/example/com/chenlb/mmseg4j/example/,源码。


命令行运行, txt 是*.txt 的目录:
M:\eclipse 3.3.2\workspace\mmseg4j>java -cp bin -Djava.ext.dirs=lib com.chenlb.mmseg4j.example.PerformanceAnalyzer txt

load dic use time=859ms
use 4921ms

simple 模式
M:\eclipse 3.3.2\workspace\mmseg4j>java -cp bin -Djava.ext.dirs=lib -Dmode=simple com.chenlb.mmseg4j.example.PerformanceAnalyzer txt

load dic use time=547ms
use 2421ms

mmseg4j 项目地址 http://code.google.com/p/mmseg4j/
3
1
分享到:
评论

相关推荐

    mmseg4j分词器jar包

    **mmseg4j分词器** 是一个专为Java平台设计的中文分词库,它在中文信息处理领域中扮演着重要的角色。该库的主要功能是将连续的汉字序列分割成具有语义意义的词语,这是自然语言处理(NLP)中的基础任务,对搜索引擎...

    跟益达学Solr5之使用MMSeg4J分词器

    《Solr5与MMSeg4J分词器深度解析》 在中文信息检索和文本分析领域,分词是至关重要的第一步。Solr,作为一款强大的开源全文搜索引擎,提供了多种分词器供用户选择,其中之一就是MMSeg4J。本篇文章将带你深入学习...

    兼容solr4.10.3的mmseg4j-1.9.1分词器

    "兼容solr4.10.3的mmseg4j-1.9.1分词器" 这个标题表明我们正在讨论的是一个针对Solr 4.10.3版本优化的mmseg4j分词器,版本号为1.9.1。mmseg4j是一款广泛使用的Java实现的中文分词库,它提供了高效且精准的中文分词...

    mmseg4j分词

    1. **高效性**:mmseg4j采用四向图最大匹配算法(Four-Directional Maximum Matching, 4DMM),该算法可以在保证分词精度的同时,提高分词速度。它通过向前、向后、向左、向右四个方向查找最长匹配,从而快速找到...

    word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

    本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及它们在实际应用中的效果评估。 首先,ansj分词器是由李弄潮开发的一款开源分词工具,它具有强大的词典支持和...

    mmseg4j-solr-2.1.0-with-mmseg4j-core.zip

    《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...

    mmseg4j-1.9.1 分词器 包含修复bug的mmseg4j-analysis-1.9.1.jar

    **mmseg4j分词器详解** mmseg4j是一个基于Java实现的中文分词库,它主要用于将中文文本拆分成一系列的词语,是信息检索、自然语言处理、搜索引擎等领域的基础工具。在1.9.1版本中,开发者对原有的功能进行了优化,...

    mmseg4j-solr-2.4.0.jar

    而mmseg4j-solr-2.4.0.jar是mmseg4j分词库的Solr插件版本,专为Solr设计,使得开发者可以方便地将mmseg4j的分词功能集成到Solr中,以提升搜索性能和精确度。 在Solr 6.3版本下,要使用mmseg4j-solr-2.4.0.jar,首先...

    mmseg4j-solr-mmseg4j-solr-2.2.0.zip

    5. **性能监控**:在系统运行过程中,可以通过Solr的监控工具,观察mmseg4j-solr的性能指标,如分词速度、内存占用等,以便及时调整优化。 总的来说,mmseg4j-solr-2.2.0是Solr中一个强大的中文处理工具,它通过...

    mmseg4j\mmseg4j-1.8.5.zip

    mmseg4j的优势在于其高效的分词速度和较高的准确率。通过动态构建词典,它能适应不同领域的文本处理需求。此外,它还支持自定义词典,允许用户根据具体应用场景添加或修改词汇,增强了灵活性。 总的来说,mmseg4j是...

    mmseg4j1.9.1.zip 中文分词器

    1. **高效性**:`mmseg4j`采用了基于动态规划的MaxMatch(MM)算法,该算法能够在保证分词精度的同时,提高分词速度,降低了时间复杂度。 2. **灵活性**:支持自定义词典,用户可以根据实际需求添加或修改词典,以...

    mmseg4j 2.3 jar包

    mmseg4j采用了多级分词策略,主要包括四种分词模式:精确模式、全模式、简模式和搜索引擎模式。这些模式可根据实际应用场景灵活选择,以平衡分词速度和准确性。 **3. Lucene集成** Lucene是Apache开源项目的一款高...

    mmseg4j-1.9.1

    在1.9.1版本中,开发者对算法进行了优化,使得分词速度更快,同时减少了歧义分词的情况,提高了整体的分词质量。 mmseg4j-1.9.1包含了丰富的词典资源,这是其高准确率的基础。词典中不仅包含了常见的汉字词汇,还...

    mmseg4j-all-with-dic-1.8.6-sources.jar和mmseg4j-all-with-dic-1.8.6.jar

    《mmseg4j在Lucene中文分词中的应用与实现》 在中文信息处理领域,分词是至关重要的一步,它决定了后续文本分析的准确性和效率。mmseg4j是Java环境下广泛使用的中文分词库,尤其在搜索引擎构建和文本挖掘中发挥着...

    mmseg4j中文分词器

    1. **高性能**:mmseg4j采用了高效的内存管理和算法优化,使得在处理大规模文本时速度较快。 2. **灵活性**:支持自定义词典和动态添加词典,可以根据实际需求定制分词结果。 3. **歧义处理**:通过动态规划算法,...

    mmseg4j jar包

    4. **高效性能**:mmseg4j库优化了算法,使其在处理大量文本时具有较高的运行速度,同时保持了较高的分词准确性。 5. **与Solr的无缝集成**:在Solr5.3.1中可以直接使用mmseg4j,意味着它已经考虑到了搜索引擎的...

    lucene整合mmseg4j实例和项目实例

    1. 性能优化:根据实际场景,可以调整MMSEG4J的参数,如最长词语长度,以平衡分词精度和速度。 2. 增强功能:可以结合其他技术,如Sharding、Solr或Elasticsearch,提高搜索性能和可扩展性。 3. 自定义分词:在必要...

    mmseg4j-1.9.1.v20130120-SNAPSHOT

    1. **高效性**:mmseg4j通过优化的数据结构和算法,实现了较高的分词速度,降低了内存占用,使得大规模文本处理成为可能。 2. **灵活性**:支持自定义词典,用户可以根据需求添加或修改词库,以适应特定领域的分词...

    mmseg4j-1.6.2.zip

    它能有效处理歧义分词,提高分词的准确性,并且具备较高的分词速度。 在**mmseg4j-1.6.2** 中,可能包含以下组件: 1. **源代码**:提供了项目的完整源代码,便于开发者理解内部工作原理,以及根据需求进行定制和...

Global site tag (gtag.js) - Google Analytics