mmseg4j 1.7 beta 版,主要改进分词速度。最大的变动是词库的数据结构改变了,改为key tree(键树)。有几点的性能改进:
- 要比较的词不从 char[] sen(代分词的句子) 里复制,直接与词库结构比较, 性能提升10%
- 用 key tree 的词库数据结构, 性能提升不少
- 用 key tree 里实现的 maxmatch, 同时返回所有相关词的长度(就不用从所有不同的词长去试匹配了), 性能提高很大
目前是用 HashMap 去实现 key tree的,固然内存开销增加,1.7 beta 版一个词库要 50M左右(15W词,有点多),之前的几个版都是10M左右。速度:simple 算法 1900kb/s左右;complex 算法 1200kb/s左右;max-word 模式 930kb/s左右。测试机(测试机:AMD athlon 64 2800+ 1G内存 xp)。
之前的版本都是 ArrayList<char[]> 存储词库,加二分查找。光查找就没有 key tree 快;再加上 key tree 一次最长匹配下去可以知道所有有效的不同词的长度,而二分查找做不到这一点(要所有不同词长去试匹配),这一点改进在我机子上速度提高了300-400kb/s。
目前用 HashMap 实现的 key tree 的缺点是:加载词库长一些,内存开销大。这些缺点换来了速度。
下载
mmseg4j-1.7-beta.jar,
源码
分享到:
相关推荐
《mmseg4j在Solr中的应用与实践》 在信息检索和文本处理领域,中文分词是至关重要的一步,它决定了文本理解的准确性。在Java环境下,mmseg4j是一个广泛使用的开源中文分词库,它为Java开发者提供了强大的中文处理...
《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...
《mmseg4j-solr全版本与配置详解》 在大数据时代,搜索引擎技术成为信息检索的关键工具。其中,Solr作为一款强大的开源全文搜索引擎,广泛应用于各类信息系统的搜索功能。而mmseg4j则是Solr中常用的中文分词组件,...
《mmseg4j:中文分词利器》 mmseg4j是一个专为Java设计的高效中文分词库,它的核心是基于"最小编辑距离"算法的分词方法,旨在提高中文文本处理的效率和准确性。在Java开发环境中,面对海量中文文本的处理,mmseg4j...
本人用的solr是4.10的,经过本人亲测可用,放心下载,包含以下3个jar包: mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar, mmseg4j-solr-2.2.0.jar
《mmseg4j在中文分词中的应用与详解》 mmseg4j是Java实现的中文分词库,广泛应用于搜索引擎、文本分析等领域。在Java社区中,它因其高效、灵活的特点而备受青睐。本篇文章将围绕mmseg4j的核心组件、功能特性以及在...
《mmseg4j-solr在搜索引擎优化中的应用与实现》 在当今信息化时代,搜索引擎已经成为获取信息的主要渠道。为了提升用户体验,搜索引擎需要提供精确、快速的搜索结果。在这个过程中,中文分词技术起着至关重要的作用...
《mmseg4j-1.9.1:中文分词技术的卓越实践》 在中文信息处理领域,分词是至关重要的第一步,它涉及到搜索引擎、文本挖掘、机器翻译等多个应用场景。mmseg4j是一个专门为Java设计的高效中文分词工具,它的出现极大地...
mmseg4j采用了多级分词策略,主要包括四种分词模式:精确模式、全模式、简模式和搜索引擎模式。这些模式可根据实际应用场景灵活选择,以平衡分词速度和准确性。 **3. Lucene集成** Lucene是Apache开源项目的一款高...
在Solr6中配置mmseg4j是为了实现中文分词,从而提升搜索效果。mmseg4j是基于Java的一个高性能中文分词库,它提供了多种分词算法,如最长匹配、最短路径等,以满足不同的分词需求。 首先,我们需要理解Solr6的基本...
本文将围绕"mmseg4j-all-with-dic-1.8.6-sources.jar"和"mmseg4j-all-with-dic-1.8.6.jar"这两个核心文件,详细解析mmseg4j的使用方法及其在Lucene中的应用。 首先,我们来看"mmseg4j-all-with-dic-1.8.6.jar"。这...
1. `mmseg4j-core-1.9.1.jar`:这是mmseg4j的核心库文件,包含了mmseg4j的主要分词算法和数据结构。该版本号1.9.1与标题中的版本相匹配,用于实现基本的中文分词功能。 2. `mmseg4j-analysis-1.9.2-SNAPSHOT.jar`:...
本文将详细介绍如何将mmseg4j最新版的jar文件完美地整合到Solr-5.3.0中,以实现更高效的中文分词功能。 首先,mmseg4j-solr-2.3.1-SNAPSHOT.jar和mmseg4j-core-1.10.1-SNAPSHOT.jar是mmseg4j的核心组件,分别提供了...
mmseg4j采用四向最大匹配算法(MaxMatch Four Direction),并结合了词典分词和统计分词,能够处理复杂多样的中文语境,提高分词的准确率。其1.10.0版本的`mmseg4j-core-1.10.0.jar`包含了mmseg4j的核心算法实现。 ...
**mmseg4j分词器详解** mmseg4j是一个基于Java实现的中文分词库,它主要用于将中文文本拆分成一...升级到修复bug的mmseg4j-analysis-1.9.1.jar,可以确保你的应用能够享受到最新的优化成果,避免因旧版bug导致的问题。
mmseg4j-core, 用于java中文分析器的mmseg4j核心 MMSEG <dependency> <groupId>com.chenlb.mmseg4j</groupId> <artifactId>mmseg4j-core</artif
mmseg4j-analysis修改版直接用
该压缩包包含`mmseg4j-solr-2.3.2.jar`和`mmseg4j-core-1.10.0.jar`,其中solr-2.3.2不是官方的版本,该版本有改动,使得mmseg4j可以很好的支持Solr6,如果你的Solr低于Solr6,请使用官方的mmseg4j-solr-2.3.0.jar...
**mmseg4j jar包** 是一个专门为Java开发的中文分词库,广泛应用于搜索引擎、文本分析、自然语言处理等领域。这个资源包适用于Solr5.3.1版本,表明它与Apache Solr的集成非常良好,使得用户可以方便地在Solr中实现...