mmseg4j 是用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器。并实现了 lucene 的 analyzer 和 solr 的 TokenizerFactory 以方便在 Lucene 和 Solr 中使用。
对 lucene 来说 ,mmseg4j 有以下四个 analyzer:SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer、MMSegAnalyzer。前面三个都是继承 MMSegAnalyzer,MMSegAnalyzer 默认使用 max-word 方式分词。
词库文件
data/chars.dic 是单字与语料中的频率,一般不用改动,mmseg4j 1.5版本后已经加到mmseg4j的jar里了,我们不需要关心它,当然你在词库目录放这个文件可以覆盖它。
data/units.dic 是单字的单位,默认读jar包里的,你也可以自定义覆盖它,这功能是试行,如果不喜欢它,可以空的units.dic文件(放到你的词库目录下)覆盖它。
相关博客:
http://www.cnblogs.com/ghj1976/archive/2010/05/14/1735627.html
http://www.oschina.net/p/mmseg4j
http://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zip
词库文件:
data/words.dic 是词库文件,一行一词,当然你也可以使用自己的,1.5版本使用 sogou 词库,1.0的版本是用 rmmseg 带的词库。 一般我们使用这个作为系统自带词库。分词效果当然还与词库有关,sogou 的词库是统计得出,有些高频的单字组合也成了词,如“我们的”。如果还要提高 mmseg4j 的分词效果,还要在整理下词库。
data/wordsxxx.dic 1.6版支持多个词库文件,data 目录(或你定义的目录)下读到"words"前缀且".dic"为后缀的文件。如:data/words-my.dic。 一般我们在这里里面,把这个当成我们自身特色的词库。
停止词
mmseg4j 没有加任何 stopword,如果需要 stopword ,需要用户自己实现。作者认为:这东西留给使用者自己加,因为作者不认为加 stopword 是好的方法。如音乐搜索,给加上 the,this……,还能找到歌曲?
分词例 子结果:
京华时报1月23日报道 昨 天,受一股来自中西伯利亚的强冷空气影响,本市出现大风降温天气,白天最高气温只有零下7摄氏度,同时伴有6到7级的偏北风。
SimpleAnalyzer: 京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中西|伯|利|亚|的|强|冷空气|影响|本市|出现|大风|降温|天气|白天|最高气温|只有|零下|7|摄氏度|同时|伴有|6|到|7|级|的|偏|北风|
ComplexAnalyzer: 京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中|西伯利亚|的|强|冷空气|影响|本市|出现|大风|降温|天气|白天|最高气温|只有|零下|7|摄氏度|同时|伴有|6|到|7|级|的|偏|北风|
MaxWordAnalyzer: 京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中|西|伯|利|亚|的|强|冷|空气|影响|本市|出现|大风|降温|天气|白天|最高|气温|只有|零下|7|摄氏|度|同时|伴有|6|到|7|级|的|偏|北风|
MMSegAnalyzer: 京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中|西|伯|利|亚|的|强|冷|空气|影响|本市|出现|大风|降温|天气|白天|最高|气温|只有|零下|7|摄氏|度|同时|伴有|6|到|7|级|的|偏|北风|
在春季,地球的北半球开始倾向太阳,受到越来越多的太阳光直射,因而气温开始升高。随着冰雪消融,河流水位上涨。
SimpleAnalyzer 在春季|地球|的|北半球|开始|倾向|太阳|受到|越来越多|的|太阳光|直射|因而|气温|开始|升高|随着|冰雪消融|河流|水位|上涨|
ComplexAnalyzer 在春季|地球|的|北半球|开始|倾向|太阳|受到|越来越|多的|太阳光|直射|因而|气温|开始|升高|随着|冰雪消融|河流|水位|上涨|
MaxWordAnalyzer 在|春季|地球|的|北|半球|开始|倾向|太阳|受到|越来|越|多的|太阳|阳光|直射|因而|气温|开始|升高|随着|冰雪|消融|河流|水位|上涨|
MMSegAnalyzer 在|春季|地球|的|北|半球|开始|倾向|太阳|受到|越来|越|多的|太阳|阳光|直射|因而|气温|开始|升高|随着|冰雪|消融|河流|水位|上涨|
分享到:
相关推荐
### Solr中的MMSeg4J中文分词器安装与配置详解 #### 一、MMSeg4J简介 MMSeg4J是一款高效的Java实现的中文分词工具包,它基于统计和规则混合的方法来处理中文文本的分词问题。在搜索引擎如Solr中,通过集成MMSeg4J...
本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及它们在实际应用中的效果评估。 首先,ansj分词器是由李弄潮开发的一款开源分词工具,它具有强大的词典支持和...
在com.chenlb.mmseg4j.analysis包里扩展lucene analyzer。 MMSegAnalyzer默认使用max-word方式分词(还有:ComplexAnalyzer, SimplexAnalyzer, MaxWordAnalyzer)。
**meseg4j 分词技术详解** meseg4j 是一个专门为Java开发的中文分词库,它在信息检索、自然语言处理以及文本分析等领域有着广泛的应用。meseg4j 主要是在Lucene的基础上进行了扩展,增加了对中文分词的支持,以解决...
**mmseg4j分词器** 是一个专为Java平台设计的中文分词库,它在中文信息处理领域中扮演着重要的角色。该库的主要功能是将连续的汉字序列分割成具有语义意义的词语,这是自然语言处理(NLP)中的基础任务,对搜索引擎...
最好的中分分词工具ictclas 最好的中分分词工具ictclas 最好的中分分词工具ictclas
1. **高效性**:mmseg4j采用四向图最大匹配算法(Four-Directional Maximum Matching, 4DMM),该算法可以在保证分词精度的同时,提高分词速度。它通过向前、向后、向左、向右四个方向查找最长匹配,从而快速找到...
"兼容solr4.10.3的mmseg4j-1.9.1分词器" 这个标题表明我们正在讨论的是一个针对Solr 4.10.3版本优化的mmseg4j分词器,版本号为1.9.1。mmseg4j是一款广泛使用的Java实现的中文分词库,它提供了高效且精准的中文分词...
《Solr5与MMSeg4J分词器深度解析》 在中文信息检索和文本分析领域,分词是至关重要的第一步。Solr,作为一款强大的开源全文搜索引擎,提供了多种分词器供用户选择,其中之一就是MMSeg4J。本篇文章将带你深入学习...
**mmseg4j分词器详解** mmseg4j是一个基于Java实现的中文分词工具,它在中文信息处理领域有着广泛的应用。该工具的主要功能是将连续的汉字序列分割成具有语义的词语,这一过程称为分词。在中文自然语言处理(NLP)...
本代码用java实现了分词功能,包括分词和词性标注,里面有具体的说明文档,包括数据结构的设计,分词步骤,分词系统研究等。
mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传
4. **修复BUG**:针对MMESG 1.9.1的BUG,查看修复文档或代码,理解问题所在,然后根据修复方案对源码进行相应修改,重新编译并替换旧的jar包。 5. **测试与验证**:启动Solr服务器,向新创建的核心`mmesg_core`中...
《MMseg4j中文分词词库:深入理解与应用》 在中文信息处理领域,分词是文本分析的基础步骤,它将连续的汉字序列分割成具有语义的词汇单元。MMseg4j是一个广泛应用于Java环境中的中文分词工具,它以其高效、灵活和...
基于Lucene的中文分词包,ictclas4j的最新发布,已经打包成jar包。
**mmseg4j分词器详解** mmseg4j是一个基于Java实现的中文分词库,它主要用于将中文文本拆分成一系列的词语,是信息检索、自然语言处理、搜索引擎等领域的基础工具。在1.9.1版本中,开发者对原有的功能进行了优化,...
**mmseg4j中文分词器** mmseg4j是一个基于Java实现的高效、灵活的中文分词工具,主要用于处理中文文本的分词任务。它借鉴了MaxEnt(最大熵模型)和MMSeg算法,提供了高效且准确的中文分词效果。在处理大量中文文本...
**中文分词器mmseg4j详解** 在自然语言处理(NLP)领域,中文分词是基础且关键的一环。中文不同于英文,其词汇之间没有明显的边界,因此需要通过分词来识别句子中的词语。`mmseg4j`便是一款专为Java平台设计的高效...
NULL 博文链接:https://lionsadness.iteye.com/blog/689910
标题中的“拼音分词 Pinyin4j+pinyinAnalyzer+lucene-analyzers”指的是这个压缩包包含的三个核心组件,它们都是在处理中文文本时非常重要的工具。Pinyin4j是一个Java库,主要用于将汉字转换为拼音,这对于进行基于...