`
leiwuluan
  • 浏览: 706929 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类

MMesg4j 分词

 
阅读更多

mmseg4j 是用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器。并实现了 lucene 的 analyzer 和 solr 的 TokenizerFactory 以方便在 Lucene 和 Solr 中使用。

对 lucene  来说 ,mmseg4j 有以下四个 analyzer:SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer、MMSegAnalyzer。前面三个都是继承 MMSegAnalyzer,MMSegAnalyzer 默认使用 max-word 方式分词。


词库文件
    data/chars.dic 是单字与语料中的频率,一般不用改动,mmseg4j 1.5版本后已经加到mmseg4j的jar里了,我们不需要关心它,当然你在词库目录放这个文件可以覆盖它。
    data/units.dic 是单字的单位,默认读jar包里的,你也可以自定义覆盖它,这功能是试行,如果不喜欢它,可以空的units.dic文件(放到你的词库目录下)覆盖它。

相关博客:

http://www.cnblogs.com/ghj1976/archive/2010/05/14/1735627.html

 

http://www.oschina.net/p/mmseg4j

 

http://mmseg4j.googlecode.com/files/mmseg4j-1.8.5.zip

 

词库文件:
    data/words.dic 是词库文件,一行一词,当然你也可以使用自己的,1.5版本使用 sogou 词库,1.0的版本是用 rmmseg 带的词库。 一般我们使用这个作为系统自带词库。分词效果当然还与词库有关,sogou 的词库是统计得出,有些高频的单字组合也成了词,如“我们的”。如果还要提高 mmseg4j 的分词效果,还要在整理下词库。
    data/wordsxxx.dic 1.6版支持多个词库文件,data 目录(或你定义的目录)下读到"words"前缀且".dic"为后缀的文件。如:data/words-my.dic。 一般我们在这里里面,把这个当成我们自身特色的词库。

停止词

    mmseg4j 没有加任何 stopword,如果需要 stopword  ,需要用户自己实现。作者认为:这东西留给使用者自己加,因为作者不认为加 stopword 是好的方法。如音乐搜索,给加上 the,this……,还能找到歌曲?

 

 

分词例 子结果:


 
京华时报1月23日报道 昨 天,受一股来自中西伯利亚的强冷空气影响,本市出现大风降温天气,白天最高气温只有零下7摄氏度,同时伴有6到7级的偏北风。


SimpleAnalyzer:		京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中西|伯|利|亚|的|强|冷空气|影响|本市|出现|大风|降温|天气|白天|最高气温|只有|零下|7|摄氏度|同时|伴有|6|到|7|级|的|偏|北风|
ComplexAnalyzer:	京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中|西伯利亚|的|强|冷空气|影响|本市|出现|大风|降温|天气|白天|最高气温|只有|零下|7|摄氏度|同时|伴有|6|到|7|级|的|偏|北风|
MaxWordAnalyzer:	京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中|西|伯|利|亚|的|强|冷|空气|影响|本市|出现|大风|降温|天气|白天|最高|气温|只有|零下|7|摄氏|度|同时|伴有|6|到|7|级|的|偏|北风|
MMSegAnalyzer:		京华|时报|1|月|23|日|报道|昨|天|受|一股|来自|中|西|伯|利|亚|的|强|冷|空气|影响|本市|出现|大风|降温|天气|白天|最高|气温|只有|零下|7|摄氏|度|同时|伴有|6|到|7|级|的|偏|北风|


在春季,地球的北半球开始倾向太阳,受到越来越多的太阳光直射,因而气温开始升高。随着冰雪消融,河流水位上涨。
SimpleAnalyzer	在春季|地球|的|北半球|开始|倾向|太阳|受到|越来越多|的|太阳光|直射|因而|气温|开始|升高|随着|冰雪消融|河流|水位|上涨|
ComplexAnalyzer	在春季|地球|的|北半球|开始|倾向|太阳|受到|越来越|多的|太阳光|直射|因而|气温|开始|升高|随着|冰雪消融|河流|水位|上涨|
MaxWordAnalyzer	在|春季|地球|的|北|半球|开始|倾向|太阳|受到|越来|越|多的|太阳|阳光|直射|因而|气温|开始|升高|随着|冰雪|消融|河流|水位|上涨|
MMSegAnalyzer	在|春季|地球|的|北|半球|开始|倾向|太阳|受到|越来|越|多的|太阳|阳光|直射|因而|气温|开始|升高|随着|冰雪|消融|河流|水位|上涨|

 

 

 

分享到:
评论

相关推荐

    solr中的mmesg4j中文分词器安装

    ### Solr中的MMSeg4J中文分词器安装与配置详解 #### 一、MMSeg4J简介 MMSeg4J是一款高效的Java实现的中文分词工具包,它基于统计和规则混合的方法来处理中文文本的分词问题。在搜索引擎如Solr中,通过集成MMSeg4J...

    word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

    本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及它们在实际应用中的效果评估。 首先,ansj分词器是由李弄潮开发的一款开源分词工具,它具有强大的词典支持和...

    mmseg4j分词器

    在com.chenlb.mmseg4j.analysis包里扩展lucene analyzer。 MMSegAnalyzer默认使用max-word方式分词(还有:ComplexAnalyzer, SimplexAnalyzer, MaxWordAnalyzer)。

    meseg4j分词技术

    **meseg4j 分词技术详解** meseg4j 是一个专门为Java开发的中文分词库,它在信息检索、自然语言处理以及文本分析等领域有着广泛的应用。meseg4j 主要是在Lucene的基础上进行了扩展,增加了对中文分词的支持,以解决...

    mmseg4j分词器jar包

    **mmseg4j分词器** 是一个专为Java平台设计的中文分词库,它在中文信息处理领域中扮演着重要的角色。该库的主要功能是将连续的汉字序列分割成具有语义意义的词语,这是自然语言处理(NLP)中的基础任务,对搜索引擎...

    ictclas4j分词工具包

    最好的中分分词工具ictclas 最好的中分分词工具ictclas 最好的中分分词工具ictclas

    mmseg4j分词

    1. **高效性**:mmseg4j采用四向图最大匹配算法(Four-Directional Maximum Matching, 4DMM),该算法可以在保证分词精度的同时,提高分词速度。它通过向前、向后、向左、向右四个方向查找最长匹配,从而快速找到...

    兼容solr4.10.3的mmseg4j-1.9.1分词器

    "兼容solr4.10.3的mmseg4j-1.9.1分词器" 这个标题表明我们正在讨论的是一个针对Solr 4.10.3版本优化的mmseg4j分词器,版本号为1.9.1。mmseg4j是一款广泛使用的Java实现的中文分词库,它提供了高效且精准的中文分词...

    跟益达学Solr5之使用MMSeg4J分词器

    《Solr5与MMSeg4J分词器深度解析》 在中文信息检索和文本分析领域,分词是至关重要的第一步。Solr,作为一款强大的开源全文搜索引擎,提供了多种分词器供用户选择,其中之一就是MMSeg4J。本篇文章将带你深入学习...

    mmseg4j分词器,内含词库

    **mmseg4j分词器详解** mmseg4j是一个基于Java实现的中文分词工具,它在中文信息处理领域有着广泛的应用。该工具的主要功能是将连续的汉字序列分割成具有语义的词语,这一过程称为分词。在中文自然语言处理(NLP)...

    ictclas4j.rar_ictclas4j_ictclas4j data_www.tr4j.com_分词java_分词和标注

    本代码用java实现了分词功能,包括分词和词性标注,里面有具体的说明文档,包括数据结构的设计,分词步骤,分词系统研究等。

    solr mmseg4j 中文分词器

    mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传

    solr mmesg 案例

    4. **修复BUG**:针对MMESG 1.9.1的BUG,查看修复文档或代码,理解问题所在,然后根据修复方案对源码进行相应修改,重新编译并替换旧的jar包。 5. **测试与验证**:启动Solr服务器,向新创建的核心`mmesg_core`中...

    MMseg4j中文分词词库

    《MMseg4j中文分词词库:深入理解与应用》 在中文信息处理领域,分词是文本分析的基础步骤,它将连续的汉字序列分割成具有语义的词汇单元。MMseg4j是一个广泛应用于Java环境中的中文分词工具,它以其高效、灵活和...

    中文分词包——ictclas4j_0.9.1.jar

    基于Lucene的中文分词包,ictclas4j的最新发布,已经打包成jar包。

    mmseg4j-1.9.1 分词器 包含修复bug的mmseg4j-analysis-1.9.1.jar

    **mmseg4j分词器详解** mmseg4j是一个基于Java实现的中文分词库,它主要用于将中文文本拆分成一系列的词语,是信息检索、自然语言处理、搜索引擎等领域的基础工具。在1.9.1版本中,开发者对原有的功能进行了优化,...

    mmseg4j中文分词器

    **mmseg4j中文分词器** mmseg4j是一个基于Java实现的高效、灵活的中文分词工具,主要用于处理中文文本的分词任务。它借鉴了MaxEnt(最大熵模型)和MMSeg算法,提供了高效且准确的中文分词效果。在处理大量中文文本...

    mmseg4j1.9.1.zip 中文分词器

    **中文分词器mmseg4j详解** 在自然语言处理(NLP)领域,中文分词是基础且关键的一环。中文不同于英文,其词汇之间没有明显的边界,因此需要通过分词来识别句子中的词语。`mmseg4j`便是一款专为Java平台设计的高效...

    ictclas4j中文分词测试

    NULL 博文链接:https://lionsadness.iteye.com/blog/689910

    拼音分词 Pinyin4j+pinyinAnalyzer+lucene-analyzers

    标题中的“拼音分词 Pinyin4j+pinyinAnalyzer+lucene-analyzers”指的是这个压缩包包含的三个核心组件,它们都是在处理中文文本时非常重要的工具。Pinyin4j是一个Java库,主要用于将汉字转换为拼音,这对于进行基于...

Global site tag (gtag.js) - Google Analytics