`
chenlb
  • 浏览: 696470 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

mmseg4j 多分词模式与 paoding 分词效果对比

阅读更多
mmseg4j 1.6支持最多分词,应网友的要求:分词效果与 paoding 对比下。观察了 paoding 部分分词结果,现总结下。

paoding 分词效果:
--------------------------
清华大学
清华 | 大 | 华大 | 大学 | 
--------------------------
华南理工大学
华南 | 理工 | 大 | 大学 | 
--------------------------
广东工业大学
广东 | 工业 | 大 | 业大 | 大学 | 
--------------------------
西伯利亚
西伯 | 伯利 | 西伯利亚 | 
--------------------------
研究生命起源
研究 | 研究生 | 生命 | 起源 | 
--------------------------
为首要考虑
为首 | 首要 | 考虑 | 
--------------------------
化装和服装
化装 | 和服 | 服装 | 
--------------------------
中国人民银行
中国 | 国人 | 人民 | 银行 | 
--------------------------
中华人民共和国
中华 | 华人 | 人民 | 共和 | 共和国 | 
--------------------------
羽毛球拍
羽毛 | 羽毛球 | 球拍 | 
--------------------------
人民币
人民 | 人民币 | 
--------------------------
很好听
很好 | 好听 | 
--------------------------
下一个
下一 | 一个 | 
--------------------------
为什么
为什么 | 
--------------------------
北京首都机场
北京 | 首都 | 机场 | 
--------------------------
东西已经拍卖了
东西 | 已经 | 拍卖 | 卖了 | 
--------------------------
主人因之生气
主人 | 生气 | 
--------------------------
虽然某些动物很凶恶
动物 | 凶恶 | 
--------------------------
朋友真背叛了你了
朋友 | 真 | 背叛 | 
--------------------------
建设盒蟹社会
建设 | 盒蟹 | 社会 | 
--------------------------
建设盒少蟹社会
建设 | 盒少 | 少蟹 | 社会 | 
--------------------------
我们家门前的大水沟很难过。 
我们 | 家门 | 前 | 门前 | 前的 | 大 | 大水 | 水沟 | 很难 | 难过 | 
--------------------------
罐头不如果汁营养丰富。 
罐头 | 不如 | 如果 | 果汁 | 营养 | 丰富 | 
--------------------------
今天真热,是游泳的好日子。 
今天 | 天真 | 热 | 游泳 | 日子 | 好日子 | 
--------------------------
妹妹的数学只考十分,真丢脸。 
妹妹 | 数学 | 只考 | 十分 | 真 | 丢脸 | 
--------------------------
我做事情,都是先从容易的做起。 
做事 | 事情 | 都是 | 先从 | 从容 | 容易 | 容易的 | 做起 | 
--------------------------
老师说明天每个人参加大队接力时,一定要尽力。 
老师 | 师说 | 说明 | 明天 | 每个 | 个人 | 人参 | 参加 | 大 | 加大 | 大队 | 接力 | 时 | 一定 | 定要 | 要尽 | 尽力 | 
--------------------------
小明把大便当作每天早上起床第一件要做的事
小明 | 大 | 大便 | 便当 | 当作 | 每天 | 早上 | 上起 | 起床 | 床第 | 第一 | 一件 | 要做 | 做的 | 的事 | 


mmseg4j maxword 分词效果:
--------------------------
清华大学
清华 | 大学 | 
--------------------------
华南理工大学
华南 | 理工 | 工大 | 大学 | 
--------------------------
广东工业大学
广东 | 工业 | 大学 | 
--------------------------
西伯利亚
西 | 伯利 | 利亚 | 
--------------------------
研究生命起源
研究 | 生命 | 起源 | 
--------------------------
为首要考虑
为首 | 要 | 考虑 | 
--------------------------
化装和服装
化装 | 和 | 服装 | 
--------------------------
中国人民银行
中国 | 国人 | 人民 | 银行 | 
--------------------------
中华人民共和国
中华 | 华人 | 人民 | 共和 | 国 | 
--------------------------
羽毛球拍
羽毛 | 球拍 | 
--------------------------
人民币
人民 | 币 | 
--------------------------
很好听
很好 | 好听 | 
--------------------------
下一个
下一 | 一个 | 
--------------------------
为什么
为 | 什么 | 
--------------------------
北京首都机场
北京 | 首都 | 机场 | 
--------------------------
东西已经拍卖了
东西 | 已经 | 拍卖 | 了 | 
--------------------------
主人因之生气
主人 | 因 | 之 | 生气 | 
--------------------------
虽然某些动物很凶恶
虽然 | 某些 | 动物 | 很 | 凶恶 | 
--------------------------
朋友真背叛了你了
朋友 | 真 | 背叛 | 了 | 你了 | 
--------------------------
建设盒蟹社会
建设 | 盒 | 蟹 | 社会 | 
--------------------------
建设盒少蟹社会
建设 | 盒 | 少 | 蟹 | 社会 | 
--------------------------
我们家门前的大水沟很难过。 
我们 | 家 | 门前 | 的 | 大水 | 水沟 | 很难 | 过 | 
--------------------------
罐头不如果汁营养丰富。 
罐头 | 不如 | 果汁 | 营养 | 丰富 | 
--------------------------
今天真热,是游泳的好日子。 
今天 | 天真 | 热 | 是 | 游泳 | 的 | 好 | 日子 | 
--------------------------
妹妹的数学只考十分,真丢脸。 
妹妹 | 的 | 数学 | 只 | 考 | 十分 | 真 | 丢脸 | 
--------------------------
我做事情,都是先从容易的做起。 
我做 | 事情 | 都是 | 先 | 从容 | 易 | 的 | 做起 | 
--------------------------
老师说明天每个人参加大队接力时,一定要尽力。 
老师 | 师说 | 明天 | 每个 | 个人 | 参加 | 大队 | 接力 | 时 | 一定 | 要 | 尽力 | 
--------------------------
小明把大便当作每天早上起床第一件要做的事
小明 | 把 | 大便 | 当作 | 每天 | 早上 | 起床 | 第一 | 一件 | 要做 | 的 | 事 | 


paoding 几乎把所有的子词都拆出来,有时候还有最长的词,还没搞懂“华南理工大学”会分出“大”;mmseg4j 的 maxword 是在 complex分词后的结果再把子词都拆出来(1.6版按二元,不是词的去掉或保存单字。下一版本可能方式有点不同,“为什么”不应该为“为|什么”,也即是三个字的前后不是词的应该不分,有待研究,:))。

如“化装和服装” mmseg4j 的 complex是可以较好的分出来(“化装 | 和 | 服装”),而 paoding 少了字频的信息,比较难到这事。mmseg4j complex 也有个缺点:“都是先从容易的做起” 不能把“容易”分出来,这是因为 mmseg 算法是用 3 个chunk的原因,我认为把整句的 chunk (还是仅仅3个chunk)来处理的话,分词效果要好),当然要更多的开销,选3个可能是效果与性能平衡吧。

mmseg4j 没有加任何 stopword,这东西留给使用者自己加,因为我不认为加 stopword 是好的方法。如音乐搜索,给加上 the,this……,还能找到歌曲?

当然分词效果还与词库有关,sogou 的词库是统计得出,有些高频的单字组合也成了词,如“我们的”。如果还要提高 mmseg4j 的分词效果,还要在整理下词库。

6
0
分享到:
评论
1 楼 jitabc 2009-05-22  
很不错.....

相关推荐

    基于Lucene的中文分词器代码paoding,IK,imdict,mmseg4j

    本文将深入探讨基于Lucene的四种中文分词器:Paoding、IK、Imdict和Mmseg4j,它们都是针对Java开发的高效、开源的中文分词工具。 1. Paoding(庖丁)分词器: Paoding是一款高性能的中文分词器,设计目标是提供...

    兼容solr4.10.2的ik-mmseg4j-paoding分词器

    能兼容solr-4.10.2的分词器,大礼包全放送.包括IK分词器,mmseg4j分词器,庖丁...都是经本人测试可用,其中mmseg4j与庖丁都是下载源码,修改重编译并测试生成的.希望大家喜欢.至于与solr的整合方式,网上很多,这里就不介绍了.

    Solr3.2 + mmseg4j-1.8.4中文搜索引擎_Demo

    在"Solr3.2+mmseg4j-1.8.4中文搜索引擎 demo"项目中,`paoding-analysis.jar`是包含mmseg4j分析器的Java库文件,它提供了与Solr交互的接口,使得Solr能够使用mmseg4j进行中文分词。`readme.txt`通常包含了关于如何...

    全文检索之分词器分享.zip

    3,分享一波分词器SDK开发包及使用手册(IK分词器、imdict(ictclas)分词器、je分词器、mmseg分词器、paoding分词器、Shuzhen分词器、庖丁解羊分词器、增强版lucene分词器) 文件比较大,请耐心下载。

    solr技术方案.pdf

    为了实现更好的中文处理,我们可以选用第三方分词器,如Paoding、Imdict、IK Analyzer和Mmseg4j。在这些分词器中,Mmseg4j因其较高的准确率(98%)和简单的配置而被选中。通过在Solr的schema.xml中定义新的fieldType...

    开源企业搜索引擎SOLR的应用教程.pdf

    中文分词对中文内容的索引和搜索至关重要,因此,介绍了两种常见的分词器:mmseg4j和paoding。此外,文档还对Solr的核心配置文件(如schema.xml和solrconfig.xml)进行了详尽的解释。 文档的第三部分涉及了Solr的...

    网站搜索的进化PPT学习教案.pptx

    常见的中文分词工具有Scws(基于词频词典)、Paoding(基于Lucene)、Imdict(智能词典)和Mmseg4j(封装mmseg算法,自带Sogou词库)。这些工具帮助搜索引擎理解中文文本,提高搜索准确性。 4. Sphinx与Coreseek的...

    Solr 教程 pdf

    - 中文分词配置,包括mmseg4j和paoding两种分词器。 - 多核配置方法,以及配置文件说明,比如schema.xml和solrconfig.xml。 在应用方面: - 概述了Solr应用模式和使用过程。 - 提供了一个简单的例子,包括Solr ...

    开源企业搜索引擎SOLR的 应用教程

    mmseg4j是一种用于中文分词的工具,可以集成到Solr中。安装步骤如下: 1. 下载mmseg4j插件。 2. 将插件jar包放置在Solr的lib目录下。 3. 在schema.xml中定义使用mmseg4j的Analyzer。 - **2.2.2 paoding** Paoding...

    solr深入浅出

    对于中文分词,Solr支持mmseg4j和paoding等分词库。多核配置是Solr实现多租户或不同业务场景搜索的关键,每个core可以看作独立的搜索引擎实例。 Solr的应用广泛,涵盖了从基础的全文搜索到复杂的业务逻辑集成。在...

    solr从入门到精通教程

    - 中文分词配置:包括mmseg4j和paoding两个中文分词器的配置方法。 - 多核(MultiCore)配置:讲解了多核配置的方法及其优势。 3. Solr的应用 - SOLR应用概述:概述了Solr的应用模式和使用过程。 - 一个简单的例子...

    开源企业搜索引擎SOLR的应用教程

    - **2.2.1 mmseg4j**:mmseg4j是一种基于最大匹配算法的中文分词库,可以在Solr中使用它来提高中文文本的搜索效果。 - **2.2.2 paoding**:paoding是一款高性能的中文分词工具,同样适用于Solr,支持自定义词典和...

    SOLR的应用教程

    包括mmseg4j和paoding两种分词器的配置方法。 2.3 多核(MultiCore)配置 Solr的多核配置允许在一个实例中管理多个独立的搜索应用。 2.4 配置文件说明 主要讨论schema.xml和solrconfig.xml这两个核心配置文件的...

    lucene自学

    ### Lucene自学知识点...- **mmseg**:基于中文的分词工具,适用于中文环境下的分词需求。 通过以上知识点的学习,我们可以了解到Lucene的核心架构及其关键组成部分的工作原理,这对于深入理解和应用Lucene至关重要。

    Solr3.5开发应用指导

    - **2.2.1 mmseg4j**:这是一种基于词典的中文分词工具,适用于精确度要求较高的场景。 - **2.2.2 paoding**:Paoding是一种高性能的中文分词器,支持多种分词模式,包括精确模式、全模式等。 **2.3 多核...

    solr 企业搜索引擎教程

    - **mmseg4j**:一种常用的中文分词工具,适用于Solr。 - **paoding**:另一种中文分词工具,支持更复杂的分词逻辑。 #### 9. Solr 的多核配置 - **多核配置方法**:在Solr中创建多个独立的核心(core),每个核心...

Global site tag (gtag.js) - Google Analytics