mmseg4j 多分词模式与 paoding 分词效果对比

chenlb

浏览: 698624 次
性别:
来自: 杭州

最近访客更多访客>>

liyaofeng

shi007

jiduoduo

andreaguo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

mmseg4j

音乐算法

mmseg4j 1.6支持最多分词，应网友的要求：分词效果与 paoding 对比下。观察了 paoding 部分分词结果，现总结下。

paoding 分词效果：

--------------------------
清华大学
清华 | 大 | 华大 | 大学 | 
--------------------------
华南理工大学
华南 | 理工 | 大 | 大学 | 
--------------------------
广东工业大学
广东 | 工业 | 大 | 业大 | 大学 | 
--------------------------
西伯利亚
西伯 | 伯利 | 西伯利亚 | 
--------------------------
研究生命起源
研究 | 研究生 | 生命 | 起源 | 
--------------------------
为首要考虑
为首 | 首要 | 考虑 | 
--------------------------
化装和服装
化装 | 和服 | 服装 | 
--------------------------
中国人民银行
中国 | 国人 | 人民 | 银行 | 
--------------------------
中华人民共和国
中华 | 华人 | 人民 | 共和 | 共和国 | 
--------------------------
羽毛球拍
羽毛 | 羽毛球 | 球拍 | 
--------------------------
人民币
人民 | 人民币 | 
--------------------------
很好听
很好 | 好听 | 
--------------------------
下一个
下一 | 一个 | 
--------------------------
为什么
为什么 | 
--------------------------
北京首都机场
北京 | 首都 | 机场 | 
--------------------------
东西已经拍卖了
东西 | 已经 | 拍卖 | 卖了 | 
--------------------------
主人因之生气
主人 | 生气 | 
--------------------------
虽然某些动物很凶恶
动物 | 凶恶 | 
--------------------------
朋友真背叛了你了
朋友 | 真 | 背叛 | 
--------------------------
建设盒蟹社会
建设 | 盒蟹 | 社会 | 
--------------------------
建设盒少蟹社会
建设 | 盒少 | 少蟹 | 社会 | 
--------------------------
我们家门前的大水沟很难过。 
我们 | 家门 | 前 | 门前 | 前的 | 大 | 大水 | 水沟 | 很难 | 难过 | 
--------------------------
罐头不如果汁营养丰富。 
罐头 | 不如 | 如果 | 果汁 | 营养 | 丰富 | 
--------------------------
今天真热，是游泳的好日子。 
今天 | 天真 | 热 | 游泳 | 日子 | 好日子 | 
--------------------------
妹妹的数学只考十分，真丢脸。 
妹妹 | 数学 | 只考 | 十分 | 真 | 丢脸 | 
--------------------------
我做事情，都是先从容易的做起。 
做事 | 事情 | 都是 | 先从 | 从容 | 容易 | 容易的 | 做起 | 
--------------------------
老师说明天每个人参加大队接力时，一定要尽力。 
老师 | 师说 | 说明 | 明天 | 每个 | 个人 | 人参 | 参加 | 大 | 加大 | 大队 | 接力 | 时 | 一定 | 定要 | 要尽 | 尽力 | 
--------------------------
小明把大便当作每天早上起床第一件要做的事
小明 | 大 | 大便 | 便当 | 当作 | 每天 | 早上 | 上起 | 起床 | 床第 | 第一 | 一件 | 要做 | 做的 | 的事 |

mmseg4j maxword 分词效果：

--------------------------
清华大学
清华 | 大学 | 
--------------------------
华南理工大学
华南 | 理工 | 工大 | 大学 | 
--------------------------
广东工业大学
广东 | 工业 | 大学 | 
--------------------------
西伯利亚
西 | 伯利 | 利亚 | 
--------------------------
研究生命起源
研究 | 生命 | 起源 | 
--------------------------
为首要考虑
为首 | 要 | 考虑 | 
--------------------------
化装和服装
化装 | 和 | 服装 | 
--------------------------
中国人民银行
中国 | 国人 | 人民 | 银行 | 
--------------------------
中华人民共和国
中华 | 华人 | 人民 | 共和 | 国 | 
--------------------------
羽毛球拍
羽毛 | 球拍 | 
--------------------------
人民币
人民 | 币 | 
--------------------------
很好听
很好 | 好听 | 
--------------------------
下一个
下一 | 一个 | 
--------------------------
为什么
为 | 什么 | 
--------------------------
北京首都机场
北京 | 首都 | 机场 | 
--------------------------
东西已经拍卖了
东西 | 已经 | 拍卖 | 了 | 
--------------------------
主人因之生气
主人 | 因 | 之 | 生气 | 
--------------------------
虽然某些动物很凶恶
虽然 | 某些 | 动物 | 很 | 凶恶 | 
--------------------------
朋友真背叛了你了
朋友 | 真 | 背叛 | 了 | 你了 | 
--------------------------
建设盒蟹社会
建设 | 盒 | 蟹 | 社会 | 
--------------------------
建设盒少蟹社会
建设 | 盒 | 少 | 蟹 | 社会 | 
--------------------------
我们家门前的大水沟很难过。 
我们 | 家 | 门前 | 的 | 大水 | 水沟 | 很难 | 过 | 
--------------------------
罐头不如果汁营养丰富。 
罐头 | 不如 | 果汁 | 营养 | 丰富 | 
--------------------------
今天真热，是游泳的好日子。 
今天 | 天真 | 热 | 是 | 游泳 | 的 | 好 | 日子 | 
--------------------------
妹妹的数学只考十分，真丢脸。 
妹妹 | 的 | 数学 | 只 | 考 | 十分 | 真 | 丢脸 | 
--------------------------
我做事情，都是先从容易的做起。 
我做 | 事情 | 都是 | 先 | 从容 | 易 | 的 | 做起 | 
--------------------------
老师说明天每个人参加大队接力时，一定要尽力。 
老师 | 师说 | 明天 | 每个 | 个人 | 参加 | 大队 | 接力 | 时 | 一定 | 要 | 尽力 | 
--------------------------
小明把大便当作每天早上起床第一件要做的事
小明 | 把 | 大便 | 当作 | 每天 | 早上 | 起床 | 第一 | 一件 | 要做 | 的 | 事 |

paoding 几乎把所有的子词都拆出来，有时候还有最长的词，还没搞懂“华南理工大学”会分出“大”；mmseg4j 的 maxword 是在 complex分词后的结果再把子词都拆出来（1.6版按二元，不是词的去掉或保存单字。下一版本可能方式有点不同，“为什么”不应该为“为|什么”，也即是三个字的前后不是词的应该不分，有待研究，:)）。

如“化装和服装” mmseg4j 的 complex是可以较好的分出来（“化装 | 和 | 服装”），而 paoding 少了字频的信息，比较难到这事。mmseg4j complex 也有个缺点：“都是先从容易的做起” 不能把“容易”分出来，这是因为 mmseg 算法是用 3 个chunk的原因，我认为把整句的 chunk （还是仅仅3个chunk）来处理的话，分词效果要好），当然要更多的开销，选3个可能是效果与性能平衡吧。

mmseg4j 没有加任何 stopword，这东西留给使用者自己加，因为我不认为加 stopword 是好的方法。如音乐搜索，给加上 the,this……，还能找到歌曲？

当然分词效果还与词库有关，sogou 的词库是统计得出，有些高频的单字组合也成了词，如“我们的”。如果还要提高 mmseg4j 的分词效果，还要在整理下词库。

6
顶

0
踩

分享到：

mmseg4j 1.7 beta 版发布 | mmseg4j 中文分词 1.6 版发布

2009-04-13 09:52
浏览 3401
评论(1)
分类:企业架构
查看更多

1 楼 jitabc 2009-05-22

很不错.....

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论