<![CDATA[百度和google的分词对比试验]]>

edwardpro

浏览: 315828 次
性别:

最近访客更多访客>>

fxstiandi

snai_user

1040979038

lost-java

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

百度 Google 算法设计模式互联网

试验目标：对比试验百度和google的分词性能对笔误词条的勘误能力
实验方法：输入错误单词“克莱死勒” （正确应该是：克莱斯勒）
实验结果：
百度：首先告诉我你是不是输错了，应该是克莱斯勒，然后列出了克莱死勒关键字的内容，当然互联网是很大的因此大家可以看到确实有人和我一样输错了，但百度除了提示一下，并没有真正起到纠错的作用。

google：google中同样提示了，词条应该是克莱斯勒，但我们注意到google在分词算法上更先进，据我他推测他拥有的应该是字级词条和词级查询以及强大的常用词库，请大家注意第一条信息：克莱和死勒被拆开并分别匹配，而这个时候即使我们输错了，我们得到的信息也正确得多，至少有效信息要比百度多得多，当然有人肯定会问我就是要查那个错的词呢？当然可以！

google强制查询：依然提示，但已经按照克莱死勒来查询了，这就是google！不能不让人佩服的地方。

总结：在分词技术上，基本上有那么几种流派：
1 单字流派，由于中文的复杂度，因此在没有良好词库的情况下这种单字虽然在效率上极低（相对而言）但它依然能保证查什么得到什么，相信大多数朋友和我一样也是用这种模式比较多，他不需要后期维护，也能应付不断的发展，缺陷就是有一天会遇到效率瓶颈，无论是索引抓取还是前台查询
2 单词流派，也就是著名的两分词，缺点很简单查单字不要想了，查组合由于他的 2 2 组合运算复杂度是 n×n-1×n-2....应该说相比单子的n*n*n。。。要高不少，但缺点就是不能查单字，应用比较狭窄。
3 词组合，这是目前大家流行的流派，有庖丁中科院ices 等等，我也用过但最终都因为用户词库吸收难度非常大，而且用户库对于搜索结果影响极大，对于增量类系统（老索引都是update不删除重做）这会带来灾难性后果，词库不够时往往会产生不可预料的效果，本人曾应用过一个30万的词库索引it和生活类信息，但效果简直可以用失败来形容。但对于大型系统google百度等这样的复杂度并不难，首先baidu google的索引一定是在不断删除和增长的过程，不存在真正的老数据，第二他们可以利用索引本身记录用户输入习惯用概率算法（最简单的就是贝叶斯）实现词条的分拣，上述的词条查错应该就是这类应用，而且他们会不断修正和修改分词的基础算法，因此效果和效率上都会好过单字。但本次试验也可以看到百度和google在策略上的不同。google是单字+单词模式 baidu则是单一的单词模式。从效果上来说我个人倾向于google的模式，这种智能分词的模式和底层单字模式的设计应该是效果最好的（效率也不用担心，毕竟google多的是服务器和带宽，少的是访问量-_-）

分享到：