论坛首页 海阔天空论坛

JavaEye新版最严重的bug!

浏览 5870 次
精华帖 (0) :: 良好帖 (0) :: 灌水帖 (5) :: 隐藏帖 (0)
作者 正文
   发表时间:2008-01-03  
相关文章的算法叫做:TF/IDF(term frequency/inverse document frequency) ,关于这个算法,可以看看这篇科普:

http://googlechinablog.com/2006/06/blog-post_27.html

之所以你觉得相关性不准确,原因在于:

1、你发的这篇主题贴内容太短,TF/IDF算法难以准确提取主题词汇,不知道你的中心思想在哪里,写的越长的文章,写的越好的文章,运算准确度越高

2、技术文章的主题词汇高度集中,而且整个论坛帖子的样本量很大,所以技术贴的相关文章就准确的多,而你发的灌水贴,主题词汇太分散,样本量也不够,不准确是很正常的。

9 请登录后投票
   发表时间:2008-01-03  
robbin大侠登场鸟~~~。。。那如果我写了很多技术术语的keywords在里面,比如一直重复j2ee,spring,hibernate,j2ee,spring,hibernate,j2ee,spring,hibernate,j2ee,spring,hibernate,那是不是能fool这个算法?
0 请登录后投票
   发表时间:2008-01-03  
忘记说了,新年快乐啊,新版很不错!
0 请登录后投票
   发表时间:2008-01-03  
lordhong 写道
robbin大侠登场鸟~~~。。。那如果我写了很多技术术语的keywords在里面,比如一直重复j2ee,spring,hibernate,j2ee,spring,hibernate,j2ee,spring,hibernate,j2ee,spring,hibernate,那是不是能fool这个算法?


你还没有看过那篇科普,帖子中的关键词密度算法并不是越高越好,因为它虽然是TF的因子,同时也是IDF公式的指数运算的分母,过高的关键词密度就会导致这个关键词分数指数级下降。

BTW:真要较真,其实Google也很容易fool,否则哪来那么多SEO公司和点击欺诈官司呢?


0 请登录后投票
   发表时间:2008-01-03  
多谢robbin指教!
0 请登录后投票
论坛首页 海阔天空版

跳转论坛:
Global site tag (gtag.js) - Google Analytics