关键词权重的量化方法TF/IDF

lzj0470

浏览: 1292086 次
性别:
来自: 深圳

最近访客更多访客>>

gljhh

hedgehog12

chen88358323

wyx065747

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

数据挖掘

搜索引擎算法工作

写这篇文章前，一定要说明一点，我对算法也是刚刚开始研究，一定会有不少地方会有差错，也请高手指正，上次计算相关度的方式发布后，就得到了高人的点化，在此谢谢这位高手，也谢谢大家对我的关注。

下面进入主题：

今天我想说的是关键词权重的量化方法TF/IDF，为什么说这个呢？因为我们知道，在数量庞大的搜索引擎库里，拥有无数个形容同一事物的词汇，就好像我上次说的手机和彩铃，他们分明是形容同一个类别：移动通讯相关的东西，但是谁的权重更高呢？这就看这个关键词所表达的意思和在具体文章中的意义来判断了。

在搜索引擎中，一个词能够概括这篇文章意思的能力越高，权重就越高，反之则降低，举个例子吧，类似于这样的一个词：“吸烟的危害”，在这个词里面，吸烟是整个文章的一个主词，也就是说，吸烟这个词是整篇文章的核心，而“危害”这个词却能表达很多危害，例如环境污染危害，破坏公物的危害等。剩下的一个词“的”在整个句子里根本就没有任何意义，这样一来，我们的权重问题就可以看的很明白了，具体的权重大小就如下这样

吸烟>危害>的，而“的”这个词因为不包含任何意义，所以，一般情况下，搜索引擎的计算规则中会讲“的”这个词消噪（这点纯属个人看法，请高手指教。）

我们可以看到的是，有些词，只要你搜索一下，马上就会得出结果，例如吸烟危害这样的词，而“的”这个词虽然存在于几乎所有的网页中，却根本不能反应出任何意义，这样一来他的权重就少的可怜了，这就是搜索引擎中的：“逆文本频率指数”（Inverse document frequency 缩写为IDF）他的计算公式是这样的，假如一个词W在DW个网页中出现过，那么DW的值越大，W的权重就越小。具体的公式如下log(D/dW).

这个我们可以举个例子，假如有10亿个网页在搜索库里，而手机这个词出现的次数是两百万次，那么我们的计算公式就是

log(2000000/1000000000)=log(500)=6.2

通过这样的方式，我们就可以算出词的权重，这个办法，可以使用在优化当中的长尾生僻词的办法中，利用计算，得到最大的权重词，当然，你无法知道数据库里到底有多少个网页，因此，也就只能通过搜索结果来判断了，呵呵。

那么TF是什么呢？

TF是指你所选定关键词的出现频率，也就是单词汇的出现频率，（Term Frequency）举个例子，还是上面的例子，假如在一个有一千字的文章中“吸烟的危害”这几个词组在网页中分别出现以下的次数：

吸烟：5次

的：46次

危害：9次

这样，吸烟出现的频率是0.005%，“的”出现的频率是0.046，危害出现的频率是0.009%这样，结合相加，这个词“吸烟的危害”在这个文章中的比重就是0.06%。但是我们刚才说过，“的”这个词在大量网页中出现，而且根本无法形容任何意义，因此这个词是需要被删除的，那么，整个这个文章的关键词密度就是（5+9）*100%，也就是仅仅0.016%。

这个办法我们一般会使用在页面的关键词密度计算上，记住：类似“的”这样的词语是不能被作为关键词的，因为他会被忽略

知道了以上的计算方法后，我们基本就可以知道搜索引擎是如何工作的了，但是有些朋友为了提高文章权重，大量的堆砌主关键词，也就是说假如“吸烟危害”是这个网页的关键词，他会为了提高排名而大量的堆砌关键词，其实根本没有必要去做，我在我的博客里曾经提到过一个“免费送Q币”的案例，他就完全避开了这样的限制，却做到了很好的排名，这就是一个关键词组合的办法，以后我会讲到，有兴趣的朋友可以去研究一下。

接着我们的话题，TF/IDF被认为是信息检索中最伟大的发明，就是因为他在一定意义上解决了很多网页排序的问题，现在的大型搜索引擎都是靠这个公式去做为基础的，当然，在计算方式上会改进很多的部分，以求更准确，另外，结合向量空间模型（Vector Space Models）、多文档列表求交计算等方式，使得搜索引擎的结果更加准确。

写这篇小文的意思，主要是想让各位对搜索引擎的排序做一个深入的了解，上次我所说过的相关度与这篇文章也是息息相关的，大家不妨研究一下。

本文原载：飘渺蝶舞的SEO梦想

分享到：

Lucene源代码之构造自己的分词器 | tf-idf

2008-12-28 22:14
浏览 8012
评论(2)
查看更多

2 楼输入法 2011-06-15

引用

请问红色指示的文章在哪里？博客里没有找到。
急需这方面的资料，谢谢了。

1 楼 dvdface 2009-04-27

这个论文把解释了TD-IDF的核心思想，召回率和准确率的矛盾，导致TF-IDF产生的原因

Gerard Salton、Christopher Buckley

Term Weighting Approaches in Automatic Text Retrieval

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论