tf-idf

lzj0470

浏览: 1287728 次
性别:
来自: 深圳

最近访客更多访客>>

gljhh

hedgehog12

chen88358323

wyx065747

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

数据挖掘

资讯

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加，但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。

　　TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TFIDF实际上是：TFXIDF，TF词频(Term Frequency)，IDF反文档频率(Inverse Document Frequency)。TF表示词条，在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类C．中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当gfl大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.

　　原理

　　在一份给定的文件里，词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）

　　逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

　　某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向於过滤掉常见的词语，保留重要的词语。

　　例子

　　有很多不同的数学公式可以用来计算TF- IDF。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个，而词语「母牛」出现了3次，那麽「母牛」一词在该文件中的词频就是 0.03 (3/100)。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过「母牛」一词，然後除以文件集里包含的文件总数。所以，如果「母牛」一词在1,000份文件出现过，而文件总数是 10,000,000份的话，其文件频率就是 0.0001 (1000/10,000,000)。最後，TF-IDF分数就可以由计算词频除以文件频率而得到。以上面的例子来说，「母牛」一词在该文件集的TF- IDF分数会是 300 (0.03/0.0001)。这条公式的另一个形式是将文件频率取对数。

　　在向量空间模型里的应用

　　TF-IDF权重计算方法经常会和余弦相似度(cosine similarity)一同使用於向量空间模型中，用以判断两份文件之间的相似性。

分享到：

关键词权重的量化方法TF/IDF | 课题背景概述

2008-12-28 22:12
浏览 2502
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

tf-idf

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

tf-idf

评论

发表评论

相关推荐

中文分词—新词挖掘篇

关键词权重的量化方法TF/IDF

课题背景概述

KNN算法 基本思想

基于词性的特征提取方法

谈 Page Rank – Google 的民主表决式网页排名技术

一个网页和某个查询的相关性

数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)

数学之美系列一：图论和网络爬虫 (Web Crawlers)

数学之美 系列 12 - 余弦定理和新闻的分类

最近访客更多访客>>

KNN算法基本思想

数学之美系列 12 - 余弦定理和新闻的分类