`
蒙面考拉
  • 浏览: 161113 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

加权方法

 
阅读更多

1.TF-IDF:

    TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数(TF)成正比增加,但是同时会随着它在语料库中出现的频率(IDF)成反比下降。

     TFIDF的主要思想:如果某个词或者短语在一篇文章中出现的频率TF高,并且在其他的文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF:词条在文档d中出现的频率。IDF:包含某词条的文档越少,IDF越大,说明此词条具有很好的区分能力。略显矛盾之处:如果一个词条在一个类的文档中频繁出现说明该词条能够很好代表这个类的文本特征,应该给这样的词条赋予较高的权重,并选来作为该类文本的特征词以区别与其他类文档。

 

     计算公式:

 

 \mathrm{tf_{i,j}} = \frac{n_{i,j}}{\sum_k n_{k,j}}
 \mathrm{idf_{i}} =  \log \frac{|D|}{|\{j: t_{i} \in d_{j}\}|}      其中,分母:包含詞語 t_{i} 的文件數目(即 n_{i,j} \neq 0 的文件數目)如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用1 + |\{j : t_{i} \in d_{j}\}|

更多介绍:http://blog.csdn.net/yuike2008/article/details/2581291。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics