数据挖掘-文本分类：特征选择方法总结 -

dengqsintyt

浏览: 292989 次
性别:

最近访客更多访客>>

hznanhai

hekui1016

ggggoo

liyanwei66

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

数据挖掘-文本分类：特征选择方法总结

博客分类：

数据挖掘篇
算法篇

特征选择文本分类文档词频互信息信息增益

一、概念

二、特征选择方法总结

一、概念

特征词选择和特征词权重

1.特征词选择：特征词选择是为了降低文本表示的维度，而特征词权重是为了表示文本表示中每一个特征项的重要程度。

常见的且基础的文本特征选择的算法有基于文档频率(DocumentFrequency)、信息增益(InformationGain,IG)、开方拟和检验方法(CHI统计)、互信息(mutualInformation)、潜在语义分析LSA、期望值交叉算熵、文本证据权、termstrength(TS)、GSSCoefficient、oddsratio。

2.特征词权重：每一个特征项的重要程度

常见的算法：TF-IDF，TF的改进，信息熵的引用

3.区别：特征词选择是为了降低文本表示的维度，而特征词权重是为了表示文本表示中每一个特征项的重要程度。

二、特征选择方法总结

1.文档频率

词条的文档频率（document frequency）是指在预料中出现该词条的文档的数目。只有当某词条在较多的文档中出现时才被保留下来，DF值低于某个阈值的词条是低频词，将这样的词条从原始特征空间中移除，不但能够降低特征空间的维数，而且还有可能提高分类的精度。

DF是一种最简单的词约简技术，由于具有相对于预料规模的线性复杂度，所以它能够容易地被用于大规模的语料特征选择中。

缺点：对低文档频的特征项不可靠,而且不能说明词条和类别的相关性

2.互信息

在互信息算法中，采用计算特征词 t 和类别 c 之间的相关度：

其中， A 为在类别 c 中特征词 t 出现的文档数； B 为在除了类别 c 的其他类别中特征词 t 出现的文档数； C 为在类别 c 中特征词 t 未出现的文档数； N 为所有类别中的文档数的总和。如果共有 m 个类别，那么每个特征词将得到 m 个相关度值，取这 m 个值的平均值作为每个特征词的权值，权值大的特征词被保留的可能性大。

3. 信息增益

信息增益 (IG) 是公认较好的特征选择方法，它刻画了一个词语在文本中出现与否对文本情感分类的影响，即一个词语在文本中出现前后的信息嫡之差。某个词语的信息增益值越大，说明它对分类的贡献就越大。信息增益的计算见公式：

P(Ci) ，表示类别 Ci 出现的概率，其实只要用 1 除以类别总数就得到了（这是说你平等的看待每个类别而忽略它们的大小时这样算，如果考虑了大小就要把大小的影响加进去）。

P(t) ，就是特征 t 出现的概率，只要用出现过 t 的文档数除以总文档数就可以了

P(Ci|t) 表示出现 t 的时候，类别 Ci 出现的概率，只要用出现了 T 并且属于类别 Ci 的文档数除以出现了 T 的文档数就可以了

缺点：信息增益最大的问题还在于它只能考察特征对整个系统的贡献，而不能具体到某个类别上，这就使得它只适合用来做所谓 “ 全局 ” 的特征选择（指所有的类都使用相同的特征集合），而无法做 “ 本地 ” 的特征选择（每个类别有自己的特征集合，因为有的词，对这个类别很有区分度，对另一个类别则无足轻重）。

4. 开方拟和检验方法 (CHI 统计 )

开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否