除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。
在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。
因此先回忆一下信息论中有关信息量(就是“熵”)的定义。说有这么一个变量X,它可能的取值有n多种,分别是x1,x2,……,xn,每一种取到的概率分别是P1,P2,……,Pn,那么X的熵就定义为:
意思就是一个变量可能的变化越多(反而跟变量具体的取值没有任何关系,只和值的种类多少以及发生概率有关),它携带的信息量就越大(因此我一直觉得我们的政策法规信息量非常大,因为它变化很多,基本朝令夕改,笑)。
对分类系统来说,类别C是变量,它可能的取值是C1,C2,……,Cn,而每一个类别出现的概率是P(C1),P(C2),……,P(Cn),因此n就是类别的总数。此时分类系统的熵就可以表示为:
有同学说不好理解呀,这样想就好了,文本分类系统的作用就是输出一个表示文本属于哪个类别的值,而这个值可能是C1,C2,……,Cn,因此这个值所携带的信息量就是上式中的这么多。
信息增益是针对一个一个的特征而言的,就是看一个特征t,系统有它和没它的时候信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即增益。系统含有特征t的时候信息量很好计算,就是刚才的式子,它表示的是包含所有特征时系统的信息量。
问题是当系统不包含t时,信息量如何计算?我们换个角度想问题,把系统要做的事情想象成这样:说教室里有很多座位,学生们每次上课进来的时候可以随便坐,因而变化是很大的(无数种可能的座次情况);但是现在有一个座位,看黑板很清楚,听老师讲也很清楚,于是校长的小舅子的姐姐的女儿托关系(真辗转啊),把这个座位定下来了,每次只能给她坐,别人不行,此时情况怎样?对于座次的可能情况来说,我们很容易看出以下两种情况是等价的:(1)教室里没有这个座位;(2)教室里虽然有这个座位,但其他人不能坐(因为反正它也不能参与到变化中来,它是不变的)。
对应到我们的系统中,就是下面的等价:(1)系统不包含特征t;(2)系统虽然包含特征t,但是t已经固定了,不能变化。
我们计算分类系统不包含特征t的时候,就使用情况(2)来代替,就是计算当一个特征t不能变化时,系统的信息量是多少。这个信息量其实也有专门的名称,就叫做“条件熵”,条件嘛,自然就是指“t已经固定“这个条件。
但是问题接踵而至,例如一个特征X,它可能的取值有n多种(x1,x2,……,xn),当计算条件熵而需要把它固定的时候,要把它固定在哪一个值上呢?答案是每一种可能都要固定一下,计算n个值,然后取均值才是条件熵。而取均值也不是简单的加一加然后除以n,而是要用每个值出现的概率来算平均(简单理解,就是一个值出现的可能性比较大,固定在它上面时算出来的信息量占的比重就要多一些)。
因此有这样两个条件熵的表达式:
这是指特征X被固定为值xi时的条件熵,
这是指特征X被固定时的条件熵,注意与上式在意义上的区别。从刚才计算均值的讨论可以看出来,第二个式子与第一个式子的关系就是:
[img]
http://d.hiphotos.baidu.com/space/pic/item/2934349b033b5bb5fa2f366436d3d539b700bcab.jpg[/img]
具体到我们文本分类系统中的特征t,t有几个可能的值呢?注意t是指一个固定的特征,比如他就是指关键词“经济”或者“体育”,当我们说特征“经济”可能的取值时,实际上只有两个,“经济”要么出现,要么不出现。一般的,t的取值只有t(代表t出现)和(代表t不出现),注意系统包含t但t 不出现与系统根本不包含t可是两回事。
因此固定t时系统的条件熵就有了,为了区别t出现时的符号与特征t本身的符号,我们用T代表特征,而用t代表T出现,那么:
与刚才的式子对照一下,含义很清楚对吧,P(t)就是T出现的概率,就是T不出现的概率。这个式子可以进一步展开,其中的
另一半就可以展开为:
因此特征T给系统带来的信息增益就可以写成系统原本的熵与固定特征T后的条件熵之差:
公式中的东西看上去很多,其实也都很好计算。比如P(Ci),表示类别Ci出现的概率,其实只要用1除以类别总数就得到了(这是说你平等的看待每个类别而忽略它们的大小时这样算,如果考虑了大小就要把大小的影响加进去)。再比如P(t),就是特征T出现的概率,只要用出现过T的文档数除以总文档数就可以了,再比如P(Ci|t)表示出现T的时候,类别Ci出现的概率,只要用出现了T并且属于类别Ci的文档数除以出现了T的文档数就可以了。
从以上讨论中可以看出,信息增益也是考虑了特征出现和不出现两种情况,与开方检验一样,是比较全面的,因而效果不错。但信息增益最大的问题还在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。
分享到:
相关推荐
本文档“基于对称不确定性和信息交互增益的特征选择方法”探讨了一种新颖的特征选择策略,该策略结合了对称不确定性理论与信息交互增益的概念,以优化特征集合。 对称不确定性(Symmetric Uncertainty, SU)是信息...
文本特征选择方法在数据挖掘领域扮演着至关重要的角色。它是一种优化技术,旨在从大量原始文本数据中筛选出最有代表性和影响力的特征,以提高模型的性能和解释性。这一过程通常包括预处理、特征提取、特征筛选和评估...
本主题“电信设备-一种基于信息增益率的属性加权方法及文本分类方法”探讨的就是如何利用信息增益率来优化特征选择,并以此提升文本分类的准确性。 首先,我们需要理解什么是信息增益率。信息增益是决策树算法中...
- 关键技术:衡量特征重要性的指标,如相关性、信息增益、基尼指数等。 2. **特征提取**: - 目的:构建新特征,提升分类或回归任务的性能。 - 技术:主成分分析(PCA)、线性判别分析(LDA)、独立成分分析(ICA)、...
信息增益是决策树算法中常用的一个概念,主要用于特征选择。它是通过比较特征划分前后的熵减少来度量一个特征对于目标变量的重要性。熵是衡量数据纯度的指标,信息增益越大,表明特征对分类的贡献越大。计算公式通常...
文档频率、信息增益、互信息、X2统计量、期望交叉熵、文本证据权和几率比是本研究中提及的七种常用的文本分类特征选择算法。文档频率是选择在一定数量的文档中出现频率高于阈值的特征;信息增益是通过信息熵来评估...
2. **特征选择**:直接从原始特征中挑选出最具代表性的部分,例如使用卡方检验、互信息、信息增益等方法评估特征的重要性,并选择评分高的特征。 3. **基于专家知识**:利用领域专家的见解来确定哪些特征对分类最有...
高维数据特征选择方法包括L1正则化(如Lasso回归)、特征重要性排序(如随机森林)、基于子模优化的特征选择方法等。 除了上述方法,还有一些基于特定算法的特征选择方法。比如,张浩基于AdaBoost算法提出了特征...
3. **递归特征消除(RFE)**:RFE是一种基于模型的特征选择方法,它通过构建模型并反复去除对模型预测贡献最小的特征,直到达到预定的特征数量。这个过程可以评估每个特征的重要性,并构建一个只包含最相关特征的子集...
特征选择是减少原始数据维度、降低计算复杂度、防止过拟合的关键步骤。在描述中提到的“特征分布信息”,通常指的是词频、TF-IDF(词频-逆文档频率)或其他统计量,这些指标可以反映词汇在整个文本集合中的重要性。...
例如,可以使用模型的准确率、AUC值或信息增益等指标。 3. **选择操作**:根据适应度值,采用轮盘赌选择、锦标赛选择等方式保留一部分优秀的个体,淘汰较差的个体。 4. **交叉操作**:选择的个体进行交叉,生成新的...
1. **信息增益**是决策树算法中用于特征选择的一个重要指标。它衡量了特征对数据集纯度的提升程度,计算公式通常基于熵。在这个贷款申请的训练数据集中,我们需要计算年龄、有无工作、有无房屋和信贷情况这四个特征...
本项目聚焦于三种广泛应用的特征选择方法:随机森林、支持向量机和极限学习机,并结合分类任务进行深入探讨。 首先,随机森林是一种集成学习方法,通过构建多棵决策树并取其平均结果来提高预测准确性和防止过拟合。...
已有研究尝试集成多种特征选择方法以提高模型稳定性和准确性。然而,多数方法未充分考虑特征间的相互关系,且仅使用单一评估模型,导致模型的稳定性和泛化能力不足。一些研究者尝试引入更多算法进行评估,如决策树、...
为了减少这种偏差,研究人员和工程师会使用其他改进的方法,比如信息增益比(Gain Ratio)或基尼不纯度(Gini Impurity)等,这些方法可以平衡不同特征的重要性,并在特征选择时更加客观。 在实际的文本分类项目中...
过滤法基于单个特征与目标变量的相关性或互信息进行评估,如Pearson相关系数和信息增益。包裹法通过搜索所有可能的子集来寻找最优特征组合,如递归特征消除(RFE)。嵌入法则在模型训练过程中进行特征选择,如正则化...