特征选择是从特征集中选择出相关的特征子集。在文本分类中是从训练集合出现的term中选择出一部分子集的过程。
特征选择有两个目的:
1、通过减少特征空间选择更有效的特征,提高分类训练和应用的效率。
2、去除噪音特征,提高分类的精度。
对于文本分类,特征选择的算法一般一下流程:
select-features(D,c,k){//D指document,c指Category,k保留的特征数
v = extract-terms(D);//从文档中抽取term,分词
L = []; //<feature、特征效用指标utilty> 数组
foreach( t in v ){//对于文档中的每一个单词
feaure-utilty(t,c) = compute-feaure-utilty(D,t,c);//计算feature的utilty
append(L,<t,feaure-utility(t,c)>);//加入L中
}
return top-k-utilty-features(L);//返回特征效用最大的k个feature
}
这里使用特征效用(utility)度量,是为了避免和feature权重混淆。
特征效用是指在特征与类别的相关性,而特征权重是指特征在分类时的权重值。
http://www.blogjava.net/zhenandaci/archive/2009/04/19/266388.html有详细介绍。
特征选择的方法:
特征选择有很多种方法,比如:互信息、卡方检验(χ2 test)、基于频率的特征选择。
互信息的方法是计算term t和类别c的期望互信息,期望互信息是term的存在与否能
给类别c的正确判断带来的信息量。
卡方检验是用来检验两个事件的独立性,在特征选择中,它检验term的出现和类别的出现是否相互独立。
基于频率的特征选择就是选择在类别中出现频率比较高的term。频率可以定义为文档频率(
在类别c中包含t的文档数)和文档集频率(c类别中所有文档中t出现的总次数)。
文档频率适合贝努力模型,而文档集频率适合于多项式模型。
分享到:
相关推荐
【模式识别实验:特征选择与特征提取】 在模式识别领域,特征选择与特征提取是两个至关重要的步骤,它们直接影响到模型的性能和效率。特征选择旨在从原始数据中挑选出最具代表性和影响力的特征,减少冗余信息,提高...
在机器学习领域,特征选择是预处理数据以改善学习算法性能的关键步骤。特征选择的目的是减少特征的维度,从而降低模型的复杂性、提高训练速度、降低过拟合的风险,并增强模型的可解释性。本文聚焦于使用互信息进行...
在数据分析和机器学习领域,特征选择是一个至关重要的步骤。它涉及到从原始数据集中挑选出对模型预测最有影响力的特征,以提高模型的性能和解释性。本文将深入探讨"自适应重加权波近红外光谱段选择"(Adaptive Re-...
Matlab基于最大互信息系数特征选择算法(MIC)的回归数据特征选择(Matlab完整程序和数据) 特征选择算法 | Matlab 基于最大互信息系数特征选择算法(MIC)的回归数据特征选择 特征选择算法 | Matlab 基于最大互信息系数...
特征选择是机器学习预处理阶段的关键步骤,它旨在减少数据集中的特征数量,同时保持模型的预测能力。序列浮动前向选择(Sequential Floating Forward Selection,简称SFFS)是一种常用的特征选择策略,尤其在处理...
特征选择是机器学习预处理阶段的关键步骤,它涉及从原始数据集中挑选出最有影响力的特征子集,以提高模型性能和减少计算成本。本资源提供的是一种基于灰狼优化算法(Grey Wolf Optimization, GWO)实现的二进制特征...
Relief特征选择是一种基于实例的学习方法,用于在特征选择过程中评估特征的重要性。它是由Kira和Ratsch在1992年提出的,主要用于高维数据集中的特征权重计算,目的是减少冗余特征并提高机器学习模型的性能。在Python...
【特征选择】是机器学习和模式识别中的重要步骤,它涉及从原始数据中选择最有代表性的特征子集,以减少数据冗余,提高模型的解释性、性能和计算效率。在人脸识别中,特征选择有助于降低维度,去除噪声,使识别系统...
特征选择是机器学习和数据分析中的一个关键步骤,其目的是从原始数据集中挑选出最相关的、对模型预测性能最有贡献的特征子集。这样可以减少计算复杂性,提高模型的解释性和预测准确性,同时避免过拟合的问题。"互...
特征选择是机器学习和数据分析中的一个关键步骤,它旨在从原始数据中挑选出最具有代表性和预测能力的特征,以提高模型的性能和解释性。在这个过程中,减少冗余特征可以降低模型复杂度,减少计算资源消耗,同时有助于...
特征选择是机器学习和数据挖掘中的关键步骤,它旨在从原始数据集中挑选出最具有代表性和影响力的特征子集,以提高模型的效率和预测能力。本文将深入探讨Relief特征选择算法及其在MATLAB环境中的实现。 Relief算法,...
FEAST算法是特征选择算法的一种,全称叫a FEAture Selection Toolbox for C and MATLAB算法,FEAST 提供了基于共同信息的滤波特征选择算法的实现,通过特征选择,可以帮助我们筛选出有用的特征,减少模型训练时间。...
Matlab基于支持向量机递归特征消除(SVM_RFE)的回归数据特征选择算法,matlab代码,输出为选择的特征序号(Matlab完整程序和数据) Matlab基于支持向量机递归特征消除(SVM_RFE)的回归数据特征选择算法,matlab代码,...
ReliefF算法是一种基于实例的特征选择方法,它在机器学习和数据挖掘领域广泛应用,尤其在高维数据处理中表现出色。此算法的核心思想是评估每个特征对于区分不同类别的能力,通过计算近邻和远邻样本之间的差异来确定...
光谱的变量选择,也称为特征选择,是数据分析领域中的一种关键方法,特别是在遥感、化学分析和光谱学等领域。这个过程旨在从原始数据集中筛选出最具信息量和预测能力的特征,以提高模型的性能,降低计算复杂度,并...
特征选择是机器学习和数据挖掘领域中的一个关键步骤,它涉及到如何从原始数据集中挑选出对模型预测或分析最有影响力的特征。在这个过程中,目标是减少数据的维度,降低计算复杂性,同时保持或提高模型的性能。前项...
特征选择是机器学习预处理阶段的关键步骤,它有助于减少数据中的冗余信息,提升模型的解释性和预测性能。本文将详细探讨"PLSUVE.rar_plsuve特征选择_plusqgw_uve_无信息变量_特征选择matlab"这一主题,以及其中的...
"基于信息熵的特征选择算法研究" 特征选择是机器学习和数据挖掘领域中的一种重要技术,主要用于去除冗余和无关的特征,以提高模型的性能和效率。基于信息熵的特征选择算法是一种常见的特征选择方法,其基本思想是...