传统的机器学习分类研究大多基于如下假设:(1)分类以最大正确率为目标;(2)所有的分类错误会带来相同的错误代价;(3)数据集中的各类样本数目基本均衡,即各类所含的样本数大致相当。
显然,这三个假设在现实应用领域中很多时候是不成立的。很多类别并不均衡,数据集中某个类别的样本数可能会远多于其他类别;不同的分类错误往往会带来显著不同的损失。例如信用卡交易中的欺诈识别。非均衡数据集(Imbalance Data Set)的分类问题,有其特殊的地方,需要对传统方法做进一步的演化和改进。
传统机器学习通常以总体最大分类精度为目标,这一目标必然会导致算法提高多数类样本的分类精度,而忽略样本集中小样本的预测精度。机器学习分类算法面对不均衡数据分类时性能下降的原因很多,例如不恰当的性能评价准则、不恰当的归纳偏置、某类样本数据过少产生的绝对稀少问题、各类样本数据相差悬殊产生的相对稀少问题以及采取分而治之策略算法所独有的数据碎片问题和噪音等。
现有的对策大致包括:选择合适的性能评价准则、采用非贪婪的搜索策略、选择合适的归纳偏置、与专家或知识交互、分割数据以降低数据的不平衡性、通过取样方法改变数据的原始分布、只对一类进行学习、利用代价敏感学习解决不平衡问题等。这些对策均在一定程度上缓解了不均衡数据集的机器学习问题。
归纳一下解决方法,主要有两大方向:一是从数据集的角度,即重构数据集,通过数据预处理的方法解决;另一个是从算法角度,即改进分类算法,主要通过对不同类样本设置不同的权值、改变概率密度、调整分类边界等措施解决。
1、重构数据集
重构数据集,又叫重采样/重抽样/重取样,是解决数据失衡的一个有效途径。该方法主要是通过减轻数据集的不均衡程度来提高少数类的分类性能。其关键在于:如何既能消除大量的噪声信息,显著减少数据不均衡程度,又能保证最小的信息损失,以保留绝大多数对分类学习有用的样本点。重采样方法,包括过取样和欠取样。
过取样通过增加少数类的样本来提高少数类的分类性能,最简单的过取样方法是随机复制少数类样本,缺点是没有给少数类增加任何新的信息,会使分类器学到的决策域变小,从而导致过学习。改进的方法有SMOTE算法(根据一定的规则随机制造生成新的少数类样本点,并将这些新合成的少数类样本点合并到原来的数据集里,生成新的训练集)、Borderline-SMOTE(主要是通过在适当区域内进行插值,以保证新增加的样本是有价值的)。
欠取样是通过减少多数类样本来提高少数类的分类性能,最简单的欠取样方法是随机的去掉某些多数类样本来减少多数类的规模,缺点是容易丢失多数类的一些重要信息。改进的方法有Condensed Nearest Neighbor Rule、Neighborhood Cleaning Rule、One sided Selection、Tomek Link等,这些方法通过一定的规则和技术,找出边界样本和噪音样本,有选择地去掉对分类作用不大,即远离分类边界或者引起数据重叠的多数类样本,并将其从大类中去掉,只留下安全样本和小类样本作为分类器的训练集。
2、改进分类算法
对已有分类算法的改进,主要是通过调节各类样本之间的代价函数、对于不同类的样本设置不同的权值、改变概率密度、调整分类边界等措施使其更有利于少数类的分类。算法层面的操作主要集中在以下四种类型:
·代价敏感学习
代价敏感学习方法是将各类不同的错分代价用到分类决策中,尽可能降低误分类的总体代价而不是尽可能降低误分类的错误率。改变现有分类算法使其变得代价敏感是非常困难的工作,有时效果并不明显,通常的方法是不改变原有的算法,通过增加一个过程使得原来的分类算法变得代价敏感。常用方法:调整样本分布(根据错误分类的代价按一定比例变换训练集中类别的频率,其缺点是改变了样本的分布情况,有时会影响算法的性能)、元代价方法(通过“元学习”过程,根据最小期望代价修改训练样本的类标记,并用修改过的训练集重新学习新的模型)、代价敏感决策(首先在训练集中多次抽样,生成多个模型,在根据模型,得到测试样本属于每个类别的概率,然后计算测试样本的所有错误分类代价,并根据最小代价得到类标记)。
·支持向量机(SVM)
SVM对数据的不均衡本身并不敏感。但可以对SVM进行适当改进以更好的处理不均衡数据分类。简单的分类是将分类边界朝多数类进行适当的偏移,以使更多的少数类样本不会被误判;另一种方法是对正类和负类赋予不同的代价,作为SVM的惩罚因子;还可以对支持向量进行裁剪,通过适当牺牲多数类的分类精度以提高少数类的精度。
·单类学习分类
可以将不均衡数据集基于区别的分类方法改为基于识别的方法进行学习,从而提出了单类学习的分类算法。其主要思想在于只利用感兴趣的目标类学习样本进行学习和训练,即只对少数类样本进行训练,其目标是从测试样本中识别出感兴趣的少数类样本,而不是对少数类和多数类进行区分。对于新的样本,通过比较该样本与目标类的相似程度而识别该样本是否归属于目标类。
·组合方法
组合方法的主要思想在于将多个分类器组合成一个分类器,以提高分类性能。其中提升是组合方法中被广泛使用的技术。通过提升,多个弱分类器可以组合成一个强分类器,能有效改善不均横数据集的分类性能。AdaBoost是提升算法的代表,它给训练集数据的分布迭代加权。在每次迭代中,提升算法增加错误分类的样本权值,减少正确分类的样本权值。这使训练系统在下次迭代中更关注于分类错误的样本。改进的算法还有AdaCost算法、RareBoost算法。
总而言之,不均衡数据集的分类问题是机器学习和模式识别领域中心的研究热点,是对传统分类方法的重大挑战。
分享到:
相关推荐
具体来说,本文讨论了机器学习算法在面向非均衡数据集的应用,包括分类、回归、聚类等技术,并且展示了这些算法在地球科学领域的实践应用,例如,利用机器学习算法来预测煤矿瓦斯涌出量、边坡稳定性预测等。...
然而,BP网络在面对非均衡数据集时往往不能有效处理各类别样本,尤其是当少数类样本的重要性不被充分认识时,网络易产生过拟合,对多数类样本过度拟合,而忽略少数类样本,从而导致整体分类性能的下降。 针对上述...
本论文的研究方向为面向非均衡数据集的机器学习及在地学数据处理中,旨在解决非均衡数据集下的机器学习问题,并将其应用于地学数据处理中。本论文的研究内容包括: 1. 非均衡数据集下的机器学习算法研究,包括样本...
实验结果显示,该优化的BP神经网络方法在处理非均衡数据集时,特别是在小数据集样本分类上,表现出了较高的准确性和鲁棒性,有效地解决了非均衡数据分类的难题。 总结起来,这篇论文探讨了优化BP神经网络在非均衡...
其中,“和动物分类相关的数据集”就是专门为此目的而设计的数据集合,它为深度学习模型的训练与评估提供了丰富的图像资源。 该数据集的构成非常具体,涵盖了水牛、大象、犀牛和斑马四种动物类别,每个类别都精心...
电子商务中基于非均衡数据分类和词性分析的意见挖掘研究,核心在于解决电子商务评论数据非均衡分布的问题,并通过词性分析提高意见挖掘的准确性和效率。随着互联网和电子商务的高速发展,消费者越来越依赖于网络商品...
为了弥补支持向量机对非均衡样本集分类时倾向于较大类的不足,提出一种平衡策略。基于Fisher判别思想,计算出两类样本在分类超平面法向量上投影后的均值和方差,再依据两类错分概率相等准则,给出新的阈值计算方法对...
为了解决不均衡数据特征选择问题,提升分类模型准确率,利用合成少数过采样技术SMOTE,提出了一种基于二进制排队搜索的包装式非均衡数据特征选择模型。 不均衡数据问题是数据挖掘与机器学习中的常见问题,当数据...
在IT领域,多分类问题和数据不均衡是两个常见的挑战,特别是在机器学习和深度学习的应用中。本主题将深入探讨如何使用softmax回归模型处理多分类任务,并针对数据不平衡问题提出有效的解决方案。 首先,softmax回归...
基于概率LS-SVM的多标签非均衡样本分类算法 ...本文提出的基于概率LS-SVM的多标签非均衡样本分类算法可以有效地解决多标签分类问题中的样本不均衡和类属不确定性问题,具有重要的理论价值和实践意义。
数据集是进行机器学习模型训练的基础,这个“火焰识别,火灾检测 数据集”很可能包含了大量不同场景下的火焰图像,用于训练模型识别火源和判断火灾状态。通常,这样的数据集会分为训练集(train)和验证集(val)。...
"Cash"数据集是人工智能领域中常用的一个非均衡数据集,主要用于训练和评估机器学习模型在处理类别不均衡问题时的表现。该数据集的特点在于它所包含的数据点数量在一个或多个类别的样本上显著地少于其他类别,这使得...
SICK-E数据集的特点是它只包含英文评论,并且每个评论都经过了预处理,以去除任何非文本字符和标点符号。此外,该数据集还提供了每个评论的词频分布和平均词长等信息。SICK-E数据集的另一个重要特点是它的平衡性。在...
在IT领域,人脸数据集是计算机视觉和人工智能研究中的重要资源,主要用于训练和验证人脸识别算法。这个压缩包包含了50万个图片的人脸数据集,这是一个庞大的数据集合,对于开发和优化人脸识别系统非常有价值。...
在这种背景下,深度学习作为一种强大的模式识别工具,其在处理复杂、非线性问题上的优势逐渐被应用于不均衡数据集的分类任务。 深度学习的核心在于构建多层神经网络,通过逐层抽象,提取数据的高级特征。对于不均衡...
对于机器学习的初学者来说,这样的数据集是理想的实践对象,可以用来学习数据预处理、特征提取、分类和聚类算法,以及如何利用这些算法来理解和模拟这两种昆虫的行为。 在数据预处理阶段,用户可能需要清洗数据,...
针对非均衡数据分类效果差的问题,提出一种新的基于边界混合采样的非均衡数据处理方法(BMS).首先通过引进“变异系数”找出样本的边界域和非边界域;然后对边界域中的少数类样本进行过采样,对非边界域中的多数类样本...
为了弥补支持向量机对非均衡样本集分类时倾向于较大类的不足,提出一种平衡策略。基于Fisher判别思想,计算出两类样本在分类超平面法向量上投影后的均值和方差,再依据两类错分概率相等准则,给出新的阈值计算方法对...