一、引言
分类算法有很多,不同分分类算法又用很多不同的变种。不同的分类算法有不同的特定,在不同的数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选择分类,如何评价一个分类算法的好坏,前面关于决策树的介绍,我们主要用的正确率(accuracy)来评价分类算法。
正确率确实是一个很好很直观的评价指标,但是有时候正确率高并不能代表一个算法就好。比如某个地区某天地震的预测,假设我们有一堆的特征作为地震分类的属性,类别只有两个:0:不发生地震、1:发生地震。一个不加思考的分类器,对每一个测试用例都将类别划分为0,那那么它就可能达到99%的正确率,但真的地震来临时,这个分类器毫无察觉,这个人类带来的损失是巨大的。为什么99%的正确率的分类器却不是我们想要的,因为这里数据分布不均衡,类别1的数据太少,完全错分类别1依然可以达到很高的正确率却忽视了我们关注的东西。接下来详细介绍一下分类算法的评价指标。
二、评价指标
1、几个常用的术语
这里首先介绍几个常见的模型评价术语,现在假设我们的分类目标只有两类,计为正例(positive)和负例(negtive)分别是:
1)True positives(TP): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);
2)False positives(FP): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;
3)False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;
4)True negatives(TN): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。
上图是这四个术语的混淆矩阵,我只知道FP叫伪阳率,其他的怎么称呼就不详了。注意P=TP+FN表示实际为正例的样本个数,我曾经误以为实际为正例的样本数应该为TP+FP,这里只要记住True、False描述的是分类器是否判断正确,Positive、Negative是分类器的分类结果。如果正例计为1、负例计为-1,即positive=1、negtive=-1,用1表示True,-1表示False,那么实际的类标=TF*PN,TF为true或false,PN为positive或negtive。例如True positives(TP)的实际类标=1*1=1为正例,False positives(FP)的实际类标=(-1)*1=-1为负例,False negatives(FN)的实际类标=(-1)*(-1)=1为正例,True negatives(TN)的实际类标=1*(-1)=-1为负例。
2、评价指标
1)正确率(accuracy)
正确率是我们最常见的评价指标,accuracy = (TP+TN)/(P+N),这个很容易理解,就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好;
2)错误率(error rate)
错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以accuracy =1 - error rate;
3)灵敏度(sensitive)
sensitive = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力;
4)特效度(specificity)
specificity = TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力;
5)精度(precision)
精度是精确性的度量,表示被分为正例的示例中实际为正例的比例,precision=TP/(TP+FP);
6)召回率(recall)
召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率与灵敏度是一样的。
7)其他评价指标
计算速度:分类器训练和预测需要的时间;
鲁棒性:处理缺失值和异常值的能力;
可扩展性:处理大数据集的能力;
可解释性:分类器的预测标准的可理解性,像决策树产生的规则就是很容易理解的,而神经网络的一堆参数就不好理解,我们只好把它看成一个黑盒子。
对于某个具体的分类器而言,我们不可能同时提高所有上面介绍的指标,当然,如果一个分类器能正确分对所有的实例,那么各项指标都已经达到最优,但这样的分类器往往不存在。比如我们开头说的地震预测,没有谁能准确预测地震的发生,但我们能容忍一定程度的误报,假设1000次预测中,有5次预测为发现地震,其中一次真的发生了地震,而其他4次为误报,那么正确率从原来的999/1000-99.9%下降到996/1000=99.6,但召回率从0/1=0%上升为1/1=100%,这样虽然谎报了几次地震,但真的地震来临时,我们没有错过,这样的分类器才是我们想要的,在一定正确率的前提下,我们要求分类器的召回率尽可能的高。
http://tech.ddvip.com/2013-11/1384964320206281.html
相关推荐
12. 监督分类算法的评价标准:监督分类算法的评价标准包括准确率、召回率、F1 值等。 13. 监督分类算法的挑战:监督分类算法的挑战包括处理高维数据、处理无标签数据、处理不平衡数据等。 14. 监督分类算法的发展...
### 文本分类算法的比较研究 #### 摘要概览与研究背景 随着信息技术的飞速发展,互联网上的数据量急剧增长,如何有效管理和利用这些海量信息成为了研究的热点。文本分类(Text Categorization,简称TC)作为信息...
评价一个包分类算法的好坏通常会考虑以下几个方面: - **时间复杂度**:指算法在执行过程中所需的时间,通常希望这个值尽可能小。 - **空间复杂度**:指算法运行时所需的内存大小,优秀的算法应该能够在有限的硬件...
在评价分类算法性能时,通常会使用准确率、召回率、F1分数等指标。而卷积神经网络则利用其在图像处理领域的优势,通过学习文本的局部特征,来适应文本分类任务。 在实际应用中,文本分类可以广泛应用于新闻分类、...
【图像检索分类算法研究】是计算机科学与技术领域的一个重要课题,主要关注如何通过图像的颜色特征来实现图像的检索和分类。在这个课题中,学生需要深入理解基于内容的图像检索(CBIR)的重要性和基本原理,同时掌握...
本资源"基于关联规则的分类算法java数据挖掘算法源码.rar"包含了一个Java实现的关联规则分类算法,这对于理解并应用这类算法具有很高的价值。下面我们将深入探讨关联规则、分类算法以及如何在Java中实现它们。 关联...
在机器学习领域,分类算法是一种广泛应用的技术,它主要用于预测离散型输出变量。在这个场景中,我们关注的是“机器学习分类算法数据(旅游类数据)”,这意味着数据集是专门针对旅游行业的,可能包含了各种与旅游...
元目标(Meta-objectives)则是评价分类算法性能的标准或目标,例如准确率、精确率、召回率、F1分数等。这些指标用于评估模型在未知数据上的预期性能。在自动推荐系统中,元目标是决定算法适用性的重要依据。 推荐...
"大数据应用基础-分类算法" 大数据应用基础是指在大数据环境中的数据挖掘、数据分析和数据架构技术。分类算法是大数据应用基础中的核心技术之一。 大数据的核心是非结构化数据,例如物联网、智能手机、可穿戴、...
- **情感分析**:在社交媒体监测、产品评论分析等领域,贝叶斯分类算法能够帮助判断用户的情感倾向,如正面评价或负面评价。 #### 6. 结论 综上所述,贝叶斯分类算法作为一种重要的数据挖掘方法,在分类任务中具有...
MetaCost与重采样结合的不平衡分类算法——RS-MetaCost MetaCost是由Domingos提出的一种典型的结果后处理方法,旨在解决不平衡数据分类问题。然而,MetaCost算法在划分子集过程中存在很强的随机性,当原始数据集中...
"基于DBT分类算法的银行贷款风险评估" 本文提出了基于DBT分类算法的银行贷款风险评估方法,以解决客户信息不完整、贷款案例没有早期经验的情况。DBT分类算法是结合贝叶斯算法的先验信息和决策树算法的信息增益信息...
通常,分类算法的性能评价标准是分类精度,即正确分类的样本数量占总样本数的比例。然而,这种评估方式建立在一个理想化的假设上,即所有误分类的代价相同。在实际应用中,这个假设往往并不成立。例如,错误地将心脏...
系统地论述了目前包分类研究的相关领域:分类器的种类、分类算法的评价准则、设计分类算法的原则和现实规则库的特点等。通过对各分类算法和现实规则库的特点进行分析,采用聚合折叠向量法,提出了一种适用于多维大...
5. 算法评价:对所提出的文档区块分类算法进行评价,包括分类准确率、召回率、F1 分数等指标。 机器学习在文档区块图像分类中的应用包括: 1. 传统机器学习分类模型:包括支持向量机(SVM)、K-近邻算法(KNN)、...