决策树模型
决策树的优点:
一、 决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。
二、 对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。
三、 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
四、 决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。
五、 易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。
六、 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
七、 可以对有许多属性的数据集构造决策树。
八、 决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小。
九、 计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。
决策树的缺点:
一、 对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。
二、 决策树处理缺失数据时的困难。
三、 过度拟合问题的出现。
四、 忽略数据集中属性之间的相关性。
他什么情况下表现最好?
1) 实例是由“属性-值”对(pair)表示的。最简单的决策树学习中,每一个属性取少数的分离的值(例如,Hot、Mild、Cold)。
2) 目标函数具有离散的输出值。
3) 可能需要析取的描述,如上面指出的,决策树很自然地代表了析取表达式。
4) 训练数据可以包含错误。决策树学习对错误有很好的适应性,无论是训练样例所属的分类错误还是描述这些样例的属性值错误。
5) 训练数据可以包含缺少属性值的实例。
什么条件下它表现很差?
决策树匹配实验数据可能太多时候(过度匹配)表现很差。为了减少过度匹配问题,我们可以裁剪决策树,去掉一些不必要的叶子节点。如果叶子节点只能增加少许信息,则可以删除该节点,将它并人到其他叶子节
点中。当类别太多时,错误可能就会增加的比较快。
决策树算法在CRM中的应用
http://www.cqvip.com/QK/81863X/200602/1000996946.html
http://www.cbcb.umd.edu/~salzberg/docs/murthy_thesis/survey/node32.html
为什么这个模型适合这个问题?
1、因为我们不需要准备太多的训练数据,而且不需要对数据正规化,删除空白值等处理,
2、易于编码,
3、我们当前的特征不是线性问题,决策树在在解决非线性问题有很好的能力
4、预测快速,而且对应机器的性能消耗不高。
逻辑回归优缺点
优点:
1)预测结果是界于0和1之间的概率;
2)可以适用于连续性和类别性自变量;
3)容易使用和解释;
4)计算代价不高
缺点:
1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;
2)预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。
3)容易欠拟合,分类精度可能不高。
他什么情况下表现最好?
缺失值少,低纬度下表现比较好。
什么条件下它表现很差?
特征数量过大时,分类器的性能就会出现下降。维数灾难
真实世界的一个应用场景,多元逻辑回归在实时竞价中的应用研究
为什么这个模型适合这个问题?
1、因为我们的数据中有许多特征,可以利用逻辑回归拟合一条
2、模型训练不太费计算资源
3、逻辑回归简单,并且效果也好,而且可以进行各种变种。也是一种奥卡姆剃刀原则。
SVM的优点:
一、 可以解决小样本情况下的机器学习问题。
二、 可以提高泛化性能。
三、 可以解决高维问题。
四、 可以解决非线性问题。
五、 可以避免神经网络结构选择和局部极小点问题。
SVM的缺点:
一、 对缺失数据敏感。
二、 对非线性问题没有通用解决方案,必须谨慎选择Kernelfunction来处理。
他什么情况下表现最好?
SVM在小样本训练集上能够得到比其它算法好很多的结果。支持向量机之所以成为目前最常用,效果最好的分类器之一,在于其优秀的泛化能力,这是是因为其本身的优化目标是结构化风险最小,而不是经验风险最小,因此,通过margin的概念,得到对数据分布的结构化描述,因此减低了对数据规模和数据分布的要求。
什么条件下它表现很差?
当有大量缺失数据时候,表现很差,导致分类不准
真实世界的一个应用场景,基于SVM算法学生毕业的预测
引用地址:http://d.wanfangdata.com.cn/Periodical/fjdn201211051
为什么这个模型适合这个问题?
1、因为我们的数据中样本比较少,SVM可以解决小样本情况下的机器学习问题
2、我们的特征值不是线性问题,适合SVM解决
3、SVM可以指定不同的核函数做决策函数,可以提高分类准确度。
相关推荐
### OpenCV训练分类器知识点详解 #### 一、OpenCV训练分类器概述 **OpenCV**(Open Source Computer Vision Library)是一款开源的计算机视觉库,它提供了大量的机器学习算法实现,适用于图像处理、视频分析和模式...
**Haar分类器详解** Haar分类器是一种广泛应用于计算机视觉和图像处理领域的特征检测算法,尤其在物体识别,如猫脸、行人和自行车等物体的检测中表现出色。这个算法最初由Piotr Dollar和Alexey A. Rozantsev等人在...
总结一下,本案例通过Apache Mahout实现了贝叶斯文本分类器的构建过程,涵盖了数据预处理、特征提取、模型训练和测试等关键步骤。通过学习和实践这个案例,你可以深入理解贝叶斯分类器的工作原理,并将其应用到实际...
**KNN分类器详解** KNN,全称为K-最近邻(K-Nearest Neighbors),是一种简单且直观的监督学习算法,常用于分类任务。KNN算法的基本思想是:对于给定的一个新实例,通过查找训练集中与其最接近的K个邻居,依据这些...
本文将深入探讨高斯分类器,尤其是它在精度方面的表现,并结合提供的代码资源进行解析。 高斯朴素贝叶斯分类器基于贝叶斯定理,其核心思想是利用先验概率和条件概率来预测数据的类别。在高斯朴素贝叶斯模型中,假设...
《模式识别:模型选择、SVM与分类器集成详解》 模式识别是机器学习的核心领域,涉及模型选择、分类器构建以及集成策略等多个关键概念。本文将深入探讨Adaboost算法的设计思想,模型选择的基本原则,以及SVM的理论...
《使用Fisher线性判别准则构建分类器的实践与解析》 Fisher线性判别准则(Fisher's Linear Discriminant,FLD)是一种在机器学习和统计学中广泛使用的分类方法,它通过最大化类别间距离(即类间散度)并最小化类别...
**多核分类器详解** 在计算机科学领域,尤其是在机器学习和模式识别中,"多核分类器"(Multi-Kernel Learning,简称MKL)是一种先进的技术,它利用了多个不同的核函数来提升分类性能。多核分类器的概念源于支持向量...
### 分类器训练详解 #### 一、概述 在计算机视觉领域中,**分类器训练**是一项核心的技术,主要用于图像中的目标检测与识别任务。它通过机器学习算法,特别是Boosting算法,训练出能够准确区分目标与非目标的模型...
OpenCV提供了一套完整的人脸检测和识别框架,主要基于Haar特征和Adaboost算法的级联分类器。 1. **Haar特征**:这是一种用于边缘、线和形状检测的特征描述符。在人脸识别中,Haar特征可以捕获人脸的局部特征,如...
本篇内容将对提供的SVM分类器Matlab代码进行详细的解析,包括理解其核心思想、主要步骤以及具体实现细节等,以便于读者能够更好地理解和运用SVM算法。 #### 二、代码结构及功能 该Matlab程序主要分为三个部分:...
**MySVM 分类器详解** MySVM是一款基于Java实现的支持向量机(Support Vector Machine,SVM)分类器。支持向量机是一种监督学习模型,广泛应用于分类和回归问题,尤其在处理小样本、非线性及高维模式识别问题时表现...
通过上述分析,我们可以看到BP_Adaboost的强分类器程序设计主要包括了BP神经网络模型的构建与训练、AdaBoost算法中的权重更新机制以及最终强分类器的构建与评估。这种结合方式能够充分利用BP神经网络的非线性映射...
**线性判别分析(LDA)分类器详解** 线性判别分析(Linear Discriminant Analysis,简称LDA)是一种统计方法,常用于高维数据的降维和分类任务。LDA的目标是找到一个线性变换,使得同类数据点聚集在一起,而不同类...
总结来说,基于MIP的神经网络分类器在OCR字符识别中提供了一种新的优化方法,通过将部分决策变量设定为整数,提高了模型的适用性和准确性。通过对提供的训练和识别图片进行处理,我们可以评估和利用这个模型来提升...
**KNN分类器详解** KNN(K-Nearest Neighbors)分类器是一种基于实例的学习方法,也被称为懒惰学习,因为它在预测阶段才进行学习。KNN算法的核心思想是利用训练集中与新样本最接近的K个样本的类别信息来决定新样本...
### 朴素贝叶斯分类器知识点详解 #### 一、朴素贝叶斯分类器简介 朴素贝叶斯分类器是一种基于概率论中的贝叶斯定理,并假设特征间相互独立的简单概率分类方法。该算法在很多场景下都能取得较好的效果,尤其是在...