三大主要分类器总结详解

韩悠悠

浏览: 849730 次
性别:
来自: 深圳

最近访客更多访客>>

ningzong

mumume123

yusip

a6892509

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

机器学习

决策树模型

决策树的优点：

一、 决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。

二、 对于决策树，数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化，比如去掉多余的或者空白的属性。

三、 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。

四、 决策树是一个白盒模型。如果给定一个观察的模型，那么根据所产生的决策树很容易推出相应的逻辑表达式。

五、 易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。

六、 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

七、 可以对有许多属性的数据集构造决策树。

八、 决策树可很好地扩展到大型数据库中，同时它的大小独立于数据库的大小。

九、 计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。

决策树的缺点：

一、 对于那些各类别样本数量不一致的数据，在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。

二、 决策树处理缺失数据时的困难。

三、 过度拟合问题的出现。

四、 忽略数据集中属性之间的相关性。

他什么情况下表现最好？

1) 实例是由“属性-值”对(pair)表示的。最简单的决策树学习中,每一个属性取少数的分离的值(例如,Hot、Mild、Cold)。

2) 目标函数具有离散的输出值。

3) 可能需要析取的描述，如上面指出的，决策树很自然地代表了析取表达式。

4) 训练数据可以包含错误。决策树学习对错误有很好的适应性，无论是训练样例所属的分类错误还是描述这些样例的属性值错误。

5) 训练数据可以包含缺少属性值的实例。

什么条件下它表现很差？

决策树匹配实验数据可能太多时候(过度匹配)表现很差。为了减少过度匹配问题，我们可以裁剪决策树，去掉一些不必要的叶子节点。如果叶子节点只能增加少许信息，则可以删除该节点，将它并人到其他叶子节

点中。当类别太多时，错误可能就会增加的比较快。

决策树算法在CRM中的应用

http://www.cqvip.com/QK/81863X/200602/1000996946.html

http://www.cbcb.umd.edu/~salzberg/docs/murthy_thesis/survey/node32.html

为什么这个模型适合这个问题？

1、因为我们不需要准备太多的训练数据，而且不需要对数据正规化，删除空白值等处理，

2、易于编码，

3、我们当前的特征不是线性问题，决策树在在解决非线性问题有很好的能力

4、预测快速，而且对应机器的性能消耗不高。

逻辑回归优缺点

优点：

1）预测结果是界于0和1之间的概率；

2）可以适用于连续性和类别性自变量；

3）容易使用和解释；

4）计算代价不高

缺点：

1）对模型中自变量多重共线性较为敏感，例如两个高度相关自变量同时放入模型，可能导致较弱的一个自变量回归符号不符合预期，符号被扭转。​需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量，以减少候选变量之间的相关性；

2）预测结果呈“S”型，因此从log(odds)向概率转化的过程是非线性的，在两端随着​log(odds)值的变化，概率变化很小，边际值太小，slope太小，而中间概率的变化很大，很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度，无法确定阀值。

3）容易欠拟合，分类精度可能不高。

他什么情况下表现最好？

缺失值少，低纬度下表现比较好。

什么条件下它表现很差？

特征数量过大时，分类器的性能就会出现下降。维数灾难

真实世界的一个应用场景，多元逻辑回归在实时竞价中的应用研究

http://xueshu.baidu.com/s?wd=paperuri%3A%285c0a6aad96e05d987f69d246a7f72ced%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fcdmd.cnki.com.cn%2FArticle%2FCDMD-10080-1015997937.htm&ie=utf-8&sc_us=4138404365105974406

为什么这个模型适合这个问题？

1、因为我们的数据中有许多特征，可以利用逻辑回归拟合一条

2、模型训练不太费计算资源

3、逻辑回归简单，并且效果也好，而且可以进行各种变种。也是一种奥卡姆剃刀原则。

SVM的优点：

一、 可以解决小样本情况下的机器学习问题。

二、 可以提高泛化性能。

三、 可以解决高维问题。

四、 可以解决非线性问题。

五、 可以避免神经网络结构选择和局部极小点问题。

SVM的缺点：

一、 对缺失数据敏感。

二、 对非线性问题没有通用解决方案，必须谨慎选择Kernelfunction来处理。

他什么情况下表现最好？

SVM在小样本训练集上能够得到比其它算法好很多的结果。支持向量机之所以成为目前最常用，效果最好的分类器之一，在于其优秀的泛化能力，这是是因为其本身的优化目标是结构化风险最小，而不是经验风险最小，因此，通过margin的概念，得到对数据分布的结构化描述，因此减低了对数据规模和数据分布的要求。

什么条件下它表现很差？

当有大量缺失数据时候，表现很差，导致分类不准

真实世界的一个应用场景，基于SVM算法学生毕业的预测

引用地址：http://d.wanfangdata.com.cn/Periodical/fjdn201211051

为什么这个模型适合这个问题？

1、因为我们的数据中样本比较少，SVM可以解决小样本情况下的机器学习问题

2、我们的特征值不是线性问题，适合SVM解决

3、SVM可以指定不同的核函数做决策函数，可以提高分类准确度。

分享到：

监督学习算法小结（1）：决策树 | 机器学习中误差原因

2016-10-19 11:13
浏览 2354
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

三大主要分类器总结详解

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

三大主要分类器总结详解

评论

发表评论

相关推荐

判断系数r2的计算和理解

sklearn中对数据分割与重排，数据集分成训练和测试两个子集

感知机和梯度下降学习规则比较

机器学习之第4部分:比较深度学习方式方法

机器学习之第3部分 词向量的更多的乐趣

机器学习之第二部分：词向量

机器学习之第一部分：词袋模型

监督学习算法小结（1）：决策树

机器学习中 中值的含义

回归分析定义衡量标准

相关系数与决定系数的关系

机器学习中学习曲线与模型复杂化

机器学习中误差原因

机器学习的算法衡量指标

python的文件操作

python下安装numpy

最近访客更多访客>>

机器学习之第3部分词向量的更多的乐趣

机器学习中中值的含义