liuzhiqiangruc

浏览: 471349 次
性别:
来自: 北京

最近访客更多访客>>

u010491013

sh1818

chen.zhu

SheltonH03

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

决策树的数学原理

博客分类：

数据挖掘算法决策树信息熵二项分布

说到决策树，大家肯定不陌生，由于其结构简单，学习成本低，且可解释性强，有着广泛的应用。

因此各类书籍、技术博客都有介绍，且深入浅出、图文并茂、生动形象。

鉴于已经有很多带图的博客介绍决策树，这里就不上图了，主要以公式推导为主。

本文主要分三块内容来介绍决策树：

首先会简单回顾下决策树的内容，由于这部分相对简单，大家了解的也多，因此会快速过一遍。
随后本文会对决策树的数学原理做详尽的剖析和推导，这也是本文的重点，做到知其然更知其所以然。
最后是决策树在工业应用中常见的一些形态，这部分内容在本文不做详细展开，留在后续文章中详述。

决策树的构建

通俗来讲，决策树的构建过程就是将数据根据其特征分布划分到不同的区域，使得同一个区域的样本有尽可能一致的类别标签。在决策树构建的过程中，我们需要一个衡量标准来确定每次数据划分所带来的收益，这个标准就是信息熵，以0-1二分类问题为例，衡量一个节点的信息熵公式如下：

其中p为当前节点中正样本的比例，Entropy越大，说明节点的样本越杂，因此Entropy越小越好。假设我们每次对数据划分都是将数据一分为二，分别为left和right，分裂的收益就是分裂前节点的Entropy减去这两个节点的Entropy的加权和。即：Entropy(parent) - Prob(left) * Entropy(left) + Prob(right) * Entropy(right)，这个值越大越好。这个收益，学术上我们称作“信息增益”。其中Prob(left)为左节点的样比例，Prob(right)为右节点的样本比例。

由于单纯使用信息增益作为标准来构建决策树，容易导致过拟合的问题。因此前辈们又引入了“信息增益率”，以及对树进行剪枝等方式来优化树的创建过程。这里我们只是提一下，不做更深的探讨，感兴趣的同学可以百度，Google相关内容学习。

信息熵的概率解释

上节提到的决策树构建过程，除了一个简单的信息熵公式之外，没有任何数学的元素。稍微有点编程经验的同学都可以快速编写一个决策树模型。因此我们说决策树模型简单，学习成本低。

但有些同学可能会追问，衡量数据划分收益的标准为什么是信息增益(熵的降低)而不是别的东西。或者说为什么它是靠谱的？本节，我们就来回答这个问题。过程中，我们会用到一些概率统计和微积分的基础知识。

我们还是以二分类问题为例，即样本中只有两类样本：正例(标记为“1”)，负例(标记为“0”)。为了对二分类问题建模，我们需要一个假设，即假设第i个样本的模型结果pi的靠谱程度由如下公式衡量：

其中yi表示第i个样本的类标签，，通俗来讲就是假设样本类别判断正确的概率服从给定参数的二项分布，也叫伯努利分布，每个样本都服从相同的分布，且相互之间独立。这样，我们可以写出整个数据集的似然函数，也就是该二分类问题的目标函数：

模型优化的目的，或者说构建一棵决策树的目的，就是使得该公式的值尽可能的大。那这个跟我们要讨论的信息增益(熵的降低)有什么关系？

不急，我们先对目标函数两边分别取对数并取反得到：

求原函数的最大值等价于求该函数的最小值。

由于该函数对参数的二阶导大于0恒成立，如下：

因此，这是一个有且仅有一个最小值的凸函数，为求极值对应的函数参数，只需求其一阶导等于0即可，即求 pi 使得：

根据决策树模型，整个数据集会被划分到不同的区域（叶子节点），而且被划分到同一个区域的样本的预测值相同，则我们只需对每个叶子节点求解：即可。其中pk为第k个节点的预测值，即该节点所有样本的预测值。

公式展开如下：

化解得到：

求解得到：

其中m为该节点样本总数，分子部分为该节点正样本数，则pk即为该节点正样本的比例。将pk带入公式得到:

进一步为了消除节点样本个数对该值的影响，使用节点样本数对该结果做归一化，得到：

没错，你没有看错！这就是我们开头抛出的信息熵公式。可见信息熵并不是什么凭空降临的上帝准则，而是从二项分布中，一步步推出来的。不知道香浓在提出信息熵的时候，是不是用了二项分布。如果是，那就是新瓶装旧酒，没什么新意；如果真是灵机一动的神来之笔，那就是英雄所见略同，虽然这两个英雄隔了好几个世纪。

几个概念

在工作中，我们常常听到诸如模型、目标、参数等概念。那什么是模型、什么是目标函数、什么是参数，它们之间有什么关系？

关于模型

我们讨论的决策树，是通过将数据划分到不同的互不重合区域(对应于树的生长过程)，使得每个区域的样本有尽可能一直的类标签(对应于目标函数的最大化)的模型。只是一种建模方法，而与要优化的目标没有必然关系。

关于目标函数

而上文中我们为了解释信息熵的原理而引入的二项分布，以及基于此构造的损失函数Loss，则是我们的目标函数。我们的目标是最大化该函数的值。

关于模型参数

有了目标函数，才有模型的参数。模型参数是在模型结构的约束下，依据给定的训练数据，使得目标函数取的最大值时的函数参数。

三者关系

一个模型可以有很多个目标，一个目标可以通过不同的模型去优化。即模型结构与目标函数是独立的，互补依赖，互补干涉。

而参数则共同依赖于模型结构和目标函数，有什么样的目标函数，就有什么样的参数形式；而模型的结构则决定了最终的参数结果。

决策树的应用

读到此处相信你一定对决策树有了新的理解，不幸的是如果我们单纯地按照本文所讲的内容去建一棵决策树，你会发现模型极易出现过拟合，没什么用处。因此工业上在使用决策树模型来建模数据时，往往要加上一些限制和约束。比如说限制树的深度、限制树叶子节点的个数、为模型参数加上L2或者L1的显式正则，更或者我们使用多棵而不是仅仅使用单棵树来建模数据。

使用多棵树来建模时，树的组合方式又有不同的选择，比如：boosting，bagging。使用Boosting来组合决策树的模型我们称之为GBDT(gradient boosting decision tree)；而使用bagging方式来组合决策树的模型我们则称之为random Forest(随机森林)。这也是工业界最常使用的两种树模型,我们统称为TreebasedModel......

欲知后事如何，且听下回分解。

查看图片附件

分享到：

深入理解GBDT | 时间序列分段算法 [Time series Breakout D ...

2016-04-11 11:37
浏览 8315
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

SQL入门指南：从零开始掌握数据库操作.pdf: 内容概要：本文档是一份详细的SQL入门指南，旨在帮助初学者全面掌握SQL的基本概念和技术。首先介绍了SQL的基础知识及其重要性，解释了为什么学习SQL对数据分析和软件开发至关重要。接着详细讲解了如何快速搭建SQL环境，包括在线沙箱和本地安装两种方式。随后深入探讨了SQL的基础语法，如创建数据库和表、插入、查询、更新和删除数据的操作。进一步解析了核心操作，如复杂的查询语句结构、多表关联查询以及实用的功能，如条件表达式、日期处理和字符串操作。最后提供了新手常见问题的解决方案和性能优化建议，并推荐了一些学习资源。适合人群：对数据库操作感兴趣的初学者，尤其是希望从事数据分析或软件开发的人士。使用场景及目标：适用于想要系统学习SQL基础知识和核心操作的个人，目标是在实践中掌握SQL技能，能够独立进行数据库管理和操作。其他说明：文档不仅涵盖了理论知识，还提供了大量实例和练习建议，帮助读者更好地理解和应用所学内容。

计算机二级考试C语言历年真题及答案.pdf: 计算机二级考试C语言历年真题及答案.pdf

flink 自定义连接器: flink 自定义连接器

软考网络工程师视频教程及复习指导资料.zip: 软考网络工程师视频教程及复习指导资料，含视频教程、历年真题、模拟试题等。

计算机二级access历年笔试真题及答案.pdf: 计算机二级access历年笔试真题及答案.pdf

三菱PLC FX3U控制松下伺服的多轴联动解决方案：基于功能块的高效编程与调试: 内容概要：本文详细介绍了使用三菱PLC FX3U和1PG定位模块控制四个松下伺服电机的项目经验。项目将常用的JOG、HOME、定位等功能封装成独立的功能块（FB），并通过结构化文本（ST）编写程序。每个功能块不仅包含了核心逻辑，还进行了详细的异常处理和参数映射，确保系统的稳定性和易用性。此外，文章还涵盖了电气图纸、触摸屏配方管理以及硬件配置等方面的注意事项，提供了完整的项目实施指南。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对三菱PLC和松下伺服有一定了解的人群。使用场景及目标：适用于需要高精度多轴联动控制的工业应用场景，如数控机床、机器人等。目标是帮助工程师快速搭建稳定的控制系统，减少调试时间和复杂度。其他说明：文中提供的代码片段和硬件配置建议经过实际验证，能够有效提高项目的成功率。同时，文章强调了良好的注释习惯和详细的文档记录对于后续维护的重要性。

办公室网安全监控uptime-kuma，docker镜像离线压缩包: 办公室网安全监控uptime-kuma，docker镜像离线压缩包

教程-typescript-简介和入门: 教程-typescript-简介和入门

S7-1200 PLC五轴伺服运动控制项目：结构化编程与功能实现详解: 内容概要：本文详细介绍了基于西门子S7-1200 PLC控制五轴伺服系统的项目实施经验，涵盖手动模式、自动运行状态机、伺服模式切换、断电保持以及报警处理等多个关键环节。作者通过结构化编程思想，将复杂的多轴控制系统分解为多个独立的功能块，确保系统稳定性和可扩展性。文中不仅展示了具体代码实现，还分享了许多实用技巧，如通过枚举类型构建状态机、利用保持存储器实现断电位置记忆、采用环形缓冲区记录报警信息等。适合人群：从事工业自动化控制领域的工程师和技术人员，尤其对PLC编程和伺服控制有一定基础的人群。使用场景及目标：适用于需要进行复杂多轴运动控制的工业应用场景，旨在提高系统的可靠性、灵活性和易维护性。通过学习本文，读者可以掌握如何运用结构化编程方法优化PLC程序设计，提升工作效率并减少错误发生。其他说明：文章强调了良好的编程习惯对于大型工程项目的重要性，提倡模块化、组件化的设计理念。此外，还提到了一些常见的陷阱及其解决方案，帮助初学者避开弯路。

win32汇编环境,网络编程入门之十五: win32汇编环境,网络编程入门之十五

12届嵌入式省赛题1111111: 12届嵌入式省赛题1111111

Cadence两级放大电路版图设计与LVS/DRC验证的技术解析: 内容概要：本文详细记录了作者在Cadence平台中完成一个两级放大电路版图设计的过程，涵盖了从初步设计到最终通过LVS（Layout vs Schematic）和DRC（Design Rule Check）验证的所有步骤。文章首先介绍了电路的基本结构和参数设定，如共源放大器和共栅放大器的关键参数调整，以及在Virtuoso环境中进行的具体操作。接着，作者分享了在版图绘制过程中遇到的各种挑战及其解决方案，包括晶体管尺寸优化、走线布局、寄生参数控制、金属层间距调整等。此外，还特别强调了LVS和DRC验证中的常见问题及应对策略，如端口不匹配、器件参数偏差、金属密度规则等。最后，作者总结了一些实用的设计技巧和注意事项，为后续类似项目提供了宝贵的经验。适合人群：从事集成电路设计的专业人士，尤其是对模拟电路版图设计感兴趣的工程师和技术爱好者。使用场景及目标：帮助读者掌握Cadence环境下两级放大电路版图设计的方法，提高LVS和DRC验证的成功率，减少设计周期内的返工次数，提升设计效率。其他说明：文中提到的具体数值和代码片段仅供参考，在实际应用中需要根据具体的工艺规则和个人需求进行适当调整。

内江市乡镇边界，矢量边界，shp格式: 矢量边界，行政区域边界，精确到乡镇街道，可直接导入arcgis使用

器件模型与参数提取工具，由中国科学院微电子研究所开源的针对后摩尔时代新型器件模型与参数提取工具matlab (2).zip: matlab

卒中风险预测数据集，脑中风预测数据集，包含影响中风风险的指标（包含16个特征和2个目标变量），适用于机器学习和数据分析: 这个Stroke Risk Prediction Dataset（卒中风险预测数据集）的版本2旨在通过症状、人口统计学和基于医学文献的风险模型来预测卒中风险。相比于版本1，它在多个方面进行了显著改进，包括年龄相关的症状概率、性别特异性风险调整以及经过医学验证的特征工程等。主要增强点：年龄准确的风险建模：卒中风险随着一个S型曲线增加，在50岁之后急剧上升，这反映了现实世界的流行病学趋势。性别特定的风险：60岁以下的男性风险是女性的1.5倍，而60岁以上的女性（绝经后的激素变化）风险比同龄男性高1.8倍。平衡且扩展的数据集：样本量从10,000增加到35,000，以提高模型的普遍性和捕捉罕见的症状组合。其中50%为卒中风险≥50%，另外50%为卒中风险<50%。数据集结构该数据集包含16个特征和2个目标变量（分类目标和回归目标），涉及年龄、性别、各种二元症状指标（如胸痛、呼吸急促、心律不齐等）、是否处于风险中（二元分类目标）以及卒中风险百分比（回归目标）。医学有效性数据集基于同行评审的医学文献构建，症状概率、风险权重及人口统计关系直接来源于临床指南和流行病学研究。例如，

搭建环境：JDK-17: 搭建环境：JDK-17

流程图111111111111111: 流程图111111111111111

若夏小说2.2专业版内核 WAP端+电脑端+在线充值+关关采集器(送规则): 这款模板需要2.2的程序，模板的仿照若夏文学网，模板以粉色彩蝶为主，也就女生版的，可以做言情类的原创站，程序带有充值、打赏、vip等原创功能，凡是购买本模板送2.2程序，还送手机独立板子及关关采集器。2.2是官方的没有漏洞、后门什么的，可以放心使用! 安装说明：详细见压缩包，要求PHP5.3以上环境。

2023年5月房地产行业舆情监测报告：政策、品牌及重点事件分析: 本报告由艾普思咨询发布，详细分析了2023年5月中国房地产行业的舆情状况。主要内容涵盖行业发展简报、舆情态势（声量/情感分布、来源/媒介分布、典型报道、地域分布）、品牌舆情关注度TOP10以及重点舆情话题和事件。报告指出，5月份房地产行业舆情声量显著上升，达到27,344,454篇次，主要受政策调整、企业动态等因素影响。此外，报告特别关注了万达集团大规模裁员传闻和光明房地产集团原董事长沈宏泽接受审查调查两大重点事件。房地产从业者、投资者、政策研究者及相关媒体从业人员。

基于Matlab/Simulink的7.5kw异步电机矢量控制仿真模型构建与优化: 内容概要：本文详细介绍了7.5kw异步电机的经典矢量控制仿真模型在Matlab/Simulink环境下的搭建与优化方法。首先阐述了矢量控制的核心概念，即速度环和电流环的双环控制机制。速度环作为系统的‘指挥官’，通过PI调节器调整电机的目标速度；电流环作为‘执行者’，根据速度环提供的指令精确调节电机电流，确保转矩的稳定控制。文中提供了具体的MATLAB代码片段展示各环节的具体实现方式，包括坐标变换、PI调节器参数设定、弱磁控制、转矩限幅等关键技术细节。此外，作者还分享了一些实用的经验和技巧，如速度环和电流环的参数选择、磁链观测器的应用、SVPWM模块的实现等。适用人群：从事电机控制系统设计的研究人员和技术人员，尤其是对Matlab/Simulink有一定基础并希望深入了解异步电机矢量控制原理的人群。使用场景及目标：适用于需要进行电机控制仿真的科研项目或工业应用。主要目标是帮助读者掌握异步电机矢量控制的基本原理及其在Matlab/Simulink中的具体实现方法，提高仿真效率和准确性。其他说明：文中不仅提供了详细的理论解释和技术实现步骤，还附带了许多实用的小技巧和注意事项，有助于读者更好地理解和应用相关知识。同时，作者强调了参数选择的重要性，并给出了具体的调试建议，使读者能够更快地上手并优化自己的仿真模型。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

决策树的数学原理

决策树的构建

信息熵的概率解释

几个概念

决策树的应用

评论

发表评论

相关推荐

深入理解GBDT

会计记账小程序

Viterbi 算法应用实现

DTW算法时序应用与实现

关于连续值离散化[MODL]

谱聚类算法实现

白话NMF（Non-negative Matrix Factorization）——Matlab 实现

BPR [Bayesian Personalized Ranking] 算法详解及应用实践

【0-1】矩阵分解

推荐算法之协同过滤实战

基于堆 [Heap] 结构的 TopK 问题实现

数据挖掘中 决策树算法实现——Bash

基于 FP-Tree 的关联规则挖掘——Bash实现

DJBX33A哈希函数实现——Bash

字符串中单调递增连续子序列——Bash

Java中的Arrays.sort 分析及其非递归实现——Bash

快速排序的非递归实现 --Bash

两种求集合所有子集的方法--Bash实现

详解PHP中Array结构HashTable

再谈PHP中的str_repeat函数实现

最近访客更多访客>>

数据挖掘中决策树算法实现——Bash