C&R Tree全称是Classification and Regression Tree,即分类及回归树,它是由美国斯坦福大学和加州大学伯克利分校的Breiman等人于1984年提出的,从名称中不难理解,它包含了分类树和回归树,分类树用于目标变量是分类型的,回归树用于目标变量是连续型的。
该算法分割的核心技术取决于目标变量的类型,如果是分类变量,可以选择使用Gini或者是Twoing.如果是连续变量,会自动选择LSD(Least-squared deviation)。
C&R Tree的生长是二叉树, 前面我们讲过的C5.0和CHAID分别是以信息增益率和卡方为标准来选择最佳分组变量和分割点,今天我们讲的C&R Tree,如果目标变量是分类型,则以Gini系数来确认分割点,如果目标变量是数值型,则以方差来确认分割点。
我们先来讲目标变量是分类型的情况,我们称之为分类树:
在C&R Tree算法中,Gini系数反映的是目标变量组间差异程度,系数越小,组间差异越大。Gini系数计算公式如下:
G(t)=1-(t1/T)^2-(t2/T)^2-(t3/T)^2-(tn/T)^2
其中T为总记录数,t1,t2,t3,tn…..分别为输出变量每个类别的记录数
为了比较好理解这个公式,我们以分析结果来理解公式内容,如下图:
该决策树分析结果,是分析客户的流失为目标,影响的因素有小朋友个数(children),婚姻状态(Status),年龄(age)等,我们先从根节点开始看。
根节点的G(t)=1-(562/1469) ^2-(907/1469)^2=0.472421883
左边节点G(t1)=1-(439/833) ^2-(394/833) ^2=0.498540833
右边节点G(t2)=1-(123/636) ^2-(513/636) ^2=0.311988252
C&R Tree采用Gini系数的减少量来测量异质性下降,因此
ΔG(t)=G(t)-n1/N*G(t1)-n2/N*G(t2)=0.472421883-833/(833+636)* 0.498540833-636/(833+636)* 0.311988252=0.05464854
其中n1是左节点的记录数833,n2是右节点的记录数636,N是根节点的记录数833+636=1469。
计算最终得到的ΔG(t)=0.05464854就是上图中显示的改进=0.055(四舍五入),那么为什么选择这个children<-1.5和children>1/5作为分割点,是因为与其它影响因素相比较,这里计算得到的ΔG(t)最大。所以在整个决策树生长中,可以看到,越往下生长,ΔG(t)越小。
针对连续变量,先对变量按升序排列,然后,从小到大依次以相邻数值的中间值作为将样本分为两组,然后分别计算其ΔG(t)。针对分类变量,由于C&R Tree只能建立二叉树(即只能有两个分支),首先需将多类别合并成两个类别,形成“超类”,然后计算两“超类”下样本输出变量取值的异质性。
在IBM SPSS Modeler中,除了使用Gini系数的减少量作为标准,还可以选择另外两种标准,分别是Twoing(两分法)和Ordered(有序),如下图:
Twoing策略中,输出变量的差异性测度仍采用Gini系数,不同的是,不再以使用Gini系数减少最快为原则,而是要找到使合并形成的左右子节点(两个超类)中分布差异足够大的合并点s,计算公式为:
仍以下图决策树结果为例:
因此
该数值对应着上图第一个根节点的改进=0.109(四舍五入)
可以看到,越是靠近根节点,该值越大。
Order策略适用于有序型输入变量的情况 ,它只限定只有两个连续的类别才可以合并成超类,最终得到最理想的两个超类。
接下来我们来看目标变量是数值型的情况,我们称为回归树。 回归树确定最佳分组变量的策略与分类树相同,主要不同是测试输出变量异质性的指标,
回归树使用的是方差,因此异质性下降的测度指标为方差的减少量,其数学定义为:
其中R(t)和N分别为分组前输出变量的方差和样本量,R(t1),Nt1和R(t2),Nt2分别为分组后左右子树的方差和样本量。使ΔR(t)达到最大的变量应为当前最佳分组变量。我们通过实际例子的结果倒推来理解这个计算公式。
我们使用SPSS Modeler做一个男装销售额(men)预测的场景,因为销售额是数值型,我们选择C&R Tree来实现,那么影响男装销售的输入影响因素有女装销售(women)、电话营销成本(phone)等,得到的决策树分析结果如下:
那么为什么生成的决策树会以woman作为最佳分组变量,以51286.490作为分割点呢,因这它计算出来的ΔR(t)最大,大家可以尝试找个例子自己计算看看,这里不再赘述。
最佳分割点的确定方法与最佳分组亦是的确定方法相同。
在IBM SPSSModeler里面,针对 C&R Tree算法,以上介绍的内容是确定分割点的核心标准,对于该算法,还有其它的内容,比如剪枝,交互树建模等,感兴趣的话,可以点击以下链接到官网下载试用!
相关推荐
模具状态监测市场:6.8%的年复合增长率引领制造业智能化升级 在快速发展的制造业中,模具作为生产过程中的核心部件,其状态直接影响到产品的质量和生产效率。然而,模具的损耗和故障往往难以预测,给企业带来不小的损失。如今,随着模具状态监测技术的兴起,这一切正在发生改变。这项创新技术不仅能够帮助企业提前发现模具的潜在问题,还能显著延长模具的使用寿命,提升生产效率。但你真的了解这个市场的潜力和现状吗?让我们一同揭开模具状态监测市场的神秘面纱。 市场概况: 根据QYR(恒州博智)的统计,2023年全球模具状态监测市场的销售额已经达到了3.2亿美元,预计到2030年,这一数字将攀升至5.06亿美元,年复合增长率高达6.8%。这一显著的增长背后,是制造业对智能化、自动化生产需求的不断提升,以及模具状态监测技术在提高生产效率、降低维护成本方面的显著优势。 技术创新与趋势: 模具状态监测技术主要依赖于传感器、数据分析和处理等技术手段,能够实时采集模具的温度、振动、压力等指标,并通过与预设参数的比对,及时识别模具的异常情况。随着物联网、大数据和人工智能等技术的不断发展,模具状态监测技术将更加智能化,能够提供
Kubernetes DevOps实践工作坊-从理论到实战操作脚本集(含源码).zip [资源说明] 1、该项目是团队成员近期最新开发,代码完整,资料齐全,含设计文档等 2、上传的项目源码经过严格测试,功能完善且能正常运行,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的高校学生、教师、科研工作者、行业从业者下载使用,可借鉴学习,也可直接作为毕业设计、课程设计、作业、项目初期立项演示等,也适合小白学习进阶,遇到问题不懂就问,欢迎交流。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 5、不懂配置和运行,可远程教学 欢迎下载,学习使用!
基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设),个人经导师指导并认可通过的毕业设计项目,评审分98分,项目中的源码都是经过本地编译过可运行的,都经过严格调试,确保可以运行!主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设)基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设)基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设)基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设)基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设)基于springboot+vue3+uniapp的点餐小程序源代码+数据库+文档说明(高分毕设)基于springb
欧姆龙NX1P2系列总线plc程序 自动检测机,plc程序,无触摸屏程序 1.多工位DDR马达转盘控制,多工位同时加工。 2.多产品配方功能程序。 3.各种实用型自制功能块程序,可重复调用,成熟设备
企业微信最全养号、防封、加人机制.pdf
这是一款用 Python 开发的异步爬虫框架,能够将网站上的数据转化成 Markdown、JSON 等 LLM 友好的输出格式。它完全开源且免费,极大地简化了异步爬虫的编写。相比于付费的 Firecrawl,它具有更快的爬取速度,支持同时抓取多个 URL、页面截图、关键字优化提取(基于 LLM)和复杂的多页面会话管理等功能。
毕设Python春节电影信息爬取与可视化分析源码+项目说明+全部资料.zip [资源说明] 1、该项目是团队成员近期最新开发,代码完整,资料齐全,含设计文档等 2、上传的项目源码经过严格测试,功能完善且能正常运行,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的高校学生、教师、科研工作者、行业从业者下载使用,可借鉴学习,也可直接作为毕业设计、课程设计、作业、项目初期立项演示等,也适合小白学习进阶,遇到问题不懂就问,欢迎交流。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 5、不懂配置和运行,可远程教学 欢迎下载,学习使用!
2019厦门国际银行数创金融杯源码+竞赛策略报告文档.zip [资源说明] 1、该项目是团队成员近期最新开发,代码完整,资料齐全,含设计文档等 2、上传的项目源码经过严格测试,功能完善且能正常运行,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的高校学生、教师、科研工作者、行业从业者下载使用,可借鉴学习,也可直接作为毕业设计、课程设计、作业、项目初期立项演示等,也适合小白学习进阶,遇到问题不懂就问,欢迎交流。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 5、不懂配置和运行,可远程教学 欢迎下载,学习使用!
基于Android Studio开发的安卓的记事本app项目源码(高分期末大作业),个人经导师指导并认可通过的毕业设计项目,评审分98分,项目中的源码都是经过本地编译过可运行的,都经过严格调试,确保可以运行!主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 基于Android Studio开发的安卓的记事本app项目源码(高分期末大作业)基于Android Studio开发的安卓的记事本app项目源码(高分期末大作业)基于Android Studio开发的安卓的记事本app项目源码(高分期末大作业)基于Android Studio开发的安卓的记事本app项目源码(高分期末大作业)基于Android Studio开发的安卓的记事本app项目源码(高分期末大作业)基于Android Studio开发的安卓的记事本app项目源码(高分期末大作业)基于Android Studio开发的安卓的记事本app项目源码(高分期末大作业)基于Android Studio开
基于java的小区智能卡管理系统设计与实现.docx
NLP中文垃圾短信分类系统源码+设计全部资料+文档报告(自然语言处理课设).zip [资源说明] 1、该项目是团队成员近期最新开发,代码完整,资料齐全,含设计文档等 2、上传的项目源码经过严格测试,功能完善且能正常运行,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的高校学生、教师、科研工作者、行业从业者下载使用,可借鉴学习,也可直接作为毕业设计、课程设计、作业、项目初期立项演示等,也适合小白学习进阶,遇到问题不懂就问,欢迎交流。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 5、不懂配置和运行,可远程教学 欢迎下载,学习使用!
电源滤波器车辆状态估计,扩展卡尔曼滤波EKF,无迹卡尔曼滤波UKF车辆状态估计,扩展卡尔曼滤波EKF,无迹卡尔曼滤波UKF 角阶跃输入+整车7自由度模型+UKF状态估计模型+附送EKF状态估计模型,针对于轮毂电机分布式驱动车辆,进行车速,质心侧偏角,横摆角速度估计。 模型输入:方向盘转角delta,车辆纵向加速度ax 模型输出:横摆角速度wz,纵向车速vx,质心侧偏角β