IBM SPSS Modeler算法系列------C&R Tree算法介绍 -

数控小J

浏览: 69422 次

最近访客更多访客>>

万里一梦遥

zhangyou1010

amc1989

rrstpit

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

IBM SPSS Modeler算法系列------C&R Tree算法介绍

大数据 spss 预测分析数据分析

C&R Tree全称是Classification and Regression Tree,即分类及回归树，它是由美国斯坦福大学和加州大学伯克利分校的Breiman等人于1984年提出的，从名称中不难理解，它包含了分类树和回归树，分类树用于目标变量是分类型的，回归树用于目标变量是连续型的。

该算法分割的核心技术取决于目标变量的类型，如果是分类变量，可以选择使用Gini或者是Twoing.如果是连续变量，会自动选择LSD(Least-squared deviation)。

C&R Tree的生长是二叉树，前面我们讲过的C5.0和CHAID分别是以信息增益率和卡方为标准来选择最佳分组变量和分割点，今天我们讲的C&R Tree，如果目标变量是分类型，则以Gini系数来确认分割点，如果目标变量是数值型，则以方差来确认分割点。

我们先来讲目标变量是分类型的情况，我们称之为分类树：

在C&R Tree算法中，Gini系数反映的是目标变量组间差异程度，系数越小，组间差异越大。Gini系数计算公式如下：

G(t)=1-(t1/T)^2-(t2/T)^2-(t3/T)^2-(tn/T)^2

其中T为总记录数，t1,t2,t3,tn…..分别为输出变量每个类别的记录数

为了比较好理解这个公式，我们以分析结果来理解公式内容，如下图：

该决策树分析结果，是分析客户的流失为目标，影响的因素有小朋友个数（children),婚姻状态（Status)，年龄（age)等，我们先从根节点开始看。

根节点的G(t)=1-(562/1469) ^2-(907/1469)^2=0.472421883

左边节点G(t1)=1-(439/833) ^2-(394/833) ^2=0.498540833

右边节点G(t2)=1-(123/636) ^2-(513/636) ^2=0.311988252

C&R Tree采用Gini系数的减少量来测量异质性下降，因此

ΔG(t)=G(t)-n1/N*G(t1)-n2/N*G(t2)=0.472421883-833/(833+636)* 0.498540833-636/(833+636)* 0.311988252=0.05464854

其中n1是左节点的记录数833，n2是右节点的记录数636，N是根节点的记录数833+636=1469。

计算最终得到的ΔG(t)=0.05464854就是上图中显示的改进=0.055（四舍五入），那么为什么选择这个children<-1.5和children>1/5作为分割点，是因为与其它影响因素相比较，这里计算得到的ΔG(t)最大。所以在整个决策树生长中，可以看到，越往下生长，ΔG(t)越小。

针对连续变量，先对变量按升序排列，然后，从小到大依次以相邻数值的中间值作为将样本分为两组，然后分别计算其ΔG(t)。针对分类变量，由于C&R Tree只能建立二叉树（即只能有两个分支），首先需将多类别合并成两个类别，形成“超类”，然后计算两“超类”下样本输出变量取值的异质性。

在IBM SPSS Modeler中，除了使用Gini系数的减少量作为标准，还可以选择另外两种标准，分别是Twoing（两分法）和Ordered（有序），如下图：

Twoing策略中，输出变量的差异性测度仍采用Gini系数，不同的是，不再以使用Gini系数减少最快为原则，而是要找到使合并形成的左右子节点（两个超类）中分布差异足够大的合并点s，计算公式为：

仍以下图决策树结果为例：

因此

该数值对应着上图第一个根节点的改进=0.109（四舍五入）

可以看到，越是靠近根节点，该值越大。

Order策略适用于有序型输入变量的情况，它只限定只有两个连续的类别才可以合并成超类，最终得到最理想的两个超类。

接下来我们来看目标变量是数值型的情况，我们称为回归树。回归树确定最佳分组变量的策略与分类树相同，主要不同是测试输出变量异质性的指标，

回归树使用的是方差，因此异质性下降的测度指标为方差的减少量，其数学定义为：

其中R(t)和N分别为分组前输出变量的方差和样本量，R(t1),Nt1和R(t2)，Nt2分别为分组后左右子树的方差和样本量。使ΔR(t)达到最大的变量应为当前最佳分组变量。我们通过实际例子的结果倒推来理解这个计算公式。

我们使用SPSS Modeler做一个男装销售额（men)预测的场景，因为销售额是数值型，我们选择C&R Tree来实现，那么影响男装销售的输入影响因素有女装销售(women)、电话营销成本（phone)等，得到的决策树分析结果如下：

那么为什么生成的决策树会以woman作为最佳分组变量，以51286.490作为分割点呢，因这它计算出来的ΔR(t)最大，大家可以尝试找个例子自己计算看看，这里不再赘述。

最佳分割点的确定方法与最佳分组亦是的确定方法相同。

在IBM SPSSModeler里面，针对 C&R Tree算法，以上介绍的内容是确定分割点的核心标准，对于该算法，还有其它的内容，比如剪枝，交互树建模等，感兴趣的话，可以点击以下链接到官网下载试用！

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

0
顶

1
踩

分享到：

大数据时代：看大数据如何帮助你预测消费者 ... | 大数据时代，IBM 带你玩转大数据处理

2016-09-01 10:23
浏览 3379
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

IBM SPSS Modeler使用教程: 常用的算法包括决策树(C&R Tree、QUEST、CHAID、C5.0)、回归(线性、逻辑、广义线性、Cox回归)、神经网络、支持向量机(Support Vector Machine, SVM)、贝叶斯网络等。 2. **关联(Association)**：发现数据中的关联...

IBM SPSS Modeler 决策树之银行行销预测应用分析: 在 IBM SPSS Modeler 中，主要提供了四种常用的决策树演算法供使用者选择，分别为：C5.0、CHAID、QUEST 以及 C&R Tree 四种。 C5.0 是一种常用的决策树演算法，通过资讯衡量标准 (Information Measure) 来构建决策...

qtz40塔式起重机总体及塔身有限元分析法设计().zip: qtz40塔式起重机总体及塔身有限元分析法设计().zip

elasticsearch-8.17.4-windows-x86-64.zip: Elasticsearch是一个基于Lucene的搜索服务器

《基于YOLOv8的核废料处理机器人导航避障系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

谷歌地图数据采集: 美国纽约 HVAC Contractor (暖通空调承包商) 数据示例: 美国纽约HVAC(暖通空调)数据示例，谷歌地图数据包括：时间戳、名称、类别、地址、描述、开放网站、电话号码、开放时间、更新开放时间、评论计数、评级、主图像、评论、url、纬度、经度、地点id、国家等。在地理位置服务（LBS）中，谷歌地图数据采集尤其受到关注，因为它提供了关于各种商业实体的详尽信息，这对于消费者和企业都有极大的价值。本篇文章将详细介绍美国纽约地区的HVAC（暖通空调）系统相关数据示例，此示例数据是通过谷歌地图抓取得到的，展示了此技术在商业和消费者领域的应用潜力。无需外网，无需任何软件抓取谷歌地图数据：wmhuoke.com

2023-04-06-项目笔记 - 第四百五十五阶段 - 4.4.2.453全局变量的作用域-453 -2025.04-01: 2023-04-06-项目笔记-第四百五十五阶段-课前小分享_小分享1.坚持提交gitee 小分享2.作业中提交代码小分享3.写代码注意代码风格 4.3.1变量的使用 4.4变量的作用域与生命周期 4.4.1局部变量的作用域 4.4.2全局变量的作用域 4.4.2.1全局变量的作用域_1 4.4.2.453局变量的作用域_453- 2025-04-01

1_实验三扰码、卷积编码及交织.ppt: 1_实验三扰码、卷积编码及交织.ppt

北京交通大学901软件工程导论必备知识点.pdf: 北京交通大学901软件工程导论必备知识点.pdf

【MyBatis框架】常见面试题汇总：核心概念、功能特性及应用场景详解要求，具体阐述: 内容概要：本文档总结了 MyBatis 的常见面试题，涵盖了 MyBatis 的基本概念、优缺点、适用场合、SQL 语句编写技巧、分页机制、主键生成、参数传递方式、动态 SQL、缓存机制、关联查询及接口绑定等内容。通过对这些问题的解答，帮助开发者深入理解 MyBatis 的工作原理及其在实际项目中的应用。文档不仅介绍了 MyBatis 的核心功能，还详细解释了其在不同场景下的具体实现方法，如通过 XML 或注解配置 SQL 语句、处理复杂查询、优化性能等。适合人群：具备一定 Java 开发经验，尤其是对 MyBatis 有初步了解的研发人员，以及希望深入了解 MyBatis 框架原理和最佳实践的开发人员。使用场景及目标：①理解 MyBatis 的核心概念和工作原理，如 SQL 映射、参数传递、结果映射等；②掌握 MyBatis 在实际项目中的应用技巧，包括 SQL 编写、分页、主键生成、关联查询等；③学习如何通过 XML 和注解配置 SQL 语句，优化 MyBatis 性能，解决实际开发中的问题。其他说明：文档内容详尽，涵盖面广，适合用于面试准备和技术学习。建议读者在学习过程中结合实际项目进行练习，以更好地掌握 MyBatis 的使用方法和技巧。此外，文档还提供了丰富的示例代码和配置细节，帮助读者加深理解和应用。

《基于YOLOv8的智能电网设备锈蚀评估系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 《基于YOLOv8的智能电网设备锈蚀评估系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计

插头模具 CAD图纸.zip: 插头模具 CAD图纸.zip

《基于YOLOv8的港口集装箱起重机钢丝绳润滑状态监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。