`
wbj0110
  • 浏览: 1604699 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

数据会骗人:辛普森悖论

阅读更多

当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方,会在总评中反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年E.H.辛普森在他发表的论文中,该现象才算正式被描述解释。后来就以他的名字命名该悖论。

一所美国高校的两个学院,分别是法学院和商学院,新学期招生。人们怀疑这两个学院有性别歧视。现作如下统计:

法学院

录取 拒收 总数 录取比例
性别
男生 8 45 53 15.1%
女生 51 101 152 33.6%
合计 59 146 205  

商学院

录取 拒收 总数 录取比例
性别
男生 201 50 251 80.1%
女生 92 9 101 91.1%
合计 293 59 352  

根据上面两个表格来看,女生在两个学院都被优先录取。即女生的录取比率较。现在将两学院的数据汇总:

录取 拒收 总数 录取比例
性别
男生 209 95 304 68.8%
女生 143 110 253 56.5%
合计 352 205 557  

在总评中,女生的录取比率反而比男生

上面的数字太凌乱,可以直接看下面的数据:

  男   女 历史系 地理系 总体
1/5 < 2/8
6/8 < 4/5
7/13 > 6/13

借助一幅向量图可以更好的了解情况

女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却大于女生

这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。

就上述例子说,导致辛普森悖论有两个前提。

  1. 两个分组的录取率相差很大,就是说法学院录取率很低,而商学院却很高。而同时两种性别的申请者分布比重相反。女性申请者的大部分分布在法学院,相反,男性申请者大部分分布于商学院。结果在数量上来说,拒收率高的法学院拒收了很多的女生,男生虽然有更拒收率,但被拒收的数量却相对不算多。而录取率很高的商学院录取了很多男生。使得最后汇总的时候,男生在数量上反而占优。
  2. 有潜在因素影响着录取情况。就是说,性别并非是录取率高低的唯一因素,甚至可能是毫无影响的。至于在学院中出现的比率差,可能是随机事件。又或者是其他因素作用,比如入学成绩,却刚好出现这种录取比例,使人牵强误认为这是由性别差异而造成的。

为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。

参考地址:

http://zh.wikipedia.org/wiki/%E8%BE%9B%E6%99%AE%E6%A3%AE%E6%82%96%E8%AE%BA

http://plato.stanford.edu/entries/paradox-simpson/#Causation

分享到:
评论

相关推荐

    辛普森悖论,因果推断.zip

    在辛普森悖论中,因果推断帮助我们理解为何在整体数据中会出现与子群体数据相反的结果。这通常涉及到控制混杂变量,即那些可能同时影响因变量和自变量的因素。通过适当的数据分层或匹配,我们可以更准确地评估因果...

    漫画:博弈论系列 之 辛普森悖论

    辛普森悖论:羊羊医院里统计了两种胆结石治疗方案的治愈率。在统计过程中,医生将病人分为大胆结石和小胆结石两组。统计结果如下: 对于小胆结石而言,手术A的治愈率(93%)高于 手术B(87%) 对

    辛普森悖论有关统计学的有趣小知识

    统计学中学习的辛普森悖论,以有趣的引例展开,探索变量的选取与结果之间的关系。其中包括课堂展示的ppt, 以及一些自己的理解,和网站上的参考

    理解辛普森悖论-研究论文

    辛普森悖论经常被提出作为我们为什么需要在学校进行统计学教育的一个令人信服的证明。 这提醒我们,如果仅仅依靠... 接下来我会问需要什么才能宣布这个悖论“已解决”,并论证现代对因果推理的理解已经满足了这些要求。

    辛普森法:辛普森法-matlab开发

    这个函数会输出辛普森法则计算出的近似积分值。 在实际应用中,我们可能还需要考虑函数的复杂性,比如非连续性、奇异点等。对于这些情况,可能需要调整步长或采用更复杂的数值积分方法。同时,如果`n`过大,计算量...

    sharapi:辛普森一家

    辛普森一家:Hit&Run API 此代码处于pre-pre-pre-alpha实验状态。 这是一个库,用于自动执行废弃软件游戏《辛普森一家:使用JavaScript命中并运行》。 它使用访问内部状态,并公开可用于查询和控制游戏JavaScript...

    数值分析作业:复合辛普森C语言

    C语言数值分析上机实践作业:用复合辛普森公式计算积分1/x*x+1

    SIMPSONMIO.m:辛普森法-matlab开发

    辛普森法则(Simpson's Rule)是一种在数值分析中常见的数值积分方法,它属于高阶数值积分方法,能够提供比矩形法和梯形法更精确的近似值。MATLAB作为一种强大的数学计算软件,非常适合用于实现辛普森法则进行数值...

    tstoimg:辛普森一家轻拍图像文件转换器

    游戏中的资源通常会经过特定的编码和压缩,以便在移动设备上高效运行。"tstoimg"能够解析原始图像文件,并将其转换成游戏可以识别的格式,这涉及到图像的解码、重采样、颜色空间转换等一系列处理步骤。 在C++中,...

    The-Simpsons-Quote:辛普森一家语录

    在本项目中,`axios`很可能被用来从远程API获取辛普森一家的台词数据,或者处理用户交互时的数据交换。 在压缩包文件名"The-Simpsons-Quote-main"中,"main"通常表示这是项目的主目录,包含了项目的核心代码和资源...

    Simpsonphonegap:辛普森电话

    除此之外,可能还会有配置文件(如config.xml)用于定义应用的元数据、图标和启动画面,以及任何必要的资源文件(如图片、音频等)。 开发这样的项目需要对JavaScript有深入理解,包括DOM操作、事件处理、异步编程...

    数值积分MATLAB程序_复合辛普森求积公式_数值积分_

    数值积分是计算数学中的一个重要概念,它用于估算函数在一定区间上的精确积分值,当解析求解变得困难或不可能时,我们通常会采用数值积分方法。MATLAB作为一个强大的数值计算软件,提供了丰富的工具和函数来实现数值...

    Matlab 辛普森积分方式

    Matlab函数,数值积分中的辛普森积分公式,用来求数据积分

    数值积分的辛普森规则:辛普森规则使用抛物线代替梯形规则中使用的直线-matlab开发

    Z = SIMPS(Y) 通过辛普森方法(单位间距)计算 Y 积分的近似值。 要计算间距不同于 1 的积分,请将 Z 乘以间距增量。 Z = SIMPS(X,Y) 使用辛普森规则计算 Y 相对于 X 的积分。 Z = SIMPS(X,Y,DIM) 或 SIMPS(Y,DIM) ...

    python 零基础学习篇第4节 PowerBI高级-10 辛普森悖论.ev4 .mp4

    3节 tableau使用-0

    剧本生成-辛普森一家数据

    辛普森剧本一家数据,csv格式,生成辛普森系列的剧情。

    辛普森人脸数据集

    图片来自美国流行卡通辛普森系列的第25至28季

    辛普森一家第一季到25季

    辛普森一家第一季到25季

    数值积分的辛普森公式

    当函数在区间内不连续或存在急剧变化时,辛普森法的性能可能会下降。此时,可以考虑使用其他的数值积分方法,如梯形法则、高斯积分等。这些方法在不同的情况和需求下各有优劣,选择合适的方法取决于具体的应用场景和...

    数据分析复合辛普森算法.cpp

    C语言数据分析复合辛普森算法.cpp

Global site tag (gtag.js) - Google Analytics