`
san_yun
  • 浏览: 2651354 次
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

abtest-显著性差异(significance test)

 
阅读更多
目标转换率变化区间估计:在做A/B test的时候,抽样得到的数据并不能准确反映整体的真实水平,即样本得到的估计是有偏差的,因此需要去评估这个值可能的变化区间。例如通过区间估计得到:
         A方案转换率为:6.5% ± 1.5%
         B方案转换率为:7.5% ± 1.5%
方案胜出概率估计:由于最终有意义的是确立胜出的版本,然而并不是所有的实验都能做到样本足够大,区分度足够高的,因此确定版本胜出的概率,很多英文资料里面记为Chance to beat baseline,即在给定转换率下,变体版本的实际转换率高于参展版本(默认是原始版本)的实际转换率的可能性。在实验之前需要设定一个阈值(称为置信度),某版本胜出的可能性高于这个值并且稳定时,便可以宣布该版本胜出。置信度越高,结果的可靠信越高;随着置信度的增加实验时间将会变长。

我们使用统计学理论计算Z检验和区间估计计算出误差范围及胜出概率

 

4.1 Z检验计算胜出概率

 
并不是所有的实验都能做到样本足够大,区分度足够高的,可使用统计学的假设验证。
以转化率为例。我们运行A/B Testing 一周,分别对1000个样本进行了测试。A的转化率为7.5%,B的转化率为9%,如下表:
版本
总访问用户数
注册用户数
转换率
A
1000
75
7.5%
B
1000
90
9%
 
我们能够肯定B比A好呢,有多大的可能是因为一些随机的因素导致这样的区别呢?
假设验证可以有效的帮助我们回答这个问题。首先假设B的效果不会比A好,然后试图通过证据(样本)来推翻这个假设,如果样本足以推翻假设,那么我们就可以认为实验完成了,否则我们需要继续实验或者干脆就接受这个假设并把B的code扔掉了事。
 
定义
X= Pb – Pa为两个版本实际转换率的差异度,Pb是B的转化率,Pa是A的转化率,这里我们并不知道D的取值,它的概率分布未知,我们先来定义我们的假设,即B不比A好。(如果我们的证据能够推翻这个假设,那么就说明B比A好,我们就应该用B的设计方案)
原假设 H0: Pb-Pa<=0
备则假设:H1:Pb-  Pa>0
一个用户,要么注册,要么不注册。所以A和B都是满足二项分布的。即,
A ~ B(N, Pa)
B ~ B(N, Pb)
N是样本数目。
根据中心极限定律,A和B可以近似为正态分布,那么,我们关注的随机变量X = (Pb–Pa)的分布也为正态分布(正态分布的累加性质):
X ~ N (0, Pb(1-Pb)/N + Pa(1-Pa)/N)
期望取0,是因为这是我们的假设。
我们可以对上述正态分布进行标准化,
然后,我们选择5%的区间作为拒绝域,即,如果X标准化后的值落在了最右端5%的面积里面,那么我们可以具有很强的信心(1-5%=95%)来拒绝我们的假设H0,即,判定B比A有效。
                                                                  
假设X标准化后的随机变量为Z,也可以根据标准分公式,
                                                                                                  

 
由于备则假设里面的符号是“>”,因此采用右尾检验,拒绝域为Z>Za
 
我们可以计算出,Z = 1.22。也就是说随机变量X的取值在95%点(1.645)的左边。这个值对应的概率大约是89%。也就是说,89%的概率下B比A好。但我们需要的标 准是95%,所以上述样本不足以得出B比A好的结论。
正如之前所说,这种情况下,我们需要做更多实验。于是,我们又做了一周,A和B分别得到了2000个样本,转化率不变。这个时候我们有信心认为B比A好了吗?
 
版本
总访问用户数
注册用户数
转换率
A
2000
150
7.5%
B
2000
180
9%
 
仍然是套用上述公式求Z值,z = 1.72。超出了1.645 (95%信心点),这个时候我们有了足够的信心来相信B比A好。到此为止,实验结束。
另外,如果转化率变化不大,那么通过公式我们可以反推所需要的实验数目。

4.2 区间估计计算查范围
对于某个版本转换率范围的计算,在指定置信度的前提下,可以通过参数估计来计算求得。
 
根据区间估计的定义,在1-α置信度下,总体均值μ的置信区间为:
即:
从而:
即在1-α置信度下,μ的置信区间为:
取α=0.05, 各个版本的参数代入上式可求得转换率的变换范围
 

上面的计算是否陌生又熟悉?是否还给老师了?没关系,下面给你补一补:

5、相关统计学理论
在介绍区间估计和Z检验之前,先回顾一下几个概念:
5.1 正态分布
若随机变量X从一个位置参数为 10.png 尺度参数为 clip_image013.png 概率分布,记为:称X服从正态分布,则其概率密度函数为

正态分布的数学期望值或期望值 4.png 等于位置参数,决定了分布的位置;其方差 5.png 的开平方或标准差于尺度参数,决定了分布的幅度。
正态分布中一些值得注意的量:
·         密度函数关于平均值对称
·         平均值与它的众数(statistical mode)以及中位数(median)同一数值。
·         函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
·         95.449974%的面积在平均数左右两个标准差 6.png 的范围内。
·         99.730020%的面积在平均数左右三个标准差 7.png 的范围内。
·         99.993666%的面积在平均数左右四个标准差 8.png 的范围内。

正态分布的标准化
  对一般的正态分布:X~N(m,s2)作变量代换:
上式表明,任一个正态变量X经过标准化变换(X-μ)/σ后都归一到标准正态变量U。这里标准化变换是指正态变量减去其均值后再除以相应的标准差。对此,我们称为正态分布的标准化。
    结合标准正态分布的计算公式得出下列正态分布概率的计算公式(可见标准化后没有不等于符号):
 
例1.(多选)设X-N(5,4),则P(2<X<3)=( )。
       A.φ(1.5)-φ(1)
  B.φ(1)-φ(1.5)
  C.φ(-1)-φ(-1.5)
  D.φ(-1.5)-φ(-1)
    选AC。P(2<X<3)= clip_image025.png
标准化之后,我们可以通过查询正态分布表获得X <= 0(映射到Z来查询)的概率。
5.2 中心极限定理
正态分布有一个非常重要的性质:在特定条件下,大量统计独立的随机变量的平均值的分布趋于正态分布,这就是中心极限定理

5.3 二项分布
即重复n次的伯努利试验,记为B(np)。在每次试验中只有两种可能的结果,而且是互相对立的,是独立的,与其它各次试验结果无关,结果事件发生的概率在整个系列试验中保持不变,则这一系列试验称为伯努利实验
如果n足够大,那么分布的偏度就比较小,那么B(n,p)的一个很好的近似是正态分布:
                                                               clip_image027.png 

5.4 区间估计
区间估计是 参数估计的一种,依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。
clip_image028.png 
则称:
1-α是置信度,置信度也称为置信概率
置信度1-α下θ的置信区间: 9.png 
α称为显著性水平
 
总体服从正态分布,σ2已知时
 clip_image032.png  
2013-11-2 09:42 上传
下载附件 (765 Bytes)
 
时,有 clip_image034.png  clip_image036.png
根据区间估计的定义,在1-α置信度下,总体均值μ的置信区间为:
clip_image004.png
即:
clip_image006.png 
从而
clip_image008.png 
即在1-α置信度下,μ的置信区间为: clip_image010.png
例1:已知某零件的直径服从正态分布,从该批产品中随机抽取10件,测得平均直径为202.5mm,已知总体标准差σ=2.5mm,试建立该种零件平均直径的置信区间,给定置信度为0.95。 11.png =202.5, n=10, 1-α=0.95
解:已知 21.png 
查标准正态分布表,得μ(α/2)=1.96
所以在1-α置信度下,μ的置信区间为 12.png 
 13.png 
计算结果为:[200.95,204.05]

 
5.5、统计检验的基本原理
统计检验是先对总体的分布规律作出某种假说,然后根据样本提供的数据,通过统计运算,根据运算结果,对假说作出肯定或否定的决策。如果现要检验实验组和对照组的平均数(μ1和μ2)有没有差异,其步骤为:
1.建立虚无假设,即先认为两者没有差异,用 H0:μ1 = μ2 表示;
2.通过统计运算,确定假设 H0 成立的概率 P。
3.  根据 P 的大小,判断假设 H0 是否成立。
 
双尾、右尾、左尾:描述检验是否涉及频率分布的双侧(双尾)或只是单侧。如果备择假设表达式中包合≠(不等于),需要双尾检验。如果包含<(小于)需要左尾检差验,包含>(大于),需要右尾检验。卡方检验通常是双尾检验。
 
检验类型
临界值
拒绝域
左尾检验
-Za
Z<-Za
右尾检验
Za
Z>Za
双尾检验
-Za/2和Za/2
Z<-Za/2或者Z>Za/2
 

5.5.1 Z检验
  Z检验法适用于大样本(样本容量大于30)的两平均数之间差异显著性检验的方法。它是通过计算两个平均数之间差的Z分数来与规定的理论Z值相比较,看是否大于规定的理论Z值,从而判定两平均数的差异是否显著的一种差异显著性检验方法。其一般步骤:
  第一步:建立虚无假设 H0:μ1 = μ2 ,即先假定两个平均数之间没有显著差异,
  第二步:计算统计量Z值,对于不同类型的问题选用不同的统计量计算方法,
如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著。其Z值计算公式为:
14.png 
其中: 15.png
·         是样本1,样本2的平均数;
·         S1,S2是样本1,样本2的标准差;
·         n1,n2是样本1,样本2的容量。
第三步:比较计算所得Z值与理论Z值,推断发生的概率,依据Z值与差异显著性关系表作出判断。如下表所示:
clip_image046.png 
第四步:根据以上分析,结合具体情况,作出结论。

 
例:某项教育技术实验,对实验组和控制组的前测和后测的数据分别如下表所示,比较两组前测和后测是否存在差异。
16.png 
由于n>30,属于大样本,所以采用Z检验。由于这是检验来自两个不同总体的两个样本平均数,看它们各自代表的总体的差异是否显著,所以采用双总体的Z检验方法。
  计算前测Z的值: 17.png 
∵|Z|=0.658<1.96
∴ 前测两组差异不显著。
  再计算后测Z的值: 18.png 
∵|Z|= 2.16>1.96
∴ 后测两组差异显著。

5.5.2 P值(P value
就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。
 显著性检验的基本思想可以用小概率原理来解释。
  1小概率原理:小概率事件在一次试验中是几乎不可能发生的,假若在一次试验中事件 事实上发生了p<a。那只能认为事件 不是来自我们假设的总体,也就是认为我们对总体所做的假设不正确。
  2观察到的显著水平:由样本资料计算出来的检验统计量观察值所截取的尾部面积为p。这个概率越小,反对原假设,认为观察到的差异表明真实的差异存在的证据便越强,观察到的差异便越加理由充分地表明真实差异存在。
  3检验所用的显著水平:针对具体问题的具体特点,事先规定这个检验标准。
  4在检验的操作中,把观察到的显著性水平与作为检验标准的显著水平标准比较,小于这个标准时,得到了拒绝原假设的证据,认为样本数据表明了真实差异存在。大于这个标准时,拒绝原假设的证据不足,认为样本数据不足以表明真实差异存在。
  5检验的操作可以用稍许简便一点的作法:根据所提出的显著水平查表得到相应的 值,称作临界值,直接用检验统计量的观察值与临界值作比较,观察值落在临界值所划定的尾部内,便拒绝原假设;观察值落在临界值所划定的尾部之外,则认为拒绝原假设的证据不足。

5.4.3 标准正态分布表Z值查询方法
正态分布表中间的数字表示面积,最左边一列表示Z值得整数部分,最上边一列表示Z值得小数部分。
例:当给定了检验的显著水平a=0.05时,如果要检验是否相等,就是双侧检验,允许左右各有误差,即a/2=0.025,此时要查尾部面积是0.025时的Z值。
 
表中间的数字指从 20.png 到参考点的面积,而Z值是指从中间均值所在位置往右计算的长度,所以当Z=0时,中间的面积是0.5。
Z0.025即表示左边的面积为1-0.025=0.975时对应的Z值,首先在表中间找到0.975,水平对应的最左边列的值为1.9,垂直对应最上边行的值为0.06,两数相加即为Z0.025=1.96。
                             19.png 
Z值只是一个临界值,他是标准化的结果,本身没有意义,有意义的在于在标准正态分布模型中它代表的概率值。通过查表便可以知道。
分享到:
评论

相关推荐

    Significance_test-correlation_coefficient_大气科学_ncl_ncl显著性检验_显著性检

    在"Significance_test-correlation_coefficient_大气科学_ncl_ncl显著性检验_显著性检验"这个主题中,我们将深入探讨如何利用NCL进行显著性检验和计算相关系数。 显著性检验是用来判断两个变量之间是否存在统计学上...

    更新 显著性调节+控制变量、调显著性代码、常用计算代码.zip

    显著性调节代码(Significance Adjustment Code)是指在统计分析中,当进行多个假设检验时,用于调整每个检验的p值(或统计显著性水平),以控制整体假阳性率(Type I 错误率)增加的一组程序代码。由于在进行多次...

    什么是统计显著性,它在数据分析中的作用是什么

    在统计学中,统计显著性检验(Statistical Significance Test)是一种方法,用于检测科学实验中实验组与对照组之间是否有差异,以及这种差异是否显著。这种检验基于预先设定的零假设(H0)和备择假设(H1),通过...

    Meta-analysis of the significance of matrix metalloproteinases for lymph node status in surgically treated NSCLC patients

    对于外科切除后的淋巴结状态与基质金属蛋白酶表达关系的meta分析,范江,吴凤英,基质金属蛋白酶(MMPS)被认为在肿瘤的转移过程中起到重要的作用。许多研究检测了非小细胞肺癌中基质金属蛋白酶表达与淋巴结转移�

    R语言绘制SCI科研显著性气泡图源代码.zip

    "R语言绘制SCI科研显著性气泡图源代码.zip" 是一个专为有R语言基础的研究者设计的资源,它提供了一种创建具有科学影响力的显著性气泡图的方法。下面将详细介绍如何利用R语言进行此类图表的制作以及涉及的关键概念和...

    SPSS买房数据分析实施报告.doc

    * 通过对买房数据的分析,发现了该地区中年龄段在25~45岁居多,文化程度对现居住面积的影响,人均居住面积与均值之间存在显著性差异,现居住面积和人均居住面积之间存在显著性差异,现居住面积和满意度之间存在显著...

    《Kriging空间分析法及其在地价评估中的应用》1

    2. 显著性检验(significance test)显著性检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择

    数理统计第三章数理统计第三章

    - 显著性水平(Level of significance):事先设定的阈值,表示我们允许的犯错误的概率,通常用α表示,常见的显著性水平有0.05和0.01。 假设检验可能犯的两类错误: - 第一类错误(Type I error):拒绝了实际上...

    联合 显著图.zip

    在IT领域,联合显著图(Joint Significance Map)是一种用于图像处理和计算机视觉的技术,它主要涉及多模态数据融合和图像分析。本资源“联合显著图.zip”包含了一个使用MATLAB实现的联合显著图计算工具,解压后可以...

    python配对t检验数据源文件

    如果p值小于预设的显著性水平(通常为0.05),那么我们有理由拒绝零假设,即认为两样本均值无显著差异。反之,如果p值大于显著性水平,则不能拒绝零假设,说明两样本的均值可能没有显著差异。 ```python ...

    MNP.rar_MNP检测技术_O1NP_VIY_mnp文件_mnp检测

    MNP(Multiple Object氮磷钾Significance Detection)是一种在计算机视觉和图像处理领域广泛应用的显著性检测技术。显著性检测的目的是识别出图像中的突出、吸引注意力的区域,这些区域通常与背景形成鲜明对比,是...

    ab-significance:用于计算 AB 测试控制和处理的显着性、Z 分数、P 值、转换率和总体结果的 jQuery 插件

    AB 意义 jQuery 插件用于计算 AB 测试控制和处理的显着性、Z 分数、P 值、转换率和总体结果的 jQuery 插件入门确保在克隆 repo 后运行 grunt。 这将在目录“dist”中生成意义的缩小版本。 在您的网页中: &lt; ...

    Matlab代码 由显著水平计算置信水平

    在统计学中,显著水平(Significance Level)和置信水平(Confidence Level)是两个密切相关但又有所区别的概念。显著水平通常用来衡量我们拒绝原假设的概率,而置信水平则是我们对估计参数区间可信程度的度量。在本...

    nmeth.4526-Points of Significance:Machine learning:a primer

    机器学习算法的实用性通常通过实验来评估,即通过确定从数据中提取的模式在新观察中的准确性与可靠性。 文章通过一个监督学习的情景模拟来展示机器学习是如何识别模式的:假设我们希望根据血液中的代谢物浓度预测...

    品质管理与检验.pptx

    在质量管理中,显著性检验(test of significance)是必不可少的一环,它帮助我们基于样本数据对总体做出概率性的推断。例如,在养猪业中,如果想要比较不同品种猪的产仔数,我们不能仅仅基于一次抽样的平均数差异就...

    deep-significance:为深度神经网络启用简单的统计显着性测试

    深度意义:用于深度神经网络的简便更好的意义测试 内容 :exclamation_question_mark: 为什么? 尽管近十年来深度学习经历了惊人的增长,但统计假设检验并未支持大部分实验证据。...

    [统计学原理(下册)-描述性统计学与概率(全美经典学习指导系列)].(美)伯恩斯坦&伯恩斯坦.扫描版

    通常涉及零假设(null hypothesis)和备择假设(alternative hypothesis),以及显著性水平(significance level)的确定。 4. 方差分析:这是一种用于检验三个或三个以上样本均值是否存在显著差异的统计方法。它...

    Significance of the Research-论文.zip

    "Significance of the Research"这个标题暗示了文件中的论文可能深入探讨了研究的重要性和价值。在本文中,我们将详细解析这一主题,探讨研究的意义、如何确定研究的重要性,以及撰写论文时应考虑的关键要素。 首先...

Global site tag (gtag.js) - Google Analytics