目标转换率变化区间估计:在做A/B test的时候,抽样得到的数据并不能准确反映整体的真实水平,即样本得到的估计是有偏差的,因此需要去评估这个值可能的变化区间。例如通过区间估计得到:
A方案转换率为:6.5% ± 1.5%
B方案转换率为:7.5% ± 1.5%
方案胜出概率估计:由于最终有意义的是确立胜出的版本,然而并不是所有的实验都能做到样本足够大,区分度足够高的,因此确定版本胜出的概率,很多英文资料里面记为Chance to beat baseline,即在给定转换率下,变体版本的实际转换率高于参展版本(默认是原始版本)的实际转换率的可能性。在实验之前需要设定一个阈值(称为置信度),某版本胜出的可能性高于这个值并且稳定时,便可以宣布该版本胜出。置信度越高,结果的可靠信越高;随着置信度的增加实验时间将会变长。
我们使用统计学理论计算Z检验和区间估计计算出误差范围及胜出概率
4.1 Z检验计算胜出概率
并不是所有的实验都能做到样本足够大,区分度足够高的,可使用统计学的假设验证。
以转化率为例。我们运行A/B Testing 一周,分别对1000个样本进行了测试。A的转化率为7.5%,B的转化率为9%,如下表:
我们能够肯定B比A好呢,有多大的可能是因为一些随机的因素导致这样的区别呢?
假设验证可以有效的帮助我们回答这个问题。首先假设B的效果不会比A好,然后试图通过证据(样本)来推翻这个假设,如果样本足以推翻假设,那么我们就可以认为实验完成了,否则我们需要继续实验或者干脆就接受这个假设并把B的code扔掉了事。
定义
X= Pb – Pa为两个版本实际转换率的差异度,Pb是B的转化率,Pa是A的转化率,这里我们并不知道D的取值,它的概率分布未知,我们先来定义我们的假设,即B不比A好。(如果我们的证据能够推翻这个假设,那么就说明B比A好,我们就应该用B的设计方案)
原假设 H0: Pb-Pa<=0
备则假设:H1:Pb- Pa>0
一个用户,要么注册,要么不注册。所以A和B都是满足二项分布的。即,
A ~ B(N, Pa)
B ~ B(N, Pb)
N是样本数目。
根据中心极限定律,A和B可以近似为正态分布,那么,我们关注的随机变量X = (Pb–Pa)的分布也为正态分布(正态分布的累加性质):
X ~ N (0, Pb(1-Pb)/N + Pa(1-Pa)/N)
期望取0,是因为这是我们的假设。
我们可以对上述正态分布进行标准化,
然后,我们选择5%的区间作为拒绝域,即,如果X标准化后的值落在了最右端5%的面积里面,那么我们可以具有很强的信心(1-5%=95%)来拒绝我们的假设H0,即,判定B比A有效。
假设X标准化后的随机变量为Z,也可以根据标准分公式,
由于备则假设里面的符号是“>”,因此采用右尾检验,拒绝域为Z>Za
我们可以计算出,Z = 1.22。也就是说随机变量X的取值在95%点(1.645)的左边。这个值对应的概率大约是89%。也就是说,89%的概率下B比A好。但我们需要的标 准是95%,所以上述样本不足以得出B比A好的结论。
正如之前所说,这种情况下,我们需要做更多实验。于是,我们又做了一周,A和B分别得到了2000个样本,转化率不变。这个时候我们有信心认为B比A好了吗?
仍然是套用上述公式求Z值,z = 1.72。超出了1.645 (95%信心点),这个时候我们有了足够的信心来相信B比A好。到此为止,实验结束。
另外,如果转化率变化不大,那么通过公式我们可以反推所需要的实验数目。
4.2 区间估计计算查范围
对于某个版本转换率范围的计算,在指定置信度的前提下,可以通过参数估计来计算求得。
根据区间估计的定义,在1-α置信度下,总体均值μ的置信区间为:
即:
从而:
即在1-α置信度下,μ的置信区间为:
取α=0.05, 各个版本的参数代入上式可求得转换率的变换范围
上面的计算是否陌生又熟悉?是否还给老师了?没关系,下面给你补一补:
在介绍区间估计和Z检验之前,先回顾一下几个概念:
5.1 正态分布
若随机变量X从一个位置参数为 、尺度参数为 概率分布,记为:称X服从正态分布,则其概率密度函数为
正态分布的数学期望值或期望值 等于位置参数,决定了分布的位置;其方差 的开平方或标准差于尺度参数,决定了分布的幅度。
正态分布中一些值得注意的量:
· 密度函数关于平均值对称
· 平均值与它的众数(statistical mode)以及中位数(median)同一数值。
· 平均值与它的众数(statistical mode)以及中位数(median)同一数值。
· 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
· 95.449974%的面积在平均数左右两个标准差 的范围内。
· 95.449974%的面积在平均数左右两个标准差 的范围内。
· 99.730020%的面积在平均数左右三个标准差 的范围内。
· 99.993666%的面积在平均数左右四个标准差 的范围内。
正态分布的标准化
对一般的正态分布:X~N(m,s2)作变量代换:
对一般的正态分布:X~N(m,s2)作变量代换:
结合标准正态分布的计算公式得出下列正态分布概率的计算公式(可见标准化后没有不等于符号):
例1.(多选)设X-N(5,4),则P(2<X<3)=( )。
A.φ(1.5)-φ(1)
B.φ(1)-φ(1.5)
C.φ(-1)-φ(-1.5)
D.φ(-1.5)-φ(-1)
选AC。P(2<X<3)=
A.φ(1.5)-φ(1)
B.φ(1)-φ(1.5)
C.φ(-1)-φ(-1.5)
D.φ(-1.5)-φ(-1)
选AC。P(2<X<3)=
标准化之后,我们可以通过查询正态分布表获得X <= 0(映射到Z来查询)的概率。
5.2 中心极限定理
正态分布有一个非常重要的性质:在特定条件下,大量统计独立的随机变量的平均值的分布趋于正态分布,这就是中心极限定理
5.3 二项分布
即重复n次的伯努利试验,记为B(n, p)。在每次试验中只有两种可能的结果,而且是互相对立的,是独立的,与其它各次试验结果无关,结果事件发生的概率在整个系列试验中保持不变,则这一系列试验称为伯努利实验
如果n足够大,那么分布的偏度就比较小,那么B(n,p)的一个很好的近似是正态分布:
5.4 区间估计
区间估计是 参数估计的一种,依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。
则称:
1-α是置信度,置信度也称为置信概率
置信度1-α下θ的置信区间:
α称为显著性水平
α称为显著性水平
总体服从正态分布,σ2已知时
根据区间估计的定义,在1-α置信度下,总体均值μ的置信区间为:
即:
从而
即在1-α置信度下,μ的置信区间为:
例1:已知某零件的直径服从正态分布,从该批产品中随机抽取10件,测得平均直径为202.5mm,已知总体标准差σ=2.5mm,试建立该种零件平均直径的置信区间,给定置信度为0.95。 =202.5, n=10, 1-α=0.95
解:已知
查标准正态分布表,得μ(α/2)=1.96
查标准正态分布表,得μ(α/2)=1.96
所以在1-α置信度下,μ的置信区间为
即
计算结果为:[200.95,204.05]
即
计算结果为:[200.95,204.05]
统计检验是先对总体的分布规律作出某种假说,然后根据样本提供的数据,通过统计运算,根据运算结果,对假说作出肯定或否定的决策。如果现要检验实验组和对照组的平均数(μ1和μ2)有没有差异,其步骤为:
1.建立虚无假设,即先认为两者没有差异,用 H0:μ1 = μ2 表示;
2.通过统计运算,确定假设 H0 成立的概率 P。
3. 根据 P 的大小,判断假设 H0 是否成立。
双尾、右尾、左尾:描述检验是否涉及频率分布的双侧(双尾)或只是单侧。如果备择假设表达式中包合≠(不等于),需要双尾检验。如果包含<(小于)需要左尾检差验,包含>(大于),需要右尾检验。卡方检验通常是双尾检验。
5.5.1 Z检验
Z检验法适用于大样本(样本容量大于30)的两平均数之间差异显著性检验的方法。它是通过计算两个平均数之间差的Z分数来与规定的理论Z值相比较,看是否大于规定的理论Z值,从而判定两平均数的差异是否显著的一种差异显著性检验方法。其一般步骤:
第一步:建立虚无假设 H0:μ1 = μ2 ,即先假定两个平均数之间没有显著差异,
第二步:计算统计量Z值,对于不同类型的问题选用不同的统计量计算方法,
如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著。其Z值计算公式为:
其中:
· 是样本1,样本2的平均数;
· S1,S2是样本1,样本2的标准差;
· n1,n2是样本1,样本2的容量。
第三步:比较计算所得Z值与理论Z值,推断发生的概率,依据Z值与差异显著性关系表作出判断。如下表所示:
第四步:根据以上分析,结合具体情况,作出结论。
例:某项教育技术实验,对实验组和控制组的前测和后测的数据分别如下表所示,比较两组前测和后测是否存在差异。
由于n>30,属于大样本,所以采用Z检验。由于这是检验来自两个不同总体的两个样本平均数,看它们各自代表的总体的差异是否显著,所以采用双总体的Z检验方法。
计算前测Z的值:
∵|Z|=0.658<1.96
∵|Z|=0.658<1.96
∴ 前测两组差异不显著。
再计算后测Z的值:
∵|Z|= 2.16>1.96
∵|Z|= 2.16>1.96
∴ 后测两组差异显著。
5.5.2 P值(P value)
就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。
显著性检验的基本思想可以用小概率原理来解释。
1、小概率原理:小概率事件在一次试验中是几乎不可能发生的,假若在一次试验中事件 事实上发生了p<a。那只能认为事件 不是来自我们假设的总体,也就是认为我们对总体所做的假设不正确。
2、观察到的显著水平:由样本资料计算出来的检验统计量观察值所截取的尾部面积为p。这个概率越小,反对原假设,认为观察到的差异表明真实的差异存在的证据便越强,观察到的差异便越加理由充分地表明真实差异存在。
3、检验所用的显著水平:针对具体问题的具体特点,事先规定这个检验标准。
4、在检验的操作中,把观察到的显著性水平与作为检验标准的显著水平标准比较,小于这个标准时,得到了拒绝原假设的证据,认为样本数据表明了真实差异存在。大于这个标准时,拒绝原假设的证据不足,认为样本数据不足以表明真实差异存在。
5、检验的操作可以用稍许简便一点的作法:根据所提出的显著水平查表得到相应的 值,称作临界值,直接用检验统计量的观察值与临界值作比较,观察值落在临界值所划定的尾部内,便拒绝原假设;观察值落在临界值所划定的尾部之外,则认为拒绝原假设的证据不足。
5.4.3 标准正态分布表Z值查询方法
正态分布表中间的数字表示面积,最左边一列表示Z值得整数部分,最上边一列表示Z值得小数部分。
例:当给定了检验的显著水平a=0.05时,如果要检验是否相等,就是双侧检验,允许左右各有误差,即a/2=0.025,此时要查尾部面积是0.025时的Z值。
表中间的数字指从 到参考点的面积,而Z值是指从中间均值所在位置往右计算的长度,所以当Z=0时,中间的面积是0.5。
Z0.025即表示左边的面积为1-0.025=0.975时对应的Z值,首先在表中间找到0.975,水平对应的最左边列的值为1.9,垂直对应最上边行的值为0.06,两数相加即为Z0.025=1.96。
Z值只是一个临界值,他是标准化的结果,本身没有意义,有意义的在于在标准正态分布模型中它代表的概率值。通过查表便可以知道。
相关推荐
这是一个用Python编写的日历拼图求解程序,主要用来解决以下问题:给定8块不规则形状的拼图,在一个7x7的网格中拼出所有可能的日期组合。程序需要确保每次拼图都恰好留出两个空格,分别代表月份(1-12)和日期(1-31,根据月份不同天数不同)。 程序的核心算法采用深度优先搜索(DFS),通过不断尝试不同的拼图放置位置、旋转角度和翻转方式来寻找所有可能的解。为了提高运行效率,程序使用了多进程并行计算,同时利用NumPy进行矩阵运算,大大提升了计算速度。 此外,程序还包含了一些实用的功能,比如解的查重、结果保存、进度日志等。它不仅能找出所有可能的日期组合,还会将结果以易读的格式保存到文件中。对于想要研究组合优化问题或者对拼图游戏感兴趣的同学来说,这是一个不错的参考示例。
库存报表1113
法律事务_
百分点:2024年4月食品餐饮行业舆情分析报告.pdf
进程间通信.pptx
ISO协议和SAE协议对应关系.docx
基于uniapp校园帮外卖跑腿快递代拿平台设计【可发布到小程序和HTML5】毕业源码案例设计Uniapp_Campus_Help_Delivery基于uniapp校园帮外卖跑腿快递代拿平台设计【可发布到小程序和HTML5】毕业源码案例设计开发软件 Eclipse或者Idea + HbuilderX + Mysql + Redis开发技术uni-app 是一个使用vue的语法+微信小程序的标签和API的跨平台接口框架,开发者编写一套代码,可编译到iOS、Android、H5、小程序等多个平台,几乎覆盖所有流量端端接口符合java语言的Springboot技术开发后台登录地址http://localhost:8888/gp/login管理员账号密码 admin/123456用户账号密码ys4/123456骑手账号密码pt4/123456功能介绍系统共有3个身份用户、跑腿员和管理员,其中用户和跑腿员在移动端实现,管理员在web端登录管理,在移动端可以注册成为用户或者跑腿人员。用户登录后可以发布订单的订单,订单分类有很多外卖订单、购物订单、快递订单
测绘工程_
配电网自动化技术—配电网馈线监控终端.pptx
内容概要:本文探讨了通过微调预训练语言模型(LMs)来构建更好的语言智能体的方法。研究提出了一个新的方法——FireAct,它利用从多个任务和提示方法生成的任务解决轨迹数据对小型模型进行微调,提高了模型在自然问答任务中的表现、鲁棒性和泛化能力。实验表明,通过这种多元化的学习支持,语言智能体能够更好地应对噪声环境、跨任务泛化,并提高效率和性能。 适合人群:对语言模型微调及应用感兴趣的学术研究人员和工程技术人员。 使用场景及目标:本文的研究旨在推动语言智能体的发展,特别是提升它们在多任务场景下的推理能力和行动效果。主要应用场景包括基于文本的知识检索、复杂问题解答和工具交互等。 其他说明:作者详细展示了不同数据规模、提示方式以及模型大小对微调效果的影响,为未来进一步探索提供了有益的指导。同时,文章强调了多方法和多任务混合微调的重要性和潜力,为进一步优化语言智能体指明了方向。
教学教务系统原型设计
wygdove 本科毕业设计一个集成医疗传感器,室内传感器,及调用外部环境数据的综合平台。主要对应一个人的身体健康检测,人的周围环境,以及外界大环境,以人为主体的智能医疗系统。
非常好的python学习资料包含笔记+源代码+教程100%好用.zip
洗衣店全球市场报告:2023年洗衣机零售额高达934亿元,潜力无限 在快节奏的现代生活中,衣物清洁与保养成为了人们日常不可或缺的需求之一。洗衣店,作为这一需求的直接响应者,正悄然经历着一场前所未有的变革。在这片充满机遇的海域中,如何精准把握市场脉搏,有效利用技术创新提升服务品质,成为了众多洗衣店企业亟需解答的关键问题。本文将深入探讨洗衣店市场的现状、趋势及咨询服务的重要性,为您揭示这片蓝海的无限潜力。 市场概况 近年来,洗衣店市场展现出强劲的增长势头。据QYR最新调研,2023年洗衣机全渠道零售量达到4005万台,零售额高达934亿元,这一数据不仅反映了家庭洗涤需求的持续扩大,也间接映射出洗衣店作为专业洗涤服务提供商的市场潜力。随着生活水平的提高和消费观念的转变,消费者对衣物清洁的品质要求日益提升,传统的家庭洗涤方式已难以满足高端面料和特殊衣物的保养需求,这为洗衣店行业提供了广阔的发展空间。预计未来几年,受智能洗涤设备、自助洗衣柜、线上预约平台等新兴业务模式的推动,洗衣店市场将保持年均10%以上的增长率,市场规模持续扩大。 技术创新与趋势 技术创新是推动洗衣店行业转型升级的核心动力。智
3690-机械设计制造及其自动化
DCP-7090/7095D/7190DN/7195DW DCP-B7500D/B7520DW/B7530DN/B7535DW DCP-L2510D/L2511D/L2512D/L2530DW DCP-L2531DW/L2532DW/L2535D/L2535DW DCP-L2536D/L2537DW/L2550DN/L2550DW DCP-L2551DN/L2551DW/L2552DN HL-L2390DW/L2395DW MFC-7390/7490D/7890DN/7895DW MFC-B7700D/B7715DW/B7720DN MFC-L2690DW/L2710DN/L2710DW/L2712DN MFC-L2712DW/L2713DW/L2715D/L2715DW MFC-L2716D/L2716DW/L2717DW MFC-L2730DW/L2732DW/L2750DW/L2750DWXL
faster rcnn算法pytorch版本,按requirements.txt文件配置即可。
信息化教学基本理论省公共课一等奖全国赛课获奖课件.pptx
内容概要:本文档主要介绍了Westport Channel(简称WPC)与Logan Beach(简称LGB)两个硬件设备的DPLL固件更新方法,以及I2C驱动器的具体编程指南。文章从WPC和LGB的针脚布局开始,逐步讲解了连接设置方式、固件升级步骤和可能出现的问题及其解决办法,最后还附带了Microchip DPLL固件升级工具的安装指导和操作截图。 适用人群:适用于需要进行网络接口卡固件维护的技术人员、IT管理员或有一定电子技术背景的研发工程师。 使用场景及目标:为确保通信系统的稳定性和安全性,对网络适配器的关键部件如数字锁相环路(DPLL)实施正确的固件升级是必要的。文档详细指导用户完成这一过程,避免错误导致的设备故障。 其他说明:本文档为Intel公司的内部资料,涉及多项技术细节,仅供授权用户查阅。阅读前请确保已准备好相关软硬件环境并严格按照指引执行。对于复杂情况,可咨询Intel技术支持获取帮助。