最近复习概率统计,今天拿起来买回来放置了一段时间的《统计思维》看,第四章连续分布讲到一个陌生的名字,正态概率图,书上写的感觉不清楚,起码翻译版的是这样的。没记错的话本科老师也没有讲到,就写一下起码为没讲的学弟学妹们补充补充必要知识。
先摘录一下书上说的,对于指数分布(x & ln(1-cdf(x)))、帕累托分布(lnx & ln(1-cdf(x)))、威布尔分布(lnln(1/(1-cdf(x))) & lnx),都可以通过简单的转换来判断一个连续分布数是否能用于某份数据集的建模(上述括号内的对应函数均为直线,只需要判断样本数据是否能拟合成一条直线即可)。但是正态分布就不存在这样的变换,这里就需要正态概率图来判断。
先说《统计学》上讲到的标准做法(貌似书的bug也比较严重,修正了一下):
1. 将数据从小到大排列,并从1~n标号,为x1,x2,…,xj,…,xn。
2. 求出样本观测值的标准正态分数zi,使得zi满足
1-α= (j-0.5)/n = P(Z<=z) = Φ(z)
例如,如果(j-0.5)/n=0.95,即Φ(zi)=0.95,也就意味着zi=1.645。[F(ua) =1-a, 上侧分位数P{U≥ua}=a]
3. 将zi作为纵轴,xj作为横轴,绘图,就是标准正态概率图。(即排序后的第j个数据xj对应zi,这里j和i取不同我觉着是为了说明数据不一定完全符合正态分布,zi中的i表示z的序列中第i个对应xj。)
4. 最后画一条拟合大多数点的直线。原理就是如果数据严格意义上服从正态分布,点将形或一条直线。将点形成的图形与画的直线相比较,判断数据拟合正态分布的好坏。对于为什么-0.5我认为应该是为了保证所有的阿尔法值处在(0,1)区间,两个数相差1,所以取0.5这个中间值,覆盖所有n+1个数的中间位置。
以上是理想方法,或者手工方法。这样再看统计思维说的方法就很明白了,因为更实用的方式肯定不是一直去查表得到一个结果,更通用的方式是用大量符合N(0,1)的数值拟合标准正态分布,只要能生成满足分布的随机数值,那么对于其他分布的验证,这个方式也同样适用。
随后文中提到大数据量的生成和计算也是代价较大的,因此提出了一种近似方案。
1. 从N(0,1)分布生成一个跟数据大小一样的样本。
2. 升值排序
3. 作图
其实跟理论方法差不多,只是可能操作起来更方便一些,理想方法可以在程序维持一个分数表就可以实现了,也不是太复杂;后面讲到的方法更有普适性。
抽了点时间写博分享一下,理解也更透彻了一些。最近写博少,期待最近还有东西可以分享。
参考文献:
1. Think Stats(Probability and Statistics for Programmers) 作者 Allen B. Downey
2. 统计学 作者:贾俊平
3. 正态概率图讲解http://wenku.baidu.com/view/03c56baddd3383c4bb4cd2ae
4. 再附上一个Weibull分布的说明吧
http://www.phsciencedata.cn/Share/wiki/wikiView?id=5d817414-eebf-401a-9b44-1d394e335de6
相关推荐
### 正态概率纸在Matlab中的实现 #### 一、引言 正态概率纸是一种统计工具,常被用来判断一组数据是否符合正态分布。通过将数据绘制成图,观察其与理想正态分布曲线的吻合度,可以直观地评估数据的正态性。在实际...
正态分布概率分布图在推理中的应用主要涉及贝叶斯统计和共轭先验分布的概念。首先,我们要理解贝叶斯定理的核心思想,它允许我们根据先验知识和新的观测数据更新我们的信念。在贝叶斯序惯理性中,我们不仅仅是基于...
正态分布是自然和社会科学领域广泛存在的现象,它描述了随机变量的概率分布。在许多实际应用中,例如质量控制、投资分析以及科学实验等场景,都可能需要绘制正态分布图来展示数据的分布情况,分析数据的中心倾向和...
本资源包含了绘制正态分布、对数正态分布和伽马分布的概率图的代码,这对于理解这些概率分布的特性和应用非常有帮助。 首先,让我们详细探讨这三个概率分布: 1. **正态分布(Normal Distribution)**: 正态分布...
正态分布,也被称为高斯分布,是统计学中一种极其重要的连续概率分布。它在自然界、社会科学以及工程领域中广泛出现,因为许多随机变量的观测值倾向于聚集在一个平均值周围,呈现出对称的钟形曲线。正态分布具有两个...
由于分析数据的需要,研究了一下正态分布图,经过在网上的总结,自己通过Excel绘制出了正态分布图,实际也可以叫正态分布概率密度图,正态分布图里面包含着积分学和概率学知识,大学学的东西到现在已经还给老师了,...
通过观察不同参数下的正态分布图,我们可以更好地理解正态分布如何随着均值和标准差的变化而变化。例如,当标准差增大时,分布曲线变得更宽更平坦;相反,标准差减小时,分布曲线变得更窄更高。这些图形有助于直观...
- 正态概率图检验:通过将数据绘制成正态概率图,判断数据是否服从正态分布。 - **卡方检验**: 1. 定义区间:通常采用等宽度区间。 2. 计算每个区间的理论频数。 3. 计算卡方统计量。 4. 比较卡方统计量与临界...
正态分布图是一种在统计学中广泛使用的图表类型,它描绘了数据集的分布情况,尤其是在数据呈现对称性、单峰性和集中趋势时。2021高级版的正态分布图可能包含了更先进的功能和特性,以帮助用户更好地理解和分析数据。...
正态分布曲线图,也称为高斯分布,是统计学中一种极其重要的概率分布模型,广泛应用于各种领域,如自然科学、社会科学、经济金融等。它描述了一种对称分布,其中数据集中在平均值(均值)周围,且分布的形状由均值和...
在这个场景下,标题提及的"对数正态pdf"指的是对数正态概率密度函数(Probability Density Function, pdf),它是对数正态分布的概率描述。 对数正态分布是一种连续概率分布,其特点是变量的自然对数遵循正态分布。...
- **统计作图**:掌握如何使用MATLAB进行数据可视化,特别是绘制正态概率图(QQ图)。 - **多维数据处理**:掌握多维数据的数字特征与相关矩阵的处理方法。 #### 实验方法和步骤 - **实验环境**:使用笔记本电脑,...
为了验证随机数符合正态分布,可以进一步使用`normfit`函数进行拟合,获取理论上的均值和标准差,以及`normplot`函数创建正态概率图,对比实际数据与理论正态分布的吻合程度。 总的来说,这个压缩包包含了一个C程序...
用Microsoft Mathematics打开
4. 在使用UNIVARIATE过程进行数据分析时,需要添加plot选项来输出茎叶图、正态概率图等。 5. 在输出结果中,Prob > |t|是对样本均值为零的T检验的概率值。 第二部分:实验题 本部分通过实验来演示SAS数据的描述性...
今天使用python画了几个好玩的3D展示图,现在分享给大家。 先贴上图片 使用的python工具包为: from matplotlib import pyplot as plt import numpy as np from mpl_toolkits.mplot3d import Axes3D 在贴代码...
Excel直方图和正态分布图.rar,直方图是将某期间所收集的计量值数据经分组整理成次数统计表,并使用柱形予以图形化的图表...正态分布是在统计中使用最频繁的分布,正态分布图描述收集的数据在分组区间内出现的概率,其曲
在本文中,我们将深入探讨如何使用JavaScript、ECharts库以及Vue.js框架来实现一个正态分布图的单页面应用。正态分布,也被称为高斯分布,是统计学中非常常见的一种连续概率分布,广泛应用于各种领域,如社会科学、...
- **正态概率图**:如果散点图呈现出一条直线,则数据可能符合正态分布。 #### 使用SPSS进行正态性检验 1. **准备工作**:首先启动SPSS软件,并创建一个新的数据集(例如,名为`norm_t`),定义变量X,将待检验的...
描述性统计是对数据的基本描述,包括均值、方差、标准差、 四分位数、百分位数、茎叶图、箱形图、正态概率图等。SAS 中使用proc means 过程来计算这些统计量。 freq 语句 freq 语句用于计算频数表,例如(proc freq...