`
liubin2010
  • 浏览: 311038 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论

关于统计学中方差公式的问题

 
阅读更多
  我们现在课本上所提供的方差的计算方式,这个分母是除以N,有一些统计学书中,方差的一个计算公式分母是除以的N-1。

一般计算器上,两个公式都有。为什么会有这样的差异,这两个公式哪个对,哪个错,还是都有道理?

    我们先看一个例子。现在有10000个灯泡,那么它有一个方差,这个方差是一个总体方差。如果我们抽了这个总体中的1000个灯泡去计算方差,并且用它去估计总体的那个方差,如果要除以N的话呢,在理论上可以证明,用除以N的来估计总体,它的估计是偏低的,也就是说我们算出来的样本方差比总体方差要低。要除以N-1的话,就不偏低,所以除以N-1好,这是理论上的问题。

我们用一个数据来估计总体时,要有一个标准,就是说估计得好还是不好。比如说要估计这个总体方差,用谁来来估计。用第一个公式算出来的样本方差是估计,用第二个公式算出来的样本方差也是估计,都是估计,好还是不好,首先就要看你给出一个什么叫好,什么叫不好的标准,如果你认为它偏低或者偏高都不好的话,那么标准就是要估计得无偏,就是说认为无偏估计是好,理论上已经证明了除以N-1就要比除以N要好;当然还可以有别的标准,比如说靠得越近就好,这时除以N就好,这在统计学中称为极大似然估计。因此标准不一样,好坏也就不一样。

教材里选用N,还有一个就是比较自然,顾及到学生的可接受性,因为N个数求算术平均数时除以的是N,再学习计算方差的公式,除以N接受起来比较自然,比较方便。要除以N-1的话,我们还需要给学生解释,或者是介绍更多的内容去理解为什么要减去这个1。老师们可以根据自己学生的能力水平,是否去介绍这种新的公式。而且当这个数很大的话,比如除以10000跟除以9999,得到的那个数据结果,差异很小很小。所以,当N很大时,两个都可以。当然N很小时,除以N-1,还是除以N还是有差异的,但这不是一个什么太本质的问题。
也可以这样来理解:
计算样本方差时先要对均值X作一个估计,占用了一个自由度。也就是说,用剩下的任意n-1个数据与X放在一起就可以计算方差,即只有n-1个自由度。但为了计算简便,还是把n个数据都放进了公式,但并没有增加自由度,所以只能除以n-1。
将几个样本的方差合并为总体方差估计时,比如一个样本的大小是m,方差为S1,另一个样本大小是n,方差为S2,对总体方差的无偏估计是[(m-1)S1+(n-1)S2]/(m+n-2),合并时的分母是(m-1)+(n-1)=m+n-2而不是m+n-1,这是按自由度的算法。
无偏性可通过样本大小为1的极端情形来考察,这一个数据是对均值的估计,但计算方差时没有自由度了,实际上就不能估计方差,公式退化成0/0型,没有意义才是真的有意义,如果除以1,则方差估计值为0,反而不如0/0能反映真实含义。
分享到:
评论

相关推荐

    湖南省长郡中学2021届高三数学高考考前保温试卷(二有答案) .docx

    5. 方差的性质:第五题讨论了数据集中加入新数据后方差的变化,涉及统计学中方差的计算和性质。 6. 圆的几何性质:第六题是关于圆上点的几何性质,求解三角形的最值问题,需要用到三角函数和圆的性质。 7. 球冠的...

    山西省2021届高三数学考前适应性试题理二模含解析

    4. 方差的理解与计算:第四题涉及样本数据的方差变化,这涉及到统计学中方差的概念和比例的保持。 5. 椭圆的标准方程:第五题中求椭圆的方程,需要理解椭圆的几何性质和标准方程的形式。 6. 空间几何:第六题考察...

    湖南省怀化市中方县第一中学2020届高三数学模拟试题二理扫描版

    - 数列求和:在解答题中,计算了数列的前n项和`Sn`,这涉及到等差数列的求和公式`Sn = n/2 * (a1 + an)`。 2. **平面几何与立体几何**: - 平行与垂直关系:在证明题中,证明了一个平面与另一平面的垂直关系,这...

    高考数学知识方法专题8 概率与统计精选.doc

    要从一定数量的中方和外籍队员中选择一个固定数量的队伍,必须使用组合数公式来计算各种可能的组合数。在处理这类问题时,学生还需要注意排除那些虽然人数相同但因组成人员不同而视为不同的组合。 奇数个数的排列...

    MATLAB中PLS算法模型和函数

    - \(PCTVAR\) 是\(2 \times ncomp\)维度的矩阵,第一行表示每个主成分解释的\(X\)中方差的百分比,第二行表示每个主成分解释的\(Y\)中方差的百分比。 - **MSE**: - \(MSE\) 是\(2 \times (ncomp+1)\)维度的矩阵,...

    伽马-滤过复合Poisson过程模型结构可靠性分析 (2009年)

    UMVUE是统计学中一种寻求估计量的方法,它在所有无偏估计量中方差最小。这种方法被用来进行结构可靠度的渐近正态估计与一致估计,提供了一种理论基础,以确保估计量的准确性和稳定性。 文章通过考虑应力和强度的...

    一般生长曲线模型岭估计的影响分析 (2007年)

    最小二乘估计是基于最小化误差平方和来获得参数估计的方法,而最佳线性无偏估计是在线性估计中方差最小的估计。在协方差阵扰动情况下,可能需要对这些基本估计方法进行调整或改进,以获得更为准确和稳定的结果。 ...

Global site tag (gtag.js) - Google Analytics