`
疯牛涕淌
  • 浏览: 10041 次
最近访客 更多访客>>
社区版块
存档分类
最新评论

参数估计与置信区间

 
阅读更多

转自:数码林博客
原文引自:http://webdataanalysis.net/data-analysis-method/parameter-estimation/

 

 

confidence-level 

  我们总是希望能够从一些样本数据中去探究数据总体的表现特征,在网站数据分析中也是如此,我们试图从最近几天的数据表现来推测目前网站的整体形势是怎么样的,有没有变好或者变差的信号,但当前几天的数据无法完全代表总体,所以这里只能使用“估计”。同时,网站的数据始终存在波动,将最近时间段的数据作为抽样样本很可能数据正好处于较低或者较高水平,所以我们用样本得到的估计值不可能是无偏差的,我们同时需要去评估这个估计值可能的变化区间。 

  参数估计(Parameter Estimation)是指用样本的统计量去估计总体参数的方法,包括点估计和区间估计。 

点估计

  点估计(Point Estimation)是用抽样得到的样本统计指标作为总体某个未知参数特征值的估计,是一种统计推断方法。 

  一般对总体参数的估计会包括两类:一种是用样本均值去估计总体均值,对应到网站数据中的数值型指标,比如网站每天的UV,我们可以用近一周的日均UV去估计目前网站每天唯一访客数量的大体情况;另外一种是用样本概率去估计总体概率,对应到网站数据中的比率型指标,比如网站的目标转化率,我们可以用近3天的转化率去预估网站当天目标转化的水平;同时我们会计算样本的标准差来说明样本均值或者概率的波动幅度的大小,从而估计总体数据的波动情况。 

  点估计还包括了使用最小二乘法对线性回归做曲线参数的拟合,以及最大似然估计的方法计算样本集分布的概率密度函数的参数。 

区间估计

  区间估计(Interval Estimation)是依据抽取的样本,根据一定的正确度与精确度的要求,估算总体的未知参数可能的取值区间。区间估计一般是在一个既定的置信水平下计算得到总体均值或者总体概率的置信区间(Confidence Interval),一般会根据样本的个数和标准差估算得到总体的标准误差,根据点估计中用样本均值或样本概率估计总体均值或总体概率,进而得出一个取值的上下临界点。 

  我们可以将样本标准差记作S,如果我们抽样获取的有n个样本,那么总体的标准差σ就可以用样本标准差估算得到: 

 

std_dev-to-std_err 

  从这个公式中我们可以看到大数定理的作用,当样本个数n越大时,总体指标差σ越小,样本估计值越接近总体的真实值。Excel的图表里面也提供了添加“误差线”的功能: 

Excel-error-bars 

  有了总体的标准差σ,我们就可以使用区间估计的方法计算总体参数在一定置信水平下的置信区间,置信区间(Confidence Interval)给出了一个总体参数的真实值在一定的概率下会落在怎么样的取值区间,而总体参数落在这个区间的可信程度的这个概率就是置信水平(Confidence Level)。当抽取的样本数量足够大时(一般n>30),根据“中心极限定理”,我们可以认为样本均值近似地服从正态分布。 

 

  根据Z统计量的计算公式: 

Z-Score 

  假如在1-α的置信水平下,则总体均值μ的置信区间为: 

Confidence-Interval 

  这里样本均值和标准差都可以根据抽样的结果计算得到,所以在既定置信水平的条件下,我们只要查Z值表(Z-Score)得到相应的Z值就可以计算得到总体均值的置信区间。对于置信水平或者叫置信度的选择,在统计学中一般认为95%的置信度的结果具有统计学意义,但其实在互联网领域数据的分析中不需要这么高的置信度,我们有时也会选择80%或者90%的置信度,相应的Z值见下表: 

置信水平1-α 对应Z值Zα/2
95% 1.96
90% 1.65
80% 1.28

 

 

 

  对于总体概率的估计,在具备足够样本数量的条件下,我们用样本概率p预估总体概率,而总体概率的标准差则是sqrt(p(1-p)/n),同样可以计算得到置信区间。 

  其实这篇文章的内容大部分都可以在统计学书籍或者网上Wiki里面找到,当然写到博客里面不是为了做科普,这里的每篇“数据分析方法”类目下的文章都是跟相应的网站数据分析的应用文章结合,这篇也不例外,如果你对相关内容感兴趣,请关注后续发布的文章,或者订阅我的博客吧。

分享到:
评论

相关推荐

    方差的参数估计和置信区间估计.doc

    在统计分析中,参数估计是确定一个未知参数的值的过程,而置信区间则是提供一个估计参数可能取值的范围。 1. **方差的参数估计**: 在正态分布中,均值和方差是两个重要的参数。`normfit`函数在MATLAB中用于对数据...

    SPSS, Matlab, Sigmaplot 画置信区间线

    在数据分析与统计研究中,绘制置信区间线、图或曲线是一个重要的步骤,用于表示统计估计的可靠性与精确度。本文将详细介绍如何使用SPSS、Matlab和Sigmaplot三种软件绘制线性回归的置信区间。 首先,我们来探讨SPSS...

    概率论参数估计区间估计PPT学习教案.pptx

    本 PPT 将分为多个部分,包括概率论参数估计区间估计的概念、置信区间的计算方法、置信区间估计在实际应用中的例子等。 概率论参数估计区间估计的概念 概率论参数估计区间估计是统计学中的一种重要方法,用于根据...

    非正态分布均值的置信区间:变换或不变换

    在许多应用统计领域,均值的置信区间是令人感兴趣的。 尽管在实践中通常会出现非正态分布的数据,但通常会假设正态性来构建置信区间。 给定足够大的样本量,可以通过应用中心极限定理或通过引导方法来构造均值的置信...

    双正态总体均值的置信区间估计及MATLAB实现.pdf

    在统计学中,置信区间估计是一种推断统计方法,用于对总体参数(如均值、比例等)进行区间估计,给出一个区间范围,该区间以一定的概率包含总体参数的真实值。本文探讨了双正态总体均值之差的置信区间估计问题,并...

    如何求置信区间(包括用Excel实现方法)

    置信区间是统计学中一个重要的概念,它用于表示我们对某个未知参数估计的可靠性。在统计分析中,我们通常无法直接获得总体的信息,而是通过抽样来了解总体的特征。置信区间就是通过样本数据推断总体参数的一个区间...

    BP-KDE神经网络结合核密度估计多置信区间多变量回归区间预测(Matlab完整源码和数据)

    1.Matlab实现BP-KDE神经网络结合核密度估计多置信区间多变量回归区间预测(Matlab完整源码和数据); 2.多变量单输出,包括点预测+概率预测曲线+核密度估计曲线,MatlabR2021a及以上版本运行,提供多种置信区间!...

    两正态总体方差比的置信区间的优化研究

    这一参数选择和计算范围的设定使得研究具有了一定的适用性,可以用于不同大小样本下的置信区间估计。 综上所述,这项研究在置信区间端点比值最小的意义下,通过数学推导和理论证明,确定了最优化置信区间的条件,...

    概率中置信区间在肾炎诊断中的应用

    置信区间的宽度提供了对总体参数估计精度的衡量,更宽的置信区间通常意味着更高的不确定性。 例如,假设某研究者根据样本数据估计了某种元素含量对于肾炎诊断的敏感度和特异性,那么通过置信区间的计算,研究者不仅...

    置信区间公式函数应用汇总.docx

    置信区间公式函数应用汇总是统计学中一个重要的概念,它是指基于样本数据对总体参数进行间接估计的方法。置信区间的应用非常广泛,涵盖了总体均值、总体比例、总体方差等多个方面。 在本文中,我们将对置信区间公式...

    matlab参数估计与假设检验

    在"第5章 参数估计与假设检验"的文件中,很可能包含了详细的MATLAB代码示例,演示如何进行参数估计和假设检验。通过学习和实践这些例子,可以深入理解这两个统计概念,并掌握在MATLAB中的具体实现。无论是科研还是...

    正态母体参数的置信区间.pdf

    因此,置信区间与概率的含义不同,它提供了对估计不确定性的量化。 以例7.7为例,考虑一个轴承内环平均高度的正态分布问题。平均高度ξ服从正态分布N(μ, σ²),其中σ²已知为24.0。从样本中抽取20只内环,得到...

    sas第参数估计与假设检验PPT学习教案.pptx

    SAS参数估计与假设检验 SAS参数估计于假设检验是统计分析的核心部分,对于学术和实际应用都是非常重要的。在这篇学习教案中,我们将探讨SAS参数估计与假设检验的基本概念和方法,并通过实例来加深理解。 参数...

    动态参数估计和置信区间:解决动态优化问题的教程视频和文件-matlab开发

    本教程涵盖 MATLAB 编程,以模拟微分方程模型并优化参数以匹配测量。 在本练习中,模型使用 ODE 积分器 (ode15s) 进行仿真,并使用 fmincon 或 fminsearch 进行优化。 还计算参数的置信区间。

    如何求置信区间(包括用Excel实现方法).rar

    置信区间是统计学中的一个核心概念,它用于表示对某个未知参数的估计范围,具有一定的可信度。在科学研究和数据分析中,置信区间能够帮助我们理解数据的不确定性,并为决策提供依据。本资料包主要介绍了如何计算置信...

    VegFraction_置信区间_IDL二分法计算植被覆盖度.zip

    通过不断调整阈值并比较不同植被指数(如NDVI,Normalized Difference Vegetation Index)的像素数量,直到满足预设的置信区间条件,从而得到植被覆盖度的估计。 置信区间是统计学中的一个概念,它表示根据样本数据...

    DNN-KDE深度神经网络结合核密度估计多置信区间多变量回归区间预测(Matlab完整源码和数据)

    1.Matlab实现DNN-KDE深度神经网络结合核密度估计多置信区间多变量回归区间预测; 2.多变量单输出,包括点预测+概率预测曲线+核密度估计曲线,MatlabR2021a及以上版本运行,提供多种置信区间!评价指标包括R2、MAE、...

    5 置信区间与假设检验1

    在数据分析和统计学中,置信区间与假设检验是两种重要的方法,用于理解和解释交通大数据。郭延永教授及其团队在东南大学的课程"交通大数据——理论与方法"中详细阐述了这些概念。 首先,置信区间是估计一个未知总体...

    Session12置信区间估计.ppt

    置信区间估计是统计学中的一个关键概念,用于估算参数的可能范围,它在数据分析、模型构建和决策制定中起到至关重要的作用。本讲座“Session 12:置信区间估计”由任建标教授在Aetna School of Management, Shanghai...

    CNN-KDE卷积神经网络结合核密度估计多置信区间多变量回归区间预测(Matlab完整源码和数据)

    1.Matlab实现CNN-KDE卷积神经网络结合核密度估计多置信区间多变量回归区间预测; 2.多变量单输出,包括点预测+概率预测曲线+核密度估计曲线,MatlabR2021a及以上版本运行,提供多种置信区间!评价指标包括R2、MAE、...

Global site tag (gtag.js) - Google Analytics