导读:
第八章 方差分析与相关分析
一.方差分析
1.基本概念
方差分析的概念:比较组间方差是否可以用组内方差来进行解释,从而判断若干组样本是否来自同一总体。
方差分析,又称为ANOVA(Analysis Of Variance)分析。
方差分析可以一次检验多组样本,避免了t检验一次只能比较两组的缺陷。方差分析只能反映出各组样本中存在着差异,但具体是哪一组样本存在差异,无法进行判定。
考察下列例子:
某厂使用四种不同颜色对产品进行包装,经过在五个城市的试销,获得销售数据如下(单位:万盒),试分析包装颜色对于销售量是否有影响。
市场
|
红色
|
绿色
|
黄色
|
蓝色
|
北京
|
26.5
|
31.2
|
27.9
|
30.8
|
上海
|
28.7
|
28.3
|
25.1
|
29.6
|
广州
|
25.1
|
30.8
|
28.5
|
32.4
|
武汉
|
29.1
|
27.9
|
24.2
|
31.7
|
西安
|
27.2
|
29.6
|
26.5
|
32.8
|
观察数据的列平均值,列平均值的差异反映出不同颜色包装的销售业绩差异。此时,需要判断这种差异与同一颜色包装在不同城市间的差异相比,是否显著。如果不显著,则这种平均值的差异属于偶然差异。
市场
|
红色
|
绿色
|
黄色
|
蓝色
|
北京
|
26.5
|
31.2
|
27.9
|
30.8
|
上海
|
28.7
|
28.3
|
25.1
|
29.6
|
广州
|
25.1
|
30.8
|
28.5
|
32.4
|
武汉
|
29.1
|
27.9
|
24.2
|
31.7
|
西安
|
27.2
|
29.6
|
26.5
|
32.8
|
平均
|
27.32
|
29.56
|
26.44
|
31.46
|
2.方差分析原理
计算观察值的组间方差和组内方差,并计算两者的比值,如果该比值比较小,说明组间方差与组内方差比较接近,组间方差可以用组内方差来解释,从而说明组间差异不存在。
l 建立原假设“H0:各组平均数相等”
l 构造统计量“F=组间方差/组内方差”
l 在计算组间方差时,使用自由度为(r-1),计算组内方差时,使用自由度为(n-r)。
l F满足第一自由度为(r-1),第二自由度为(n-r)的F分布。
l 查表,若F值大于0.05临界值,则拒绝原假设,认为各组平均数存在差异。
根据方差计算的原理,生成方差分析表如下:
其中:
组间离差平方和 SSA (Sum of Squares for factor A) =39.084
误差项离差平方和 SSE (Sum of Squares for Error) =76.8455
总离差平方和 SST (Sum of Squares for Total)=115.9295
P-value值为0.000466,小于0.05,所以拒绝原假设。
F-crit是指0.05的边界值。
差异源
|
SS
|
df
|
MS
|
F
|
P-value
|
F crit
|
组间
|
76.8455
|
3
|
25.61517
|
10.4862
|
0.000466
|
3.238867
|
组内
|
39.084
|
16
|
2.44275
|
|
|
|
总计
|
115.9295
|
19
|
|
|
|
|
3.双因素方差分析
观察下列销售数据,欲了解包装方式和销售地区是否对于销售业绩有影响,涉及到双因素的方差分析。
此时需分别计算SSA、SSB与SSE之间的比值是否超过临界值。
其中SSE的自由度为 (n-r-k)
|
包装方式(因素A)
|
包装A
|
包装B
|
包装C
|
包装D
|
包装E
|
销售地区(因素B)
|
地区1
|
20
|
12
|
20
|
10
|
14
|
地区2
|
22
|
10
|
20
|
12
|
6
|
地区3
|
24
|
14
|
18
|
18
|
10
|
地区4
|
16
|
4
|
8
|
6
|
18
|
地区5
|
26
|
22
|
16
|
20
|
10
|
计算方差分析表如下:
其中:
行差异(地区因素)对于销售无显著影响;
列差异(包装因素)对于销售有显著影响。
误差项SSE=SST-SSA-SSB
差异源
|
SS
|
df
|
MS
|
F
|
P-value
|
F crit
|
行
|
199.36
|
4
|
49.84
|
2.303142
|
0.103195
|
3.006917
|
列
|
335.36
|
4
|
83.84
|
3.874307
|
0.021886
|
3.006917
|
误差
|
346.24
|
16
|
21.64
|
|
|
|
总计
|
880.96
|
24
|
|
|
|
|
二.相关分析
1.基本概念
相关关系:变量间非确定性的相互关联关系。表现为延着一条曲线两侧的一排点。
函数关系:变量间确定性的相互关联关系。表现为曲线上的点。
相关系数:Coefficient of correlation
观察下列数据:人均国民收入与人均消费金额之间存在着线性相关关系。
计算:r=0.9987,即人均国民收入与人均消费金额之间存在着强相关关系。
年份
|
人均国民收入
|
人均消费金额
|
年份
|
人均国民收入
|
人均消费金额
|
1981
|
393.8
|
249
|
1988
|
1068.8
|
643
|
1982
|
419.14
|
267
|
1989
|
1169.2
|
699
|
1983
|
460.86
|
289
|
1990
|
1250.7
|
713
|
1984
|
544.11
|
329
|
1991
|
1429.5
|
803
|
1985
|
668.29
|
406
|
1992
|
1725.9
|
947
|
1986
|
737.73
|
451
|
1993
|
2099.5
|
1148
|
1987
|
859.97
|
513
|
|
|
|
2.相关关系的检验:
相关系数接近1的程度除受相关性影响外,还受数据量n的影响。在n=2时,相关系数确定为1。在相关程度相同的情况下,N越大,相关系数越小。
因此,在计算相关系数时,需要进行相关系数的检验,当r>临界值时,方可判断变量间存在相关关系。
相关系数只反映变量间的线性相关关系,当变量存在非线性的相关关系时,相关系数无法进行反映。
相关分析的临界值表
n-2
|
0.05
|
0.01
|
n-2
|
0.05
|
0.01
|
n-2
|
0.05
|
0.01
|
1
|
0.997
|
1.000
|
16
|
0.468
|
0.590
|
35
|
0.325
|
0.418
|
2
|
0.950
|
0.990
|
17
|
0.456
|
0.575
|
40
|
0.304
|
0.393
|
3
|
0.878
|
0.959
|
18
|
0.444
|
0.561
|
45
|
0.288
|
0.372
|
4
|
0.811
|
0.917
|
19
|
0.433
|
0.549
|
50
|
0.273
|
0.354
|
5
|
0.754
|
0.874
|
20
|
0.423
|
0.537
|
60
|
0.250
|
0.325
|
6
|
0.707
|
0.834
|
21
|
0.413
|
0.526
|
70
|
0.232
|
0.302
|
7
|
0.666
|
0.798
|
22
|
0.404
|
0.515
|
80
|
0.217
|
0.283
|
8
|
0.632
|
0.765
|
23
|
0.396
|
0.505
|
90
|
0.205
|
0.267
|
9
|
0.602
|
0.735
|
24
|
0.388
|
0.496
|
100
|
0.195
|
0.254
|
10
|
0.576
|
0.708
|
25
|
0.381
|
0.487
|
125
|
0.174
|
0.228
|
11
|
0.553
|
0.684
|
26
|
0.374
|
0.478
|
150
|
0.159
|
0.208
|
12
|
0.532
|
0.661
|
27
|
0.367
|
0.470
|
200
|
0.138
|
0.181
|
13
|
0.514
|
0.641
|
28
|
0.361
|
0.463
|
300
|
0.113
|
0.148
|
14
|
0.497
|
0.623
|
29
|
0.355
|
0.456
|
400
|
0.098
|
0.128
|
15
|
0.482
|
0.606
|
30
|
0.349
|
0.449
|
1000
|
0.062
|
0.081
|
3.等级相关
相关系数衡量两个定距以上样本的相关关系,但对于定序尺度,无法进行计算。
等级相关用于两个定序尺度测量的样本间相关程度的测定。
将两个样本按观察数据的顺序进行配对,分别计算每个数据的秩,将两组样本的秩分别记录为U和V。
如果两个测度完全一致,则U与V的差异应当为0。
计算D=U-V的平方和,该值越大,表明相关性越差。
如下计算斯皮尔曼等级相关系数(Spearman coefficient of rank correlation)
考虑一个两评委对歌手打分的问题,分别按歌手得分的顺序计算U和V,计算R=0.3212。
参赛歌手编号
|
得分U
|
得分V
|
D=U-V
|
D×D
|
1
|
1
|
5
|
-4
|
16
|
2
|
2
|
3
|
-1
|
1
|
3
|
5
|
9
|
-4
|
16
|
4
|
9
|
6
|
3
|
9
|
5
|
4
|
8
|
-4
|
16
|
6
|
6
|
4
|
2
|
4
|
7
|
3
|
2
|
1
|
1
|
8
|
7
|
1
|
6
|
36
|
9
|
10
|
7
|
3
|
9
|
10
|
8
|
10
|
-2
|
4
|
合计
|
|
|
|
112
|
分享到:
相关推荐
雷静《卫生统计学》第八章方差分析.ppt
方差分析是统计学中用于比较多个组别之间是否存在显著差异的一种方法,尤其在医学、社会科学和实验科学等领域广泛应用。它的基本思想是将数据的总变异分解为不同来源的变异,比如处理因素引起的变异和随机误差,然后...
方差分析,又称ANOVA(Analysis of Variance),是统计学中用于比较多个组间均值差异显著性的一种方法。在科研、实验设计以及质量控制等领域广泛应用。本资料包聚焦于这一主题,通过《第7章 方差分析》的PPT内容,...
8. **方差分析的应用实例**:本章的视频教程可能会通过实际案例,如医学试验、社会科学调查或经济学研究,来演示如何在Stata中执行和解释方差分析结果。 通过学习本章内容,学员将能够熟练掌握Stata软件进行方差...
"统计学第8章时间序列分析与预测" 一、时间序列的描述性分析 时间序列是按照时间顺序排列的一组随机变量。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。时间序列可以分为...
本资料“数学建模-11第十一章 方差分析.zip”可能详细阐述了方差分析的基本概念、计算步骤以及实际应用。 1. **基本概念** - 方差分析基于变异分解的思想,将总变异分为组间变异和组内变异,通过比较两者的比例来...
多因素方差分析是统计学中的一种常用方法,用于研究一个或多个自变量对应变量的影响。通过该方法可以检测多个自变量之间的交互作用对应变量的影响。在本报告中,我们将通过多因素方差分析来研究八种不同的草在三个...
统计学作为一门研究数据的科学,其在多个领域中都扮演着至关重要的角色,无论是在社会科学、自然科学还是商业经济领域,它都提供了理解和分析数据的理论与工具。统计学的核心目的,在于从收集到的数据中提取出有用的...
8. 统计学在实际中的应用: - 如何通过统计学原理分析企业的季度利润变化。 - 统计学在市场分析、质量控制、经济学研究等领域的应用。 9. 统计学原理在教育中的作用: - 通过学习统计学原理,学生可以更好地理解...
时间序列分析是统计学中的一个重要领域,特别是在工商管理和MBA教育中,它被广泛应用于预测、决策和数据分析。本章主要介绍了时间序列分析的基本概念、方法及其在商业实践中的应用。 时间序列是一组按照特定时间...
第八章两个以上总体的中心值的推断 8.1引言和案例 8.2两个以上总体均值的统计检验:方差分析 8.3完全随机化设计中观测值的模型 8.4方差分析条件的检查 8.5其他的分析方法:数据变换 8.6另一种非参数方法:Kruskal...
第八章“时间数列分析”专注于随时间变化的数据序列,涉及趋势分析、季节性分析、周期性分析和随机波动的识别,以及如何通过模型预测未来值。 这些章节构成了一套完整的统计学教学体系,适合大学本科或研究生阶段的...
第8节 析因设计及其资料的统计分析 第9节 含区组因素的析因设计及其资料的统计分析 第10节 正交设计及其资料的统计分析 第4章 误差变动的方差分析设计类型及其定量资料的统计分析 第1节 平衡不...
第8页进一步阐述,方差分析的实质是对样本来源的整体性进行检验,即检验这些样本是否具有显著差异。 方差分析有其基本假定,包括正态性、方差齐性和独立性。在第10至13页中,这些假定可能被详细讨论,包括对数据...
第八章:非参数统计 当数据不符合正态分布时,非参数统计方法更为适用。本章涵盖Mann-Whitney U检验、Kruskal-Wallis H检验和McNemar's检验等。 第九章:多变量分析 包括主成分回归、偏最小二乘回归(PLS)和结构...
7. **第8章 时间序列**:时间序列分析关注数据随时间变化的模式,包括趋势分析、季节性分析和周期性分析,常用于预测和决策。 这些PPT文件通常会包含清晰的图表、实例解析和练习题,便于教师讲解和学生理解。WPS...
第1章 问卷调查的基础知识 1.抽样方法 2.调查方法 3.样本容量的标准 4.随机抽样和定向抽样 5.定量调查和定性调查 6.数据分析的搭配方法 第2章 调查问卷和问题 1.调查问卷的构成 2.问题的分类 3.应当避免的问题 4....
《统计学原理》是一门研究数据收集、分析、解释和呈现的学科,它在社会科学、经济学、医学、商业决策等领域有着广泛的应用。本资源包含了该课程各章节的习题及答案,旨在帮助学习者深入理解和巩固统计学的基本概念、...
第八章的课件详细讲解了这一主题,特别是第四章的内容,涵盖了抽样分布、样本分布和总体分布的区别以及它们之间的关系。 首先,抽样分布是指在多次从同一总体中抽取样本后,样本统计量(如样本均值、样本比例、样本...
7. **第八章 时间数列分析**:研究数据随时间变化的模式,包括趋势分析、季节性分析和周期性分析,对于经济、金融等领域尤为重要。 8. **第九章 统计指数**:统计指数用于衡量现象的变化程度,如消费者价格指数...