`
insertyou
  • 浏览: 890457 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

箱线图在软件管理中的应用

阅读更多

箱线图(Box plot)也称箱须图(Box-whisker Plot),是利用数据中的三个统计量:第一四分位数、中位数、第三四分位数来描述数据的一种方法,它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息。作为一种数据分析的手段,箱线图简单易用,适合于:

(1) 建立过程性能基准

(2) 识别异常点。



在画箱线图时用到的基本概念:

1)四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。

(2) 第一四分位数 (Q1),又称“四分之一位数”或下四分位数,等于该样本中所有数值由小到大排列后第25%的数字。

3第二四分位数 (Q2),又称中位数Median数据排序(从大到小或从小到大)后,位置在最中间的数值。当样本数为奇数时,中位数=(N+1)/2个数据;当样本数为偶数时,中位数为第N/2个数据与第N/2+1个数据的算术平均值 。它是一组数据中间位置上的代表值,不受数据极端值的影响。因此某些数据的变动对它的中位数影响不大。当一组数据中的个别数据变动较大时,可用它来描述其集中趋势。:

4)第三四分位数 (Q3),又称“四分之三位数”或上四分位数,等于该样本中所有数值由小到大排列后第75%的数字。

(5) 四分位数间距IQRinterquartile range),又称内距”,是上四分位数与下四分位数之差,用四分位数间距可反映变异程度的大小。

(6) 内限:Q1-1.5I*QR,Q3+1.5*IQR称为内限。

(7) 异常点(outliers:超出内限的值称为异常点。



画箱线图时,上须线的终点为在min(Q3+1.5*IQR,最大值),下须线的终点为max(Q1-1.5*IQR,最小值)

通过箱线图我们可以不管样本数据的分布类型,基于中位数、内限建立历史数据的性能基线。凡是超出内限的数据则认为是异常点。

EXCEL中有2个函数可以计算四分位数:QUARTILE(array,quart)PERCENTILE(array,k)。
举例如下:
有10个数如下:2,3,5,10,12,13,14,34,34,36。置于单元格A1到A10中。

采用QUARTILE函数分别计算如下:

下四分位数:QUARTILE(A1:A10,1)=6.25

中位数:QUARTILE(A1:A10,2)=12.5

上四分位数:QUARTILE(A1:A10,3)=29

采用PERCENTILE函数分别计算如下:

下四分位数:PERCENTILE (A1:A10,0.25)=6.25

中位数:PERCENTILE (A1:A10,0.5)=12.5

上四分位数:PERCENTILE (A1:A10,0.75)=29

中位数还可以采用median()函数计算之



计算四分位数的方法有多种,在EXCEL中,求四分位数的算法如下:

找到第k小的数值,k=(quart/4)*(n-1))+1 ,quart为0到4之间的一个整数,即第quart四分位数。n位这组数中数值的个数。如果k不是整数,则下取整,并记录截去的小数位f。在数组中找到第k,k+1个整数,按下列公式计算:

Output = a[k]+(f*(a[k+1]-a[k]))

a[k] = 第k小的数值;

a[k+1] = 第k+1小的数值;



对于上面给出的序列,如果求下四分位数,则按上述的算法,计算结果如下:

k=trunk(1/4*(10-1)+1)=3

f=1/4*(10-1)+1-k=0.25

下四分位数=5+(10-5)*f=6.25

注意:在MINITAB中计算四分位数的算法与EXCEL的算法不同,因此结果也是不同的。为简单的目的,我们在实际中可以采用EXCEL的结果。

对于2-3级的企业,采用箱线图建立过程性能基线与采用控制图建立过程性能基线相比,箱线图法不需要判断数据的分布类型,不需要将数据点按时间排序,不需要计算标准差,简单易行,具有很强的实用性。如某企业积累了18个项目的系统测试的缺陷密度,得到如下的数据:

编号
缺陷密度(个/KLOC)
1
1.37
2
1.57
3
0.70
4
0.47
5
0.89
6
0.67
7
0.21
8
0.67
9
0.89
10
0.25
11
0.63
12
0.60
13
0.13
14
0.47
15
2.38
16
0.33
17
1.11
18
0.00


采用箱线图法建立基线,在EXCEL中计算结果如下:

Q1=0.37

Q2=0.65

Q3=0.89

IQR=0.52

于是建立基线如下:

下限:0 (负数无意义,故取值为0)

中值:0.65

上限:1.67

分享到:
评论

相关推荐

    origin绘制箱线图(箱型图)方法汇总

    箱线图,又称箱形图或盒须图,是数据可视化中常用的一种方式,它能清晰地展示一组数据的分布情况,包括中位数、四分位数以及异常值。本教程将详细介绍如何在Origin中绘制箱线图。 首先,我们来理解箱线图的基本构成...

    箱线图_python绘制箱线图_tillcme_

    箱线图,又称盒须图,是统计学中一种用于展示数据分布情况的图形,尤其适合展示一组数据的五数概括(最小值、下四分位数、中位数、上四分位数、最大值)。在Python编程环境中,我们可以借助数据分析库matplotlib轻松...

    基于Matlab的boxplot函数进行结果箱线图可视化.txt

    本资源包含基于Matlab的boxplot函数进行结果箱线图可视化经典例程源码。 包含 实例1:创建一个表示车辆每加仑英里数(MPG)数据的箱线图 实例2:为多个分组数据创建箱线图 实例3:随机生成数据并创建带缺口的箱线图 ...

    GEO基因表达数据箱线图可视化

    箱线图(Boxplot)是一种常见的统计图形,用于展示一组数据的分布情况,尤其适合显示数据的中位数、四分位数以及异常值。本教程将深入探讨如何使用R语言进行GEO基因表达数据的箱线图可视化,帮助你更好地理解和分析...

    数据挖掘-Python-箱线图方法查找出数据表中异常值,并利用拉格朗日插值法和牛顿插值法补充空值(数据表+源码+报告)

    数据挖掘是信息技术领域的一个重要分支,它涉及到从大量数据中发现有价值信息的过程。...通过箱线图和两种插值方法的结合应用,他们能够更好地理解和解释数据,为后续的分析和建模打下坚实的基础。

    MATLAB画箱线图

    用matlab绘制箱线图,程序中给出了实例,可塑性好,可以把自己的数据直接代入

    箱线图EXCEL制作

    箱线图EXCEL制作

    Excel做箱线图[参考].pdf

    在本文中,我们将介绍如何使用 Excel 制作箱线图。 首先,我们需要准备原始数据。假设我们的数据如下: | A | B | C | | --- | --- | --- | | 1 | 15.63 | 17.22 | | 2 | 17.44 | 18.19 | | 3 | 17.83 | 20.71 | |...

    生成基线算法(高斯模型\SPC模型\箱线图模型)

    在基线生成中,箱线图可以用来识别数据的中位数(即基线)、上下四分位数,以及可能存在的异常值。通过分析箱线图,我们可以确定数据的基线范围,并剔除异常值,从而得到更准确的基线估计。在动态阈值处理程序中,...

    案例13_smallestt2g_winesvm_箱线图_分类识别_箱图_

    下面我们将详细阐述 SVM 的概念、箱线图的作用以及它们在多类别分类中的应用。 1. **支持向量机(SVM)**:SVM 是一种监督学习模型,用于分类和回归分析。它的核心思想是找到一个最优超平面,该超平面能够最大程度...

    折线图与箱线图R语言代码.rar_R 图_数据描述性分析;R语言_箱线图_箱线图代码

    本资源包含R语言绘制折线图和箱线图的代码示例,帮助用户理解和应用。 首先,我们来看折线图。折线图通常用于展示连续变量随时间变化的趋势,如股票价格、温度变化等。在R语言中,可以使用`ggplot2`库中的`geom_...

    数据挖掘技术与应用:绘制箱线图.docx

    数据挖掘技术与应用:绘制箱线图 数据挖掘技术是指从大规模数据中自动发现有价值的模式、关系和规律的过程。应用于各种领域,如商业、金融、医疗、教育等。数据挖掘技术可以帮助人们发现隐藏在数据中的价值,从而...

    微生物相对丰度的箱线图、小提琴图-R语言程序(可运行)

    拿到正常样本和患癌样本的微生物丰度数据之后,如何用R语言绘制箱线图做差异分析?...箱线图横轴如何按照中位数排序?本程序根据10种具有显著差异的微生物风度数据绘制了两类样本的箱线图及小提琴图

    qt箱线图案例代码.zip

    为了将箱线图整合到QT应用中,你还需要创建一个窗口类,继承自QWidget,并在其上放置一个QGraphicsView。在窗口类的初始化函数中,设置QGraphicsScene,并将自定义的BoxPlotItem添加到场景中。你可以通过调整...

    qt彩色箱线图案例代码.zip

    本案例中的“qt彩色箱线图案例代码”是利用QT库中的QCustomPlot模块来创建具有颜色区分的箱线图。QCustomPlot是一个自定义的2D图表组件,它提供了丰富的功能,可以用来绘制各种统计图表,包括箱线图。 箱线图...

    基于MATLAB编程的三维箱线图

    在实际应用中,三维箱线图对于数据分析、科学研究和工程项目的可视化都非常有用。例如,在生物医学研究中,它可以用来比较不同组间在多个条件下的实验结果;在机器学习中,可以用于可视化特征的分布,帮助理解模型...

    (完整版)excel做箱线图箱图.doc

    在 Excel 中绘制箱线图需要借助股价图来实现。根据 Excel 绘图时放置数据系列的位置,开盘、盘高、盘底、收盘应分别对应 Q1、Q0、Q2、Q4。Excel 提供了 QUARTILE 函数来计算四分位数,QUARTILE 函数的参数包括 array...

    数据分析,在matlab中使用箱线图命令进行箱线图的绘制

    箱线图的绘制

    利用Python – Matplotlib 绘制箱线图

    以下将详细解释如何利用Python和Matplotlib绘制箱线图,并探讨其背后的统计原理和应用。 首先,箱线图的绘制分为几个关键步骤: 1. **计算上四分位数(Q3)、中位数(Q2)和下四分位数(Q1)**: - 上四分位数是...

    箱线图汇总-多组箱线图的Rdata文件

    多组箱线图的Rdata文件

Global site tag (gtag.js) - Google Analytics