GB/T 8056-2008 数据的统计处理和解释 指数分布样本离群值的判断和处理

GB/T 8056-2008 Statistical interpretation of data—Detection and treatment of outliers in the sample from exponential distribution

国家标准 中文简体 现行 页数:19页 | 格式:PDF

基本信息

标准号
GB/T 8056-2008
相关服务
标准类型
国家标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2008-07-16
实施日期
2009-01-01
发布单位/组织
中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会
归口单位
全国统计方法应用标准化技术委员会
适用范围
本标准规定了判断和处理来自指数分布的样本中离群值的一般原则和实施步骤。 本标准适用于来自指数总体的样本。

研制信息

起草单位:
宁波工程学院、中国标准化研究院、北京大学、上海师范大学、福州春伦茶业有限公司
起草人:
荆广珠、丁文兴、于振凡、梁方楚、孙山泽、费鹤良、傅天龙
出版信息:
页数:19页 | 字数:35 千字 | 开本: 大16开

内容描述

ICS03.120.30

A41

中华人民共和国国家标准

GB/T8056—2008

代替GB/T8056—1987

数据的统计处理和解释

指数分布样本离群值的判断和处理

Statisticalinterpretationofdata—Detectionandtreatmentofoutliers

inthesamplefromexponentialdistribution

2008-07-16发布2009-01-01实施

发布

GB/T8056—2008

目次

前言I

引言n

1范围1

2规范性引用文件1

3术语、定义和符号1

3.1术语和定义1

3.2符号和缩略语2

4离群值判2

4.1离群值的来源与判定2

4.2离群值的三种情形2

4.3检出离群值个数的上限2

4.4单个离群值情形2

4.5多个离群值情形3

5离群值处理3

5.1处理方式3

5.2处理规则3

5.3备案3

6单个离群值的判断规则3

6.1检验统计量的选择3

6.2上侧情形的检验规则3

6.3下侧情形的检验规则4

6.4双侧情形的检验规则5

7多个离群值的判断规则6

7.1检验步骤6

7.2多个离群值检验示例7

8定数截尾样本离群值的判断规则7

&1定数截尾样本7

&2离群值的检验规则7

&3定数截尾样本离群值检验示例8

附录A(规范性附录)临界值表9

参考文献15

GB/T8056—2008

-1.Z-—1—

刖弓

本标准代替GB/T8056—1987《数据的统计处理和解释指数样本异常值的判断和处理》。本标

准与GB/T8056-1987相比较,技术内容的变化主要包括:

——增加了术语、定义和符号;

——将“指数样本异常值的判断和处理”改为“指数样本离群值的判断和处理”;

—将术语“检出异常值”和“高度异常值”分别改为“歧离值”和“统计离群值”,并进一步明确了二

者的含义及相互差异;

——增加了检出水平和剔除水平的定义;

-检出水平由原标准中“检出水平一般取为1%,5%或10%”改为“除非根据本标准达成协议的

各方另有约定,检出水平应为0.05”;

-明确规定剔除水平的值除非根据本标准达成协议的各方另有约定,剔除水平应为0.01;

——增加了各种情形“统计离群值”的检验步骤;

—将“没有异常值”和“没有高度异常的异常值”分别改为“未发现离群值”和“未发现统计离群

值”;

——增加了双侧离群值检验、多个离群值检验、定数截尾样本离群值检验的示例。

本标准的附录A是规范性附录。

本标准由全国统计方法应用标准化技术委员会提出并归口。

本标准起草单位:宁波工程学院、中国标准化研究院、北京大学、上海师范大学、福州春伦茶业有限

公司。

本标准主要起草人:荆广珠、丁文兴、于振凡、梁方楚、孙山泽、费鹤良、傅天龙。

本标准所代替标准的历次版本发布情况为:

——GB/T8056—1987O

T

GB/T8056—2008

引言

从事科学研究、工农业制造以及管理工作都离不开数据,而对这些数据的整理、分析和解释都离不

开统计方法。统计学是研究数字资料的整理、分析和正确解释的一门学科。人们各自从不同的来源取

得各种数字资料,这些数字资料通常都是杂乱无章的,必须经过整理和简缩才能利用,使用完善的统计

方法就可使数据整理、排列的有条有理,用图形或少量的几个重要参数,就可将大量数据的特征表达出

来,这样既可避免不正确的解释,又可将获得满意数据的成本降到最低限度,提高了经济效益。

《数据的统计处理和解释》含有多项国家标准,它们是:

——统计容忍区间的确定(GB/T3359)

——均值的估计和置信区间(GB/T3360)

——在成对观测值情形下两个均值的比较(GB/T3361)

——二项分布参数的估计与检验(GB/T4088)

——泊松分布参数的估计与检验(GB/T4089)

——正态性检验(GB/T4882)

——正态样本离群值的判断和处理(GB/T4883)

——正态分布均值和方差的估计与检验(GB/T4889)

——正态分布均值和方差检验的功效(GB/T4890)

——I型极值分布样本离群值的判断和处理(GB/T6380)

——伽玛分布(皮尔逊IH型分布)的参数估计(GB/T8055)

——指数分布样本离群值的判断和处理(GB/T8056)

本标准尚无相应的国际标准。

D

GB/T8056—2008

数据的统计处理和解释

指数分布样本离群值的判断和处理

1范围

本标准规定了判断和处理来自指数分布的样本中离群值的一般原则和实施步骤。

本标准适用于来自指数总体的样本。

2规范性引用文件

下列文件中的条款通过本标准引用成为本标准的条款。凡是注日期的引用文件,其随后所有的修

改单(不包括勘误的内容)或修订版本均不适于本标准。然而,鼓励根据本标准达成协议的各方研究是

否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。

GB/T4086.4统计分布数值表F分布分位数表

ISO3534-1统计学词汇及符号第1部分:一般统计术语与用于概率的术语

ISO3534-2统计学词汇及符号第2部分:应用统计

3术语、定义和符号

ISO3534-1.ISO3534-2确立的术语、定义和符号以及下列术语、定义和符号适用于本标准。为便

于参考,某些术语直接引自上述标准。

3.1术语和定义

3.1.1

指数分布exponentialdistribution

具有下述分布函数的连续型分布,

…广宀>°

lo,<o

其中B>0。

3.1.2

离群值outlier

样本中的一个或几个观测值,它们离开其他观测值较远,暗示它们可能来自不同的总体。

注:离群值按显著性的程度分为歧离值和统计离群值。

3.1.3

统计离群值statisticaloutlier

在剔除水平(3.1.6)下统计检验为显著的离群值。

3.1.4

歧离值straggler

在检出水平(3.1.5)下统计检验为显著,但在剔除水平(3.1.6)下不显著的离群值。

3.1.5

检出水平detectionlevel

为检出离群值而指定的统计检验的显著性水平。

注:除非根据本标准达成协议的各方另有约定,检出水平应为0.05。

1

GB/T8056—2008

3.1.6

剔除水平deletionlevel

为检出离群值是否高度离群而指定的统计检验的显著性水平。

注:剔除水平的值应不超过检出水平的值。除非根据本标准达成协议的各方另有约定,剔除水平应为0.01。

3.1.7

p分位数pquantile

使得分布函数F(_z)的值不小于/>(0</><1)的x的最小值。

3.2符号和缩略语

fl样本量(观测值个数)

X样本均值

a检验离群值所使用的显著性水平,简称检出水平

a*检验统计离群值所使用的显著性水平,简称剔除水平(/<a)

S观测值自小到大排序后的第7个值

E”,”样本量">100吋,检验最大的观测值工⑺是否为离群值时所用的统计量

E”,i样本量">100吋,检验最小的观测值⑴是否为离群值时所用的统计量

E”,”定数截尾样本中,判断工⑴是否为离群值时所用的统计量

Fp(3,s)自由度为3和©2的F分布的p分位数

T,“”样本量"W100吋,检验最大的观测值工⑺是否为离群值时所用的统计量

J样本量"£100吋,检验最小的观测值工⑴是否为离群值时所用的统计量

TI-ain,ll)检出水平为«吋,用统计量T,”作检验时的临界值

Ta(n,l)检出水平为a吋,用统计量几,】作检验时的临界值

4离群值判

4.1离群值的来源与判定

4.1.1来源

离群值按产生原因分为两类:第一类离群值是总体固有变异性的极端表现,这类离群值与样本中其

余观测值属于同一总体;第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于

观测、记录、计算中的失误,这类离群值与样本中其余观测值不属于同一总体。

4.1.2判定

对离群值的判定通常可根据技术上或物理上的理由直接进行,例如当试验者已经知道试验偏离规

定的试验方法,或测试仪器发生问题等。当上述理由不明确时,可用本标准规定的方法。

4.2离群值的三种情形

本标准在下述不同情形下判断样本中的离群值:

a)上侧情形:根据实际情况或以往经验,离群值都为高端值;

b)下侧情形:根据实际情况或以往经验,离群值都为低端值;

c)双侧情形:根据实际情况或以往经验,离群值可为高端值,也可为低端值。

注:1)上侧情形和下侧情形统称单侧情形;

2)若无法认定单侧情形,按双侧情形处理。

4.3检出离群值个数的上限

应规定在样本中检出离群值个数的上限(与样本量相比应较小),当检出离群值个数达到了这个上

限吋,对此样本应作慎重的研究和处理。

4.4单个离群值情形

检验规则如下:

2

GB/T8056—2008

a)原假设为所有观测值来自同一总体,依实际情况或以往经验选定4.2中的一种情形作为备择

假设,根据统计学原理选用判断离群值的统计量(见6.1、&2);

b)确定适当的显著性水平;

c)根据显著性水平及样本量,确定检验的临界值;

d)由观测值计算相应统计量的值,根据所得值与临界值的比较结果作出判。

4.5多个离群值情形

在允许检出离群值的个数大于1的情况下,重复使用4.4规定的检验规则进行检验,并按下述规则

决定检验停止的时机:

a)若没有检出离群值,则整个检验停止。

b)若检出离群值,当检出的离群值总数达到上限(4.3)时,检验停止;否则,采用相同的检出水平

和相同的规则,对除去已检出的离群值后余下的观测值继续检验。

5离群值处理

5.1处理方式

处理离群值的方式有:

a)保留离群值并用于后续数据处理;

b)在找到实际原因时修正离群值,否则予以保留;

c)剔除离群值,不追加观测值;

d)剔除离群值,并追加新的观测值或用适宜的插补值代替。

5.2处理规则

对检出的离群值,应尽可能寻找其技术上和物理上的原因,作为处理离群值的依据。应根据实际问

题的性质,权衡寻找和判定产生离群值的原因所需代价、正确判定离群值的得益及错误剔除正常观测值

的风险,以确定实施下述三个规则之一:

a)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,不得剔除或修正;

b)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,保留歧离值,剔除或修

正统计离群值。在重复使用同一检验规则检验多个离群值的情形,每次检出离群值后,都要再

检验它是否为统计离群值。若某次检出的离群值为统计离群值,则此离群值及在它前面检出

的离群值(含歧离值)都应被剔除或修正。

c)检出的离群值(含歧离值)都应被剔除或修正。

5.3备案

被剔除或修正的观测值及其理由应予记录,以备查询。

6单个离群值的判断规则

6.1检验统计暈的选择

当样本量»<100吋,使用统计量(或T”,i)进行检验;当样本量">100时,使用统计量E”,”(或

E”,i)进行检验。

6.2上侧情形的检验规则

6.2.1样本量"£100时的检验

当样本量/<100吋,实施步骤如下:

a)计算统计量丁”,”的值:

i=1

3

GB/T8056—2008

b)确定检出水平a,在附录A的表A.1中查出临界值Tir(",");

c)当T”,”>T—吋,判定工⑴为离群值,否则判未发现不”〉是离群值;

d)对于检出的离群值工⑺,确定剔除水平a*,在表A.1中查出临界值(”,”)。当T„,„

吋,判定工⑺为统计离群值,否则判未发现不”〉是统计离群值(即工⑺为歧离值)。

6.2.2样本量”>100时的检验

当样本量">100吋,实施步骤如下:

a)计算统计量E”,”的值:

F(72-1)[工(”〉—工〈”-1>](°)

另力—[広⑴—工(”-1)]

亍一1

b)确定检出水平a,在F分布的分位数表(见GB/T4086.4)中查出尺,(2,2“一2);

c)当E”,”〉F—(2,2〃一2)吋,判定为离群值,否则判未发现儿"是离群值;

d)对于检出的离群值工⑴,确定剔除水平/,在F分布的分位数表(见GB/T4086.4)中查出

F--Z(2,2“一2)。当(2,2“一2)时,判定为统计离群值,否则判未发现不”〉是

统计离群值(即为歧离值)。

6.2.3上侧情形的检验示例

从某种电子产品中随机地取出15个样品,在一定条件下进行寿命试验,其失效时间分别为(单位:

kh):

0.21500.38931.48491.03490.2984

0.60045.10200.13811.23492.3182

0.48930.86820.72540.06671.8182

经验表明这种电子产品的寿命T服从指数分布,并且此处使用者关心的是数据中是否存在上侧离群

值,据此,可釆用6.2.1中的检验方法。

15

本例中,样本量"=15,心=5.1020,S.r,=16.78,按式(1)计算得

7=1

5.1020

「5,15=0.3040

16.78

确定检出水平a=0.05,在表A.1中查出临界值95(15,15)=0.3346,因为T15>15<T0.95(15,15),故

判未发现工⑴>=5.1020是离群值。

6.3下侧情形的检验规则

6.3.1样本量n<100时的检验

当样本量/<100吋,实施步骤如下:

a)计算统计量T”,i的值:

T,,,,=<3)

=1

b)确定检出水平a,在表A.2中查出临界值T”(",l);

c)当时,判定工⑴为离群值,否则判未发现工⑴是离群值;

d)对于检出的离群值X⑴,确定剔除水平/,在表A.2中查出临界值(“,1)。当TH>1<Ta«

(”,1)吋,判定工⑴为统计离群值,否则判未发现工⑴是统计离群值(即."⑴为歧离值)。

6.3.2样本量">100时的检验

当样本量">100吋,实施步骤如下:

a)计算统计量E”,i的值:

4

GB/T8056—2008

E,“=(4)

另工,—血•⑴

=1

b)确定检出水平a,在F分布的分位数表中,查出F。(2,2”一2);

c)当E„,1<Fa(2,2«-2)时,判定工⑴为离群值,否则判未发现工⑴是离群值;

d)对于检出的离群值⑴,确定剔除水平/,在F分布的分位数表(见GB/T4086.4)中查出

F”*(2,2“一2)。当(2,2“一2)时,判定工⑴为统计离群值,否则判未发现工⑴是统计

离群值(即工⑴为歧离值)。

6.3.3下侧情形的检验示例

随机抽取某厂生产的多功能继电器110个样品,从剔除了早期故障后直到发生元器件或材料的老

化变质之前的随机失效阶段,在使用过程中记录寿命失效吋间,得到的记录数据为(单位:kh):

0.11481.56232.40806.01821.81870.00120.01470.61942.89212.64924.1904

0.54594.48760.24020.83661.58412.90270.19121.78990.12190.09600.7725

20.86190.27211.42014.90120.97041.91325.89514.65141.89120.88690.9305

3.26741.26847.02564.09371.79810.39940.67024.02221.90810.98906.4549

0.54052.56975.36651.7916&65209.25701.67972.05730.08910.82779.5092

2.19331.14052.88663.65330.45969.50020.98060.70054.24540.18191.0030

0.700910.89520.46504.13432.32874.56430.28073.94494.0847&13814.8294

4.30946.93856.21180.29510.72773.968310.67401.62530.77690.07491.0115

0.19410.756711.31443.60470.28325.18880.35813.34380.20323.27813.2448

3.23226.83602.83781.14650.75551.14572.57611.73830.54471.31973.4139

大量统计资料表明这种多功能继电器在此类试验阶段的寿命T服从指数分布,并且此处使用者关

心的是数据中是否存在下侧离群值,据此,可采用6.3.2中的检验方法。

110

本例中,样本量"=100,工⑴=0.0012,另工,=319.9297,按式(4)计算得

—11OJT(1)

/=1

确定检出水平a=05,在F分布的分位数表(见GB/T4086.4)中查出Fn,,5(2,218)=0.05o因为

Elln>1<Fn.o5(2,218),故判定工⑴=0.0012为离群值。

对于检出的离群值0012,确定剔除水平/=0.01,在F分布的分位数表(见GB/T4086.4)中

查出Fn,,,(2,218)=0.011o因为E11OU>FO.O1(2,218),故判未发现工⑴=0.0012是统计离群值(即工⑴=

0.0012为歧离值)。

6.4双侧情形的检验规则

6.4.1样本量"£100时的检验

当样本量”£100吋,实施步骤如下:

a)计算

M=exp(—工⑴/工)+exp(—不”〉/x)(5)

b)若M<1,按式(1)计算统计量T”.”的值,并确定检出水平a,在表A.1中查出临界值厂_川(",

")。当T,”〉Tf吋,判定%'为离群值,否则判未发现工⑴是离群值;

C)对于检出的离群值工⑴,确定剔除水平/,在表A.1中查出临界值T—5(",")。当T”,”>

吋,判定不”〉为统计离群值,否则判未发现不”〉是统计离群值(即二”〉为歧离值);

d)若M>1,按式(3)计算统计量的值,并确定检出水平a,在表A.2中查出临界值Ta/2Cn,

l)o当时,判定工⑴为离群值,否则判未发现工⑴是离群值;

5

GB/T8056—2008

e)对于检出的离群值久⑴,确定剔除水平/,在表A.2中查出临界值7>心”「。当(

5,1)吋,判定工⑴为统计离群值,否则判未发现工⑴是统计离群值(即工⑴为歧离值),

6.4.2样本量">100时的检验

当样本量”>100吋,实施步骤如下:

a)按式(5)计算M;

b)若M<1,按式(2)计算统计量E”,”的值,并确定检出水平a,在F分布的分位数表(见

GB/T4086.4)中查出F—八(2,2“一2)。当E”,”>F—/2(2,2”一2)吋,判定了⑺为离群值,否

则判未发现工⑴是离群值;

c)对于检出的离群值“”〉,确定剔除水平在F分布的分位数表(见GB/T4086.4)中查出

F—j(2,2“一2)。当E”,”>F—j(2,2"—2)吋,判定口”〉为统计离群值,否则判未发现兀〉

是统计离群值(即X”)为歧离值);

d)若M>1,按式(4)计算统计量E”」的值,并确定检出水平a,在F分布的分位数表(见

GB/T4086.4)中查出F化(2,2“一2)。当E/M<Fa,2(2,2n~2)时,判定工⑴为离群值,否则判

未发现工⑴是离群值;

e)对于检出的离群值.丫⑴,确定剔除水平/,在F分布的分位数表(见GB/T4086.4)中查出

F宀2(2,2“一2)。当E”,d(2,2“一2)时,判定工⑴为统计离群值,否则判未发现工⑴是统

计离群值(即工⑴为歧离值)。

6.4.3双侧情形的检验示例

随机抽取某厂生产太阳能光伏组件接线盒20个样品,对其外部绝缘材料进行750C灼热丝试验,

当样品出现裂痕、龟裂或者其他质量瑕疵吋判定该接线盒的外部绝缘材料寿命失效°得到寿命失效吋

间数据为(单位:h):

1.36940.56301.83720.52031.10530.41760.14660.56630.01970.2334

1.88006.60200.18271.65100.44790.40200.25870.96810.81740.7276

实际经验表明此类环境试验中接线盒的外部绝缘材料寿命T服从指数分布,试验的结果涉及到产品是

否通过阻燃性能检测和外部绝缘材料的阻燃极限寿命,使用者同时关注数据中是否存在上侧、下侧离群

值。据此,可采用6.4.1中的检验方法。

20

本例中,样本量"=20,工⑴=0.0197,工⑶>=6.6020,丫工,=20.7161,7=1.0358,首先按式(5)

计算:1

M=exp(—⑴/工)+exp(—不“>/工)=0.9829

因为M=0.9829<1,按式(1)计算:

攵(20)6.6020

T2C.2C==0.3187

20.7161

定制服务