GB/T 6380-1986 数据的统计处理和解释 I 型极值分布样本异常值的判断和处理

GB/T 6380-1986 Statistical interpretation of data—Detection and handling of outlying observations in the sample of type I extreme value distribution

国家标准 中文版 被代替 已被新标准代替,建议下载标准 GB/T 6380-2019 | 页数:8页 | 格式:PDF

基本信息

标准号
GB/T 6380-1986
相关服务
标准类型
国家标准
标准状态
被代替
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
1986-05-13
实施日期
1987-05-01
发布单位/组织
国家标准局
归口单位
-
适用范围
-

研制信息

起草单位:
全国统计方法应用标准化技术委员会数据的处理和解释分委员会工作组
起草人:
马逢时、许其洲、史道济
出版信息:
页数:8页 | 字数:12 千字 | 开本: 大16开

内容描述

中华人民共和国国家标准

数据的统计处理和解释UDC519.25

工型极值分布样本异常值的判断和处理GB6380-86

Statisticalinterpretationofdata一

Detectionandhandlingofoutlying

observationsinthesampleoftypeI

extremevaluedistribution

1引言

1.1本标准规定了判断和处理I型极值分布总体的随机样本中所出现的异常值的一般原则和实施

方法。

工型极值分布也称贡贝尔(Gumbe1)分布,其分布函数为

尸(,x)二exp(一e,)

概率密度函数为

f(x)一会exp一‘、一一““,

其中:4二(x一的/b,b>o,一--x.〔十况。

当a二o,b二I时的概率密度函数曲线如下

If(T)

0.40一———一一一、

2一1012315ti

图I

I型极值分布在水文、气象、地震以及可靠性等很多领域内有着广泛的应用。

1.2异常值(或异常观测值)是指样本中的个别值,其数值明显偏离它(或它们)所属样本的其余

观测值。

异常值可能是总体固有的随机变异性的极端表现。这种异常值和样本中其余观侧值属于同一总体

异常值也可能是由于试验条件和试验方法的偶然偏离所产生的后果,或产生于观测、计算、记录

国家标准局1986~05-13发布1987一05一01实施

GB6380一L

中的失误。这种异常值和样木中其余观测值不属于同总体。

本标准使用的其它统计学名词,见GB3308-82《统计学名词和符号》。

应用条件:当有充分理论根据或经验确信所检验样本中诸观测值,除了个别异常值外,其余

}一:

大部分值—称为样本主休—来自同一个[型极值分布总体。

当样木卜休来自同一个工型极小位分布时,经过变换Z--X后所得的样本主体可以认为是工型

极了4分布。

丁型极小值分布的分布函数为

F(x)=1一exp(一ev)

其概率密度函数为

/(x)二借exp(、一)

其中:刀二(x一a)b,b,o,一二_‘x、、

当。0b1时的概率密度曲线如r

i,(二)

1(钊

认朋

仇a2

认01泣宜二一

一43一2一102X

图2

2判断异常值的统计学原则

2.1执行本标准时,应规定在样本中检出异常值的个数的上限(占样本观测值个数的较小比例),

当超过了这个L限,对此样本的代表性应作慎重的研究和处理。

22判断单个异常值的检验规则

根据实际情(R,选定适宜的异常值检验规则(见本标准4);指定一个为检出异常值的统计检验

的显著性水平a,简称检出水平。

根据a和观测值的个数n确定统计童的临界值。

将各观测值代人检验规则中给出的统计最,所得值若超过临界值,则判断事先确定待检验的最大

观测值为异常值;否则就判断没有异常值。

检出水平宜取为1%或5%。

2.3判断多个异常族的检验规则

在允许检出异常值个数可大于1的情况下,本标准规定的方法是重复使用同一种判断单个异常俏

约检验规则:即用抬定的检出水平和符合2.2规定的检验规则检验全体观测值,若没有检出异常值,则

整个检验停正;若检出了一个异常值,就再用相同的检出水平和相同的规则,对除去F-出的异常Sit

GB8380-86

后余下的观测值继续检验、·…‘,a到没有检出异常值,或检出的异常值个数超过卜限为止。

3处理异常值的一般规则

3.1对用统计方法检出的异常值,应尽可能详找产生异常值的技术上的、物理上的原因,作为处理

异常值的依据。

3.2处理异常值的方式有:

异常值保留在样本中,并参加其后的数据分析;

允许剔除异常值,即把异常值从样木中剔除;

允许剔除异常值,并追加适宜的观测值计人样本;

在找到实际原因时修正异常值。

3.3标准使用者应根据实际问题的性质,权衡详找产生异常值原因的花费,:!确判断异常值的得益

及错误剔除正常观侧值的风险,确定实施下述三个规则中的一个:

a对任何异常值,若无充分说明其异常的技术土的、物理上的原因,则不得剔除或进行修正。

b.异常值中除有充分说明其异常的技术七的、物理上的原因者可以剔除或进行修正外,如果在

统计上表现为高度异常的,也允许剔除或进行修正。

统计上表现为高度异常的意义是:指定一个为检验异常值是否高度异常的统计检验的显著性水中

a*,简称剔除水平,其值小于检出水平a,

实施时,按2.2规定进行检验后,再按2.2规定以剔除水平a*代替检出水平a,对检出的异常值进行检

验,若在剔除水乎a*-F此检验是显著的,则此异常值表现为高度异常。

在重复使用同一检验规则的情况下,每次检出了异常值后都要再检验它在剔除水平下是否高度异

常,若某次检验中检出的异常值为高度异常,则这个异常值及在它前面检出的异常值都可被剔除或进

行修正。

除特殊悄况外,剔除水`t=一般宜取为1%,而不宜取大于5%的值口

在选用剔除水平的情况下,检出水平可取5或再稍大些。

c.检出的异常值都可被剔除或进行修正。

3.4被检出的异常值及剔除,修正的理由应予以记录,以备查询。

4判断和处理异常值的规则

4.1本标准规定:当样本大小5<n手30时,使用狄克逊(Dixon)型检验法;当样本大小30'n},:

50时,使用欧文(Iresin)型检验法。

4.2狄克逊型检验法—样本大小5<n<30情形

4.2.1检脸步骤

a.从样本观测了邝{挑“选出最小观测值X},最大观测值Xc}},次大观测值X。,以及第

大观测值X(。:,计算统计量

X(。)一X(。一1〕

-

X

犷m二5成n喊30

1

佃}一X、

D~一了

|

ee

X。)一X。一:〕

rZ09<n<30

定制服务