GB/T 6380-2019 数据的统计处理和解释 Ⅰ型极值分布样本离群值的判断和处理

GB/T 6380-2019 Statistical interpretation of data—Detection and treatment of outliers in the sample from typeⅠextreme value distribution

国家标准 中文简体 现行 页数:14页 | 格式:PDF

基本信息

标准号
GB/T 6380-2019
相关服务
标准类型
国家标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2019-12-10
实施日期
2020-07-01
发布单位/组织
国家市场监督管理总局、国家标准化管理委员会
归口单位
全国统计方法应用标准化技术委员会(SAC/TC 21)
适用范围
本标准规定了判断和处理Ⅰ型极值分布的样本中的上侧离群值和Ⅰ型极小值分布的样本中的下侧离群值的一般原则和实施方法。
本标准适用于来自Ⅰ型极值分布或Ⅰ型极小值分布总体的样本,以及样本量为5~50的情形。

研制信息

起草单位:
天津大学、北京理工大学珠海学院、宁波工程学院
起草人:
马逢时、许其州、史道济、荆广珠
出版信息:
页数:14页 | 字数:24 千字 | 开本: 大16开

内容描述

ICS03.120.30

A41

中华人民共和国国家标准

/—

GBT63802019

代替/—

GBT63802008

数据的统计处理和解释

Ⅰ型极值分布样本离群值的判断和处理

StatisticalinterretationofdataDetectionandtreatmentofoutliersinthesamle

pp

fromteⅠextremevaluedistribution

yp

2019-12-10发布2020-07-01实施

国家市场监督管理总局

发布

国家标准化管理委员会

/—

GBT63802019

目次

前言…………………………Ⅰ

引言…………………………Ⅱ

1范围………………………1

2规范性引用文件…………………………1

、…………………………

3术语定义和符号1

3.1术语和定义…………………………1

3.2符号…………………3

4离群值判断………………3

4.1离群值的来源与判定………………3

4.2检出离群值个数的上限……………3

4.3单个离群值情形……………………3

4.4多个离群值情形……………………4

5离群值处理………………4

5.1处理方式……………4

5.2处理规则……………4

5.3备案…………………4

6单个离群值的判断规则…………………4

6.1检验方法的选择……………………4

狄克逊()检验法………………

6.2Dixon4

欧文()检验法…………………

6.3Irwin6

7多个离群值的判断规则…………………7

7.1检验步骤……………7

7.2多个离群值检验示例………………7

()…………

附录规范性附录狄克逊检验的临界值表

A8

()……………

附录规范性附录欧文检验的临界值表

B9

参考文献……………………10

/—

GBT63802019

前言

本标准按照/—给出的规则起草。

GBT1.12009

本标准代替/—《数据的统计处理和解释型极值分布样本异常值的判断和处

GBT63802008Ⅰ

》,/—,:

理与GBT63802008相比主要技术内容变化如下

———(,);

修改了术语型极值分布见年版的

Ⅰ3.1.120083.1.1

———(,);

修改了术语型极小值分布见年版的

Ⅰ3.1.220083.1.2

———(,);

修改了术语离群值见3.1.32008年版的3.1.3

———();

增加了次序统计量的定义及说明见3.1.8

———(,);

修改了离群值的处理规则见5.22008年版的5.2

———()

增加了威布尔分布型极小值分布取对数后转化为型极小值分布的说明及离群值计算示

ⅢⅠ

();

例见6.2.3

———:()。

增加了参考文献ISO16269-42010见参考文献

本标准由全国统计方法应用标准化技术委员会(/)提出并归口。

SACTC21

:、、。

本标准起草单位天津大学北京理工大学珠海学院宁波工程学院

:、、、。

本标准主要起草人马逢时许其州史道济荆广珠

本标准所代替标准的历次版本发布情况为:

———/—、/—。

GBT63801986GBT63802008

/—

GBT63802019

引言

、,、

从事科学研究工农业制造以及管理工作都离不开数据而对这些数据的整理分析和解释都离不

。、。

开统计方法统计学是研究数字资料的整理分析和正确解释的一门学科人们各自从不同的来源取

,,,

得各种数字资料这些数字资料通常都是杂乱无章的经过整理和简缩才能利用使用完善的统计方法

、,,,

就可使数据整理排列得有条有理用图形或少量的几个重要参数就可将大量数据的特征表达出来这

,,。

样既可避免不正确的解释又可将获得满意数据的成本降到最低限度提高了经济效益

,。

根据收集到的样本观测值可以大体上确认样本来自为某种分布这时发现样本中的一个或几个

,,。,

观测值它们离开其他观测值较远暗示它们可能来自不同的总体是否为实际的离群值需要统计检

。,

验在离群值的检验中特别要注意数据来自哪一种基本分布假定来自型极值分布与假定来自正态

,。

分布在检验时是非常不同的对分布的错误假定会导致观测值被错误地归类为离群值

《》:

国家标准数据的统计处理和解释包含以下各项

———统计容忍区间的确定(/);

GBT3359

———均值的估计和置信区间(/);

GBT3360

———在成对观测值情形下两个均值的比较(/);

GBT3361

———二项分布参数的估计与检验(/);

GBT4088

———泊松分布参数的估计与检验(/);

GBT4089

———正态性检验(/);

GBT4882

———正态样本离群值的判断和处理(/);

GBT4883

———正态分布均值和方差的估计与检验(/);

GBT4889

———正态分布均值和方差检验的功效(/);

GBT4890

———型极值分布样本离群值的判断和处理(/);

ⅠGBT6380

———()(/);

分布皮尔逊型分布的参数估计

ГⅢGBT8055

———指数样本离群值的判断和处理(/)。

GBT8056

/—

GBT63802019

数据的统计处理和解释

Ⅰ型极值分布样本离群值的判断和处理

1范围

本标准规定了判断和处理型极值分布的样本中的上侧离群值和型极小值分布的样本中的下侧

ⅠⅠ

离群值的一般原则和实施方法。

,。

本标准适用于来自型极值分布或型极小值分布总体的样本以及样本量为的情形

ⅠⅠ5~50

:,,

注由于经过变换后型极小值分布的随机变量将服从型极值分布所以只对型极值分布给出检

1Y=-XⅠⅠⅠ

出上侧离群值的方法。

:(),

注由于型极小值分布威布尔分布经过对数变换后将服从型极小值分布所以本标准实际上对

2ⅢZ=lnXⅠⅢ

()。

型极小值分布威布尔分布给出检出下侧离群值的方法

:、、、。

注3Ⅰ型极值分布在水文气象地震可靠性以及金融等很多领域有着广泛的应用

2规范性引用文件

。,

下列文件对于本文件的应用是必不可少的凡是注日期的引用文件仅注日期的版本适用于本文

。,()。

件凡是不注日期的引用文件其最新版本包括所有的修改单适用于本文件

/:

统计学词汇及符号第部分一般统计术语与用于概率的术语

GBT3358.11

/:

统计学词汇及符号第部分应用统计

GBT3358.22

3术语定义和符号

3.1术语和定义

/和/界定的以及下列术语和定义适用于本文件。

GBT3358.1GBT3358.2

3.1.1

Ⅰ型极值分布teIextremevaluedistribution

yp

具有下述分布函数

()/

xab

()(--)

Fxexe

=p-

,,,。

的连续型分布其中b>0-∞<a<∞-∞<x<∞

:,,。

注当时型极值分布的概率密度函数曲线图见图

1a=0b=1Ⅰ1

图概率密度函数曲线图

1

1

/—

GBT63802019

:,。

注型极值分布是指型极大值分布也称为分布

2ⅠⅠGumbel

3.1.2

Ⅰ型极小值分布teIminimumvaluedistribution

yp

具有下述分布函数

()/

xab

()(--)

Fx1exe

=-p-

,,,。

的连续型分布其中b>0-∞<a<∞-∞<x<∞

:,,。

注当时型极小值分布的概率密度函数曲线图见图

1a=0b=1Ⅰ2

图概率密度函数曲线图

2

注:型极小值分布可转化为型极值分布。

2ⅠⅠ

3.1.3

离群值outlier

,,。

样本中的一个或几个观测值它们离开其他观测值较远暗示它们可能来自不同的总体

:,,。

注是否为实际的离群值需要统计检验统计检验显著的离群值按显著性程度分为歧离值和统计离群值

1

:/—,。

注改写定义

2GBT6379.120043.21

3.1.4

歧离值straler

gg

,。

在检出水平下显著但在剔除水平下不显著的离群值

3.1.5

统计离群值statisticaloutlier

在剔除水平下统计检验显著的离群值。

3.1.6

检出水平detectionlevel

为检出离群值而指定的统计检验的显著性水平。

:,。

注除非根据本标准达成协议的各方另有约定检出水平应为0.05

3.1.7

剔除水平deletionlevel

为检出统计离群值而指定的统计检验的显著性水平。

:。,。

注剔除水平的值应不超过检出水平的值除非根据本标准达成协议的各方另有约定剔除水平应为0.01

3.1.8

次序统计量orderstatistics

按随机变量非降次序排列的统计量。

:,,…,,:

注设随机变量的观测值为这些样本按非降次序排列为

1xxx

12n

x()…x()…x(),

1≤≤k≤≤n

。。

称()是第个次序统计量的观测值它的直观含义如图所示

xkk3

2

/—

GBT63802019

:/—,。

注改写定义

2GBT3358.120091.9

注:()是样本中的最小值,()是样本中的最大值。

x1xn

图次序统计量图

3

3.2符号

下列符号适用于本文件。

:。

Dn狄克逊统计量

():,。

检出水平为时用统计量作检验时的临界值

DnαD

1-αn

:。

I欧文统计量

n

():,。

检出水平为时用统计量作检验时的临界值

InαI

1-αn

:。

n样本量

:。

()观测值自小到大排序后的第个值

xii

:。

α检出水平

*:(*)。

α剔除水平α<α

定制服务

    推荐标准