GB/T 6380-2019 数据的统计处理和解释 Ⅰ型极值分布样本离群值的判断和处理
GB/T 6380-2019 Statistical interpretation of data—Detection and treatment of outliers in the sample from typeⅠextreme value distribution
基本信息
本标准适用于来自Ⅰ型极值分布或Ⅰ型极小值分布总体的样本,以及样本量为5~50的情形。
发布历史
-
1986年05月
-
2008年07月
-
2019年12月
研制信息
- 起草单位:
- 天津大学、北京理工大学珠海学院、宁波工程学院
- 起草人:
- 马逢时、许其州、史道济、荆广珠
- 出版信息:
- 页数:14页 | 字数:24 千字 | 开本: 大16开
内容描述
ICS03.120.30
A41
中华人民共和国国家标准
/—
GBT63802019
代替/—
GBT63802008
数据的统计处理和解释
Ⅰ型极值分布样本离群值的判断和处理
—
StatisticalinterretationofdataDetectionandtreatmentofoutliersinthesamle
pp
fromteⅠextremevaluedistribution
yp
2019-12-10发布2020-07-01实施
国家市场监督管理总局
发布
国家标准化管理委员会
/—
GBT63802019
目次
前言…………………………Ⅰ
引言…………………………Ⅱ
1范围………………………1
2规范性引用文件…………………………1
、…………………………
3术语定义和符号1
3.1术语和定义…………………………1
3.2符号…………………3
4离群值判断………………3
4.1离群值的来源与判定………………3
4.2检出离群值个数的上限……………3
4.3单个离群值情形……………………3
4.4多个离群值情形……………………4
5离群值处理………………4
5.1处理方式……………4
5.2处理规则……………4
5.3备案…………………4
6单个离群值的判断规则…………………4
6.1检验方法的选择……………………4
狄克逊()检验法………………
6.2Dixon4
欧文()检验法…………………
6.3Irwin6
7多个离群值的判断规则…………………7
7.1检验步骤……………7
7.2多个离群值检验示例………………7
()…………
附录规范性附录狄克逊检验的临界值表
A8
()……………
附录规范性附录欧文检验的临界值表
B9
参考文献……………………10
/—
GBT63802019
前言
本标准按照/—给出的规则起草。
GBT1.12009
本标准代替/—《数据的统计处理和解释型极值分布样本异常值的判断和处
GBT63802008Ⅰ
》,/—,:
理与GBT63802008相比主要技术内容变化如下
———(,);
修改了术语型极值分布见年版的
Ⅰ3.1.120083.1.1
———(,);
修改了术语型极小值分布见年版的
Ⅰ3.1.220083.1.2
———(,);
修改了术语离群值见3.1.32008年版的3.1.3
———();
增加了次序统计量的定义及说明见3.1.8
———(,);
修改了离群值的处理规则见5.22008年版的5.2
———()
增加了威布尔分布型极小值分布取对数后转化为型极小值分布的说明及离群值计算示
ⅢⅠ
();
例见6.2.3
———:()。
增加了参考文献ISO16269-42010见参考文献
本标准由全国统计方法应用标准化技术委员会(/)提出并归口。
SACTC21
:、、。
本标准起草单位天津大学北京理工大学珠海学院宁波工程学院
:、、、。
本标准主要起草人马逢时许其州史道济荆广珠
本标准所代替标准的历次版本发布情况为:
———/—、/—。
GBT63801986GBT63802008
Ⅰ
/—
GBT63802019
引言
、,、
从事科学研究工农业制造以及管理工作都离不开数据而对这些数据的整理分析和解释都离不
。、。
开统计方法统计学是研究数字资料的整理分析和正确解释的一门学科人们各自从不同的来源取
,,,
得各种数字资料这些数字资料通常都是杂乱无章的经过整理和简缩才能利用使用完善的统计方法
、,,,
就可使数据整理排列得有条有理用图形或少量的几个重要参数就可将大量数据的特征表达出来这
,,。
样既可避免不正确的解释又可将获得满意数据的成本降到最低限度提高了经济效益
,。
根据收集到的样本观测值可以大体上确认样本来自为某种分布这时发现样本中的一个或几个
,,。,
观测值它们离开其他观测值较远暗示它们可能来自不同的总体是否为实际的离群值需要统计检
。,
验在离群值的检验中特别要注意数据来自哪一种基本分布假定来自型极值分布与假定来自正态
Ⅰ
,。
分布在检验时是非常不同的对分布的错误假定会导致观测值被错误地归类为离群值
《》:
国家标准数据的统计处理和解释包含以下各项
———统计容忍区间的确定(/);
GBT3359
———均值的估计和置信区间(/);
GBT3360
———在成对观测值情形下两个均值的比较(/);
GBT3361
———二项分布参数的估计与检验(/);
GBT4088
———泊松分布参数的估计与检验(/);
GBT4089
———正态性检验(/);
GBT4882
———正态样本离群值的判断和处理(/);
GBT4883
———正态分布均值和方差的估计与检验(/);
GBT4889
———正态分布均值和方差检验的功效(/);
GBT4890
———型极值分布样本离群值的判断和处理(/);
ⅠGBT6380
———()(/);
分布皮尔逊型分布的参数估计
ГⅢGBT8055
———指数样本离群值的判断和处理(/)。
GBT8056
Ⅱ
/—
GBT63802019
数据的统计处理和解释
Ⅰ型极值分布样本离群值的判断和处理
1范围
本标准规定了判断和处理型极值分布的样本中的上侧离群值和型极小值分布的样本中的下侧
ⅠⅠ
离群值的一般原则和实施方法。
,。
本标准适用于来自型极值分布或型极小值分布总体的样本以及样本量为的情形
ⅠⅠ5~50
:,,
注由于经过变换后型极小值分布的随机变量将服从型极值分布所以只对型极值分布给出检
1Y=-XⅠⅠⅠ
出上侧离群值的方法。
:(),
注由于型极小值分布威布尔分布经过对数变换后将服从型极小值分布所以本标准实际上对
2ⅢZ=lnXⅠⅢ
()。
型极小值分布威布尔分布给出检出下侧离群值的方法
:、、、。
注3Ⅰ型极值分布在水文气象地震可靠性以及金融等很多领域有着广泛的应用
2规范性引用文件
。,
下列文件对于本文件的应用是必不可少的凡是注日期的引用文件仅注日期的版本适用于本文
。,()。
件凡是不注日期的引用文件其最新版本包括所有的修改单适用于本文件
/:
统计学词汇及符号第部分一般统计术语与用于概率的术语
GBT3358.11
/:
统计学词汇及符号第部分应用统计
GBT3358.22
、
3术语定义和符号
3.1术语和定义
/和/界定的以及下列术语和定义适用于本文件。
GBT3358.1GBT3358.2
3.1.1
Ⅰ型极值分布teIextremevaluedistribution
yp
具有下述分布函数
()/
xab
()(--)
Fxexe
=p-
,,,。
的连续型分布其中b>0-∞<a<∞-∞<x<∞
:,,。
注当时型极值分布的概率密度函数曲线图见图
1a=0b=1Ⅰ1
图概率密度函数曲线图
1
1
/—
GBT63802019
:,。
注型极值分布是指型极大值分布也称为分布
2ⅠⅠGumbel
3.1.2
Ⅰ型极小值分布teIminimumvaluedistribution
yp
具有下述分布函数
()/
xab
()(--)
Fx1exe
=-p-
,,,。
的连续型分布其中b>0-∞<a<∞-∞<x<∞
:,,。
注当时型极小值分布的概率密度函数曲线图见图
1a=0b=1Ⅰ2
图概率密度函数曲线图
2
注:型极小值分布可转化为型极值分布。
2ⅠⅠ
3.1.3
离群值outlier
,,。
样本中的一个或几个观测值它们离开其他观测值较远暗示它们可能来自不同的总体
:,,。
注是否为实际的离群值需要统计检验统计检验显著的离群值按显著性程度分为歧离值和统计离群值
1
:/—,。
注改写定义
2GBT6379.120043.21
3.1.4
歧离值straler
gg
,。
在检出水平下显著但在剔除水平下不显著的离群值
3.1.5
统计离群值statisticaloutlier
在剔除水平下统计检验显著的离群值。
3.1.6
检出水平detectionlevel
为检出离群值而指定的统计检验的显著性水平。
:,。
注除非根据本标准达成协议的各方另有约定检出水平应为0.05
3.1.7
剔除水平deletionlevel
为检出统计离群值而指定的统计检验的显著性水平。
:。,。
注剔除水平的值应不超过检出水平的值除非根据本标准达成协议的各方另有约定剔除水平应为0.01
3.1.8
次序统计量orderstatistics
按随机变量非降次序排列的统计量。
:,,…,,:
注设随机变量的观测值为这些样本按非降次序排列为
1xxx
12n
x()…x()…x(),
1≤≤k≤≤n
。。
称()是第个次序统计量的观测值它的直观含义如图所示
xkk3
2
/—
GBT63802019
:/—,。
注改写定义
2GBT3358.120091.9
注:()是样本中的最小值,()是样本中的最大值。
x1xn
图次序统计量图
3
3.2符号
下列符号适用于本文件。
:。
Dn狄克逊统计量
():,。
检出水平为时用统计量作检验时的临界值
DnαD
1-αn
:。
I欧文统计量
n
():,。
检出水平为时用统计量作检验时的临界值
InαI
1-αn
:。
n样本量
:。
()观测值自小到大排序后的第个值
xii
:。
α检出水平
*:(*)。
α剔除水平α<α
定制服务
推荐标准
- GB/T 34794-2017 琼脂糖凝胶回收试剂盒测定通则 2017-11-01
- GB/T 34795-2017 谷氨酰胺转胺酶活性检测方法 2017-11-01
- GB/T 34799-2017 几丁质酶活性检测方法 2017-11-01
- GB/T 34789-2017 人参优质种植技术规范 2017-11-01
- GB/T 34797-2017 核酸引物探针质量技术要求 2017-11-01
- GB/T 34793-2017 蛋白酶K 2017-11-01
- GB/T 34790-2017 粮油检验 粮食籽粒水分活度的测定 仪器法 2017-11-01
- GB/T 34791-2017 实验动物 质量控制要求 2017-11-01
- GB/T 34788-2017 粮油机械 大米抛光机 2017-11-01
- GB/T 34798-2017 核酸数据库序列格式规范 2017-11-01