GB/T 4882-2001 数据的统计处理和解释 正态性检验

GB/T 4882-2001 Statistical interpretation of data—Normality tests

国家标准 中文简体 现行 页数:33页 | 格式:PDF

基本信息

标准号
GB/T 4882-2001
相关服务
标准类型
国家标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2001-03-05
实施日期
2001-09-01
发布单位/组织
国家质量技术监督局
归口单位
全国统计方法应用标准化技术委员会
适用范围
-

发布历史

研制信息

起草单位:
华东师范大学、中国标准研究中心、北京大学
起草人:
梁小筠、孙山泽、茆诗松、刘文
出版信息:
页数:33页 | 字数:64 千字 | 开本: 大16开

内容描述

tcs03.120.30

A41

G8

中华人民共和国国家标准

cs/T4882-2001

idtISO5479:1997

数据的统计处理和解释

正态性检验

Statisticalinterpretationofdata-

Normalitytests

2001一03一05发布2001一09一01实施

国家)贡董技术业督局发布

GB/T4882-2001

目次

前言···················································································································……

ISO前言········································································································……N

ISO引言·······················································“·.,···········································……N

1范围···········································································································……1

2引用标准········································································································……1

3定义与符号······。·····。·················································································.,····……1

4总则·············,······························································································……3

5图方法································································································。······……3

6有方向检验·····································································································……9

7利用b和b。的联合检验(多方向检验)···················································..·..·..·..·..……12

8无方向检验············································································。········。·············……12

9使用几组独立样本的联合检验···········································································……17

10统计用表······。·····。·······················································································……19

附录A(提示的附录)空白的正态概率纸·······························································……28

附录B(提示的附录)参考文献···················································.·..········.·..·..·..·..·……28

GB/T4882-2001

前言

本标准等同采用国际标准ISO5479:1997数《据的统计处理和解释偏离正态分布的检验》。本标

准代替国家标准GB/T4882-1985。本标准与GB/T4882-1985相比,在检验方法方面的不同之处有:

对图方法作了一些改进;

增加了利用几组独立样本的联合检验,它实际上是一种修改的夏皮洛一威尔克(Shapiro-Wilk)检

验;

删去了无方向检验中的D检验方法,代之以爱泼斯一普利(Epps-Pulley)检验方法。

本标准的附录A,附录B为提示的附录。

本标准于1985年1月29日首次发布。

本标准由全国统计方法应用标准化技术委员会提出并归口。

本标准由华东师范大学、中国标准研究中心、北京大学等单位起草。

本标准主要起草人:梁小摘、孙山泽、茹诗松、刘文。

GB/T4882-2001

ISO前言

ISO(国际标准化组织)是由各国标准化团体((ISO成员团体)组成的世界性的联合会。制定国际标

准的工作,通常由ISO的技术委员会完成,各成员团体若对某技术委员会的工作感兴趣,均有权参加该

委员会。与ISO保持联系的各国际组织(官方的或非官方的)也可以参加有关工作。在电工技术标准化

方面,ISO与国际电工委员会((IEC)保持密切合作关系。

由技术委员会采纳的国际标准草案提交各成员团体投票表决,需取得至少75写参加表决的成员团

体的同意才能作为国际标准正式发布。

国际标准ISO5479是由ISO/TC69/SC6统计方法应用技术委员会测试方法与结果分委员会制订

的。

本国际标准的附录A、附录B仅供参考。

ISO引言

国际标准中推荐的许多统计方法。如ISO2854中描述的那些方法.有一个基本的假定:在这些方法

中涉及的随机变量具有独立的正态分布,分布的一个或两个参数可以是未知的。

这就引出了一个问题,为了能可靠地应用那些国际标准提供的方法,由样本代表的分布是否充分接

近正态分布?

在任何情况下,这个问题都不能简单地用“是”或“否”来回答。因此,发展了大量的“正态性检验”方

法,这些方法中的每一个方法对所考虑的分布的某一特征(如偏度、峰度)或多或少是灵敏的。

一般,使用的检验是对应于某种预先确定的风险设计的,此风险即如果正态性是真时被拒绝(第一

类错误)。另一方面,当假设不真时,除非备择假设被明确地给定,原假设未被拒绝(第二类错误)的概率

是不能确定的。然而明确给定备择假设通常是不可能的。因此,需要计算结果。对某一特殊的检验,如

果样本量较小,这个风险会特别大。

中华人民共和国国家标准

数据的统计处理和解释GB/T4882-2001

正态性检验idtISO5479:1997

代替GB/T4882-1985

Statisticalinterpretationofdata-

Normalitytests

范围

1.1本标准在假定观测值相互独立时,对决定分布是否为正态的假设应否被拒绝的方法和检验,给出

了一个导引。

1.2当对观测值是否服从正态分布存在疑问时.使用偏离正态分布的检验是有用的,甚至是必须的。利

用1检验检查一个随机观测样本的均值是否偏离给定的理论值,就是这种情况的一个例子。然而,在稳

健方法(即观测值的真实的概率分布不是正态时,结论仅有轻微的变化)的情况下,偏离正态分布的检验

并不是非常必要的。

1.3涉及基于正态性假设的统计方法时,也并非严格地必须使用这样一个检验。观测值的正态分布可

能是完全没有疑问的,可以是理论的(如物理的)原因构成了这个假设,也可以是根据先验信息接受了这

个假设。

1.4本标准中偏离正态分布的检验是针对非分组的原始数据,而不是分组数据。检验也不适用于截尾

数据。

1.5本标准中偏离正态分布的检验可以应用于观测值,也可以应用于它们的函数,如取对数、平方根

等。

1.6当样本容量小于8时,偏离正态分布的检验效果是非常差的。因此,本标准限制样本量至少为8,

2引用标准

下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时,所示版本均

为有效。所有标准都会被修订,使用本标准的各方应探讨使用下列标准最新版本的可能性。

GB/T3358.1-1993统计学术语第一部分一般统计术语

3定义与符号

定义

在GB/T3358.1中的定义适用于本标准。

符号

夏皮洛一威尔克检验的系数

A爱泼斯一普利检验的辅助量

b,(即国际标准中的b2)样本峰度

卿国际标准中的石)样本偏度

国家质f技术监督局2001一03一05批准2001一09一01实施

1

Gs/T4882一2001

B爱泼斯一普利检验的辅助量

E期望

q

利用几组独立样本的联合检验的辅助量

"利用几组独立样本的联合检验的样本组数

从零假设

私备择假设

k在按非降次序排列的样本内,观察值z的个数

礼样本i阶中心矩

n样本量

P与分布的户分位数相联系的概率

尸概率

P与Xu,相联系的概率

S夏皮洛一威尔克检验的辅助量

T检验统计量

踢爱泼斯一普利检验的检验统计量

脚标准正态分布的户分位数

利用几组独立样本的联合检验的辅助量

W夏皮洛一威尔克检验的检验统计量

叭利用几组独立样本的联合检验的辅助量

XX的值

X随机变量

2u>在按非降次序排列的样本中,样本的第1个值

在按非降次序排列的样本中,样本的第k个值

2Tk()算术平均

a显著性水平(犯第一类错误的概率)

R犯第二类错误的概率

YA(即国际标准中的R=)总体的峰度

凡一3总体的峰度相对于正态分布而言的超出量

况(即国际标准中的而)总体的偏度

y利用几组独立样本的联合检验的辅助量

y(利用几组独立样本的联合检验的系数

于利用几组独立样本的联合检验的辅助量

氏利用几组独立样本的联合检验的系数

‘利用几组独立样本的联合检验的辅助量

利用几组独立样本的联合检验的系数

En(l总体的期望

产,总体的方差

产J禹总体的3阶中心矩

产.呀总体的4阶中心矩

口总体的标准差(一汽)

GB/T4882一2001

4总则

4.1检验偏离正态分布有多种方法。在本标准中有图方法、矩检验、回归检验和特征函数检验。丫拟合

优度检验仅适用于分组数据,由于分组会损失信息,本标准不考虑这种检验。

4.2如果没有关于样本的附加信息可以利用,则建议先做一张正态概率图。也就是在正态概率纸上画

出观察值的累积分布函数,正态概率纸上的坐标轴系统使正态分布的累积分布函数呈一条直线。

在第5章中描述了这一方法。它让人们立即看到观测的分布是否接近正态分布。有了这种进一步

的信息,可决定是进行一个有方向检验,还是进行回归检验或特征函数检验,或者不再检验。另外,这样

的图示虽然不能作为一个严格的检验,但它提供的直观的信息,对于任何一种偏离正态分布的检验都是

一种必要的补充。在拒绝零假设的情形,按这些信息的意义,常常可以看出恰当的备择假设的类型。

4.3一个偏离正态分布的检验是对如下的零假设所作的检验:组成样本的,个独立观测值来自同一正

态分布。检验包含计算一个称为检验统计量的观测值的函数T,正态分布零假设拒绝与否,取决于T的

值是否落在与正态分布对应的期望值附近的一个集合中。

4.4检验的拒绝域是导致拒绝零假设的T值的一个集合。检验的显著性水平是一个概率,它是当零假

设正确时,T值落人拒绝域的概率。这个水平给出了错误地拒绝零假设(犯第一类错误)的概率。

拒绝域的边界(在双侧检验时,拒绝域的两侧边界)是检验统计量的临界值。

4.5检验的功效是当零假设不真时,拒绝零假设的概率。功效高意味着错误地不拒绝零假设(犯第二类

错误)的概率低。

应该强调,检验的功效(即正态分布零假设是错误时,零假设被拒绝的概率)会随观测数的增多而增

大。例如,当使用某一个偏离正态分布的检验时,在大的样本下,检验出与正态分布有偏离是容易的,而

同一检验在较少的观测值下可能检验不出偏离。

4.6偏离正态分布的检验根据备择假设的不同可分为两种。当在备择假设中指定对正态分布偏离的形

式时,检验称为有方向检验。当在备择假设中未指定对正态分布偏离的形式时,检验称为无方向检验。

在有方向的检验中,确定拒绝域应使检验的功效尽可能地大。在无方向的检验中,拒绝域包含检验

统计量远离其在零假设下希望的值的那些值。

如果关于偏离正态分布的形式的假设已有设定,例如与正态分布具有不同的偏度或峰度,应该使用

有方向检验,因为这样的检验的功效一般比无方向检验高。

4.7注意:有方向检验基本上是单侧的。例如,在偏度的情形,它或是正偏或是负偏。然而,当几个备择

假设联合考虑时,检验是多方向的,当非零偏度和不同于正态分布的峰度一起考虑时,就是这种情况。

4.8表s至表14及图9允许检验在最常用的a水平,即a=0.05和a=o.01下执行。显著性水平必须

在执行检验前给定。注意检验可能产生这样的结果,在0.05水平下拒绝零假设.而在。.01水平下不拒

绝这同一个零假设。

4-9在计算检验统计量时,必须至少保持6位有效数字。部分和、中间结果和辅助量的归整不应少于6

位有效数字。

5图方法

5.1在正态概率纸上画出观测值的累积分布函数。这种概率纸,一个坐标轴(在本标准中为纵轴)的刻

度是非线性的,它是按标准正态分布函数的值刻画的,对具体数据则标出其累积相对频率的值。另一个

坐标轴刻度是线性的.顺序标出x的值。正态变量x的观测值的累积分布函数应近似一条直线。

有时这两个坐标轴被相互对调。另外.如果对变量x作了一个变换,线性刻度可以变成对数、平方、

倒数或其他刻度。

图1给出了一张正态概率纸。在纵轴上累积相对频率的值是百分数,而横轴是线性刻度。

附录A提供了一张空白的正态概率纸。

Gs/'r4882一2001

如果在正态概率纸上所绘的点散布在一条直线附近,则它对样本来自正态分布提供了一个粗略的

支持。而当点的散布对直线出现系统偏差时,这个图可提示一种可供考虑的分布类型。

这种方法的重要性在于它容易提供对正态分布偏离的类型的视觉信息。

如果图形显示数据是来自某种形状的分布(如图5或图6中所显示的累积分布函数图),数据的某

种变换可能导致正态分布。

如果图形显示数据不是来自一个简单的单一分布,而是来自两个或多个单一子总体的混合(如图7

显示的累积分布函数图),则建议先识别这些子总体,再分别分析每一个子总体。

必须注意,这样一张图从严格意义上来说并不是一个检验偏离正态分布的方法。在小样本场合,表

示的曲线可能呈现为正态分布,但是,在大样本场合,一些不显眼的曲线也可能是非正态分布的显示。

99.99

撼价出汁廿州州州洲洲十廿川洲村1村什川洲州洲州州牛什州州寸什十什州刊开

努万9999_..99

峨羹

99

99

97.5

95

4890鬃戳

80

李丰t七台出目二谧出台目二匕出出目留怡台出目二怡台台

60

60

40

03

61

01

5

1

众5

住0自

众,上

0月5

0月,1

图1有注释的正态概率纸

5.2图方法首先把观测值按非降次序排列成(_<>>:X(z,…二n(〕),然后在正态概率纸上对应zu)画出

P,=(k一3/8)/(n+1/4)···························……(1)

注1:等式(1)也可以用下面两个式子代替:

P,=(k一1/2)/n

P,=k/(n+)1

它们是对正态分布函数F在次序统计量的期望E(X-)处的值F(E(X,))的较差的近似,所以不推荐使用。

5.3在图2中给出了如何使用正态概率纸的一个例子。

GB/T4882一2001

︵杖

0

︺1

3

0

州!

TZ叫

「尸邢仟日羽姗朋月二曰洲+洲洲份用和于朋邢翩姗用积洲H川洲用干日肝朋川十汁酬钊十卜

l哥

酬拜甲姗雁珊用朋〕姗姗姗用用翩汗孚珊印孵年阵绷川三l

O徽

珊辜葬非料珊撇绷撇撇蒸撇纂珊蘸撇工

酬羹龚撇鞋翼撇珊撇撇娜姗幕翠BEE娜淮日

Z

黝巨篆撇鞋珊姗珊撇姗绷撇幕珊撇渊}阵

巍曦蓬I涯篡撇I撇撇纂撇羹羹撇瞧

日日研耳卜叶{州附R下干H升针洲洲份用姗翻服姗册挪肛q

刁孤耳1羽于服田三下日羽开姗出班翻〕开田孤翻姗翻撇赚珊撇

珊拜照姗孵珊渊渊燃姗姗翻姗研阵珊珊}拜渊琳书

二日开开只开姗朋干用报姗日姗翻研脚用朋姗翻!洲洲拼用千月丹1们姗1十1召姗附书

耳孤拜日刊川附用「干月和干秘姗翻「开用朋洲班耳用】州洲附用千月研姗柑日一{州翻件卜

珊拜fff姗孵珊m姗姗姗燃渊姗珊雁珊翻服汗用姗眯

酬且麟姗肛燃朋摊哪姗姗姗}翩用雁珊朋睡}斟拱t

二日祖任日开姗邢耳:州洲针1附姗州悦i拼份用研研翻召洲洲拼1开下刁开洲柑汗片珊份什卜

盛田皿任}王王姗翻刁丢丹皿洲4叫用任于翻邢翻卫班用和洲洲州十1拜干共研洲州月十任别份上

酬拜照姗孵黝翻燃绷撒:撇渊照用拜瞬珊熙)汗月}燃

酬拜照姗孵姗翻翻辱珊姗姗

EM拜绷麟二裤撇撇麟麟撇:擎撇霎羹撇蘸

溉瞬邪姗艇熙翻阴俘潮姗撇卿姗翩干雁珊姗年pl川体

Gs/T4882一2001

表1给出了按非降次序列出的15个独立的旋转弯曲疲劳试验的结果值zape

表115个旋转弯曲疲劳试验的结果值su)和相应的Ig(1Ox,E,)

k尸一kn-+31//48X任)Ig(10"'u)

10.0410.2000.301

20.1070.3300.519

30.1720.4450.648

40.2380.4900.690

50.3030.7800.892

60.3690.9200.964

70.4340.9500.978

80.5000.9700.987

90.5661.0401.017

100.6311.7101.233

110.6972.2201.346

120.7622.2751.357

130.8283.6501.562

140.8937.0001.845

150.9598.8001.944

注2:在表1及以后的例子中均省略跳侧值的单位,因为它们与这个标准中的检验方法无关。

第k个最小的xu〕和相联系的概率P。二((k-3/8)/(二+1/4)一起构成一系列点,它们画在图2a)上。

从这个图立即可以看出这些点不呈一直线。然而,如果用9l(lOxu))代替Xk(),在新的图(图26))上标出

这一系列点,这时可以接受这些点接近一条直线的看法。

所以观测值的对数值来自正态分布的假设似乎是适当的。

5.4应该注意极端的观测值比中段的观测值有较大的离差.加之,累积相对频率的标度尺往极端的方

向会变宽。所以,当累积分布的两端有个别值明显偏离由中段值确定的直线时,不能就认为这是偏离正

态分布的标志。

样本量愈大,从图形获得的结论就愈可靠。

如果在观测值的累积分布函数的图形中,较大的值显著地落在由其他值确定的直线的下方,作.v=

lgx或v=/,万等变换会使图更符合一直线参〔看图2b)和图5],

在图3至图7中,上方图形所显示的累积分布函数,是与下方图形显示的密度函数相对应的。

如果观测值的累积分布函数的图如图3或图4,对应的密度函数分别是峰度不足的(低峰态的)或

峰度过度的(高峰态的)。

如果观测值的累积分布函数的图如图5或图6,对应的密度函数分别是正偏的或负偏的。

图7显示了两个不同密度函数叠加的累积分布函数和密度函数。

Gs/T4882一2001

口98,

璐‘璐.

场肠

灰盆

母班

礴咬48/杯城

/

/

/

副益

图3具有低峰度的密度函数图4具有高峰度的密度函数

GB/T4882一2001

奋味98撼价朋

巨肠

贫翻

恶释

形舰礴创

峨咬

益益

图5具有正偏度的密度函数图s具有负偏度的密度函数

Gs/'e4882一2001

粉.

.

图7两个不同的密度函数的叠加

6有方向检验

6.1总则

6.1.,这里考虑的有方向检验仅分别涉及观测值分布的偏度或峰度两个特征。这些检验基子下列事

实:均值为li=E(X)的正态随机变量X的三阶中心矩为

93=E(X一K)3=0”·····················……(2)

标准化的三阶中心矩为

。_。「了X一W飞_f13_产3_八

a.=El}竺二)}=共共二=号=0,’.·,·价··“····”·”一(3)

‘、口IJMl"a

标准化的四阶中心矩为

风-一一-一

·”二,·······……(4)

这里

p:二E[(X一p)3]

U,4二E仁(X一P)`]:::

R.是总体的偏度,可以大于、等于或小于。。

NA是总体的峰度,它的值总是正的。

热-3是总体的峰度相对于正态分布而言的超出量。

注3:不等式风)形+1总是成立.

6.1.2在偏度检验中,备择假设有下列两种:

正偏度(参看图s)

Gs/T4882一2001

Hj:pa>。或等价地几>。

或负偏度(参看图6)

H,:723<0或等价地尽<0

总之,一个具有正偏度的分布在变量的高值处比低值处有较大的偏离中心趋势,负偏度则相反。

6.1.3在峰度检验中,备择假设有下列两种:

峰度过度(高峰密度函数),(参看图4)

H,风>3

或峰度不足(低峰密度函数),(参看图3)

H,风<3

与正态分布相比,峰度过度的分布的变量,其取值更多集中在平均值附近和两侧极端处,峰度不足

的情形则相反。

6.1.4仅当有关于真实分布与正态分布可能差别的方式的特定信息时,使用有方向检验才是正当的。

这样的信息可能来自数据的物理特征或者可能影响数据产生过程的各类干扰。例如,变量是非负的,其

均值与标准差相比更接近于零,可能是有正偏度的一种物理原因。类似地,数据产生过程中受到干扰,使

它与相同均值不同方差的正态分布混合时,则会得到一个R2>3的非正态分布。

6.1.5在任何情形,有方向检验的选择应该基于对观测值的特征或产生它们的过程的一般考虑,而不

是基于观测值分布的特殊形式。对后一种情形,只有无方向检验的结果才能被认为是客观的。

6.1.6如果用xx2,二,x。表示一列观测值,则

x一.1Ex.(7)

(8)

m;一告艺x(一‘x),其中i一2,3,4

偏度和峰度检验统计量分别为

导(9)

b,=m,“”‘“二’‘·······..·……(10)

M2-

6.2使用b,的偏度有方向检验

该检验适用于n)b。然而,由于实际的原因,表8限制为。<5000,

如果备择假设是正偏度,仅当m3>0时福要执行检验;反之,如果备择假设是负偏度,仅当二3<0

时需要执行检验。

在上述两种偏斜的情形,如果统计量lb,I超过它的P分位数,则在显著性水平a下拒绝零假设,这

里p=1一a.

表8对a=0.05和a=0.01列出了检验统计量队}的P分位数,p=1-a。其中样本量n=8(1)10,

12,15(5)50(10)100(25)200(50)1000(200)2000(500)5000.

例1

表2木材片的高度

GB/T4882一2001

使用b,的偏度有方向检验的一个例子如下:表2给出了50个木材片高度的独立测量值,这些木材

片是准备用作电报极的,木材片的高度基本上是接近于零的非负值,由于这一特征,可以假定为正偏度,

因此,有必要执行适当的有方向检验。备择假设为

H:凡>0

从表2列出的观测值,计算下列值:

王二(1.25+1.35+…+5.10)/50二2.873

m2=[(1.25一2.873)'+(1.35一2.873)2+…+(5.10一2.873)2]/50=0.937921

二:=[(1.25一2.873)2+(1.35一2.873)2+…+(5.10一2.873)2]/50=0.254559

因此

=0.2

定制服务