1、非参数统计参考书非参数统计 中国统计出版社 吴喜之非参数统计 人民大学出版社 王 星非参数统计讲义 北京大学出版社 孙山泽 非参数统计狭义非参数统计非参数计量经济学非参数模型半参数模型估计总体的分布函数是否等于已知的分布 检验两或以上个总体的分布是否相同,通常是检验其中位数是否相等 估计总体的密度函数的曲线,但是不能写出解释式第一章 非参数统计及一些概念 教学中使用的软件SPSS和R。 SPSS的非参数统计菜单已经比较全面了。SPSS非参数检验的过程非参数检验的过程1. Chi-Square test 卡方检验(检验总体是否服从某个给定的离散分布)2. Binomial test 二项分布检验
2、(检验总体是否服从二项分布)3. Runs test 游程检验(检验样本序列是否随机)4. 1-Sample Kolmogorov-Smirnov test 一个样本柯尔莫哥洛夫-斯米诺夫检验(检验总体是否服从某个连续分布)5. 2 independent Samples Test 两个独立样本检验(检验两个独立总体差异性)6. K independent Samples Test K个独立样本检验(检验k个独立总体的差异性)7. 2 related Samples Test 两个相关样本检验(检验两个相关总体差异性)8 . K related Samples Test K个相关样本检验(检验
3、k个相关总体差异性) 思考的要点 什么是计数统计量; 什么是秩统计量,为什么要讨论秩; 为什么要讨论秩的分布、秩的期望和方差; 什么是符号秩和线性符号秩; 线性符号秩的期望和方差。第一节第一节 关于非参数统计关于非参数统计 在参数统计学中,最基本的概念是总体、样本、随机变量、概率分布、估计和假设检验等。其很大一部分内容是建立在正态分布相关的理论基础之上的。总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数的值。于是,人们的任务就是对一些参数,比如均值和方差(或标准差),进行点估计或区间估计,或者是对某些参数值进行各种检验,比如检验正态分布的均值是否相等或等于零等等最常见
4、的检验为对正态总体的t检验、F检验和最大似然比检验等。又比如,线性回归分析中,需要估计回归系数j, j称为参数,所以线性回归分析应该属于参数统计的范畴。 然而,在实际生活中,那种对总体分布的假定并不是能随便做出的。有时,数据并不是来自所假定分布的总体。或者数据根本不是来自一个总体,数据因为种种原因被严重污染。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。因为非参数统计方法不利用关于总体分布的相关信息,所以,就是在对于总体分布的任何信息都没有的情况下,它也能很容易而又较为可靠地获得
5、结论。这时非参数方法往往优于参数方法。在台湾这种方法称为“无母数统计”,即不知到总体信息的统计方法。 在不知总体分布的情况下如何利用数据所包含的信息呢?一组数据最基本的信息就是次序。如果可以把数据按大小次序排队,每一个具体数目都有它在整个数据中(从最小的数起)的位置或次序,称为该数据的秩秩(rank)(rank)。数据有多少个观察值,就有多少个秩。在一定的假定下,这些秩和秩的统计量的分布是求得出来的,而且和原来的总体分布无关。这样就可以进行所需要的统计推断。注意:非参数统计的名字中的“非参数(nonparametric)”意味着其方法不涉及描述总体分布的有关数值参数(均值和方差等);它被称为和
6、分布无关(distributionfree),是因为其推断方法和总体分布无关;不应理解为与所有分布(例如有关秩的分布)无关。 【例1】在我国的工业和商业企业中随机抽取22家企业进行资产负债率行业差异分析,其某年底的资产负债率()如下:工工业业646476765555828259598282707075756161646473738383商商业业7777808080806565939391918484919184848686 两个行业的负债水平是否有显著性差异a=0.05。这样的数据中有两个问题: 其一是样本容量不大; 其二是总体服从何种分布未知。下面我们来构造一种检验的方法,看他们的资产负债有
7、无显著性差异。 将两类企业的资产负债混合排序,并给出其序次,这在统计中称为“秩”。在这张表中我们有两个可用的信息。负债率5559616464657073757677秩1234567891011组别11111211112负债率8080828283848486919193秩1213141516171819202122组别22111222222如果我们将12家工业企业的秩相加是94,其平均秩是7.88,将10家商业企业的秩相加得159,其平均秩为15.9,这就给我们一个可以考虑的信息,两种企业的资产负债是有差异的。他们的平均秩不同。 另一个想法是好像工业排的顺序相对靠前,有11111,2,1111,
8、222,111,222222共有6段(相同特点的个案的一段称为游程)。如果原假设成立,则两个行业的负债水平的分布使相同的,将其混合后,应能较为充分、均匀地混合,游程数R应该比较大,反之当游程数R较小,则说明两个总体的分布可能不同。那么6这个游程数是大还是小呢? 【例2】模拟一个污染的正态分布,计算其样本均值,但是样本均值非正态分布了。这个分布是以0.8的概率是标准正态分布,0.2的概率混进方差为9的正态分布。workfile a u 1 1000 series junzhifor !i=1 to 1000smpl 1 20 series y1=rnd series y2=nrnd series
9、 a smpl if y1=0.8 a=9*y2 smpl 1 20 scalar mean=mean(a)junzhi(!i)=mean next smpl 1 1000 junzhi.hist 020406080100120-3-2-10123Series: JUNZHISample 1 1000Observations 1000Mean 0.011014Median 0.034733Maximum 3.263554Minimum -3.207570Std. Dev. 0.928736Skewness -0.043640Kurtosis 3.458105Jarque-Bera 9.0615
10、68Probability 0.010772此数据的正态性检验是非正态。非参数统计归纳起来有如下的三点优点:非参数统计归纳起来有如下的三点优点: 1. 对总体的假定少; 2. 可以处理许多有问题数据,比如污染的正态分布,有奇异值的情形; 3. 容易计算,当然如果不去证明统计量渐近分布。第二节 计数统计量计数统计量 设是一个随机变量,对于一个给定的常数0,定义随机变量0(0)X10( )00ttt称随机变量为X按0分段的计数统计量。即满足括号里的条件得1,否则得0。 一、计数统计量计数统计量 最常用的计数统计量为 1niiB 符号检验符号检验。设随机变量X1,Xn是从某个总体X中抽出的简单随机样
11、本。且分布函数F(X)在X=0是连续的。假设检验问题,即检验0是其中位数。0:(0HF1)21:(0HF1)2检验的统计量可以取 011(0)nniiiiBx 二、计数统计量的应用 在原假设为真的条件下,有服从参数为n和的二项分布b(n,0.5)。由于原假设为时,B应该不太大,也不太小,如果B太大或太小,应该拒绝原假设。 例 生产过程是否需要调整。某企业生产一种钢管,规定长度的中位数是l0米。现随机地:从正在生产的生产线上选取10根进行测量,结果: 9.8,10.1, 9.7,9.9,9.8,10.0, 9.7,10.0,9.9,9.8分析:中位数是这个问题中所关心的一个位置参数。若产品长度真
12、正的中位数大于或小于10米,则生产过程需要调整。这是一个双侧检验,应建立假设 为了对假设作出判定,先要得到检验统计量 或 。将调查得到数据分别与10比较,算出各个符号的数目: =1, =7,n=8。 P值= 0.0214小于显著性水平0.05。表明调查数据支持备择假设。即生产过程需要调整。10:10:10MHMHSSSS2 (1)2 0.0107P S 有人说我国国有经济单位15个行业的1996年职工平均工资的中位数为7000元。现从15个行业中抽出样本,如下表所示。 40384940579861616344661066956709-6769699278977987854686798701-+
13、 在显著性水平a=0.05下,我国国有经济单位15个行业的1996年职工平均工资的中位数为7000元吗?5S 因为 , ,故接受原假设。 05. 01508. 0)5(SP7000:;7000:10MHMH 某自选商场的失窃金额在12个月的逐月记录(单位:万元)。经理向董事会说月中位数为10万元以上。在显著性水平0.05下,检验是否失窃值在10 万元以下。3.6710.56102320.8611.3314.37-+12.6911.968.1616.5211.5813.50+-+2S00:MMH01:MMH003174. 0)2(Sp接受原假设,即平均为10万元以上.第二节第二节 秩统计量秩统计
14、量 设 来自总体X的样本,记 为样本点 的秩,即iRiX1(0)niijjRXX1(0)0ijijijXXXXXX Ri为大于等于 的 的个数。iXjX一、秩统计量一、秩统计量 1,nXXX Xi i5.65.61.41.42.72.75.25.22.62.64.84.82.32.3X X(i)(i)1.41.42.32.32.62.62.72.74.84.85.25.25.65.6R Ri i1 12 23 34 45 56 67 7331()njjRXX1(2.7)4njjX二、秩统计量的分布和数字特征二、秩统计量的分布和数字特征 的联合分布为:nRRR,21!1),(21niiipnR
15、的概率分布为 iR), 4 , 3 , 2 , 1(1)(nrnrRpi Ri的数学期望:ninREi, 2 , 121)(11()niiE Rin11niin1 (1)122n nnn Ri的方差:ninnRVari, 2 , 112) 1)(1()(22()()()iiiVar RE RE R221112ninin21(1)(21)162n nnnn(1)(1)12nnRi和和Rj的协方差的协方差由于 211110222nniijnnniij211()2nini所以 21111222nnijinnniji (,)ijCov R R111(1)22nijnnijn n2111(1)2nini
16、n n 1(1)(1)1(1)1212nnnn 一、绝对秩和符号秩 设随机变量X1,X2,Xn 相互独立同分布,分布函数 F(x)连续,关于y轴为对称。随机变量|X1|,|X2|,|Xn|对应的秩向量记为1,nRRiR称为Xi的绝对秩 iiR称为Xi的符号绝对秩 第四节第四节 线性符号秩统计量线性符号秩统计量000iiiiiXRRX 若X是连续的随机变量,分布关于Y轴为对称,则随机变量|X|与计数统计量(x)相互独立。 事实上,对于t0,i=1或i=0,显然有( (),|)pXi Xt( () (|)( () 00pXi pXtpXi 对于t0,有( ()1,|)(0,|)pXXtp XXt(
17、0)pXt 因为,x关于0为对称,则(0)pXt原式11(0)(0)22pXtptX 根据随机变量独立的充分必要条件,可知二者是独立的,同理可证1()2p Xt( ()1) ()pXp Xt( ()1) ()pXp Xt( ()0,|)pXXt 在结论下,我们有如下结论。 设随机变量X1,X2,Xn 相互独立同分布,分布函数 F(x)连续,关于y轴为对称。其绝对秩向量 1,nRR计数统计量 1,n二者相互独立。 二、符号秩统计量扩展 若随机变量X1,X2,Xn相互独立且同连续的分布,分布关于轴为对称。其对应的符号秩 1122,nnRRRWilcoxon符号秩统计量 1niiiWR1 (1)1(
18、)224iin nnEREE Rii1(1)()()4niin nE WERi2()() ()iiiVarREREE Riii2()()() ()iiiiERE RE REE Riiii2()()()iiiERE RE REiii22()()()iiiERE RE E REiii2222() ()()()iiiiEE RE RE REEii21 (1)(1)11(1)(51)2122448nnnnn(,)iijjCovRR() ()(,)ijijEECov RR11(1)2212n (1)48n 21()()(,)nniiiijjiijVar WVarRCovRR (1)(51)(1)(1)4
19、848nnn nnn (1)(21)24n nn三、线性秩统计量 (一) 线性秩序统计量的定义 设X1,X2,XN为N个随机变量,其对应的秩向量记为: 1(,)NRRR 又设(1),(2), (N)和c(1),c(2),c(N)是两组数,组内的N个数不全相等。定义统计量为 1( ) ()NiiSc i a R S称为线性秩统计量,(1), (2), (N)被称为分值,c(1),c(2),c(N)被称为回归常数。 例例 二样本问题。随机变量X1,X2,Xm相互独立同分布,分布函数为F(x);随机变量y1,y2,yn相互独立同分布,分布函数为G(y)。混合样本X1,X2,Xm和y1,y2,yn对应
20、的秩向量,记为11,mnQQRRR取两组常数110(,),1,2,1( ,),1,2,imiinXXXimcYYYimmmn( )a ii111( ) ()( ) ()mm nm niiiii mimSc i a Qc i a RR 若取两组数为:110,1,2,( )1,1,2,iminXXXimc iYYYimmmn102( )112Nia iNiNnm则 1()# ()m niieimSa RYm S为Y总体样本中,观测值大于混合中位数me的个数。 设 a(1), a(2), a(N) 是一组,若秩向量在集合上均匀分布1,NRRR(二)(二) 线性秩统计量的数字特征线性秩统计量的数字特征
21、有11( ()( )NikaE a Ra kN211( ()( )NikVar a Ra kaN定理1(线性秩统计量的数字特征)211cov ( (), ()( )(1)Nijka Ra Ra kaN N 111()( ) ()( )NNiikkE a Ra k P Rka kN21()( )()NiikD a Ra kaP Rk211( )Nka kaN( (), ()ijCov a Ra R1( )( )( ( ), ( )Nkh ka kaa ha p a kk a hh11( )( )(1)Nkh ka kaa haN N21111( )( )( )(1)NNNkhka kaa haa
22、 kaN N22111( )( )(1)NNkka kaa kaN N211( )(1)Nka kaN N 设 a(1), a(2), a(N) 是一组,若秩向量在集合上均匀分布,则线性秩统计量1,NRRR1( ) ()NiiSc i a R有数学期望( )E SNc a定理定理2(线性秩统计量的数字特征)线性秩统计量的数字特征)有方差22111( ) ( ) ( )1NNiiVar Sa iac icN其中11( )Nicc iN11( )Niaa iN1( )( )()NNNiiE Sci E aRcaNaicNNaicninnin11)(1)(1 ( ) ()Niic ica Ra1(
23、) ()Niic i a RNc a( )SE S证明:2( )E SE S21 ( ) ()NiiEc ica Ra221 ( ) ()NiiEc ica Ra ( ) () ( ) ()Nijijc ica Ra c jca Ra221 ( ) ()Niic icE a Ra ( ) ( ) () ()Nijijc icc jc E a Ra a Ra ( ) ( ) ()()Nijijc ic c jc Cov a Ra R,21 ( )( ()Niic ic Var a R22111 ( )( )NNiic ica iaN211 ( ) ( ) ( )(1)NNijic icc jca
24、 iaN N22111 ( )( )NNiic ica iaN22111 ( ) ( )(1)NNiic ica iaN N22111 ( )( )(1)NNiic ica iaN 例 设X1,X2,X3,,Xm,Y1 , Yn为样本,对秩和统计量 1( )()NNNiiWci aR如 , 等于0或1,视 或否,有iiaN)()(icNmi 2) 1()(NnWE则(1)()12nm NVar W,21NaNnc 12/ ) 1()(212NNajaNjNnmcjcNj12)()yE WNca1122n nmn nmNN22111()()1NNiiiiccRRN22111()()()1NNyi
25、iiiD WccRRN21(1)/121nmN NNN=-(1)12nm N (三)线性秩统计量的应用 1、随机变量X1,X2,Xm相互独立同分布,分布函数为连续;随机变量y1,y2,yn相互独立同分布,分布函数为F(x+) ,为未知参数。检验的假设为: 0:0H , 1:0H 检验两个总体是否有相同的中位数。211()2n mii mNSR110,1,2,( )1,1,2,iminXXXimc iYYYimmmn21( )2Na ii 2、随机变量X1,X2,Xni相互独立同分布Fi(X) ,i=1,2,N。01:,NHXX同分布11:( )( )(1,2,1)iiHF xFx iN 且不等式对某些点成立。备择假设的含义是总体中位数有明显的渐大趋势。即两序列1,NRRR和(1,2,3,4,)N 有较强的相关性。其中R是混合秩的总体内的平均。等价的统计量为 1NiiSiR1221111()()2211()()22NiiNNiiiNNRiNNRi211()2(1)(1)12NiiNiRNN NN可见S较大时,支持备择假设。