1、第二章单样本非参数检验2.1 2.1 符号检验和分位数推断符号检验和分位数推断2.2 2.2 Cox-StuartCox-Stuart趋势检验趋势检验 2.3 2.3 游程检验游程检验2.4 2.4 WilcoxonWilcoxon符号秩检验符号秩检验2.5 2.5 正态记分检验正态记分检验2.6 2.6 相对效率比较相对效率比较2.1 符号检验符号检验的统计量为 符号检验符号检验。设随机变量X1,Xn是从某个总体X中抽出的简单随机样本。且分布函数F(X)在X=0是连续的。假设检验问题00:(HF1)210:(HF1)2检验的统计量可以取 01(0)niiBx 在原假设为真的条件下,有服从参数
2、为n和0.5的二项分布b(n,0.5)。由于原假设为真时,B应该不太大,也不太小,如果B太大或太小,应该拒绝原假设。对于显著性,求c1和c2,有 2()2P Bc1()2P Bc拒绝区域为:1220,1,2,1,cc cn 精确的符号检验是指检验的p值是由精确的概率给出的。我们我们利用正号和负号的数目,来检验某假设,这是一种最简单的非参数方法。【例】联合国人员在世界上66个大城市的生活花费指数(以纽约市1996年12月为100)按自小至大的次序排列如下(这里北京的指数为99)。2.1.1.精确中位数的符号检验精确中位数的符号检验 66 75 78 80 81 81 82 83 83 83 83
3、 84 85 85 86 86 86 86 87 87 88 88 88 88 88 89 89 89 89 90 90 91 91 91 91 92 93 93 96 96 96 97 99 100 101 102 103 103 104 104 104 105 106 109 109 110 110 110 111 113 115 116 117 118 155 192 这个总体的中间水平是多少?北京使在该水平之上还是之下?(北京为99)通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t检验有关的方法进行的。然而,在本例中,总体分布是未知的。为此,首先看该数据的直方图从图
4、中很难说这是什么分布。VAR00001190.0180.0170.0160.0150.0140.0130.0120.0110.0100.090.080.070.03020100Std.Dev=18.09 M ean=96.5N=66.00 假定用总体中位数来表示中间位置,这意味着样本点,取大于M的的概率应该与取小于M的概率相等。所研究的问题,可以看作是只有两种可能“成功”或“失败”。符号检验的思路,记成功:X-0大于零,即大于中位数M,记为“+”;失败:X-0小于零,即小于中位数M,记为“-”。令 S+=得正符号的数目 S=得负符号得数目可以知道S+或S 均服从二项分布B(65,0.5)。则可
5、以用来作检验的统计量。其假设为:0010:HH0010:HH0010:HH关于非参数检验统计量需要说明的问题 在非参数检验中,可以得到两个相互等价的统计量,比如在符号检验中,得负号与得正好的个数,就是一对等价的统计量,因为S+S-=N。那么我们在检验时应该用那个呢?对于左侧检验左侧检验,当零假设为真的下,S+应该不大不小。当过小,即只有少数的观测值大于假定值,则可能假定值太大,目前总体真实中位数可能要小一些。如果 ,则拒绝原假设。)/(0HsSp0 p(/)p SsH有 0(/)pSsH 0(/)p nSnsH0(/)p SsH 所以我们选择统计量),min(ssk0(/)p SsH0 p(m
6、in(,)/)p Ks sH有 对于右侧检验右侧检验,当零假设为真的下,S+应该不大不小。当过大,即有多数的观测值大于假定值,则可能假定值太小,目前总体的真实中位数可能要大一些。如果 ,则拒绝原假设。)/(0HsSp0 p(/)p SsH有 0(/)pSsH 0(/)p nSnsH我们选择统计量),min(ssk0(/)p SsH0 p(min(,)/)p Ks sH有 对于双侧检验双侧检验,当零假设为真的下,S+应该不大不小。当其中之一很小,即有观测值大于或小于假定值,假定值或太小或太大。如果 ,则拒绝原假设。02(/)p Kk H我们选择统计量),min(ssk0 p(min(,)/)p
7、Ks sH有 2 检验统计量S+=23S+=23P-值 =0.01242 =0.0248检验的结果拒绝零假设拒绝零假设结论中位数小于99中位数不等于9901:99:99HH01:99:99HH2365650(23)(0.5)(1 0.5)0.0124iiiip SC)23(Sp)23(Sp2.1.2.大样本的情形 当样本容量足够大,我们可以利用二项分布的正态近似来对该问题进行检验。因为计数统计量在原假设为真时,服从b(n,0.5)。且其均值为0.5n,方差为0.25n。则检验的统计量为 足够大)nnnBz(25.05.0)(25.05.05.0不够大nnnBz 当Bn/2,-0.5。这个加或减
8、一个常数的原因是使得其估计出的p值更接近近似值。举例如下。假设x服从b(20,0.7),用二项分布和其正态近似求x小于12的概率比较其结果。精确概率1220200(12)(0.7)(1 0.7)0.227728iiiip SC近似概率计算一:1220*0.7(12)()0.16455720*0.7*0.3p xp z近似概率计算二:1220*0.70.5(12)()0.23210720*0.7*0.3p xp z2.1.3 置信区间 1.小样本的置信区间 中位数M的点估计是样本的中位数,因而用顺序统计量来构造中位数的置信区间是很自然的。对于固定的n,前面的符号检验表示,大于或小于中位数M的样本
9、点的个数服从二项分布b(n,0.5),置信度为1-的可以满足(1)(1)(1)()(,)(,)ijnp XXMp XXM注意到,我们现在关键是确定Xi-1和Xj+1的位置。(1)()()np xMx(1)()1()()npMxMx(1)()1()()np Mxp Mx 111(,)(,)nnp MxMxp MxMx 111111222nnn 根据上面的公式,可以知道区间(1)(),nxx 作为中位数M的置信区间其置信度为1112n 只要n7,则置信度大于99,然而这并非是最好的,区间估计中有两个需要考虑的问题:一个是精度,另一个是置信度。这个估计虽然置信度十分高,但是精度很低。注意到,任取i和
10、j,()()()ijp xMx11122nnnnkknnkjk iCC()(1)()()jip Mxp Mx(j)(i-1)pp至少有 次成功至少有次成功 下面选择最优的区间,即置信度足够大,区间足够小。例 表是16名学生的体能测试的成绩 82,53,70,73,103,71,69,80,54,38,87,91,62,75,65,77 求其95的置信区间。将这16个数按顺序排列,得到16个顺序统计量,两两搭配可以有120个区间,留下大于0.95的区间如下:下限下限序号序号上限上限序号序号区间区间区间长区间长置信度置信度11138,77390.96157836911238,80420.98934
11、936511338,82440.99789428711438,87490.99972534211538,90520.99996948211638,103650.99998474121153,77240.96133422921253,80270.98910522521353,82290.99765014621453,87340.99948120121553,90370.99972534221653,103500.999740601下限下限序号序号上限上限序号序号区间区间区间长区间长置信度置信度31154,77230.95950317431254,80260.9872741731354,82280
12、.99581909231454,87230.99765014631554,90360.99789428731654,103490.99790954641162,77150.95095825241262,80180.97872924841362,82200.9872741741462,87250.98910522541562,90280.98934936541662,103410.98936462451265,80150.95095825251365,82170.95950317451465,87220.96133422951565,90250.96157836951665,103380.961
13、593628 精确度较优的区间为 62,77 0.950958252 65,80 0.950958252 65,82 0.959503174 综合起来看,65,80 (0.950958252)更合理。更合理。2.大样本下的置信区间 因为在样本容量足够大的场合。二项分布近似正态分布,则 置信区间为一个对称区间,假设区间为 (1)kx(1)(),kn kxx 是第k个顺序统计量。(1)()kp xMn10.5 1.9624nk 0.510.522(1)()0.97544nnbkp bkpnn(1)()kp xM10.521.964nkn 0.51 0.522()0.97544nnbkpnn 10.
14、541.963.5842nkn(1)p bk(1)()(4)(13),54,82kn kxxxx=置信度为95。2.2 Cox-Stuart2.2 Cox-Stuart趋势检验趋势检验 人们经常要看某项发展的趋势但是从图表上很难看出是递增,递减,还是大致持平例我国自1985年到1996年出口和进口的差额(balance)为(以亿美元为单位)149.0 119.7 37.7 77.5 66.0 87.4 80.5 43.5 122.2 54.0 167.0 122.2 从这个数字,我们能否说这个差额总的趋势是增长,还是减,还是都不明显呢?下图为该数据的点图从图可以看出,总趋势似乎是增长,但199
15、3年有个低谷;这个低谷能否说明总趋势并不是增长的呢?我们希望能进行检验Case Number10987654321Value VAR0012001000-100-200三种假设:有增长趋势无增长趋势;:10HH有减少趋势无减少趋势;:10HH有趋势无趋势;:10HH 怎么进行这些检验呢?可以把每一个观察值和相隔大约n2的另一个观察值配对比较;因此大约有n2个对子然后看增长的对子和减少的对子各有多少来判断总的趋势具体做法为取 和 。这里ixcix 在这个例子中n=12,因而c6。这6个对子为(x1,x7),(x2,x8),(x3,x9),(x4,x10),(x5,xl1),(x6,x12)是奇数
16、如果是偶数如果nnnnc2/)1(2/用每一对的两元素差Di=xi-xi+c的符号来衡量增减。令S+为正Di=xi-xi+c的数目,而令S-为负的Di=xi-xi+c的数。显然当正号太多时,即S+很大时(或S-很小时),有下降趋势,反之,则有增长趋势在没有趋势的零假设下它们应服从二项分布b(6,0.5),这里n为对子的数目(不包含差为0的对子)该检验在某种意义上是符号检验的一个特例 类似于符号检验,对于上面1,2,3三种检验,分别取检验统计量K=S+,K=S-和K=min(S+,S-)在本例中,这6个数据对的符号为 5负1正,所以我们不能拒绝原假设。1094.0)1(SP假设统计量 P值K=m
17、in(S+,S-)P(Kk)K=min(S+,S-)P(Kk)K=min(S+,S-)2P(Kk)有增长趋势无增长趋势;:10HH有减少趋势无减少趋势;:10HH有趋势无趋势;:10HH 游程检验是样本的随机性检验,其用途很广。例如当我们要考察生产中出现次品出现是随机的,还是成群的,一个时间序列是平稳的还是非平稳的,模型的随机干扰项是否是白噪声等都可以通过游程检验来确定。2.3 游程检验 从生产线上抽取产品检验,是否应采用频繁抽取小样本的方法。在一个刚刚建成的制造厂内,质检员需要设计一种抽样方法,以保证质量检验的可靠性。生产线上抽取的产品可以分成两类,有瑕疵,无瑕疵。检验费用与受检产品数量有关
18、。一般情况下,有毛病的产品如果是成群出现的,则要频繁抽取小样本,进行检验。如果有毛病的产品是随机产生的,则每天以间隔较长地抽取一个大样本。现随机抽了30件产品,按生产线抽取的顺序排列:0000111111111111110001111111检验瑕疵的产品是随机出现的吗?有瑕疵的产品是随机出现 有瑕疵的产品是成群出现:0H:1H 随机抽取的一个样本,其观察值按某种顺序排列,如果研究所关心的问题是:被有序排列的两种类型符号是否随机排列,则可以建立双侧备择假设组为 H0:序列是随机的序列是随机的 H1:序列不是随机的(双侧检验)序列不是随机的(双侧检验)如果关心的是序列是否具有某种倾向,则应建立单侧
19、备择,假设组为 H0:序列是随机的序列是随机的 H1:序列具有混合的倾向(右侧检验)序列具有混合的倾向(右侧检验)H0:序列是随机的序列是随机的 H1:序列具有成群的倾向(左侧检验)序列具有成群的倾向(左侧检验)游程:连续出现的具有相同特征的样本点为一个游程。游程:连续出现的具有相同特征的样本点为一个游程。检验统计量。在H0为真的情况下,两种类型符号出现的可能性相等,其在序列中是交互的。相对于一定的m和n,序列游程的总数应在一个范围内。若游程的总数过少,表明某一游程的长度过长,意味着有较多的同一符号相连,序列存在成群的倾向;若游程总数过多,表明游程长度很短,意味着两个符号频繁交替,序列具有混合
20、的倾向。选择的检验统计量为 R游程的总数目 游程R的分布为:mnmknkmknkmCCCCCkRp111111)12(mnmknkmCCCkRp11112)2(可以做如下的考虑:先在m+n个抽屉里随机选择m个,抽出的抽屉里放入“1”,没有的放入“0”,所有可能基本的基本事件数为:mnmC有种。或先在m+n个抽屉里随机选择n个,抽出的抽屉里放入“0”,没有的放入“1”,所有可能基本的基本事件数为:nm nC有种。mnm nm nCC 1、必定有k+1个由“1”构成的游程和k个由“0”构成的游程;2、或必定有k+1个由“0”构成的游程和k个由“1”构成的游程。如果游程数为奇数R=2K1,这意味着:
21、第一种情形,这就必须在m1个位置中插入K个“隔离元”,使有“1”有k+1个游程,可以有 种,同样可以在n-1个“0”的n-1个空位上插入K-1个“隔离元”,有 种。共有有利基本事件数 。kmC111knC111knkmCC同理,在第二种情形下,有 。故:111kmknCCmnmknkmknkmCCCCCkRp111111)12(mnmknkmCCCkRp11112)2(22(2)()(1)mnmnnmVar Rmnnm()21nmE Rmn由此可以证明:同理备择假设P值序列具有混合的倾向右尾概率序列具有聚类的倾向左尾概率序列是非随机的较小的左尾概率的两倍1)1()2(2)(2mnnmmnmnm
22、nRVar)1,0()()(NRVarRERZ n1是0的个数,n2是1的个数。质量检查人员对某车间生产的螺栓进行抽样检查,依次检查了50个。以“0”代表不合格,“1”代表合格。检查结果如下:1111110111011111111101011110111111111110111101110 问不合格品的分布是否是随机的?a=0.05。81n422nRuns Test.848414916.598.550Test ValueaCases=Test ValueTotal CasesNumber of RunsZAsymp.Sig.(2-tailed)产品质量Meana.例如,在我国的工业和商业企业随
23、机抽出22家进行资产负债率行业间的差异比较。有如下资料:这两个行业的负债水平是否相等。首先,设“1”为工业,“2”为商业,将两个行业的数据排序,得行业编号得游程:1 1 1 1 1 2 1 1 1 1 2 2 2 1 1 1 2 2 2 2 2 2工业64 76 55 82 59 82 70 75 61 64 73 83商业77 80 80 65 93 91 84 91 84 86 86Runs Test1.4286129216-2.190.029Test ValueaCases=Test ValueTotal CasesNumber of RunsZAsymp.Sig.(2-tailed)资
24、产负债Meana.Case Number1911811711611511411311211111019181716151413121111Value E3210-1-2-3Runs Test-.0568103961991101.369.171Test ValueaCases=Test ValueTotal CasesNumber of RunsZAsymp.Sig.(2-tailed)EMeana.人工模拟的白噪声序列的游程检验Case Number1911811711611511411311211111019181716151413121111Value X20100-10-20-30Run
25、s Test-2.5039871121992-13.999.000Test ValueaCases=Test ValueTotal CasesNumber of RunsZAsymp.Sig.(2-tailed)XMeana.人工模拟的随机游走序列的游程检验Case Number1911811711611511411311211111019181716151413121111Value VAR0000143210-1-2-3Runs Test.01031019920094-.991.322Test ValueaCases=Test ValueTotal CasesNumber of RunsZ
26、Asymp.Sig.(2-tailed)VAR00001Meana.人工模拟的ar(1)序列的游程检验上证指数上证指数xtLn(xt)Ln(xt-1)收益率收益率919.446.82.899.616.806.82-.021803876.506.786.80-.026025898.176.806.78.024423896.416.806.80-.001961906.986.816.80.011723918.406.826.81.012513929.526.836.82.012035907.856.816.83-.023589916.726.826.81.009723915.016.826.82-
27、.001867942.446.856.83.014245收益率是随机序列收益率是随机序列R1.094.081.069.056.044.031.019.006-.006-.019-.031-.044-.056-.069-.081-.094160140120100806040200Std.Dev=.02 Mean=.001N=727.00Runs Test.0005451366361727356-.630.529Test ValueaCases=Test ValueTotal CasesNumber of RunsZAsymp.Sig.(2-tailed)R1Meana.2.4 单样本的Wilco
28、xon符号秩检验 2.4.1 Wilcoxon符号秩检验0100:MMHMMH0100:MMHMMH0100:MMHMMH 前面几种推断的方法都只依赖于数据的符号,没有考虑数据的大小,Wilcoxon符号秩检验是检验关于中位数对称的总体的中位数是否等于某个特定值,检验的假设:检验的步骤检验的步骤:1.计算 ,它们代表这些样本点到 的距离;|0MXi0M 2.把上面的n个绝对值排序,并找出它们的n个秩;如果有相同的样本点,每个点取平均秩(如1,4,4,5的秩为1,2.5,2.5,4);0010:HMMHMM右 0010:HMMHMM例如正态记分检验统计量为正态记分检验统计量为正态积分检验的统计量
29、为:11(0)1niiiRTXMn (二)检验 检验的假设为:0100:;:MMHMMH0010:;:HMMHMM0010:;:HMMHMM则检验的统计量为 11()(0)1niiiTXMn11()(0)1niiiTXMn或111()()021niiE Tnacnn2111()()141niniD Tnn()(0,1)var()TE TTNT当样本足够大时,34:;34:10MHMH 例、下面的数据是亚洲10个国家的新生儿死亡率()33 36 31 15 9 6 4 65 77 88 秩 符号秩 平方3311 0.090909-1.33518-1.335181.7827013622 0.181
30、818-0.90846-0.908460.8252953133 0.272727-0.60459-0.604590.36552315194 0.363636-0.34876-0.348760.1216319255 0.454545-0.11419-0.114190.0130386286 0.5454550.1141850.1141850.0130384307 0.6363640.3487560.3487560.12163165318 0.7272730.6045850.6045850.36552377439 0.8181820.9084580.9084580.825295885410 0.90
31、90911.3351781.3351781.782701合计6.216376iX|34|iX1in1()1in11()(0)1niiiTXn()0E T2111()()141niniD Tnn21110 1()1.7279 41niin0.908460.6045850.908458 1.335178 1.94()TE TzVar T1.941.94=1.471.314()zVar T2(1.47)2 0.070.140.05pp z接受原假设。接受原假设。2.6 单个总体功效函数的随机模拟单个总体功效函数的随机模拟 假定假设X1,X2,Xn为F(X)的简单随机样本,我们来讨论符号检验,Wilc
32、oxon符号秩检验和t检验三者的功效。我们需要检验 01:0,:0HH 前面我们已经学习了关于线性符号秩统计量,在一些条件成立下,线性符号秩统计量有计算功效的公式。2.6.1 线性符号秩统计量线性符号秩统计量一类线性符号秩统计量为一类线性符号秩统计量为1()niiiSaR(0)iiX 假定()()1niaibn 这里 是非降非负平方可积函数。()1in 比如 Wilcoxon线性符号秩统计量1niiiWR()aii()()()()111nuuiiainbnn 符号检验的统计量1niiB()1ai()1()()1111nuiainb可以证明10120()(,)()()nuu f dueff Su
33、du其中1111()22(,)11()22f Fuu ff Fu F(x)是总体的分布函数,f是总体的密度函数。利用这个结论我们可以计算W+检验的功效10120()(,)()()nuu f dueff Sudu 110112011()2211()22()f Fuuduf Fueff Wudu110111()2211()22()1/3f Fuuduf Fueff W111()22tFu令2()1uF t那么2()duf t0.51,;0,utut 10 2()12()()1/3f tF tf t dtf teff W1/22 32()1 F tf t dt 1/2122()1 F tf t dt
34、 1/21/2122()1 2()()F tf tf t f t dt 1/2122()()f t f t dt212()ft dt类似2()12()eff Wft dt()neff T()2(0)eff Bf2.6.2 各种统计量渐近相对效率的比较22(,)4(0)fARE B tf222(,)12()fARE Wtft dt222(0)(,)3()fARE B Wft dt渐近相对效率的比较分布U(-1.1)N(0,1)Logisti重指数密度函数ARE(W,T)1(一样)3/(T)3/2(W+)ARE(B,T)1/3(T)2/(T)2(B)1(1,1)2I 21exp()22x(1)xx
35、ee2xe2/9()W2/12()T小于1,分母的比分母比分子统计量好;大于1,分子比分母的统计量好。例 假定假设X1,X2,Xn来自一个污染的正态分布,该污染的正态分布的分布函数为()(1)()()3xF xx()()fxF x1()(1)()()33xfxx 221133xxxdx()()()198()2()ft dt21(1)()()33xxdx 22221(1)()()(1)()()933xxxxdx 22(1)(1)265 222(1)(1)(,)12(1 8)265ARE WT 2223(1 8)2(1)(1)35 从上面的计算可知,在正态分布的假定下,t检验与Wilcoxon的符
36、号秩检验的效率差别不大。但是如果总体是一个污染的正态分布,从0.01开始,Wilcoxon的符号秩检验的效率就比t检验好。00.010.030.050.080.100.15ARE(W+,t)0.955(T)1.009(W+)1.108W/+1.196W+1.301W+1.373W+1.497W+最后一节告诉我们非参数统计分析的重要性,当最后一节告诉我们非参数统计分析的重要性,当分布非正态时,大多数情况下,非参数估计更有效率。分布非正态时,大多数情况下,非参数估计更有效率。下面用下面用eviews软件做了模拟,讨论不同总体分布,各软件做了模拟,讨论不同总体分布,各种统计量的检验效率。种统计量的检验效率。总体为均匀分布:总体为均匀分布:T统计量好,统计量好,B统计量差;统计量差;总体为正态分布:总体为正态分布:T统计量比统计量比W+稍好,稍好,B统计量较差;统计量较差;总体为总体为LOGISTIC分布:分布:三者接近,但是三者接近,但是W+最好;最好;总体为双指数分布:总体为双指数分布:W+最好。最好。