1、第二章第二章 单样本问题单样本问题经典统计经典统计关心的问题:已知总体:已知总体 均值位置变量 方差、标准差、极差尺度变量非参数统计非参数统计关心的问题:已知:已知:样本 位置变量?尺度变量?nXX,1例如:在对人们的收入进行抽样之后,自然要对“人均收入”和“中间收入”等概念感兴趣。这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。也可能想要知道收入多少才能够算“最富的百分之五”之类的问题。这与分位点的推断有关系。除了位置,我们也希望通过数据知道它的趋势和走向,这都是本章要研究的内容。2.1 广义符号检验和有关的置信区间广义符号检验和有关的置
2、信区间例例2.1 下面是世界上71个大城市的花费指数(包括租金),按递增次序牌类如下(这里上海是44位,指数为63.5)27.8 27.8 29.1 32.2 32.7 32.7 36.4 36.5 37.5 37.7 38.8 41.9 45.2 45.8 46 47.6 48.2 49.9 51.8 52.7 54.9 55 55.3 55.5 58.2 60.8 62.7 63.5 64.6 65.3 65.3 65.3 65.4 66.2 66.7 67.7 71.2 71.7 73.9 74.3 74.5 76.2 76.6 76.8 77.7 77.9 79.1 80.9 81 8
3、2.6 85.7 86.2 86.4 89.4 89.5 90.3 90.8 91.8 92.8 95.2 97.5 98.2 99.1 99.3 100 100.6 104.1 104.6 105 109.4 122.4问题:(1)样本中位数M是否大于64.或者说是否指数小于64的城市的比例少于0.5(或指数大于64的比例是否大于0.5)(2)样本下四分位点(0.25分位点)是否小于64,。等价的说,是否指数小于64的城市的比例大于0.25(或指数小于64城市的比例是否小于0.75)由于中位数也是分位点(0.5分位点)。所以,这两个问题实际上都是关于分位点的检验问题,只不过一个是关于 分位点
4、,另一个是关于 分位点。这里面也出现了求 分位点 的 置信区间问题。本例中,分布未知,观察直方图5.025.0Q)%1(100 从图中很难说这是什么分布,我们根据 分位点的定义,并通过与分位点相关的Bernoulli试验及二项分布的性质得到需要的结果。如果 是总体的 分位点,那么意味着总体中约有比例 那么多的个体小于 。显然,关于 分位点的推断等价于关于比例 的推断。QQ2.1.1 广义符号检验:对分位点进行的检验广义符号检验:对分位点进行的检验广义符号检验广义符号检验:对连续变量 分位点 进行的检验。狭义符号检验狭义符号检验:仅针对中位数(或0.5分位点)进行的检验。假定检验的假设是:备择假
5、设可能是:5.0Q00:qQH010101:qQHqQHqQH:或、记样本中小于 的点数为 ,大于 的点数为 。并用小写的 和 分别代表 和 的实现值。记按照零假设,与 之比应该约为 左右,或 大约等于 ,而 与 之比应该约为 左右,或者说 大约等于 。如果 与 与此相差的很远,那么零假设可能有问题 。0q0qSSSSssssnssssnnss1n)1(n在零假设 下,应该服从二项分布 。下面就在二项分布变量的检验中如何计算p值的问题给出一个表 00:qQHS),(nBin这类检验之所以叫做“符号检验”,是因为 为用所有样本点减去 之后,差为正的个数,而 为用所有样本点减去 之后,差为负的个数
6、。S0qS0q大样本正态近似大样本正态近似 比较小时,可以用二项分布的公式来计算精确 值。但当 比较大时,也可以用正态分布来近似。如果在零假设 下,那么当 较大时,则可以认为00:qQH),(nBinKn)1,0()1(NnnKZ2.1.2 基于符号检验的中位数及分位点的置信基于符号检验的中位数及分位点的置信区间区间例2.2 下面是随机抽取的22个企业的纳税额(单位:万元)。数据已经按照升幂排列 1.00 1.35 1.99 2.05 2.06 2.10 2.30 2.61 2.86 2.95 2.98 3.23 3.73 4.03 4.82 5.24 6.10 6.64 6.81 6.86
7、7.11 9.002.2 Wilcoxon 符号秩检验,点估计和区间估计符号秩检验,点估计和区间估计Wilcoxon 符号秩检验 符号检验利用率观察值与零假设的中心位置之差的符号差的符号来检验,但没有利用这些差的大小差的大小(距 的远近)的信息。已知信息越多,结论越有效,所以把已知距离考虑进去更好,即Wilcoxon符号秩检验。宗旨:宗旨:把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相加作为其检验统计量。注意:注意:假定样本点 来自连续对称总体分布。此时,总体中位数=均值 其目的与符号检验一致,即检验0MnXX,100:MMH例2.3 下面是10个欧洲城镇每人每年平均消费的酒类
8、相当于纯酒精数(单位:升)。数据已经按照升幂排列。4.12 5.81 7.63 9.74 10.39 11.92 12.32 12.89 13.54 14.45人们普遍认为欧洲各国人均年消费酒量的中位数相当于纯酒精8升。为此进行检验:设 ,即上述数据的中位数为11.160,因此备择假设为80M8:0MH8:1MH即检验为Wilcoxon 符号秩检验步骤如下:(1)对 ,计算 对于例2.3有3.88 2.19 0.37 1.74 2.39 3.92 4.32 4.89 5.54 6.45(2)把上面的 个绝对值排序,并找出它们的 个秩。如果有相同的样本点,每个点取平均秩(如1,4,4,5的秩为1
9、,2.5,2.5,4)对于例2.3有秩为 5 3 1 2 4 6 7 8 9 10(3)令 等于 的 的秩的和。等于 的 的秩的和。注意:加符号的秩为:-5 -3 -1 2 4 6 7 8 9 108:0MH8:1MHni,1|0MXinnW00MXi|0MXi|0MXi00MXiW2/)1(nnWW1)2/)1()1(knnWPkWP(4)对双边检验 在零假设下,与 应差不多。因而,当其中之一很小时,应怀疑零假设。取检验统计量类似地,对 ,取 对 ,取 例2.3,取(5)根据得到的W的值,得到零假设下的 值。如果 很大要用正态近似 如果 不是很大,可以通过软件或者查Wilcoxon符号秩检验
10、的分布表,得到 值(6)比较 与 ,若 则拒绝零假设。0100:MMHMMHWW),min(WWW0100:MMHMMH0100:MMHMMHWWWW9WWnpnppp 在零假设下的分布并不复杂。例如 时绝对值的秩只有1,2和3,共有8种可能的符号排列 出现了2次,因而W3n秩秩 符号的符号的8种组合种组合1-+-+-+2-+-+-+3-+-+01233456概率1/81/81/81/81/81/81/81/8W3W8/2)3(0WPH注意 和 的Wilcoxon分布有关系为由于Wilcoxon符号秩检验要求总体分布对称,我们现在将与的检验结果进行比较.WW1)12/)1()(1)2/)1()
11、1(knnWPkWPknnWPkWP88:10HMH5.125.12:10HMH2.2.2 基于Wilcoxon符号秩检验的点估计和置信区间样本:n个 寻找对称中心,样本中位数即可为了利用更多的信息,可以扩大样本数目:求每两个数的平均 (共有 个)这样的平均称为Walsh平均。则 这里符号#是满足符号 内条件的表达式的个数(“”相当于),02#jiXXWjijiXXji,2/)(2/)1(nn若,即有位移则有来做Wilcoxon符号秩检验。则按升幂排列Walsh平均,记则 的 置信区间为这里 由 决定。)(,1xFXXn,2#)(jiXXWji,2jiXXmedianji)2/)1(,1nnN
12、WWN)1(),)()1(kNkWW2/)(,2/)(knWPkWPk大样本时,有24)12)(1(4)1(2/nnnZnnk回看例2.3欧洲人酒精人均消费Walsh平均有中位数10.390是 的估计量。再求 的 置信区间 时,查表有,对于所以 ,置信区间为552/)1(nn)1()025.02/(05.02/024.0)8()9(,10WPWPn9k)73.12,02.8),)955()19(WW2.4 Cox-Staut 趋势检验 在客观世界中会有许多各种各样随时间变动的数据序列,我们通常关心这些数据随时间变化的规律,也就是进行趋势分析。例如:依据病患人数判断疫情是否已经得到控制,或者是否
13、还在增长等等。回归分析回归分析是常用的趋势分析工具,说明数据是否存在着线性趋势,存在着怎样的线性趋势。但用回归分析也有其局限性,问题在于:n如果模型不能通过检验,那么趋势是否存在?n是否应该将所有可能的检验穷尽才能回答这个问题?n即使模型通过检验,也只能说在模型的假设下,数据的趋势是存在的。n趋势检验(不依赖于趋势结构):1.Cox-Stuart 趋势检验2.趋势的秩检验。(多样本问题)nCox-Stuart 趋势检验的理论基础是符号检验,可认为是符号检验的一个应用。例2.4 天津机场从1995年1月到2003年12月的108个月旅客吞吐量(人次)如下表.从这些数据,我们能否说明这个差额总的趋
14、势是增长,还是减少,还是都不明显呢?54379 45461 55408 59712 60776 57635 63335 71296 70250 76866 75561 66427 61330 58186 67799 76360 86207 75509 83020 89614 75791 80835 72179 61520 66726 60629 68549 73310 80719 67759 70352 82825 70541 74631 68938 53318 62653 58578 63292 69535 73379 62859 72873 87260 67559 76647 70590
15、58935 58161 64057 63051 58807 63663 57367 70854 79949 66992 80140 62260 55942 58367 56673 61039 74958 85859 67263 87183 97575 79988 88501 68600 58442 68955 56835 67021 81547 85118 70145 95080 106186 86103 88548 70090 65550 69223 85138 89799 99513 98114 68172 97366 116820 95665 109881 87068 75362 882
16、68 85183 87909 79976 27687 50178 100878 131788 116293 120770 104958 109603 nCox-Staut趋势检验的一般提法:1.H0:无趋势 H1:有增长趋势2.H0:无趋势 H1:有减少趋势3.H0:无趋势 H1:有增长或减少趋势 解:将数据自己与自己比较。我们以第54个数为界把数据分成两部分,即前半部分和后半部分。用第1个数减去第55个数,第2个数减去第56个数,第54个数减去第108个数。即记,i=1,2,3,54。计算后得出,54个差值中,有38个取负值,16个取正值。负值的情况比较多,说明数据有增大的趋势。,)54(i
17、iixxDn引入假设检验:H0:数据无趋势,H1:数据有增长的趋势。n检验统计量:类似于符号检验,令 取S或S为检验统计量,#为正数iDS#为负数iDS n检验统计量的分布:在H0成立条件下,S和S服从参数为54和1/2的二项分布。n取检验统计量KS,p值P(K s+)=P(K 16)=0.00192,取水平0.05或更小的0.002,拒绝原假设,即认为数据有增长的趋势。n 这个方法就是Cox-Stuart趋势检验。n检验的思想检验的思想 直接考虑数据的变化趋势,若数据有上升趋势,那么直接考虑数据的变化趋势,若数据有上升趋势,那么排在后面的数据的值要比排在前面的数据的值显著得大;排在后面的数据
18、的值要比排在前面的数据的值显著得大;反之,若数据有下降的趋势,那么排在后面的数据的值要反之,若数据有下降的趋势,那么排在后面的数据的值要比排在前面的数据的值显著得小。利用前后两个时期不同比排在前面的数据的值显著得小。利用前后两个时期不同数据的差值正负来判断数据总的变化趋势。数据的差值正负来判断数据总的变化趋势。注意:注意:1.每对数据中前后两个数的间隔应固定。每对数据中前后两个数的间隔应固定。2.为保证数对不受局部干扰,前后两个数的间隔应该较大为保证数对不受局部干扰,前后两个数的间隔应该较大,但又不能过大,否则数对数量过少,难以判断。,但又不能过大,否则数对数量过少,难以判断。所以所以Cox-
19、Stuart提出最优的拆分点是提出最优的拆分点是数列的中间位置的数数列的中间位置的数。n检验方法 令 取 x i 和 x i+c组成数对(x i,x i+c),则当n为偶数时,共有c对;当n为奇数时,共有c-1对。计算每对数对前后两值之差:Di x i+c x i 为奇数。为偶数;n,2/)1(,2/nnncn检验统计量 记 S+=#Di为正数,i=1,2,n,等价于:其中,其中,表示不等于0的数对个数。则H0成立时,S服从参数为 和1/2的二项分布,即 Sb(,1/2)。,)(1niiDsignS.0,0;0,1)(iiiDDDsignnnn 记 S=#Di为负数,i=1,2,n,等价于:其
20、中,其中,表示不等于0的数对个数。则H0成立时,S服从参数为 和1/2的二项分布,即 Sb(,1/2)。,)(1niiDsignS.0,0;0,1)(iiiDDDsignnnn p值,类似于符号检验有:令s+,s表示由样本算出来的检验统计量的值。H0:无趋势,:无趋势,H1:有增长趋势:有增长趋势 p值P(S+s+),或 pP(S s)H0:无趋势,:无趋势,H1:有减少趋势:有减少趋势 p值P(S+s+),或 pP(S s)H0:无趋势,:无趋势,H1:有增长或减少趋势:有增长或减少趋势 p值2 min P(S+s+),P(S+s+)或 p值2 min P(S s),P(S s)对于三种假设检验,变量K=min(S,S)的布为 。H0:无趋势。)5.0,(nb 备选假设备选假设 p值,这里值,这里k=min(s+,s-)H1:有增长趋势:有增长趋势 P(K k)H1:有减少趋势:有减少趋势 P(K k)H1:有增长或减少趋势:有增长或减少趋势 2P(K k)