1、胡雪梅胡雪梅QQ:182048520 E-mail: 第三章第三章 数学与统计学院数学与统计学院单一样本的推断问题单一样本的推断问题主要内容主要内容符号检验符号秩检验分布检验Wilcoxon符号秩检验Kolmogorov-Smirnov正态性检验游程检验单样本推断问题符号检验Liliefor正态性检验拟合优度检验Cox-Staut趋势检验2中心位置推断分位数检验第一节 符号检验和分位数推断假设总体 ,是总体的中位数,对于假设检验问题:是待检验的中位数取值 F(x)0e01e0H:MMH:MM0M 定义:,则 在零假设情况下 ,在显著性水平为 的拒绝域为其中k是满足上式最大的k值。ni0i 1S
2、I(xM)ni0i 1SI(xM)ssnK mins,s Kb(n,0.5)binom2P(Kk|n,p0.5)eM例3.1.假设某地16座预出售的楼盘均价,单位(百元/平方米)如下表所示:36 32 31 25 28 36 40 32 41 26 35 35 32 87 33 35 01H:37H:37 其中 为总体的均值解一:用t检验法用T统计量结论:不能拒绝H0。X37TS/n解二:用符号检验法在显著性水平0.05下,拒绝H0。符号检验与t检验得到了相反的结论,到底选择哪一种结果呢?结论:符号检验在总体分布未知的情况下优于结论:符号检验在总体分布未知的情况下优于t 检验!检验!16ki
3、0161k3,2PKk|n16,p0.520.0213i2补充:R中的t检验法的用法1)t-test(x)X1,X2,XnN(a,2),H0:a=a0,H1:aa0补充:R中的t检验法的用法例如,某食品厂用自动装罐机装罐头食品,每罐质量为500g,现从每天生产的罐头中随机抽测9罐,其质量分别为:510,505,498,503,492,502,497,506,495(单位:g)欲检验H0:a=500,H1:a500 t.test(x-500)data:x-500 t=0.46,df=8,p-value=0.6578 alternative hypothesis:mean is not equal
4、 to 0 95 percent confidence interval:-3.567471 5.345249 sample estimates:mean of x 0.88888892)配对t检验法 X1,X2,XnN(a1,12),Y1,Y2,YnN(a2,22),H0:a1=a2,H1:a1a2补充:R中的t检验法的用法例如,欲比较甲乙两种轮胎的耐磨性,现抽取数据如下:甲:4900,5220,5500,6020,6340,7660,8650,4870乙:4930,4900,5140,5700,6110,6880,7930,5010欲检验H0:a1=a2,H1:a1 x y t.test(
5、x,y,alternative=“less”,paired=T)补充:R中的t检验法的用法Paired t-Testdata:x and y t=2.8312,df=7,p-value=0.9873 alternative hypothesis:mean of differences is less than 0 95 percent confidence interval:NA 534.1377 sample estimates:mean of x-y 320接受H0,认为两种轮胎无显著性差异.结果讨论结果讨论0e01e0H:MMH:MMbinomP(Sk|n,p0.5)k是满足式子的最大值
6、 0e01e0H:MMH:MMbinomP(Sk|n,p0.5)单边符号检验问题 例例 生产过程是否需要调整。某企业生产一种钢管,规定长度的中位数是l0米。现随机地:从正在生产的生产线上选取10根进行测量,结果:9.8 10.1 9.7 9.9 9.8,10.0,9.7 10.0,9.9 9.8分析分析:中位数是这个问题中所关心的一个位置参数。若产品长度真正的中位数大于或小于10米,则生产过程需要调整。这是一个双侧检验,应建立假设 大样本结论大样本结论当n较大时 :当n不够大的时候可用修正公式进行调整。双边:,p-值左侧:,p-值右侧:,p-值 nnS N(,)24Sn 2ZN(0,1),nn
7、 4 0e01e0H:MMH:MMN(0,1)2P(Zz)0e01e0H:MMH:MMN(0,1)P(Zz)0e01e0H:MMH:MMN(0,1)P(Zz)Sn 2CZN(0,1),nn 4不够大时01H:P(A)P(B)H:P(A)P(B)S22,S18,SS40例3.2 设某化妆品厂商有A和B两个品牌,为了解顾客对A品牌和B品牌在使用上的差异,将A品牌和B品牌同时交给45个顾客使用,一个月后得到如下数据:喜欢A品牌的客户人数:22人 喜欢B品牌的客户人数:18人 不能区分的人数:5人解:假设检验问题:由给定的数据知:运用大样本的性质,结论:不能拒绝零假设。0.0540122Kn 2C22
8、Z0.791Z1.9640 4n 4符号检验在配对样本比较中的应用符号检验在配对样本比较中的应用 配对样本(x1,y1),(x2,y2),(xn,yn)将 记为“+”,记为“-”,记为“0”,记P+为“+”比例,P-为“-”比例,那么假设检验问题:可以用符号秩检验。iixyiixyiixyH0:P+=P-H1:P+=P-例3.4 如右表是某种商品在12家超市促销活动前后的销售额对比表,用符号检验分析促销活动的效果如何?连 促销前 促销后锁 销售额 销售额 符号店1 42 40 +2 57 60 -3 38 38 0 4 49 47 +5 63 65 -6 36 39 -7 48 49 -8 5
9、8 50 +9 47 47 0 10 51 52 -11 83 72 +12 27 33 -结论:不能拒绝零假设。根据同样原理,可以将中位数符号检验推广为任意分位点的符号检验。例3.1.假设某地16座预出售的楼盘均价,单位(百元/平方米)36,32,31,25,28,36,40,32,41,26,35,35,32,87,33,35 0100.7510.75H:37H:37H:M40H:M40 36 32 31 25 28 36 40 32 41 26 35 35 32 87 33 35-0 -+-+-S+=2,S-=13,Pbinom(15,0.75)minS+,S-binom.test(su
10、m(x40),length(x)-1,0.75)Exact binomial testdata:sum(x 40)out of length(x)-1 number of successes=2,n=15,p-value=9.23e-07alternative hypothesis:p is not equal to 0.75 R编程计算:95 percent confidence interval:0.01657591 0.40460270 sample estimates:probability of success 0.1333333 Cox-Staut趋势存在性检验 检验原理检验原理:
11、设数据序列:,双边假设检验问题:令:取数对 ,为正的数目,为负的数目,当正号或者负号太多的时候,认为数据存在趋势。在零假设情况下 Di服从二项分布。从而转化为符号检验问题。01H:H:数据序列无趋势有增长或减少趋势n/2,ncn为偶数(n+1)/2,为奇数ii c(x,x)iiicDxxSSKmin(S,S)b(n,0.5)X1,X2,Xn例3.6 某地区32年来的降雨量如下表 问(1):该地区前10年来降雨量是否有变化?(2):该地区32年来降雨量是否有变化?年份 1971 1972 1973 1974 1975 1976 1977 1978降雨量 206 223 235 264 229 2
12、17 188 204年份 1979 1980 1981 1982 1983 1984 1985 1986降雨量 182 230 223 227 242 238 207 208年份 1987 1988 1989 1990 1991 1992 1993 1994降雨量 216 233 233 274 234 227 221 214年份 1995 1996 1997 1998 1999 2000 2001 2002降雨量 226 228 235 237 243 240 231 210=5,52PKk2PK22(0.5)(1 5 10)10.05 计算结论:不能拒绝零假设。x y binom.test
13、(sum(xy),length(x),0.5)Exact binomial testdata:sum(x x y binom.test(sum(xy),length(x-y),0.5)Exact binomial testdata:sum(x y)out of length(x-y)number of successes=2,n=16,p-value=0.004181alternative hypothesis:p is not equal to 0.5 结论:拒绝H0,认为降雨量有明显变化.rain year anova(lm(rain(year)Analysis of Variance T
14、ableResponse:rainTerms added sequentially(first to last)Df Sum of Sq Mean Sq F Value Pr(F)year 1 535.36 535.3637 1.579228 0.2185691Residuals 30 10170.11 339.0035 接受H0,认为降雨量线性趋势并不显著.yearrain1970197519801985199019952000180200220240260随机游程检验游程的概念游程的概念 一个总体,如按性别区分的人群,按产品是否有毛病区分的总体等等,随机从中抽取一个样本,样本也可以分为两类
15、;类型I和类型E。若凡属类型I的给以符号A,类型E的给以符号B,则当样本按某种顺序排列(如按抽取时间先后排列)时,一个或者一个以上相同符号连续出现的段,就被称作游程,也就是说,游程是在一个两种类型的符号的有序排列中,相同符号连续出现的段。例如例如,将某售票处排队等候购票的人按性别区分,男以A表示,女以B表示。按到来的时间先后观察序列为:AABABB。在这个序列中,AA为一个游程,连续出现两个A;B是一个游程,A也是一个游程,BB也是一个游程。于是,在这个序列中,A的游程有2个,B的游程也有2个,序列共有4个游程。每一个游程所包含的符号的个数,称为游程的长度。如上面的序列中,有一个长度为2的A游
16、程、一个长度为2的B游程,长度为1的A游程、B游程也有1个。游程:01111为两个游程游程长度:一个游程中数据的个数一个序列里游程个数记为R.例3.7 序列1100001110110000111100 R=8,游程长度分别为2,4,3,1,2,4,4,2极端情况:000001111111 R=2 0101010101010 R=2min(n0,n1)+1 所以,2R2min(n0,n1)+1极端情况都说明数据不具有随机性。R服从什么分布呢?检验原理和计算方法检验原理和计算方法设是由0或者1组成的序列 ,假设检验问题:01H:H:数据出现顺序随机数据出现不随机R为游程个数,假设有 个0,个1,这
17、时R取任何一个值的概率都是 ,R的条件分布 0n1n01nnn1n1/()n101n1 n12()()k1k1P(R2k)n()n10101n1 n1n1 n1()()()()k1kkk1P(R2k1)n()n建立了抽样分布之后,在零假设成立时,可以计算 或者 的值,进行检验。P(Rr)P(Rr)X1,X2,Xn小样本的例子小样本的例子(p69 例例3.8)H0:样本中的观测是随机产生的样本中的观测是随机产生的.Ha:样本中的观测是随机产生的样本中的观测是随机产生的 =.05n1=18n2=8R=12由于由于 7 R=12 17,不能拒绝不能拒绝 H0Runs Test:大样本的例子大样本的例
18、子Rnnn n211212RRRZ经验表明:经验表明:如果如果 n1或或 n2 20,R 的的抽样分布近似为正态抽样分布近似为正态1212122122(2)(1)12()Rnnnnn nn nnnRuns Test:大样本例子大样本例子(p70 例例3.10)H0:样本中的观测是随机产生的样本中的观测是随机产生的.Ha:样本中的观测是随机产生的样本中的观测是随机产生的 =.05n1=40n2=10如果如果-1.96 Z 1.96,不能拒绝不能拒绝 H0否则否则 拒绝拒绝H0.1 1 2 3 4 5 6 7 8 9 0 11NNN F NNNNNNN F NN FF NNNNNN F NNNN
19、F NNNNN 12 13FFFF NNNNNNNNNNNN R=13Runs Test:大样本例子大样本例子1711040)10)(40(2122121nnnnR213.2)11040()10()40()10)(40(2)10)(40(2)1(21)2(2)1040()(2212212121nnnnnnnnnnR81.1213.21713RRRZ-1.96 Z=-1.81 1.96,不能拒绝不能拒绝 H0http:/cran.r-project.org/web/packages/tseries/index.html library(tseries)run1=c(1,1,1,0,rep(1,7
20、),0,1,1,0,0,rep(1,6),+0,rep(1,4),0,rep(1,5),rep(0,4),rep(1,13)ff=as.factor(run1)runs.test(ff)Runs Testdata:ff Standard Normal=-1.8074,p-value=0.0707alternative hypothesis:two.sided Wilcoxon符号秩检验,()()1()xR FxP XxP XxF x 基本概念及性质 对称分布的中心一定是中位数,在对称分布情况下,中位数不唯一,研究对称中心比中位数更有意义。例:下面的数据中,O是对称中心吗?0 0称连续分布F(x
21、)关于 对称,如果称 是分布的对称中心。Wilcoxon符号秩检验既考虑了Xi-M0的符号,又考虑其大小。Wilcoxon符号秩检验原理以及性质符号秩检验原理以及性质 如果数据关于如果数据关于0点对称,那么对称中心两侧的数据疏密程点对称,那么对称中心两侧的数据疏密程度应该一样,取正值数据在绝对值样本中的秩和与取负值在绝度应该一样,取正值数据在绝对值样本中的秩和与取负值在绝对值样本中的秩和相近。对值样本中的秩和相近。用用 表示表示 在绝对值样本中的秩,在绝对值样本中的秩,Wilcoxon符号秩统计量定义为:符号秩统计量定义为:jRj|x|njjj 1WR I(X0)正等级的总和即正秩次总和正等级
22、的总和即正秩次总和 负等级的总和即负秩次总和负等级的总和即负秩次总和njjj 1WR I(X0)Wilcoxon符号秩检验原理以及性质符号秩检验原理以及性质例例3.11 3.11 如果样本值:如果样本值:9,13,-7,10,-18,49,13,-7,10,-18,4,计算符号秩统计,计算符号秩统计量。量。njjj 1WR I(X0)354 1 13 X1X2X3X4X5X6913-710-184|X1|X2|X3|X4|X5|X6|R1+=3R2+=5R3+=2R4+=4R5+=6R6+=1Wilcoxon符号秩检验步骤:符号秩检验步骤:3.令 表示和 对应的 的秩和,令 表示 和 对应的
23、的秩和。Wi0XM0i0|XM|Wi0XM0i0|XM|i0|XM|2.找出 的秩,打结时取平均秩。i0|XM|,i 1,2,.,n1.计算计算4.双边检验 ,取 ,当W很小时拒绝零假设;对 ,取 ;对 ,取 。0010H:MMH:MMWmin(W,W)0010H:MMH:MMWW0010H:MMH:MMWW5.根据W的值查Wilcoxon符号秩检验分布表。对n很大的时候,可以采用正态近似。00H:MM对原问题Wilcoxon符号秩统计量分布符号秩统计量分布 在小样本情况下可以计算Wilcoxon符号秩统计量的精确分布。在大样本情况下可以使用正态近似:Wn(n1)/4ZN(0,1)n(n1)(
24、2n1)/24 计算出Z值以后,查正态分布表对应的p-值,如果p-值很小,则拒绝零假设。在小样本情况下,用连续性修正公式:Wn(n1)/40.5ZN(0,1)n(n1)(2n1)/24例例3.12 为了解垃圾邮件对大型公司决策层工作发影响程度,某为了解垃圾邮件对大型公司决策层工作发影响程度,某网站收集了网站收集了19家大型公司的家大型公司的CEO邮箱里每天收到的垃圾邮邮箱里每天收到的垃圾邮件数,得到如下数据件数,得到如下数据:(单位:封单位:封)310 350 370 377 389 400 415 425 440 295 325 296 250 340 298 365 375 360 385
25、问收到垃圾邮件的数量的中心位置是否超出问收到垃圾邮件的数量的中心位置是否超出320封封?使用Wilcoxon符号秩检验法符号秩检验法计算如下:01H:320,H:320 例例3.121030505769809510512025-+-2710121416171819652470202245554065+-+-+1515 34911813iRi|X320|0.005W158158 19 20/40.5Z2.5553,Z2.575819 20 39/24iWiRi|X320|结论:不拒绝原假设。例例3.12用R的内置函数计算格式:wilcox.test(x,y,alternative=two.sid
26、ed,mu=0,paired=F,exact=T,correct=T)alternative two.sided“or greater or less mu X分布的中心位置paired 是否是配对 exact 使用W+的精确分布correct 使用正态近似 x y wilcox.test(x,y)Exact Wilcoxon rank-sum testdata:x and y rank-sum statistic W=135,n=10,m=10,p-value=0.0232 alternative hypothesis:mu is not equal to 0 wilcox.test(x,y
27、,alternative=greater)Exact Wilcoxon rank-sum testdata:x and y rank-sum statistic W=135,n=10,m=10,p-value=0.0116 alternative hypothesis:mu is greater than 0 例例3.12 ssn wilcox.test(x-320)Wilcoxon signed rank testdata:ss-320 V=158,p-value=0.009453alternative hypothesis:true location is not equal to 0 例例3.12S14,S5,n19,p0.06360.01 如果采用binom符号检验法,即计算Yi=IXi320,S+=SUM(Yi)结论:接受H0。Wilcoxon符号秩检验采用了比符号检验更多的信息,一般地,可以得到比较好的结果。但如果假定了总体分布的对称性,如果对称性不成立,则使用符号检验的结果更可靠。01H:P0.5,H:P0.5