1、浙江大学流行病与卫生统计学教研室浙江大学流行病与卫生统计学教研室李秀央李秀央Email: 率的抽样误差与可信区间率的抽样误差与可信区间 一、率的抽样误差与标准误一、率的抽样误差与标准误 二、总体率的可信区间二、总体率的可信区间一、一、 率的抽样误差与标准误率的抽样误差与标准误 样本率样本率(p)和总体率和总体率()的差异称为率的的差异称为率的抽抽样误差样误差(sampling error of rate) ,用,用率的标率的标准误准误(standard error of rate)度量。)度量。np)1( 如果总体率如果总体率未知,用未知,用样本率样本率p估计估计nppsp)1( 标准误的计算
2、标准误的计算二、二、 总体率的可信区间总体率的可信区间 总体率的可信区间总体率的可信区间 (confidence interval of rate):根据样本率推算总体率可能所在的范围根据样本率推算总体率可能所在的范围 率的统计学推断率的统计学推断 一、样本率与总体率比较一、样本率与总体率比较u u检验检验 二、两个样本率的比较二、两个样本率的比较u u检验检验一、样本率与总体率比较的一、样本率与总体率比较的u u检验检验u u检验的条件:检验的条件:n p 和n(1- p)均大于5时例例 55,-地地中中海海贫贫血血基基因因携携带带率率:山山区区 p=12/125=0.096, n=125;
3、本本省省一一般般成成人人0 0=0.076, H0:= =0 0= =0 0. .0 07 76 6 H1:0 0 = =0 0. .0 05 5。 按按= =0 0. .0 05 5 水水准准,不不拒拒绝绝 H0,即即不不能能认认为为该该山山区区与与本本省省一一般般 成成人人的的-地地中中海海贫贫血血基基因因携携带带率率有有差差异异。 )1(0000nppup844.0125)076.01(076.0076.0096.0二、两个独立样本率比较的二、两个独立样本率比较的u u检验检验96. 11949. 2)6412041)(1045. 01 (1045. 00313. 01275. 0u表表
4、5-1 两种疗法的心血管病病死率比较两种疗法的心血管病病死率比较疗法死亡生存 合计病死率(%)盐酸苯乙双胍26 (X1)178 204(n1) 12.75 (p1)安慰剂 2 (X2) 62 64(n2) 3.13 (p2)合 计 28240 268 10.45 (pc)2122112121nnpnpnnnXXpc)11)(1 (21212121nnppppSppuccppu u检验的条件:检验的条件:n n1 1p p1 1 和和n n1 1( (1- p1- p1 1) )与与n n2 2p p2 2 和和n n2 2( (1- p1- p2 2) )均均 55卡方检验卡方检验 2检验(C
5、hi-square test)是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率间的比较,计数资料的关联度分析,拟合优度检验等等。 本章仅限于介绍两个和多个率或构成比比较的2检验。一、卡方检验的基本思想一、卡方检验的基本思想(1)疗法疗法死亡死亡生存生存 合计合计病死率病死率(%)盐酸苯乙双胍盐酸苯乙双胍26 (a)178 (b) 204(a+b) 12.75 (p1)安慰剂安慰剂 2 (c) 62 (d) 64(c+d) 3.13 (p2)合合 计计 28 (a+c.)240(b+d.) 268(a+b
6、+c+d=n) 10.45 (pc)表表5-1 5-1 两种疗法的心血管病病死率的比较两种疗法的心血管病病死率的比较(a+b)pc= (a+b)(a+c.)/ n=nRnC/n =21.3(a+b)(1-pc)= (a+b)(b+d.)/ n =nRnC/n =182.7(c+d)pc= (c+d)(a+c)/ n =nRnC/n =6.7(c+d)(1-pc)= (c+d)(b+d.)/ n =nRnC/n =57.3nnncolumnrowTCR总例数合计列合计行)()(一、卡方检验的基本思想一、卡方检验的基本思想(2) 各种情形下,理论与实际偏离的总和即为卡方值(chi-square v
7、alue),它服从自由度为的卡方分布。) 1)(1(,1)()(222CRTTATTA1) 12)(12(82. 4)3 .5717 . 617 .18213 .211(7 . 423 .57)3 .5762(27 . 6)7 . 62(27 .182)7 .182178(23 .21)3 .2126(22v2/) 12/(2222)2/(21)(ef3.847.8112.59P P0.050.05的临界值的临界值2分布分布(chi-square distribution)2检验的基本公式检验的基本公式) 1)(1(1)()(222CRTTATTA 上述上述基本公式基本公式由由Pearson提
8、出,因此软件上常称这种检验为Peareson卡方检验,下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料,也适用于其它的“行列表”。二、四格表专用公式(二、四格表专用公式(1) 为了不计算理论频数为了不计算理论频数T, 可由可由基本公式基本公式推导出,推导出,直接由直接由各格子的实际频数(各格子的实际频数(a、b、c、d)计算卡方值的公式:)计算卡方值的公式:(四格表专用公式)基本公式:;1)()()()()()()()()()()(222222dbcadcbanbcaddcbadbdcdcbadbdcddcbadbbadcbadbbabdcbacabadcbaca
9、baaTTA二、四格表专用公式(二、四格表专用公式(2)021 ,05. 0221021 ,05. 0221 ,05. 0205. 0;84. 3,05. 0;84. 305. 0;84. 31 , 82. 46424028204268)21786226(22HPHPP,即不拒绝则如果即拒绝如果下结论:2(1) u2 2.194924.82(n40,所有T5时)三、连续性校正公式(三、连续性校正公式(1) 2分布是一连续型分布,而行分布是一连续型分布,而行列表资料属离散型分布列表资料属离散型分布,对其进行校正称为连续性校正,对其进行校正称为连续性校正(correction for (corre
10、ction for continuity),continuity),又称又称YatesYates校正(校正(Yates correctionYates correction)。)。当当n40,而,而1T5时,用时,用连续性校正连续性校正公式公式当当n40或或T1时,用时,用Fisher精确精确检验检验(Fisher exact test )校正公式校正公式:列表资料),(也适合其它行TTAc22)5 . 0()()()()2/(22dbcadcbannbcadc三、连续性校正公式(三、连续性校正公式(2)表 5-2 两零售点猪肉表层沙门氏菌带菌情况检查结果 沙门氏菌 零售点 阳性 阴性 合计
11、带菌率(%) 甲 2(4.17) 26(23.33) 28 7.14 乙 5(2.33) 9(11.67) 14 35.71 合计 7 35 42 16.67 1 , 62. 3357142842)24262592(22c1 , 49. 5357142842)26592(22因为因为1 1T T5 5,且,且n n4040时,所以应用连续性校正时,所以应用连续性校正2检验检验四、配对四格表资料的四、配对四格表资料的2检验检验配对四格表资料的配对四格表资料的2检验也称检验也称McNemar检验(检验(McNemars test) 1,) 1(2402cbcbcb时,需作连续性校正, 1,27.
12、4312) 1312(22,4015采用连续性校正本例cb 1,)(2240ccbcbb时,当05. 0;84. 321 ,05. 02PH0:b,c来自同一个实验总体(两种剂量的毒性无差异);H1:b,c来自不同的实验总体(两种剂量的毒性有差别);=0.05。五、行列(RC)表资料的2检验RC表的2检验通用公式nnnTCR总例数列合计行合计理论频数代入基本公式 可推导出: 基本公式 通用公式 ) 1()(2222CRnnAnTTA 自由度=(行数1) (列数1) 几种RC表的检验假设H0RC表的计算举例RC表2检验的应用注意事项 1. 对RC表,若较多格子(1/5)的理论频数小于5或有一个格
13、子的理论频数小于1,则易犯第一类错误。出现某些格子中理论频数过小时怎么办? (1)增大样本含量(最好!) (2)删去该格所在的行或列(丢失信息!) (3)根据专业知识将该格所在行或列与别的行或列合并。(丢失信息!甚至出假象) RC表2检验的应用注意事项 2.2.多组比较时,若效应有强弱的等级,如多组比较时,若效应有强弱的等级,如+ +,+,+,最好采用后面的非参数检验方法。最好采用后面的非参数检验方法。2 2检验只能反映其构成比检验只能反映其构成比有无差异,不能比较效应的平均水平。有无差异,不能比较效应的平均水平。 3.3.行列两种属性皆有序时,可考虑趋势检验或等级相关行列两种属性皆有序时,可考虑趋势检验或等级相关分析。分析。