1、第十七章第十七章 分类资料的统计推断分类资料的统计推断第一节第一节 率的抽样误差与区间估计率的抽样误差与区间估计 v一、率的抽样误差一、率的抽样误差v 如同前面所讨论过的样本均数与总体均数存在如同前面所讨论过的样本均数与总体均数存在着抽样误差一样,样本率与总体率同样存在着抽样着抽样误差一样,样本率与总体率同样存在着抽样误差。这个误差的大小我们用误差。这个误差的大小我们用率的标准误率的标准误来描述,来描述,v用用 表示。表示。v 由于抽样引起的样本率之间及样本率与总体率由于抽样引起的样本率之间及样本率与总体率之间的误差,称为之间的误差,称为率的抽样误差率的抽样误差或或率的标准误。率的标准误。pp
2、v 式中式中 为总体率,为总体率,为样本例数。为样本例数。np)1(nv由于在实际中,总体率往往未知,我们常用由于在实际中,总体率往往未知,我们常用样本率样本率P P来近似代替总体率,则上述公式变来近似代替总体率,则上述公式变为:为:v v式中式中 为为样本率的标准误,P P为样本率为样本率,为样本例数。为样本例数。nppSp)1(pSn例例17-1 某研究者为了解某地儿童结核的自然感染情况,某研究者为了解某地儿童结核的自然感染情况,调查了调查了500儿童,其中有儿童,其中有20人感染了结核,结核的自然感人感染了结核,结核的自然感染率为染率为4%.试估计该样本频率的抽样误差。试估计该样本频率的
3、抽样误差。已知:已知:p=4%,n=500,代入公式得到标准误估计值:代入公式得到标准误估计值:10.04 1 0.040.0088500pppSnv点估计点估计v区间估计区间估计 正态近似法正态近似法 查表法查表法 Pp=(,)ppPu SPu Saa-+总体率的估计总体率的估计 二、率的区间估计二、率的区间估计v(一)正态近似法(一)正态近似法v当当n n足够大,且足够大,且npnp和和n(1-p)n(1-p)均大于等于均大于等于5 5时,时,P P的分的分布接近正态分布。可用下列公式来求总体率的可信布接近正态分布。可用下列公式来求总体率的可信区间:区间:),(22ppSuPSuP)117
4、(例例17.117.1 中结核感染率中结核感染率95%95%的可信区间为的可信区间为/2/21.96 0.00880.00880.0228,0.0572PPuss(p,p+u)(0.04,0.04+1.96)=v(二)查表法(二)查表法v 当样本含量较小时,比如当样本含量较小时,比如n50,n50,特别是特别是p p接接近近0 0或或1 1,需查表(百分率的可信区间表),得,需查表(百分率的可信区间表),得到总体率的可信区间。到总体率的可信区间。第二节第二节 率的率的u u检验检验v一、样本率与总体率的比较一、样本率与总体率的比较1punv例例17.217.2 某研究者用新的方法治疗脑梗死患者
5、某研究者用新的方法治疗脑梗死患者9898人,治疗四周后其生活能力改善率为人,治疗四周后其生活能力改善率为50%50%。一。一般情况下脑梗死患者四周后生活能力改善率为般情况下脑梗死患者四周后生活能力改善率为30%30%,问该疗法与一般情况相比其生活能力改善,问该疗法与一般情况相比其生活能力改善率是否有统计学差异?率是否有统计学差异?v分析:分析:npnp和和n(1-p)n(1-p)均大于等于均大于等于5 5,可认为近似,可认为近似正态分布,可用正态分布,可用u u检验。检验。v1 1、建立检验假设,确定检验水准、建立检验假设,确定检验水准vH H0 0:1 1=2 2vH H1 1:1 12 2
6、v=0.05=0.05v2 2、计算统计量、计算统计量v3 3、确定、确定P P值,做出推断结论值,做出推断结论0.50.34.3210.3 1 0.398pun二、二、两样本率的比较两样本率的比较121217.5111()ccppuppnnv例例17.317.3 某研究者为了解乙肝携带率的城乡差某研究者为了解乙肝携带率的城乡差异,调查了城乡居民异,调查了城乡居民10001000人,其中城市人,其中城市522522人,人,乙肝携带者乙肝携带者2424人,携带率为人,携带率为4.6%,4.6%,农村农村478478人,人,乙肝携带者为乙肝携带者为3333人,携带率为人,携带率为6.9%6.9%,
7、试比较乙,试比较乙肝携带城乡差异有无统计学差异。肝携带城乡差异有无统计学差异。v 1 1、建立检验假设,确定检验水准、建立检验假设,确定检验水准 H H0 0:1 1=2 2 H H1 1:1 12 2 =0.05=0.05v 2 2、计算检验统计量、计算检验统计量1212121224330.057522478111()0.0690.0461.567110.057 10.057()522478cccxxpnnppuppnn 3 3、确定、确定P P值,做出推断结论值,做出推断结论。第三节第三节 2 2检验检验 2 2检验检验(Chi-square test)(Chi-square test)是
8、英国人是英国人K.PearsonK.Pearson(1857-19361857-1936)于)于19001900年提出的一种具有广泛用年提出的一种具有广泛用途的统计方法检验。途的统计方法检验。用途:用途:1 1、两个及多个样本率或构成比的比较、两个及多个样本率或构成比的比较2 2、两分类变量间的关联分析、两分类变量间的关联分析3 3、频数分布的拟和优度检验、频数分布的拟和优度检验 四格表资料的基本形式四格表资料的基本形式(一)(一)2检验的基本思想检验的基本思想一一 四格表资料的四格表资料的 2 2检验检验例例17-117-1 某研究者为探讨不同性别大学生的近视眼患病率是否某研究者为探讨不同性
9、别大学生的近视眼患病率是否相同。收集了资料见表相同。收集了资料见表17-217-2。问男女同学近视眼患病率有无差。问男女同学近视眼患病率有无差别?别?表表17-2 17-2 男女生近视眼患病率的比较男女生近视眼患病率的比较性别性别近视人数近视人数视力正常人数视力正常人数合计合计患病率患病率%男男8888(104104)112(96)112(96)20020044.044.0女女120120(104104)80(96)80(96)20020060.060.0合计合计20820819219240040052.052.0性别性别近视人数近视人数视力正常人数视力正常人数 合计合计患病率患病率%男男88
10、88(104104)a a112(112(9696)b)b20020044.044.0女女120120(104104)c c 80(80(9696)d)d20020060.060.0合计合计20820819219240040052.052.0实际频数A理论频数TRCRCRCRCn nTnTRCnnn为为第第 行行第第 列列的的理理论论频频数数为为相相应应行行合合计计数数,为为相相应应列列合合计计数数,为为总总例例数数22(),()(1)A TT行数-1 列数A:实际频数:实际频数 T:理论频数:理论频数即如果检验假设成立,应该观察到的例数。即如果检验假设成立,应该观察到的例数。2022-12-
11、1621 2 2分布是一种连续型分布,分布是一种连续型分布,按分布的密度按分布的密度函数可给出不同自由度的一簇分布曲线。函数可给出不同自由度的一簇分布曲线。2 2分布分布的形状依赖于的形状依赖于自由度自由度的大小。的大小。2 2分布分布(chi-square distributionchi-square distribution)2(/2 1)22/21()2(/2)2fe3.847.8112.59P P0.050.05的临界值的临界值(二)(二)2 2检验的步骤检验的步骤(1 1)建立检验假设,确定检验水准建立检验假设,确定检验水准H H0 0:1 1=2 2,H H1 1:1 12 2,=
12、0.05=0.05222222()(88 104)(11296(120 104)(8096)104961049610.26(2 1)(2 1)1A TT(2 2)计算检验统计量值)计算检验统计量值v(3)(3)确定确定P P 值,作出推断结论值,作出推断结论故故P P 0.01 0.01,按,按=0.05=0.05的检验水准,拒绝的检验水准,拒绝H H0 0,接受,接受H H1 1,差别有统计学意义,可认为女,差别有统计学意义,可认为女生的患病率高于男性。生的患病率高于男性。2220.0510.02510.01,13.845.026.63,查查 2 2界值表:界值表:二、四格表资料二、四格表资
13、料 2 2检验的专用公式检验的专用公式组别组别阳性阳性阴性阴性合计合计A A组组a ab ba+ba+bB B组组c cd dc+dc+d合计合计a+ca+cb+db+da+ba+b+c+dc+d22(),1()()()()adbc nab cd ac bd 为了不计算理论频数为了不计算理论频数T,T,可由基本公式推导出,直接由可由基本公式推导出,直接由各格子的实际频数各格子的实际频数(a a、b b、c c、d d)计算卡方值的公式:)计算卡方值的公式:(四格表专用公式)基本公式:;1)()()()()()()()()()()(222222dbcadcbanbcaddcbadbdcdcbad
14、bdcddcbadbbadcbadbbabdcbacabadcbacabaaTTAv例例1 1222()()()()()(8880112120)20020020020819210.26adbcnabcdacbdv 2 2界值表界值表是根据连续性的理论分布计算出来的,但是根据连续性的理论分布计算出来的,但分类变量资料属于非连续性分布,由此计算出的分类变量资料属于非连续性分布,由此计算出的 2 2值值也是不连续的,仅是也是不连续的,仅是 2 2分布的一种近似,尤其是分布的一种近似,尤其是自由度为自由度为1 1的四格表,当的四格表,当n n与与T T较小时,所得的较小时,所得的P P值值较小,须做连
15、续性校正:较小,须做连续性校正:三、四格表资料三、四格表资料 2 2检验的校正公式检验的校正公式 n 40,且,且Tmin 5时,用时,用 2检验基本公式和专用公式检验基本公式和专用公式 n 40,但,但1Tmin5时,用时,用 2检验校正公式检验校正公式 n40,或,或Tmin1时,或时,或P用四格表用四格表Fisher确切概率法确切概率法校正公式:校正公式:22(0.5)cATT22()2()()()()cnadbcnab cd ac bdv例例17-5 17-5 某医师用甲乙两种方法治疗单纯性肥胖,结某医师用甲乙两种方法治疗单纯性肥胖,结果见表果见表17-317-3。试问两种方法的疗效有
16、无统计学差异?。试问两种方法的疗效有无统计学差异?v v 表表17-3 17-3 两种疗法对单纯性肥胖疗效的比较两种疗法对单纯性肥胖疗效的比较 组别组别有效有效无效无效合计合计 甲甲25(25(27.727.7)7(7(4.34.3)3232 乙乙27(27(24.324.3)1 1(3.7)(3.7)2828 合计合计5252 8 86060v n=78n=78,T T2222=28=28*8/60=3.75,8/60=3.75,应计算校正值应计算校正值 (1 1)建立检验假设,确定检验水准建立检验假设,确定检验水准 H H0 0:1 1=2 2,H H1 1:1 12 2,=0.05=0.
17、05(2 2)求检验统计量值)求检验统计量值(3)(3)确定确定P P 值,作出推断结论值,作出推断结论 222/225 1 7 2760/26032 28 52 82.89(2 1)(2 1)1cadbcnnabcdacbd 例例17-5 17-5:20.05,13.84若未进行校正,若未进行校正,2=4.33,则,则P0.05.二二 配对四格表资料的配对四格表资料的 2 2检验检验例例17-617-6 某研究者用甲乙两种试剂检验某研究者用甲乙两种试剂检验132132份份HBsAgHBsAg阳性血清,结果见表阳性血清,结果见表17-517-5。问两种。问两种方法的检测结果有无差别?方法的检测
18、结果有无差别?分类变量的配对设计资料特点:分类变量的配对设计资料特点:一组观察对象分别观察其两种一组观察对象分别观察其两种分类变量的表现,归纳成双向交叉排列的统计表。分类变量的表现,归纳成双向交叉排列的统计表。配对设配对设计资料计资料 表表7-3 两种方法的检测结果两种方法的检测结果甲试剂甲试剂乙试剂乙试剂合计合计80(a)80(a)10(b)10(b)909031(c)31(c)11(d)11(d)4242合计合计1111112121132132b+cb+c4040,3.确定确定P值值,下结论。下结论。P 2 20.005,20.005,2 ,得,得P P 0.005 0.005,按,按=0
19、.05=0.05的检的检验水准,拒绝验水准,拒绝H H0 0,接受,接受H H1 1,可认为,可认为三种疗法三种疗法治疗的有效率不等治疗的有效率不等根据根据 =3,=3,查查 2 2界值表界值表2220.05,20.01,20.005,25.999.2110.60四四 行行 列表列表 2 2检验注意事项检验注意事项 1 1、行、行 列表资料列表资料 2 2检验,一般不宜有检验,一般不宜有1/51/5以上格子理论频数以上格子理论频数 小于小于5 5,或有一个格子的理论频数小于,或有一个格子的理论频数小于1 1。对理论数太小有三种处理办法:对理论数太小有三种处理办法:A:A:最好是增加样本例数以增
20、大理论频数最好是增加样本例数以增大理论频数 B:B:删除理论频数太小的行和列,或与性质相近邻行列合并删除理论频数太小的行和列,或与性质相近邻行列合并 C:C:改用双向无序改用双向无序R R C C表资料的表资料的FisherFisher确切概率法确切概率法B B法可能会损失信息,损害样本的随机性,故不宜作常规方法法可能会损失信息,损害样本的随机性,故不宜作常规方法 2 2、对于等级资料的统计处理,即当处理效应按强弱分为若、对于等级资料的统计处理,即当处理效应按强弱分为若干个级别,如:干个级别,如:-、+、+、+、+等,由于效应是按顺序等,由于效应是按顺序排列的,那么按试验结果整理为排列的,那么
21、按试验结果整理为单向有序行列表单向有序行列表,在比较各,在比较各处理组的效应有无差别时,宜用下一讲的秩和检验。若作了处理组的效应有无差别时,宜用下一讲的秩和检验。若作了 2 2检验检验只说明各处理组的效应在构成比上有无差异。只说明各处理组的效应在构成比上有无差异。3 3、当多个样本率或构成比比较时,如拒绝、当多个样本率或构成比比较时,如拒绝H0H0只能认为各总体只能认为各总体率或总体构成比之间差别有统计学意义,不能说明彼此间都率或总体构成比之间差别有统计学意义,不能说明彼此间都有差别,或某两者间有差别,若要进一步对每两个率有差别,或某两者间有差别,若要进一步对每两个率/构成比构成比进行比较,可用多个率的多重比较。进行比较,可用多个率的多重比较。SPSSSPSS软件软件