1、8.3列联表与独立性检验8.3.2 独立性检验讲课人:邢启强2我们将下表这种形式的数据统计表称为22列联表(contingency table).复习回顾复习回顾22列联表给出了成对分类变量数据的交叉分类频数,以下表为例,它包含了X和Y的如下信息:最后一行的前两个数分别是事件Y=0和Y=1中样本点的个数;最后一列的前两个数分别是事件X=0和X=1中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件X=x,Y=y(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX讲课人:邢启强3
2、复习回顾复习回顾两个分类变量之间关联关系的定性分析的方法:两个分类变量之间关联关系的定性分析的方法:(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.讲课人:邢启强4 “两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,
3、所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.讲课人:邢启强5X=0与Y=0独立;X=0与Y=1独立;X=1与Y=0独立;X=1与Y=1独立。学习新知学习新知讲课人:邢启强6以上性质成立,我们就称分类变量X和Y独立,这相当于下面四个等式成立;P(X=0,Y=0)=P(X=0)P(Y=0);P(X=0,Y=1)=P(X=0)P(Y=1);P(X=1,Y=0)=P(X=1)P(Y=0);P(X=1,Y=1)=P(X=1)P(Y=1).我们可以用概率语言,将零假设改述为H0:分类变量X和
4、Y独立.假定我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示。n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX对于随机样本,表中的频数a,b,c,d 都是随机变量,而表中的相应数据是这些随机变量的一次观测结果。表是关于分类变量X和Y的抽样数据的22列联表:最后一行的前两个数分别是事件Y=0和Y=1的频数;最后一列的前两个数分别是事件X=0和X=1的频数;中间的四个数a,b,c,d是事件X=x,Y=y(x,y=0,1)的频数;右下角格中的数n是样本容量。讲课人:邢启强7思考:如何基于中的四个等式及列联表中的数据,构造适当的统计量,对成对分类变量X
5、和Y是否相互独立作出推断?P(X=0,Y=0)=P(X=0)P(Y=0);P(X=0,Y=1)=P(X=0)P(Y=1);P(X=1,Y=0)=P(X=1)P(Y=0);P(X=1,Y=1)=P(X=1)P(Y=1).n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX讲课人:邢启强8综合中的四个式子,如果零假设H0成立,下面四个量的取值都不应该太大:反之,当这些量的取值较大时,就可以推断H0不成立。分别考虑中的四个差的绝对值很困难,我们需要找到一个既合理又能够计算分布的统计量,来推断H0是否成立.一般来说,若频数的期望值较大,则中相应的差的绝对值也会较大;而
6、若频数的期望值较小,则中相应的差的绝对值也会较小.为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:该表达式可化简为讲课人:邢启强9讲课人:邢启强10独立性检验公式及定义:独立性检验公式及定义:提出零假设(原假设)H0:分类变量X和Y独立 2=2()()()()()n adbcab cd ac bd为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量学习新知学习新知2独立性检验中几个常用的小概率值和相应的临界值.10.8287.8796.6353.8412.706x0.0010.0050.010.050.1n=a+b+c+
7、db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX讲课人:邢启强11临界值的定义:临界值的定义:对于任何小概率值,可以找到相应的正实数x,使得P(2x)=成立,我们称x为的临界值,这个临界值可作为判断2大小的标准,概率值越小,临界值x越大.2独立性检验中几个常用的小概率值和相应的临界值.基于小概率值的检验规则:当2x时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;当2x时,我们没有充分证据推断H0不成立,可以认为X和Y独立.10.8287.8796.6353.8412.706x0.0010.0050.010.050.1 用2取值的大小作为判断零假设H
8、0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立。这种利用2的取值推断分类变量X和Y是否独立的方法称为2独立性检验,读作“卡方独立性检验”,简称独立性检验.讲课人:邢启强12例例1:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生名学生.通过测验得到了如下数据:甲校通过测验得到了如下数据:甲校43名学生中有名学生中有10名数学成绩优秀;乙校名数学成绩优秀;乙校45名学生中有名学生中有7名数学成绩优秀名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异试分析两校学生中数学成绩优秀率之间是
9、否存在差异.解:零假设为解:零假设为H0:分类变量:分类变量X与与Y相互独立,即两校学生的数学成绩优秀率无差异相互独立,即两校学生的数学成绩优秀率无差异.学校学校数学成绩数学成绩合计合计不优秀(不优秀(Y=0)优秀(优秀(Y=1)甲校(甲校(X=0)331043乙乙校(校(X=1)38745合计合计711788因为因为讲课人:邢启强13思考例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗?当我们接受零假设H0时,也可能犯错误。我们不知道犯这类错误的概率p的大小,但是知道,若越大,则p越小讲课人:邢启强14解:零假设为解:零假设为H0:疗法与疗效独立,即两种疗法效果
10、没有差异:疗法与疗效独立,即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表,将所给数据进行整理,得到两种疗法治疗数据的列联表,疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈甲甲155267乙乙66369合计合计21115136讲课人:邢启强15不影响不影响疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈甲甲155267乙乙66369合计合计21115136疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈乙乙66369甲甲155267合计合计21115136疗法疗法疗效疗效合计合计治愈治愈未治愈未治愈甲甲521567乙乙63669合计合计11521136讲课人:邢启强16解:零假设
11、为解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异:疗法与疗效独立,即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表,将所给数据进行整理,得到两种疗法治疗数据的列联表,疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈甲甲155267乙乙66369合计合计21115136讲课人:邢启强17解:解:因此可以推断乙种疗法的效果比甲种疗法好因此可以推断乙种疗法的效果比甲种疗法好。讲课人:邢启强18例例4 4:为了调查吸烟是否对肺癌有影响,某肿瘤研究所采取有放回简单随机抽样,调查了9965人,得到如下结果(单位:人)依据小概率值=0.001的独立性检验,分析吸烟是否会增加患肺
12、癌的风险。解:零假设为解:零假设为H H0 0:吸烟和患肺癌之间没有关系根据列联表中的数据,经计算的20.0019965(7775 4942 2099)56.63210.828=7817 2148 9874 91x2=根据小概率值=0.001的独立性检验,推断H0不成立,即认为吸 烟与患肺癌有关联,此推断犯错误的概率不大于0.001,即我们有99.9的把握认为“吸烟与患肺癌有关系”.吸烟肺癌合计非肺癌患者肺癌患者非吸烟者7775427817吸烟者2099492148合计9874919965讲课人:邢启强19根据表中的数据计算不吸烟者中不患肺癌和患肺癌的频率分别为吸烟者中不患肺癌和患肺癌的评率分
13、别为由 可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌频率的4倍倍以上。于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌概率,即吸烟更容易引发肺癌。427817781777750.9946,0.0054492148214820990.9772,0.02284.20.00540.0228讲课人:邢启强20方法总结应用独立性检验解决实际问题大致应包括以下几个主要环节:应用独立性检验解决实际问题大致应包括以下几个主要环节:注意注意:上述几个环节的内容可以根据不同情况进行调整,上述几个环节的内容可以根据不同情况进行调整,例如,在有些时候,分类变量的抽样数据列
14、联表是问题中给定的例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.P(2x0)0.500.400.250.150.100.050.025 0.010 0.0050.001x00.455 0.708 1.323 2.072 2.7063.8415.024 6.635 7.879 10.828讲课人:邢启强21P(x0)0.500.400.250.150.100.050.025 0.010 0.0050.001x00.455 0.708 1.323 2.072 2.7063.8415.024 6.635 7.879 10.828210.828K26.635K22.706K22.706K0
15、.1%0.1%把握认把握认为为A A与与B B无关无关1%1%把握认为把握认为A A与与B B无关无关99.9%99.9%把握认把握认为为A A与与B B有关有关99%99%把握认把握认为为A A与与B B有关有关90%90%把握认把握认为为A A与与B B有关有关10%10%把握认为把握认为A A与与B B无关无关没有充分的依据显示没有充分的依据显示A A与与B B有关,有关,但也不能显示但也不能显示A A与与B B无关无关例如例如学习新知学习新知讲课人:邢启强22 在在500500人身上试验某种血清预防感冒作用,把他们一年中的人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外感冒
16、记录与另外500500名未用血清的人的感冒记录作比较,结果如表所示。名未用血清的人的感冒记录作比较,结果如表所示。问:该种血清能否起到预防感冒的作用?问:该种血清能否起到预防感冒的作用?未感冒未感冒感冒感冒合计合计使用血清使用血清258242500未使用血清未使用血清216284500合计合计4745261000解:设解:设H0:感冒与是否使用该血清没有关系。:感冒与是否使用该血清没有关系。因当因当H0成立时,成立时,26.635的概率约为的概率约为0.01,故有,故有99%的把握认为该血清能起到的把握认为该血清能起到预防感冒的作用。预防感冒的作用。P(x0)0.500.400.250.150
17、.100.050.025 0.010 0.0050.001x00.455 0.708 1.323 2.072 2.7063.8415.024 6.635 7.879 10.828典型例题典型例题讲课人:邢启强23P(x0)0.500.400.250.150.100.050.025 0.010 0.0050.001x00.455 0.708 1.323 2.072 2.7063.8415.024 6.635 7.879 10.828有效有效无效无效合计合计口服口服585840409898注射注射646431319595合计合计1221227171193193解:设解:设H0:药的效果与给药方式没
18、有关系。:药的效果与给药方式没有关系。2.072 为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查的结果列在表中,根据所选择的否有关,进行了相应的抽样调查,调查的结果列在表中,根据所选择的193193个病人个病人的数据,能否作出药的效果和给药方式有关的结论?的数据,能否作出药的效果和给药方式有关的结论?典型例题典型例题讲课人:邢启强24P(x0)0.500.400.250.150.100.050.025 0.010 0.0050.001x00.455 0.708 1.323 2.072 2
19、.7063.8415.024 6.635 7.879 10.828 气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示,问:它们的疗效有无差异?管炎的疗效进行对比,所得数据如表所示,问:它们的疗效有无差异?有效有效无效无效合计合计复方江剪刀草复方江剪刀草18461245胆黄片胆黄片919100合计合计27570345解:设解:设H0:两种中草药的治疗效果没有差异。:两种中草药的治疗效果没有差异。典型例题典型例题讲课人:邢启强25 某校对学生的课外活动进行调查,结果整理成下表:某校对
20、学生的课外活动进行调查,结果整理成下表:体育体育文娱文娱总计总计男生男生212344女生女生62935总计总计275279试用你所学过的知识分析:能否在犯错误的概率不超过试用你所学过的知识分析:能否在犯错误的概率不超过0.005的前提下,认为的前提下,认为“喜喜欢体育还是文娱与性别有关系欢体育还是文娱与性别有关系”?巩固练习巩固练习讲课人:邢启强26a21,b23,c6,d29,n79,即我们得到的即我们得到的K2的观测值的观测值k8.106超过超过7.879这就意味着:这就意味着:“喜欢体育还是文娱与性别没喜欢体育还是文娱与性别没有关系有关系”这一结论成立的可能性小于这一结论成立的可能性小于
21、0.005,即在犯错误的概率不超过即在犯错误的概率不超过0.005的前提下认的前提下认为为“喜欢体育还是喜欢文娱与性别有关喜欢体育还是喜欢文娱与性别有关”P(x0)0.500.400.250.150.100.050.025 0.010 0.0050.001x00.455 0.708 1.323 2.072 2.7063.8415.024 6.635 7.879 10.828巩固练习巩固练习讲课人:邢启强27 某县城区常见在合法的广告牌上又贴有违法的黑广告,城管对此进行了清理,某县城区常见在合法的广告牌上又贴有违法的黑广告,城管对此进行了清理,并下了通告一周后,城管对某街道进行了检查作了如下统计
22、:并下了通告一周后,城管对某街道进行了检查作了如下统计:贴有黑广告贴有黑广告 未贴有黑广告未贴有黑广告总计总计通告前通告前39157196通告后通告后29167196总计总计68324392请你判断,城管下通告对减少黑广告数是否有效?请你判断,城管下通告对减少黑广告数是否有效?巩固练习巩固练习讲课人:邢启强28巩固练习巩固练习C讲课人:邢启强29先假设两个分类变量先假设两个分类变量X与与Y无关系,利用上述公式根据观测无关系,利用上述公式根据观测数据求出数据求出K2的观测值的观测值k,再得出,再得出X与与Y有关系的程度有关系的程度(1)如果如果k10.828,就有,就有_的把握认为的把握认为“X
23、与与Y有关系有关系”(2)如果如果k7.879,就有,就有_的把握认为的把握认为“X与与Y有关系有关系”;99.9%99.5%(3)如果如果k_,就有,就有99%的把握认为的把握认为“X与与Y有关系有关系”(4)如果如果k5.024,就有,就有97.5%的把握认为的把握认为“X与与Y有关系有关系”(5)如果如果k3.841,就有,就有_的把握认为的把握认为“X与与Y有关系有关系”(6)如果如果k2.706,就有,就有_的把握认为的把握认为“X与与Y有关系有关系”.6.63595%90%课堂小结课堂小结不渴望能够一跃千里,只希望每天能够前进一步。讲课人:邢启强301.分类变量X和Y的抽样数据的22列联表:课堂小结2.独立性检验的一般步骤:(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出22列联表,计算2的值,并与临界值x比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX