1、独立性检验独立性检验高二数学高二数学 选修选修2-3 黄黄 娟娟高二(高二(4 4)班)班问题问题: 数学家庞加莱每天都从一家面数学家庞加莱每天都从一家面包店买一块包店买一块1000g 的面包,并记录的面包,并记录下买回的面包的实际质量。一年后,下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均这位数学家发现,所记录数据的均值为值为950g。于是庞加莱推断这家面。于是庞加莱推断这家面包店的面包分量不足。包店的面包分量不足。假设假设“面包份量足面包份量足”,则一年购买面包的质量数据,则一年购买面包的质量数据的平均值应该不少于的平均值应该不少于1000g ;“这个平均值不大于这个平均值
2、不大于950g”是一个与假设是一个与假设“面包份量面包份量足足”矛盾的小概率事件;矛盾的小概率事件;这个小概率事件的发生使庞加莱得出推断结果这个小概率事件的发生使庞加莱得出推断结果。 假设检验假设检验问题的原理问题的原理 假设检验问题由假设检验问题由两个互斥的假设两个互斥的假设构成,其构成,其中一个叫做原假设,用中一个叫做原假设,用H0表示;另一个叫做备表示;另一个叫做备择假设,用择假设,用H1表示。表示。例如,在前面的例子中,例如,在前面的例子中, 原假设原假设 H0:面包份量足:面包份量足备择假设备择假设 H1:面包份量不足:面包份量不足这个假设检验问题可以表达为:这个假设检验问题可以表达
3、为: H0:面包:面包份份量足量足 H1:面包:面包份份量不足量不足 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965为了调查吸烟是否对肺癌有影响,某肿瘤研究所为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机调查了随机调查了99659965人,得到如下结果(单位:人)人,得到如下结果(单位:人)在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 说明:说明:吸烟者和不吸烟者患肺癌
4、的可能性存在差异,吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大。吸烟者患肺癌的可能性大。0.54%0.54%2.28%2.28%探究探究 上面我们通过分析数据得到的是吸烟和患肺癌有上面我们通过分析数据得到的是吸烟和患肺癌有关,那么事实是否真的如此呢?关,那么事实是否真的如此呢?这需要用统计观点这需要用统计观点来考察这个问题。来考察这个问题。 H0:吸烟与患肺癌没有关系:吸烟与患肺癌没有关系.用用A表示吸烟,表示吸烟,B表示患肺癌,表示患肺癌, 则则“吸烟与患肺癌吸烟与患肺癌没有关系没有关系”等价于等价于“吸烟与患肺癌独立吸烟与患肺癌独立”,即即 P(AB)=P(A)P(B)
5、不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d 独立性检验独立性检验 为了使不同样本容量的数据有统一的评判标准,基为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量于上述分析,我们构造一个随机变量-卡方统计量卡方统计量dcban其中不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+dn 若若 H0成立,即成立,即“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”,则,则X2应很小应很小。242 209956.6327817 2148 9874 91k9965(7775
6、 49)那么这个值到底能告诉我们什么呢?那么这个值到底能告诉我们什么呢?P(x0)0.500.400.250.150.100.050.025 0.010 0.005 0.001x00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828828.102635. 62 706. 22 706. 22 0.1%0.1%把握认把握认为为A A与与B B无关无关1%1%把握认为把握认为A A与与B B无关无关99.9%99.9%把握认把握认为为A A与与B B有关有关99%99%把握认把握认为为A A与与B B有关有关90%90%把握认把握
7、认为为A A与与B B有关有关10%10%把握认为把握认为 A A与与B B无关无关没有充分的依据显示没有充分的依据显示A A与与B B有关,有关,但也不能显示但也不能显示A A与与B B无关无关 上面这种利用随机变量上面这种利用随机变量X2来确定在多大程来确定在多大程度上可以认为度上可以认为“两个分类变量有关系两个分类变量有关系”的方的方法,称为两个分类变量的法,称为两个分类变量的独立性检验独立性检验例例1 1 在在500500人身上试验某种血清预防感冒作用,把他们人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外一年中的感冒记录与另外500500名未用血清的人的感冒记名未用血清的
8、人的感冒记录作比较,结果如表所示。问:该种血清能否起到预防录作比较,结果如表所示。问:该种血清能否起到预防感冒的作用?感冒的作用?未感冒未感冒感冒感冒合计合计使用血清使用血清258242500未使用血清未使用血清216284500合计合计4745261000解:设解:设H0:感冒与使用该血清没有关系:感冒与使用该血清没有关系P(x0)0.500.400.250.150.100.050.025 0.010 0.005 0.001x00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828由于由于26.635的概率约为的概率约为0.0
9、1,故有,故有99%的把握认为的把握认为该血清能起到预防感冒的作用。该血清能起到预防感冒的作用。练习练习1 1 为研究不同的给药方式(口服与注射)和药的效果(有为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查的结果效与无效)是否有关,进行了相应的抽样调查,调查的结果列在表中,根据所选择的列在表中,根据所选择的193193个病人的数据,能否作出药的效个病人的数据,能否作出药的效果和给药方式有关的结论?果和给药方式有关的结论?有效有效无效无效合计合计口服口服585840409898注射注射646431319595合计合计1221227171193193
10、练习练习2气管炎是一种常见的呼吸道疾病,医药研究人员对两种气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示,中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示,问:它们的疗效有无差异?问:它们的疗效有无差异?有效有效无效无效合计合计复方江剪刀草复方江剪刀草18461245胆黄片胆黄片919100合计合计27570345P(x0)0.500.400.250.150.100.050.025 0.010 0.005 0.001x00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.82
11、8有效有效无效无效合计合计口服口服585840409898注射注射646431319595合计合计1221227171193193解:设解:设H0:药的效果与给药方式没有关系。:药的效果与给药方式没有关系。由于由于21.3896的概率大于的概率大于10%,故不能否定假设,故不能否定假设H0,即不能作,即不能作出药的效果与给药方式有关的结论。出药的效果与给药方式有关的结论。2.706练习练习1 1 为研究不同的给药方式(口服与注射)和药的为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调效果(有效与无效)是否有关,进行了相应的抽样调查,调查的结果列在表中,根据
12、所选择的查,调查的结果列在表中,根据所选择的193193个病人个病人的数据,能否作出药的效果和给药方式有关的结论?的数据,能否作出药的效果和给药方式有关的结论?P(x0)0.500.400.250.150.100.050.025 0.010 0.005 0.001x00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828练习练习2 气管炎是一种常见的呼吸道疾病,医药研究人气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示,问:它们的疗效
13、有无差异?所得数据如表所示,问:它们的疗效有无差异?有效有效无效无效合计合计复方江剪刀草复方江剪刀草18461245胆黄片胆黄片919100合计合计27570345解:设解:设H0:两种中草药的治疗效果没有差异:两种中草药的治疗效果没有差异因为因为210.828的概率为的概率为0.001,故有,故有99.9%的把握认为,的把握认为,两种药物的疗效有差异。两种药物的疗效有差异。 练习3 某高校某高校“统计初步统计初步”课程的教师随机调查了选课程的教师随机调查了选该课的一些学生情况,具体数据如下表:该课的一些学生情况,具体数据如下表: 根据表中的数据,判定主修统计专业与性别有关系,根据表中的数据,
14、判定主修统计专业与性别有关系,则这种判断出错的可能性为多少?则这种判断出错的可能性为多少? 性别性别 专业专业非统计专业统计专业男1310女720 因为因为k 3.841 ,所以判定主修统计专业与性别,所以判定主修统计专业与性别有关系,则这种判断出错的可能性为有关系,则这种判断出错的可能性为5% 1 1、能够通过列联表,两个分类变量之、能够通过列联表,两个分类变量之间是否有关系;间是否有关系;2 2、利用、利用 判断出两个分类变量之间是判断出两个分类变量之间是 否有关系;否有关系;3 3、了解独立性检验的思想。、了解独立性检验的思想。引入一个随机变量:引入一个随机变量:卡方统计量卡方统计量dc
15、ban其中查对查对临界值表临界值表,作出判断,作出判断P(x0)0.500.400.250.150.100.050.025 0.010 0.005 0.001x00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 某企业为了考察同一种产品在甲、某企业为了考察同一种产品在甲、乙两条生产线的产品合格率,同时各抽乙两条生产线的产品合格率,同时各抽取取100件产品,其中甲线中合格产品的件产品,其中甲线中合格产品的个数为个数为97,乙线中合格产品的个数为,乙线中合格产品的个数为95。请作出列联表并说明产品的合格率与生请作出列联表并说明产品的合格率与生产线有无关系。产线有无关系。作业作业