1、3.1独立性检验独立性检验高二数学高二数学 选修选修2-3 第三章第三章 统计案例统计案例如果要研究吸烟与患肺癌是否有关系,我们需要如果要研究吸烟与患肺癌是否有关系,我们需要什么数据,可否将你想要的数据列成表格便于查什么数据,可否将你想要的数据列成表格便于查看?得到数据后你准备如何对数据进行分析?看?得到数据后你准备如何对数据进行分析?吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机
2、为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了地调查了99659965人,得到如下结果(单位:人)人,得到如下结果(单位:人)列联表列联表探究探究在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是_ 0.54%0.54%2.28%2.28%说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大。肺癌的可能性大。吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计9874987491919965996
3、5在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是_ 用用A表示吸烟,表示吸烟,B表示患肺癌,则表示患肺癌,则“吸烟与患肺吸烟与患肺癌没有关系癌没有关系”等价于等价于“吸烟与患肺癌独立吸烟与患肺癌独立”,即,即P(AB)=P(A)P(B).吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965%192.0)()(%,491.0)(BPAPABP因此因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;越小,说明吸烟与患肺癌之间关系
4、越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强。越大,说明吸烟与患肺癌之间关系越强。不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+dadbc即aa+ba+caa+ba+cnnnnnna+ba+bP(A),P(A),n na+ca+cP(B),P(B),n n.a aP(AB)P(AB)n n其中为样本容量,即n=a+b+c+dn=a+b+c+d在表中,在表中,a恰好为事件恰好为事件AB发生的频数;发生的频数;a+b和和a+c恰好分别为事恰好分别为事件件A和和B发生的频数。由于频率接近于概率,所以在发生的频数。由于频率接近于概
5、率,所以在AB相互独立相互独立思维思维条件下应该有条件下应该有(a+b+c+d)a(a+b)(a+c),分类晕机 B1 不晕机 B2 合计男性 A1 233255女性 A2 92534合计325789在一次恶劣气候的飞行航行中调查男女乘客在机上晕机的情况如下表所示,据此资料你是否因为在恶劣气候飞行中男性比女性更容易晕机?甲同学说甲同学说:因为男性晕机的人所占比例 女性晕机的人所占比例为 230.4185590.24534乙同学说乙同学说:因为P(A1B1)=与 P(A1)P(B1)=230.2569055320.2228989两者差距比较大,所以认为晕机与性别有关。差距不大,所以认为晕机与性别
6、无关。假设两个变量相互独立假设两个变量相互独立构造卡方统计量构造卡方统计量根据卡方观测值的大小判断假设的合理程度根据卡方观测值的大小判断假设的合理程度得到原结论成立的可信程度得到原结论成立的可信程度 独立性检验独立性检验 现在想要知道能够以多大的把握认为现在想要知道能够以多大的把握认为“吸烟与患肺癌有关吸烟与患肺癌有关”,为此先假设为此先假设 H0:吸烟与患肺癌没有关系:吸烟与患肺癌没有关系.不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d把表中的数字用字母代替,得到如下用字母表示的列联表把表中的数字用字母代替,得到如下用字母表示的
7、列联表 用用A表示不吸烟,表示不吸烟,B表示不患肺癌,则表示不患肺癌,则“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”等价于等价于“吸烟与患肺癌独立吸烟与患肺癌独立”。为了使不同样本容量的数据有统一的评判标准,基于上述分为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量析,我们构造一个随机变量-卡方统计量卡方统计量22(),()()()()其中为样本容量。n adbcKab cdac bdnabcd(1)那么这个值到底能告诉我们什么呢?那么这个值到底能告诉我们什么呢?卡方统计量作为检验在多大程度上可以认为卡方统计量作为检验在多大程度上可以认为“两个变量有关系两个变量有关
8、系”的标准的标准分析:卡方越小,分析:卡方越小,|ad-bc|ad-bc|越小,越小,说明吸烟与患肺癌之间说明吸烟与患肺癌之间关系越弱;关系越弱;卡方越大卡方越大,|ad-bc|ad-bc|越大,越大,说明吸烟与患肺癌之间说明吸烟与患肺癌之间关系越强关系越强.思考:卡方大小的标准是什么呢?思考:卡方大小的标准是什么呢?0k临界值 在假设成立,即在假设成立,即“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”成立的前提下,成立的前提下,则卡方应该很小则卡方应该很小.故,当卡方很小时,说明在一定可信程度上故,当卡方很小时,说明在一定可信程度上假设成立,即假设成立,即“吸烟与患肺癌没有关系吸烟与患肺癌没有
9、关系”成立成立当卡方很大时,说明没有充分的证据说明假设成立,即没有充当卡方很大时,说明没有充分的证据说明假设成立,即没有充分的证据说明分的证据说明“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”成立,即成立,即“吸烟与患吸烟与患肺癌没有关系肺癌没有关系”不成立,即不成立,即“吸烟与患肺癌有关系吸烟与患肺癌有关系”成立。成立。H0:吸烟与患肺癌没有关系:吸烟与患肺癌没有关系.10.8287.8796.6355.0243.8412.7062.0721.3230.7080.445 k0.0010.0050.0100.0250.050.100.150.50.400.502()P Kk在在H0成立的情况下,
10、统计学家估算出如下的概率成立的情况下,统计学家估算出如下的概率 即在即在H0成立的情况下,成立的情况下,K2的值大于的值大于6.635的概率非常小,近似的概率非常小,近似于于0.01。2(6.635)0.01.P K (2)也就是说,在也就是说,在H0成立的情况下,对随机变量成立的情况下,对随机变量K2进行多次观进行多次观测,观测值超过测,观测值超过6.635的频率约为的频率约为0.01。思考 206.635?KH如果,就断定不成立,这种判断出错的可能性有多大答:判断出错的概率为0.01。2009965 7775 49 42 2099566327817 2148 9874 91().kHH 现
11、现在在观观测测值值太太大大了了,在在成成立立的的情情况况下下能能够够出出现现这这样样的的观观测测值值的的概概率率不不超超过过0 0.0 01 1,因因此此我我们们有有9 99 9%的的把把握握认认为为不不成成立立,即即有有9 99 9%的的把把握握认认为为“吸吸烟烟与与患患肺肺癌癌有有关关系系”。两个临界值:3.841与6.635n如果 就认为没有充分的证据说明变量A和B是有关系,即变量A和B是无关。n如果 就有95%的把握认为变量A和B是有关系;n如果 就有99%的把握认为变量A和B是有关系;在犯错的概率不超过0.01的情况下认为变量A和B是有关系;841.32841.32635.62假设两
12、个变量相互独立假设两个变量相互独立构造卡方统计量构造卡方统计量根据卡方观测值的大小判断假设的合理程度根据卡方观测值的大小判断假设的合理程度得到原结论成立的可信程度得到原结论成立的可信程度 独立性检验独立性检验反证法思想用于独立性检验的假设检验思想目标证明结论成立结果只有一种:结论成立判断分类变量X与Y之间是否有关结果有两种可能:有关或无关构造两种情况 :结论成立 :结论的反面成立 :X与Y之间_关 :X与Y之间_关理论依据矛盾双方不可能同时成立但是有且只有一个成立在一次试验中,小概率事件(观测值 _临界值)几乎是不可能发生的(填入适当的不等号)操作步骤1)假设 反面 成立2)推导矛盾从而推翻
13、3)不成立说明 成立0H1H0H1H2 2定量变量回归分析(画散点图、相关系数r、定量变量回归分析(画散点图、相关系数r、变量 相关指数R、残差分析)变量 相关指数R、残差分析)分类变量分类变量研究两个变量的相关关系:定量变量:体重、身高、温度、考试成绩等等。定量变量:体重、身高、温度、考试成绩等等。变量 分类变量:性别、是否吸烟、是否患肺癌、变量 分类变量:性别、是否吸烟、是否患肺癌、宗教信仰、国籍等等。宗教信仰、国籍等等。两种变量:独立性检验独立性检验本节研究的是两个分类变量的独立性检验问题。在日常生活中,我们常常关心在日常生活中,我们常常关心分类变量之间是否有关系分类变量之间是否有关系:
14、例如,吸烟是否与患肺癌有关系?例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等。性别是否对于喜欢数学课程有影响?等等。1给出下列实际问题:一种药物对某种病的治愈率;两种药物治疗同一种病是否有区别;吸烟者得肺病的概率;吸烟人群是否与性别有关系;上网与青少年的犯罪率是否有关系其中,用独立性检验可以解决的问题有_2.通过随机询问110名不同的大学生是否爱好某项运动 ,得到如下的列联表:由 n得到的正确结论是()n有99%以上的把握认为“爱好该项运动与性别有关”n有99%以上的把握认为“爱好该项运动与性别无关”n在犯错误的概率不超过01%的前提下,认为“爱好该项运动与性别有关”n在犯
15、错误的概率不超过01%的前提下,认为“爱好该项运动与性别无关”2222()110(40 30 20 30)7.8()()()()60 50 60 50n ad bcKKa b c d a c b d算得,男男女女总计总计爱好402060不爱好203050总计60501103.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A.若卡方的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患肺病。B.由独立性检验可知99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病。C.若从统计量中求出有95%的把握认为吸烟与患
16、肺病有关系,是指5%的可能性使得推判出现错误。D.以上三种说法都不正确。4.网络对现代人的生活影响较大,尤其对青少年.为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生随机抽取了1000人调查,发现其中经常上网的有200人,其中有80人期末考试不及格,而另外800人中,有120人不及格.问:中学生经常往往是否影响学习?为什么?(你的结论正确率要达到99%)1、了解独立性检验的应用范围及思想、了解独立性检验的应用范围及思想2、利用、利用 判断两个分类变量之间是否有关系判断两个分类变量之间是否有关系2K问题问题:数学家庞加莱每天都从一家面包店数学家庞加莱每天都从一家面包店买一块买一块
17、1000g 的面包,并记录下买回的面的面包,并记录下买回的面包的实际质量。一年后,这位数学家发包的实际质量。一年后,这位数学家发现,所记录数据的均值为现,所记录数据的均值为950g。于是庞。于是庞加莱推断这家面包店的面包分量不足。加莱推断这家面包店的面包分量不足。假设假设“面包份量足面包份量足”,则一年购买面包的质量数据,则一年购买面包的质量数据的平均值应该不少于的平均值应该不少于1000g;“这个平均值不大于这个平均值不大于950g”是一个与假设是一个与假设“面包份量面包份量足足”矛盾的小概率事件;矛盾的小概率事件;这个小概率事件的发生使庞加莱得出推断结果这个小概率事件的发生使庞加莱得出推断结果。