1、3.2独立性检验的基本思想及其初步应用高二数学 选修2-3 第三章 统计案例2 2定量变量回归分析(画散点图、相关系数r、定量变量回归分析(画散点图、相关系数r、变量 相关指数R、残差分析)变量 相关指数R、残差分析)分类变量分类变量研究两个变量的相关关系:定量变量:体重、身高、温度、考试成绩等等。定量变量:体重、身高、温度、考试成绩等等。变量 分类变量:性别、是否吸烟、是否患肺癌、变量 分类变量:性别、是否吸烟、是否患肺癌、宗教信仰、国籍等等。宗教信仰、国籍等等。两种变量:独立性检验本节研究的是两个分类变量的独立性检验问题。在日常生活中,我们常常关心分类变量之间是否有关系:例如,吸烟是否与患
2、肺癌有关系?性别是否对于喜欢数学课程有影响?等等。吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表分类变量 1下面是一个22列联表:y1y2总计x1a2173x222527总计b46100则表中a、b的值分别为()A94、96 B52、50C52、54 D54、52C 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总
3、计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是 吸烟者和不吸烟者都可能患肺癌,吸烟者患肺癌的可能性较大0.54%2.28%分类变量 42/7817通过图形直观判断两个分类变量是否相关:等高条形图在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是 0.54%2.28%上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么事实是否真的如
4、此呢?这需要用统计观点来考察这个问题。现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”,为此先假设 H0:吸烟与患肺癌没有关系.不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d把表中的数字用字母代替,得到如下用字母表示的列联表 用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B).因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强。不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟c
5、dc+d总计总计a+cb+da+b+c+dadbc即aa+ba+caa+ba+cnnnnnna+ba+bP(A),P(A),n na+ca+cP(B),P(B),n n.a aP(AB)P(AB)n n其中为样本容量,即n=a+b+c+dn=a+b+c+d在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事件A和B发生的频数。由于频率接近于概率,所以在H0成立的条件下应该有(a+b+c+d)a(a+b)(a+c),不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+dn=a+b+c+d独立性检验在不吸烟者中不患肺癌的比重是 在吸烟者中不患肺癌
6、的比重是 baadccH0:假设吸烟和患肺癌没有关系dccbaa则0bcad即ad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越大,说明吸烟与患肺癌之间的关系越强ad-bc 越大,说明吸烟与患肺癌之间的关系越强独立性检验H0:假设吸烟和患肺癌没有关系dccbaa则0bcad即ad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越小,说明吸烟与患肺癌之间的关系越弱,ad-bc 越大,说明吸烟与患肺癌之间的关系越强ad-bc 越大,说明吸烟与患肺癌之间的关系越强2 22 2n n(a ad d-b bc c)K K=(a a
7、+b b)(c c+d d)(a a+c c)(b b+d d)构造随机变量(卡方统计量)作为检验在多大程度上可以认为“两个变量有关系”的标准。若H0(吸烟和患肺癌没有关系)成立,则K2应该很小.独立性检验H0:假设吸烟和患肺癌没有关系 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965632.5691987421487817)422099497775(996522k随机变量-卡方统计量22(),()()()()其中为样本容量。n
8、 adbcKab cdac bdnabcd0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.8280k0)k2P(K临界值表210.828K 26.635K 22.706K 0.1%把握认为A与B无关1%把握认为A与B无关99.9%把握认A与B有关99%把握认为A与B有关90%把握认为A与B有关10%把握认为A与B无关2(6.635)0.01P K 即在 成立的情况下,K2 大于6.635概率非常小,近似为0.010H 现在的K256.632的观测值远大于6.6
9、35,小概率事件的发生说明假设H0不成立!0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.8280k0)k2P(K临界值表独立性检验H0:假设吸烟和患肺癌没有关系所以吸烟和患肺癌有关!1对分类变量X与Y的随机变量K2的观测值k,说法正确的是()Ak越大,“X与Y有关系”可信程度越小Bk越小,“X与Y有关系”可信程度越小Ck越接近于0,“X与Y无关”程度越小Dk越大,“X与Y无关”程度越大B独立性检验基本的思想类似反证法(1)假设结论不成立,即“两个分类变量没有
10、关系”.(2)在此假设下随机变量 K2 应该很能小,如果由观测数据计算得到K2的观测值k很大,则在一定程度上说明假设不合理.(3)根据随机变量K2的含义,可以通过评价该假设不合理的程度,由实际计算出的,说明假设合理的程度为99.9%,即“两个分类变量有关系”这一结论成立的可信度为约为99.9%.反证法原理与假设检验原理反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。假设检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。1.在H0成立的条件下,构造与H0矛盾的小概率事件;2.如果样本使得这个小概率事件发生,则H0不成立,就能以一定把握
11、断言H1成立;否则,断言没有发现样本数据与H0相矛盾的证据。求解思路假设检验问题:例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断是否有关?你所得的结论在什么范围内有效?患心脏病患心脏病不患心脏病不患心脏病总计总计秃顶秃顶214175389不秃顶不秃顶4515971048总计总计6657721437在秃顶中患心脏病的比重是 在不秃顶中患心脏病的比重是 55.01%43.03%例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病
12、而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断是否有关?你所得的结论在什么范围内有效?患心脏病患心脏病不患心脏病不患心脏病总计总计秃顶秃顶214175389不秃顶不秃顶4515971048总计总计6657721437 根据联表的数据,得到所以有99%的把握认为“秃顶与患心脏病有关”。635.6373.167726651048389)451175597214(143722k注意:因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体2、本例中的边框中的注解:1、在解决实际问题时,可以直接计算K2的观测值k进行独立检验,而不必写出K2的推导过程;主要是使得我们注意统计结
13、果的适用范围(这由样本的代表性所决定)A所以根据列联表的数据,可以有%的把握认为该学校15至16周岁的男生的身高和体重之间有关系。97.5 22n adbcKabcdacbd由独立性检验随机变量2K值的计算公式得:2204 12 1 35 15 7 13 5.934跟踪训练1(2011广东执信中学)某中学一位高三班主任对本班50名学生学习积极性和对待班级工作的态度进行长期的调查,得到的统计数据如下表所示:积极参加班级工作不太主动参加班级工作合计学习积极性高18725学习积极性一般61925合计242650(1)如果随机调查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太积
14、极参加班级工作且学习积极性一般的学生的概率是多少?(2)能否在犯错误的概率不超过0.001的前提下认为学生的积极性与对待班级工作的态度有关系?所以,在犯错误的概率不超过0.001的前提下,认为“学生的学习积极性与对待班级工作的态度”有关系1(2013深圳二模)2013年3月14日,CCTV财经频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大学实验室随机抽取了60个样本,得到了相关数据如下表:混凝土耐久性达标混凝土耐久性不达标总计使用淡化海砂25530使用未经淡化海砂151530总计402060(1)根据表中数据,利用独立性检验的方法判断
15、,能否在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关?(2)若用分层抽样的方法在使用淡化海砂的样本中抽取了6个,现从这6个样本中任取2个,则取出的2个样本混凝土耐久性都达标的概率是多少?参考数据:P(k2k)0.100.0500.0250.0100.001k2.7063.8415.0246.63510.828解析:(1)提出假设H0:使用淡化海砂与混凝土耐久性是否达标无关.根据表中数据,求得K2的观测值能在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关.(2)用分层抽样的方法在使用淡化海砂的样本中抽取6个,其中应抽取“混凝土耐久性达标”
16、的为 6=5,“混凝土耐久性不达标”的为6-5=1,“混凝土耐久性达标记”为A1,A2,A3,A4,A5”;“混凝土耐久性不达标”的记为B.2530在这6个样本中任取2个,有以下几种可能:(A1,A2),(A1,A3),(A1,A4),(A1,A5),(A1,B),(A2,A3),(A2,A4),(A2,A5),(A2,B),(A3,A4),(A3,A5),(A3,B),(A4,A5),(A4,B)(A5,B),共15种.设“取出的2个样本混凝土耐久性都达标”为事件A,它的对立事件A为“取出的2个样本至少有1个混凝土耐久性不达标”,包含(A1,B),(A2,B),(A3,B),(A4,B),(
17、A5,B),共5种可能.2(2011揭阳一模)某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的重量(单位:克),重量值落在(495,510的产品为合格品,否则为不合格品表1是甲流水线样本频数分布表,图1是乙流水线样本的频率分布直方图产品重量/克频数(490,4956(495,5008(500,50514(505,5108(510,5154表1甲流水线样本频数分布表(1)根据上表数据作出甲流水线样本的频率分布直方图;(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;(3)由以上统计数据完成下面2
18、2列联表,能否在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关?甲流水线乙流水线合计合格品ab不合格品cd合计n附:下面的临界值表供参考:p(K2k)0.150.100.050.0250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828解析:(1)甲流水线样本的频率分布直方图如下:(2)由表1知甲样本中合格品数为814830,由图1知乙样本中合格品数为(0.060.090.03)54036,故甲样本合格品的频率为 0.75,乙样本合格品的频率为 0.9,据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75.从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9.(3)22列联表如下:甲流水线乙流水线合计合格品a30b3666不合格品c10d414合计4040n80在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关