1、1.2 独立性检验的基本思想及其初步应用 【阅读教材阅读教材】 根据下面的知识结构图阅读教材根据下面的知识结构图阅读教材, ,了解独立性检验的基本步骤及了解独立性检验的基本步骤及 基本思想基本思想. . 【知识链接知识链接】 1.1.散点图散点图 散点图可以形象地展示两个变量之间的关系散点图可以形象地展示两个变量之间的关系, ,所以它的主要目的就是所以它的主要目的就是 直观了解两个变量之间的关系直观了解两个变量之间的关系. . 2.2.用样本估计总体的两种情况用样本估计总体的两种情况 (1)(1)用样本的频率分布估计总体分布用样本的频率分布估计总体分布. . (2)(2)用样本的数字特征估计总
2、体数字特征用样本的数字特征估计总体数字特征. . 主题一主题一: :列联表与等高条形图列联表与等高条形图 【自主认知自主认知】 1.1.某班主任对全班某班主任对全班5050名学生作了一次调查名学生作了一次调查, ,所得数据如表所得数据如表: : 认为作业多认为作业多 认为作业不多认为作业不多 总计总计 喜欢玩电脑游戏喜欢玩电脑游戏 1818 9 9 2727 不喜欢玩电脑游戏不喜欢玩电脑游戏 8 8 1515 2323 总计总计 2626 2424 5050 喜欢玩电脑游戏的学生中认为作业多的所占的比例是多少喜欢玩电脑游戏的学生中认为作业多的所占的比例是多少? ?不喜欢玩不喜欢玩 电脑游戏的学
3、生中认为作业多的呢电脑游戏的学生中认为作业多的呢? ? 提示提示: :喜欢玩电脑游戏的学生中认为作业多的所占的比例是喜欢玩电脑游戏的学生中认为作业多的所占的比例是 , ,不喜不喜 欢玩电脑游戏的学生中认为作业多的所占的比例是欢玩电脑游戏的学生中认为作业多的所占的比例是 . . 2 3 8 23 2.2.某校对学生课外活动某校对学生课外活动( (文娱和体育文娱和体育) )进行调查进行调查, ,结果整理成下图结果整理成下图( (两个两个 深色条的高分别表示男生与女生样本中喜欢文娱的学生的频率深色条的高分别表示男生与女生样本中喜欢文娱的学生的频率):): 喜欢文娱的学生中是男生还是女生所占的比例多喜
4、欢文娱的学生中是男生还是女生所占的比例多? ? 提示提示: :女生女生. . 根据以上探究根据以上探究, ,完成以下填空完成以下填空. . 1.1.与列联表相关的概念与列联表相关的概念 (1)(1)分类变量分类变量: : 变量的不同变量的不同“值值”表示个体所属的表示个体所属的_,_,这样的变量称为分类这样的变量称为分类 变量变量. . 不同类别不同类别 (2)(2)列联表列联表: : 列出的列出的_分类变量的分类变量的_,_,称为列联表称为列联表. . 一般地一般地, ,假设有两个分类变量假设有两个分类变量X X和和Y,Y,它们的取值分别为它们的取值分别为xx1 1,x,x2 2 和和 yy
5、1 1,y,y2 2,其样本频数列联表其样本频数列联表( (称为称为2 22 2列联表列联表) )为为: : y y1 1 y y2 2 总计总计 x x1 1 a a b b _ x x2 2 c c d d _ 总计总计 _ _ _ 两个两个 频数表频数表 a+ba+b c+dc+d a+ca+c b+db+d a+b+c+da+b+c+d 2.2.等高条形图等高条形图 直观性直观性: :与表格相比与表格相比, ,等高条形图更能直观地反映出两个分类变量间等高条形图更能直观地反映出两个分类变量间 是否是否_._. 用途用途:(1):(1)常用等高条形图展示列联表数据的常用等高条形图展示列联表
6、数据的_._. (2)(2)判断两个分类变量之间有关系可以通过观察等高条形图相差很判断两个分类变量之间有关系可以通过观察等高条形图相差很 大的两个量是大的两个量是_和和_._. 相互影响相互影响 频率特征频率特征 a ab c cd 【合作探究合作探究】 1.1.分类变量的值就是指的一些具体实数吗分类变量的值就是指的一些具体实数吗? ? 提示提示: :这里的这里的“变量变量”和和“值值”都应作为广义的变量和值来理解都应作为广义的变量和值来理解, ,只要只要 不属于同种类别都是变量和值不属于同种类别都是变量和值, ,并不一定是取具体的数值并不一定是取具体的数值, ,如如: :男、女男、女; ;
7、上、下上、下; ;左、右等左、右等. . 2.2.等高条形图与列联表相比有何优点等高条形图与列联表相比有何优点? ? 提示提示: :更直观更直观, ,更明了更明了. . 3.3.利用等高条形图能否精确地判断两个分类变量是否有关系利用等高条形图能否精确地判断两个分类变量是否有关系? ?为什么为什么? ? 提示提示: :不能不能, ,因为通过等高条形图因为通过等高条形图, ,可以粗略地判断两个分类变量是否可以粗略地判断两个分类变量是否 有关系有关系, ,但这种判断无法精确地给出所得结论的可靠程度但这种判断无法精确地给出所得结论的可靠程度. . 【过关小练过关小练】 1.1.观察下列各图观察下列各图
8、, ,其中两个分类变量其中两个分类变量x,yx,y之间关系最强的是之间关系最强的是( ( ) ) 【解析解析】选选D.D.在四幅图中在四幅图中,D,D图中两个阴影的高相差最明显图中两个阴影的高相差最明显, ,说明两个说明两个 分类变量之间关系最强分类变量之间关系最强. . 2.2.对两个分类变量进行独立性检验的主要作用是对两个分类变量进行独立性检验的主要作用是 ( ( ) ) A.A.判断模型的拟合效果判断模型的拟合效果 B.B.对两个变量进行相关分析对两个变量进行相关分析 C.C.给出两个分类变量有关系的可靠程度给出两个分类变量有关系的可靠程度 D.D.估计预报变量的平均值估计预报变量的平均
9、值 【解析解析】选选C.C.独立性检验的目的就是明确两个分类变量有关系的可靠独立性检验的目的就是明确两个分类变量有关系的可靠 程度程度. . 主题二主题二: :独立性检验的基本思想独立性检验的基本思想 【自主认知自主认知】 1.1.列联表中列联表中|ad|ad- -bc|bc|的值与两个分类变量之间相关的强弱有什么关系的值与两个分类变量之间相关的强弱有什么关系? ? 提示提示: :在列联表中在列联表中, ,若两个分类变量没有关系若两个分类变量没有关系, ,则则|ad|ad- -bc|0,bc|0,所以所以 |ad|ad- -bc|bc|的值越小的值越小, ,两个分类变量之间的关系越弱两个分类变
10、量之间的关系越弱;|ad;|ad- -bc|bc|的值越大的值越大, , 两个分类变量之间的关系越强两个分类变量之间的关系越强. . 2.2.在独立性检验中在独立性检验中, ,计算得计算得k=29.78,k=29.78,在判断变量相关时在判断变量相关时,P(K,P(K2 26.635)6.635) 0.010.01的含义是什么的含义是什么? ? 提示提示: :P(KP(K2 26.635)0.016.635)0.01的含义是在犯错误的概率不超过的含义是在犯错误的概率不超过0.010.01的前的前 提下认为两个变量相关提下认为两个变量相关. . 根据以上探究根据以上探究, ,完成以下填空完成以下
11、填空. . 独立性检验的基本思想独立性检验的基本思想 (1)(1)定义定义: :利用利用_K_K2 2来判断来判断“两个分类变量两个分类变量_”的方法称的方法称 为独立性检验为独立性检验. . (2)(2)公式公式:K:K2 2= ,= ,其中其中n=a+b+c+d.n=a+b+c+d. 2 n(adbc) ab cdac bd 随机变量随机变量 有关系有关系 (3)(3)独立性检验的具体步骤独立性检验的具体步骤: : 定上界定上界: :根据实际问题的需要确定容许推断根据实际问题的需要确定容许推断“两个分类变量有关两个分类变量有关 系系”犯错误概率的上界犯错误概率的上界 , ,然后查表确定然后
12、查表确定_._. 计算计算: :利用公式计算随机变量利用公式计算随机变量K K2 2的的_._. 下结论下结论: :如果如果_,_,就推断就推断“X X与与Y Y有关系有关系”, ,这种推断犯错误的概这种推断犯错误的概 率不超过率不超过 , ,否则否则, ,就认为在就认为在_不超过不超过 的前提下不能的前提下不能 推断推断“X X与与Y Y有关系有关系”, ,或者在样本数据中或者在样本数据中_支持结支持结 论论“X X与与Y Y有关系有关系”. . 临界值临界值k k0 0 观测值观测值k k kkkk0 0 犯错误的概率犯错误的概率 没有发现足够证据没有发现足够证据 【合作探究合作探究】 根
13、据下表数据根据下表数据, ,回答下列问题回答下列问题: : P(KP(K2 2kk0 0) ) 0.500.50 0.400.40 0.250.25 0.150.15 0.100.10 k k0 0 0.4550.455 0.7080.708 1.3231.323 2.0722.072 2.7062.706 P(KP(K2 2kk0 0) ) 0.050.05 0.0250.025 0.0100.010 0.0050.005 0.0010.001 k k0 0 3.8413.841 5.0245.024 6.6356.635 7.8797.879 10.82810.828 (1)(1)在判断变
14、量是否有关系时在判断变量是否有关系时, ,若若K K2 2的观测值的观测值k=7.123,k=7.123,则判断两变量有则判断两变量有 关系犯错误的概率不超过关系犯错误的概率不超过 . . 提示提示: :由表格可知由表格可知P(KP(K2 26.635)0.010,6.635)0.010, 而而k=7.1236.635,k=7.1236.635,故应填故应填0.010.0.010. 答案答案: :0.0100.010 (2)(2)若求得若求得K K2 2的观测值的观测值k=0.70,k=0.70,则由表格数据可知则由表格数据可知, ,两变量之间的关系两变量之间的关系 应该表述为应该表述为 .
15、. 提示提示: :由于由于P(KP(K2 20.455)0.50,0.455)0.50,故由相关性可知故由相关性可知, ,没有足够证据说明没有足够证据说明 两变量有关系两变量有关系. . 答案答案: :没有足够证据说明两变量有关系没有足够证据说明两变量有关系 (3)(3)若求得若求得K K2 2的观测值的观测值k=56.35,k=56.35,则在说明两变量有关系时应用表格中则在说明两变量有关系时应用表格中 k k0 0的值为的值为 . . 提示提示: :由于由于k k的数据比较大的数据比较大, ,故应利用故应利用P(KP(K2 210.828)0.00110.828)0.001中的中的 k k
16、0 0=10.828=10.828这一数据这一数据. . 答案答案: :10.82810.828 【过关小练过关小练】 1.1.在研究吸烟与患肺癌的关系中在研究吸烟与患肺癌的关系中, ,通过收集数据、整理分析数据得通过收集数据、整理分析数据得 “吸烟与患肺癌有关吸烟与患肺癌有关”的结论的结论, ,并且在犯错误的概率不超过并且在犯错误的概率不超过0.010.01的前的前 提下认为这个结论是成立的提下认为这个结论是成立的, ,下列说法中正确的是下列说法中正确的是 ( ( ) ) A.100A.100个吸烟者中至少有个吸烟者中至少有9999人患有肺癌人患有肺癌 B.1B.1个人吸烟个人吸烟, ,那么
17、这个人有那么这个人有99%99%的概率患有肺癌的概率患有肺癌 C.C.在在100100个吸烟者中一定有患肺癌的人个吸烟者中一定有患肺癌的人 D.D.在在100100个吸烟者中可能一个患肺癌的人也没有个吸烟者中可能一个患肺癌的人也没有 【解析解析】选选D.D.独立性检验的结果与实际问题有差异独立性检验的结果与实际问题有差异, ,即独立性检验的即独立性检验的 结论是一个数学统计量结论是一个数学统计量, ,它与实际问题中的确定性存在差异它与实际问题中的确定性存在差异. . 2.2.有两个分类变量有两个分类变量X X与与Y Y的一组数据的一组数据, ,由其列联表计算得由其列联表计算得k4.523,k4
18、.523,则则 认为认为“X X与与Y Y有关系有关系”犯错误的概率为犯错误的概率为 ( ( ) ) A.95%A.95% B.90%B.90% C.5%C.5% D.10%D.10% 【解析解析】选选C.P(KC.P(K2 23.841)0.05,3.841)0.05,而而k4.5233.841.k4.5233.841.这表明认为这表明认为 “X X与与Y Y有关系有关系”是错误的可能性约为是错误的可能性约为0.05,0.05,即认为即认为“X X与与Y Y有关系有关系”犯犯 错误的概率为错误的概率为5%.5%. 【归纳总结归纳总结】 分类变量的概念及等高条形图的三个关注点分类变量的概念及等
19、高条形图的三个关注点 (1)(1)分类变量的取值特点分类变量的取值特点: :分类变量的取值一定是离散的分类变量的取值一定是离散的, ,而且不同的而且不同的 取值仅表示个体所属的类别取值仅表示个体所属的类别, ,如性别变量如性别变量, ,只取男、女两个值只取男、女两个值, ,商品的商品的 等级变量只取一级、二级、三级等等级变量只取一级、二级、三级等. . (2)(2)分类变量的表示分类变量的表示: :分类变量的不同取值可以用数字来表示分类变量的不同取值可以用数字来表示, ,这时的这时的 数字没有其他的含义数字没有其他的含义, ,不同值之间的大小没有意义不同值之间的大小没有意义. . (3)(3)
20、分类变量的图示分类变量的图示: :作图应注意单位统一作图应注意单位统一, ,图形准确图形准确, ,但它不能给出两但它不能给出两 个分类变量有关或无关的精确的可信程度个分类变量有关或无关的精确的可信程度. . 【拓展延伸拓展延伸】假设检验的思想与反证法的关系假设检验的思想与反证法的关系 反证法反证法 假设检验假设检验 要证明结论要证明结论A A 假设假设H H1 1 在在A A不成立的前提下进不成立的前提下进 行推理行推理 在在H H1 1不成立的条件下不成立的条件下, ,即即H H0 0成立的条件下进行成立的条件下进行 推理推理 推出矛盾推出矛盾, ,意味着结论意味着结论 A A成立成立 推出
21、有利于推出有利于H H1 1成立的小概率事件成立的小概率事件( (概率不超过概率不超过 的事件的事件) )发生发生, ,意味着意味着H H1 1成立的可能性成立的可能性( (可能可能 性为性为(1(1- - )很大很大 没有找到矛盾没有找到矛盾, ,不能对不能对 A A下任何结论下任何结论, ,即反证即反证 法不成功法不成功 推出有利于推出有利于H H1 1成立的小概率事件不发生成立的小概率事件不发生, ,接受接受 原假设原假设 类型一类型一: :列联表与等高条形图列联表与等高条形图 【典例典例1 1】(2015(2015青岛高二检测青岛高二检测) )某学校对高三学生作了一项调查发某学校对高三
22、学生作了一项调查发 现现: :在平时的模拟考试中在平时的模拟考试中, ,性格内向的学生性格内向的学生426426人中人中332332人在考前心情紧人在考前心情紧 张张, ,性格外向的学生性格外向的学生594594人中有人中有213213人在考前心情紧张人在考前心情紧张, ,作出等高条形图作出等高条形图, , 利用图形判断考前心情紧张与性格类别是否有关系利用图形判断考前心情紧张与性格类别是否有关系. . 【解题指南解题指南】先作出先作出2 22 2列联表列联表, ,再根据列联表数据作等高条形图再根据列联表数据作等高条形图, ,最最 后对比乘积的差距判断两个分类变量是否有关后对比乘积的差距判断两个
23、分类变量是否有关. . 【解析解析】作列联表如下作列联表如下: : 性格内向性格内向 性格外向性格外向 总计总计 考前心情紧张考前心情紧张 332332 213213 545545 考前心情不紧张考前心情不紧张 9494 381381 475475 总计总计 426426 594594 1 0201 020 相应的等高条形图如图所示相应的等高条形图如图所示: : 图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例, , 从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情从图中可以看出考前心情紧张的样本中性格内向占的
24、比例比考前心情 不紧张样本中性格内向占的比例高不紧张样本中性格内向占的比例高, ,可以认为考前心情紧张与性格类可以认为考前心情紧张与性格类 型有关型有关. . 【规律总结规律总结】 1.1.利用等高条形图判断两个分类变量是否相关的步骤利用等高条形图判断两个分类变量是否相关的步骤 2 2. .直观判断两个分类变量是否有关的思路直观判断两个分类变量是否有关的思路 ( (1 1) )利用列联表直接计算利用列联表直接计算adad- -bc,bc,如果两者相差很大如果两者相差很大, ,就判断两个分类就判断两个分类 变量之间有关系变量之间有关系. . ( (2 2) )在等高线条形图中展示列联表数据的频率
25、特征在等高线条形图中展示列联表数据的频率特征, ,比较图中两个深色比较图中两个深色 条的高可以发现两者频率不一样而得出结论条的高可以发现两者频率不一样而得出结论. .这种直观判断的不足之这种直观判断的不足之 处在于不能给出推断处在于不能给出推断“两个分类变量有关系两个分类变量有关系”犯错误的概率犯错误的概率. . 【巩固训练巩固训练】为了了解铅中毒病人是否有尿棕色素增加现象为了了解铅中毒病人是否有尿棕色素增加现象, ,分别对分别对 病人组和对照组的尿液做尿棕色素定性检查病人组和对照组的尿液做尿棕色素定性检查, ,结果如下表结果如下表, ,问铅中毒病问铅中毒病 人组和对照组的尿棕色素阳性数有无相
26、关关系人组和对照组的尿棕色素阳性数有无相关关系? ? 组别组别 阳性数阳性数 阴性数阴性数 总计总计 铅中毒病人组铅中毒病人组 2929 7 7 3636 对照组对照组 9 9 2828 3737 总计总计 3838 3535 7373 【解析解析】根据列联表作出等高条形图根据列联表作出等高条形图( (如图如图) ). .由图形可知由图形可知, ,铅中毒病人铅中毒病人 组与对照组相比较组与对照组相比较, ,尿棕色素为阳性差异明显尿棕色素为阳性差异明显, ,因此铅中毒病人与尿棕因此铅中毒病人与尿棕 色素为阳性存在相关关系色素为阳性存在相关关系. . 【补偿训练补偿训练】在调查中发现在调查中发现4
27、80480名男人中有名男人中有3838名患有色盲名患有色盲,520,520名女人名女人 中有中有6 6名患有色盲名患有色盲. .下列说法正确的是下列说法正确的是( ( ) ) A.A.男、女患色盲的频率分别为男、女患色盲的频率分别为0.038,0.0060.038,0.006 B.B.男、女患色盲的概率分别为男、女患色盲的概率分别为 C.C.男人中患色盲的比例比女人中患色盲的比例大男人中患色盲的比例比女人中患色盲的比例大, ,患色盲与性别是有患色盲与性别是有 关的关的 D.D.调查人数太少调查人数太少, ,不能说明色盲与性别有关不能说明色盲与性别有关 193 240 260 , 【解析解析】选
28、选C.C.男人中患色盲的比例为男人中患色盲的比例为 要比女人中患色盲的比要比女人中患色盲的比 例例 大,其差值为大,其差值为 0.06760.0676,差值较大,差值较大. . 38 480, 6 520 386 | 480520 类型二类型二: :独立性检验独立性检验 【典例典例2 2】在对人们休闲方式的一次调查中在对人们休闲方式的一次调查中, ,共调查共调查120120人人, ,其中女性其中女性7070 人人、男性男性5050人人. .女性中有女性中有4040人主要的休闲方式是看电视人主要的休闲方式是看电视, ,另外另外3030人主要人主要 的休闲方式是运动的休闲方式是运动; ;男性中有男
29、性中有2020人主要的休闲方式是看电视人主要的休闲方式是看电视, ,另外另外3030人人 主要的休闲方式是运动主要的休闲方式是运动. . ( (1 1) )根据以上数据建立一个根据以上数据建立一个2 22 2的列联表的列联表. . ( (2 2) )休闲方式与性别是否有关休闲方式与性别是否有关? ? 【解题指南解题指南】( (1 1) )利用题目中所给的数据列表利用题目中所给的数据列表. . ( (2 2) )利用公式求出利用公式求出K K2 2的观测值的观测值k k的值的值. .再利用临界值的大小来判断再利用临界值的大小来判断. . 【解析解析】( (1 1) )2 22 2的列联表为的列联
30、表为 休闲休闲 方式方式 性别性别 看电视看电视 运动运动 总计总计 女性女性 4040 3030 7070 男性男性 2020 3030 5050 总计总计 6060 6060 120120 ( (2 2) )计算计算K K2 2的观测值为的观测值为 k=k= 3 3. .429429. . 而而2 2. .7067062 2. .706706)0 0. .1010, , P(KP(K2 2 3 3. .841841)0 0. .0505, , 所以所以, ,在犯错误的概率不超过在犯错误的概率不超过0 0. .1010的前提下的前提下, ,认为休闲方式与性别有关认为休闲方式与性别有关. .
31、2 120 (40 30 20 30) 70 50 60 60 【延伸探究延伸探究】本题条件不变的情况下本题条件不变的情况下, ,画出等高条形图画出等高条形图. . 【解析解析】 【规律总结规律总结】解决一般的独立性检验问题的三个步骤解决一般的独立性检验问题的三个步骤 ( (1 1) )通过所给列联表确定通过所给列联表确定a,b,c,d,na,b,c,d,n的值的值. . ( (2 2) )利用利用K K2 2= = 求随机变量求随机变量K K2 2的观测值的观测值. . ( (3 3) )将所得将所得K K2 2的观测值与相关临界值比较的观测值与相关临界值比较, ,得出两个变量是否有关系的得
32、出两个变量是否有关系的 结论结论. . 2 n(adbc) ab cdac bd 【巩固训练巩固训练】( (20152015昆明高二检测昆明高二检测) )国家虽然出台了多次限购令国家虽然出台了多次限购令, ,但但 各地房地产市场依然热火朝天各地房地产市场依然热火朝天, ,主要是利益的驱使主要是利益的驱使, ,有些开发商不遵守有些开发商不遵守 职业道德职业道德, ,违规使用未经淡化海砂违规使用未经淡化海砂; ;为了研究使用淡化海砂与混凝土耐为了研究使用淡化海砂与混凝土耐 久性是否达标有关久性是否达标有关, ,某大学实验室随机抽取了某大学实验室随机抽取了6060个样本个样本, ,得到了如下的得到了
33、如下的 2 22 2列联表列联表: : 混凝土耐混凝土耐 久性达标久性达标 混凝土耐久混凝土耐久 性不达标性不达标 总计总计 使用淡化海砂使用淡化海砂 2525 3030 使用未经使用未经 淡化海砂淡化海砂 1515 总计总计 补充完整表中的数据补充完整表中的数据: :利用独立性检验的方法判断利用独立性检验的方法判断, ,能否在犯错误的概能否在犯错误的概 率不超过率不超过0 0. .0101的前提下的前提下, ,认为使用淡化海砂与混凝土耐久性是否达标认为使用淡化海砂与混凝土耐久性是否达标 有关有关? ? 【解析解析】列联表如表所示列联表如表所示: : 混凝土耐混凝土耐 久性达标久性达标 混凝土
34、耐久混凝土耐久 性不达标性不达标 总计总计 使用淡化海砂使用淡化海砂 2525 5 5 3030 使用未经使用未经 淡化海砂淡化海砂 1515 1515 3030 总计总计 4040 2020 6060 假设假设: :是否使用淡化海砂与混凝土耐久性是否达标无关是否使用淡化海砂与混凝土耐久性是否达标无关, ,由已知数据由已知数据 可求得可求得: : k= =7.56.635,k= =7.56.635, 因此因此, ,能在犯错误的概率不超过能在犯错误的概率不超过0.010.01的前提下的前提下, , 认为使用淡化海砂与混凝土耐久性是否达标有关认为使用淡化海砂与混凝土耐久性是否达标有关. . 2 6
35、0 (25 15 15 5) 30 30 40 20 【补偿训练补偿训练】在一次天气恶劣的飞行航程中在一次天气恶劣的飞行航程中, ,调查了男女乘客在飞机调查了男女乘客在飞机 上晕机的情况上晕机的情况: :男乘客晕机的有男乘客晕机的有2424人人, ,不晕机的有不晕机的有3131人人; ;女乘客晕机的女乘客晕机的 有有8 8人人, ,不晕机的有不晕机的有2626人人. .请你根据所给数据判定请你根据所给数据判定: :在天气恶劣的飞行航在天气恶劣的飞行航 程中程中, ,男乘客是否比女乘客更容易晕机男乘客是否比女乘客更容易晕机? ? 【解析解析】根据题意根据题意, ,列出列出2 22 2列联表如下列
36、联表如下: : 晕机晕机 不晕机不晕机 总计总计 男乘客男乘客 2424 3131 5555 女乘客女乘客 8 8 2626 3434 总计总计 3232 5757 8989 假如在天气恶劣的飞行航程中假如在天气恶劣的飞行航程中, ,男乘客不比女乘客更容易晕机男乘客不比女乘客更容易晕机. . 由公式可得由公式可得K K2 2的观测值的观测值 k= 3.6892.706,k= 3.6892.706, 故能在犯错误的概率不超过故能在犯错误的概率不超过0.10.1的前提下的前提下, ,认为认为“在天气恶劣的飞行航在天气恶劣的飞行航 程中程中, ,男乘客比女乘客更容易晕机男乘客比女乘客更容易晕机”.
37、. 2 89 (24 26 31 8) 55 34 32 57 类型三类型三: :独立性检验的综合应用独立性检验的综合应用 【典例典例3 3】(2015(2015吉林高二检测吉林高二检测) )某学校研究性学习小组对该校高三某学校研究性学习小组对该校高三 学生视力情况进行调查学生视力情况进行调查, ,在高三的全体在高三的全体10001000名学生中随机抽取了若干名学生中随机抽取了若干 名学生的体检表名学生的体检表, ,并得到如下直方图并得到如下直方图: : ( (1 1) )若直方图中前三组的频率成等比数列若直方图中前三组的频率成等比数列, ,后四组的频率成等差数列后四组的频率成等差数列, ,
38、试估计全年级视力在试估计全年级视力在5 5. .0 0以下的人数以下的人数. . ( (2 2) )学习小组成员发现学习小组成员发现, ,学习成绩突出的学生学习成绩突出的学生, ,近视的比较多近视的比较多, ,为了研究为了研究 学生的视力与学习成绩是否有关系学生的视力与学习成绩是否有关系, ,对年级名次在对年级名次在1 15050名和名和951951 10001000名的学生进行了调查名的学生进行了调查, ,得到如下数据得到如下数据: : 1 15050 9519511 0001 000 近视近视 4141 3232 不近视不近视 9 9 1818 根据表中的数据根据表中的数据, ,能否在犯错
39、的概率不超过能否在犯错的概率不超过0 0. .0505的前提下认为视力与的前提下认为视力与 学习成绩有关系学习成绩有关系? ?附附: : K K2 2= = P(KP(K2 2kk0 0) ) 0.100.10 0.050.05 0.0250.025 0.0100.010 0.0050.005 k k0 0 2.7062.706 3.8413.841 5.0245.024 6.6356.635 7.8797.879 2 n adbc ab cdac bd 【解题指南解题指南】(1)(1)利用直方图中前三组的频率成等比数列利用直方图中前三组的频率成等比数列, ,后四组的频后四组的频 率成等差数列
40、率成等差数列, ,求出视力在求出视力在5.05.0以下的频率以下的频率, ,即可估计全年级视力在即可估计全年级视力在5.05.0 以下的人数以下的人数. . (2)(2)求出求出K K2 2, ,与临界值比较与临界值比较, ,即可得出结论即可得出结论. . 【解析解析】( (1 1) )设各组的频率为设各组的频率为f fi i(i=(i=1 1, ,2 2, ,3 3, ,4 4, ,5 5, ,6 6),), 依题意依题意, ,前三组的频率成等比数列前三组的频率成等比数列, ,后四组的频率成等差数列后四组的频率成等差数列, ,故故 f f1 1= =0 0. .15150 0. .2 2=
41、=0 0. .0303,f,f2 2= =0 0. .45450 0. .2 2= =0 0. .0909,f,f3 3= = = =0 0. .2727, , 所以由所以由 = =1 1- -( (0 0. .0303+ +0 0. .0909),),得得f f6 6= =0 0. .1717, , 所以视力在所以视力在5 5. .0 0以下的频率为以下的频率为1 1- -0 0. .1717= =0 0. .8383, , 故全年级视力在故全年级视力在5 5. .0 0以下的人数约为以下的人数约为100010000 0. .8383= =830830. . 2 2 1 f f 36 ff4
42、 2 ( (2 2)k=)k= 4 4. .110110 3 3. .841841, , 因此能在犯错误的概率不超过因此能在犯错误的概率不超过0 0. .0505的前提下认为视力与学习成绩有关的前提下认为视力与学习成绩有关 系系. . 2 100 (41 18 32 9) 50 50 73 27 【规律总结规律总结】判定事件判定事件A A与与B B是否有关问题的具体步骤是否有关问题的具体步骤 ( (1 1) )采集样本数据采集样本数据, ,列出列出2 22 2列联表列联表. . ( (2 2) )由由K K2 2= = 计算计算K K2 2的观测值的观测值. . ( (3 3) )统计推断统计
43、推断, ,根据临界值表下结论根据临界值表下结论. . 2 n(adbc) ab cdac bd 【巩固训练巩固训练】为了调查某生产线上质量监督员甲对产品质量好坏有无为了调查某生产线上质量监督员甲对产品质量好坏有无 影响影响, ,现统计数据如下现统计数据如下: :甲在现场时甲在现场时, ,990990件产品中有合格品件产品中有合格品982982件件, ,次次 品品8 8件件; ;甲不在现场时甲不在现场时, ,510510件产品中有合格品件产品中有合格品493493件件, ,次品次品1717件件. .试分别试分别 用列联表用列联表、等高条形图等高条形图、独立性检验的方法分析质量监督员甲对产品独立性
44、检验的方法分析质量监督员甲对产品 质量好坏有无影响质量好坏有无影响, ,能否在犯错误的概率不超过能否在犯错误的概率不超过0 0. .001001的前提下的前提下, ,认为认为 质量监督员甲是否在生产现场与产品质量有关质量监督员甲是否在生产现场与产品质量有关? ? 【解析解析】( (1 1) )2 22 2列联表如下列联表如下: : 合格品数合格品数 次品数次品数 总计总计 甲在生产现场甲在生产现场 982982 8 8 990990 甲不在生产现场甲不在生产现场 493493 1717 510510 总计总计 1 4751 475 2525 1 5001 500 由列联表可得由列联表可得|ad
45、|ad- -bc|=|982bc|=|9821717- -4934938|=12750.8|=12750. 这个数值较大这个数值较大, ,可在某种程度上认为可在某种程度上认为“质量监督员甲是否在生产现场质量监督员甲是否在生产现场 与产品质量有关系与产品质量有关系”. . (2)(2)画等高条形图画等高条形图. . 如图可知如图可知, ,在某种程度上认为在某种程度上认为“质量监督员甲是否在生产现场与产品质量监督员甲是否在生产现场与产品 质量有关系质量有关系”. . (3)(3)由由2 22 2列联表中数据列联表中数据, ,计算得到计算得到K K2 2的观测值为的观测值为 k= 13.09710.
46、828,k= 13.09710.828, 因此因此, ,在犯错误的概率不超过在犯错误的概率不超过0.0010.001的前提下的前提下, ,认为质量监督员甲在不认为质量监督员甲在不 在生产现场与产品质量有关系在生产现场与产品质量有关系. . 2 1 500 (982 17493 8) 990 510 1 475 25 【补偿训练补偿训练】两分类变量两分类变量M M和和N N的取值分别为的取值分别为mm1 1,m,m2 2 和和nn1 1,n,n2 2,在一次在一次 独立性检验中独立性检验中, ,得出列联表如下得出列联表如下: : m m1 1 m m2 2 总计总计 n n1 1 200200 800800 1 0001 000 n n2 2 180180 a a 180+a180+a 总计总计 380380 800+a800+a 1 180+a1 180+a 最后发现最后发现, ,两个分类变量两个分类变量M M和和