1、32 独立性检验的基本思想及其初步应用独立性检验的基本思想及其初步应用 考考 纲纲 定定 位位 重重 难难 突突 破破 1.理解独立性检验的基本思想及实理解独立性检验的基本思想及实 施步骤施步骤 2了解随机变量了解随机变量 K2的含义的含义 3能根据题目所给数据列出能根据题目所给数据列出 22 列联表及求列联表及求 K2的观测值的观测值. 重点:重点: 独立性检验的基本思想及独立性检验的基本思想及 实施步骤实施步骤 难点:难点: 独立性检验的基本思想随独立性检验的基本思想随 机变量机变量 K2的含义的含义. 01 课前 自主梳理 02 课堂 合作探究 03 课后 巩固提升 课时作业 自主梳理自
2、主梳理 122 列联表列联表 (1)分类变量的概念:分类变量的概念: 变量的不同变量的不同“值值”表示个体所属的表示个体所属的 ,像这样的变量称为分类变量,像这样的变量称为分类变量 不同类别不同类别 (2)22 列联表:列联表: 一般地,假设有两个分类变量一般地,假设有两个分类变量 X 和和 Y,它们的取值分别为,它们的取值分别为x1,x2和和y1,y2,其样本,其样本 频数列联表频数列联表(称为称为 22 列联表列联表)为:为: Y X y1 y2 总计总计 x1 a b ab x2 c d cd 总计总计 ac bd abcd 2.等高条形图等高条形图 与表格相比,图形更能直观地反映出两个
3、分类变量间是否相互影响,常用与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用 展示列联表数据的频率特征展示列联表数据的频率特征 3独立性检验的思想和方法独立性检验的思想和方法 定义定义 利用利用 来判断来判断“两个分类变量有关系两个分类变量有关系”的方法称的方法称 为独立性检验为独立性检验 公式公式 K2 ,其中,其中 n 随机变量随机变量K2 等高条形图等高条形图 n adbc 2 ab cd ac bd abcd 具体具体 步骤步骤 根据实际问题的需要, 确定容许推断根据实际问题的需要, 确定容许推断“两个分类变量有两个分类变量有 关系关系”犯错误概率的上界犯错误概率的上界
4、 ,然后查表确定,然后查表确定 ; 利用公式计算随机变量利用公式计算随机变量 K2的的 ; 如果如果 ,就推断,就推断“X 与与 Y 有关系有关系”,这种推断,这种推断 不超过不超过 ;否则,就认为在犯错误的概率;否则,就认为在犯错误的概率 不超过不超过 的前提下不能推断的前提下不能推断“X 与与 Y 有关系有关系” 犯错误的概率犯错误的概率 临界值临界值k0 观测值观测值k kk0 双基自测双基自测 1观察下列各图,其中两个分类变量观察下列各图,其中两个分类变量 x,y 之间的关系最强的是之间的关系最强的是 ( ) 解析:解析:在四幅图中,在四幅图中,D 中两个格形条的高相差最明显,说明两个
5、分类变量之间的关系中两个格形条的高相差最明显,说明两个分类变量之间的关系 最强最强 答案:答案:D 2下面是一个下面是一个 22 列联表:列联表: y1 y2 总计总计 x1 a 21 73 x2 2 25 27 总计总计 b 46 则表中则表中 a、b 处的值分别为处的值分别为( ) A94,96 B52,50 C52,54 D54,52 解析:解析:由由 a2173, a2b, 得得 a52, b54. 答案:答案:C 3下列关于下列关于 K2的说法正确的是的说法正确的是( ) AK2在任何相互独立问题中都可以用来检验有关还是无关在任何相互独立问题中都可以用来检验有关还是无关 BK2的值越
6、大,两个事件的相关性就越小的值越大,两个事件的相关性就越小 CK2是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合 DK2的观测值的观测值 k 的计算公式为的计算公式为 k n adbc ab cd ac bd 解析:解析:由独立性检验的基本思想知由独立性检验的基本思想知 A、B、D 不正确不正确 答案:答案:C 探究一探究一 列联表和等高条形图的应用列联表和等高条形图的应用 典例典例 1 为了解铅中毒病人与尿棕色素为阳性是否有关系, 分别对病人组和对照组的尿为了解铅中毒病人与尿棕色素为阳性是否有关系, 分别对
7、病人组和对照组的尿 液作尿棕色素定性检查,结果如表:液作尿棕色素定性检查,结果如表: 组别组别 阳性数阳性数 阴性数阴性数 总计总计 铅中毒病人铅中毒病人 29 7 36 对照组对照组 9 28 37 总计总计 38 35 73 试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅 中毒病人与尿棕色素为阳性是否有关系?中毒病人与尿棕色素为阳性是否有关系? 解析解析 等高条形图如图所示:等高条形图如图所示: 其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率其中两个浅色条的高分
8、别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率 由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因 此铅中毒病人与尿棕色素为阳性有关系此铅中毒病人与尿棕色素为阳性有关系 1某学校心理教研室为了做好高考前的心理辅导,对高三学生进行了一项调查,发某学校心理教研室为了做好高考前的心理辅导,对高三学生进行了一项调查,发 现:在平时的模拟考试中,性格内向的现:在平时的模拟考试中,性格内向的 426 名学生中有名学生中有 332 人在考前心情紧张,性格人在考前心情紧张,性格 外向的外向的 594 名学生中
9、有名学生中有 213 人在考前心情紧张,作出等高条形图,利用图判断考前心人在考前心情紧张,作出等高条形图,利用图判断考前心 情紧张与性格内向是否有关系情紧张与性格内向是否有关系 解析:解析:作列联表:作列联表: 性格内向性格内向 性格外向性格外向 总计总计 考前心情紧张考前心情紧张 332 213 545 考前心情不紧张考前心情不紧张 94 381 475 总计总计 426 594 1 020 相应的等高条形图如图所示:相应的等高条形图如图所示: 图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的频率, 从图中可以看图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的频率, 从图中可
10、以看 出考前心情紧张的样本中性格内向的频率比考前心情不紧张样本中性格内向的频率出考前心情紧张的样本中性格内向的频率比考前心情不紧张样本中性格内向的频率 高,因此可以认为考前心情紧张与性格内向有关高,因此可以认为考前心情紧张与性格内向有关 探究二探究二 独立性检验的应用独立性检验的应用 典例典例 2 在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕机的情况:男在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕机的情况:男 乘客晕机的有乘客晕机的有 24 人, 不晕机的有人, 不晕机的有 31 人; 女乘客晕机的有人; 女乘客晕机的有 8 人, 不晕机的有人, 不晕机的有 26 人 请人 请
11、 你根据所给数据判断:在天气恶劣的飞行航程中,男乘客是否比女乘客更容易晕机你根据所给数据判断:在天气恶劣的飞行航程中,男乘客是否比女乘客更容易晕机 解析解析 根据题意,列出根据题意,列出 22 列联表:列联表: 晕机晕机 不晕机不晕机 总计总计 男乘客男乘客 24 31 55 女乘客女乘客 8 26 34 总计总计 32 57 89 假设在天气恶劣的飞行航程中,男乘客不比女乘客更容易晕机假设在天气恶劣的飞行航程中,男乘客不比女乘客更容易晕机 由公式可得由公式可得 K2的观测值的观测值 k89 2426318 2 55343257 3.6892.706, 故有故有 90%的把握认为的把握认为“在
12、天气恶劣的飞行航程中,男乘客比女乘客更容易晕机在天气恶劣的飞行航程中,男乘客比女乘客更容易晕机” 利用随机变量利用随机变量 K2的观测值的观测值 k 与临界值的大小关系来给出推断与临界值的大小关系来给出推断“两个分类变量有关两个分类变量有关 系系”犯错误的概率,此类题先利用犯错误的概率,此类题先利用 K2 n adbc 2 ab cd ac bd 求出 求出 K2的观测值的观测值 k, 再利用再利用 k 与临界值的大小关系来判断假设是否成立,解题时应注意准确代数与计算,与临界值的大小关系来判断假设是否成立,解题时应注意准确代数与计算, 正确使用公式,从而进行比较与判断正确使用公式,从而进行比较
13、与判断 2为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调 查了查了 500 位老年人,结果如表:位老年人,结果如表: 男男 女女 需要需要 40 30 不需要不需要 160 270 (1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;估计该地区老年人中,需要志愿者提供帮助的老年人的比例; (2)能否在犯错误的概率不超过能否在犯错误的概率不超过 0.01 的前提下认为该地区的老年人需要志愿者提供帮的前提下认为该地区的老年人需要志愿者提供帮 助与性别有关?助与性别有关? 附:附: P(K2k0)
14、0.050 0.010 0.001 k0 3.841 6.635 10.828 K2 n adbc 2 ab cd ac bd . 解析:解析:(1)调查的调查的 500 位老年人中有位老年人中有 70 位需要志愿者提供帮助,因此该地区老年人中,位需要志愿者提供帮助,因此该地区老年人中, 需要帮助的老年人的比例的估计值为需要帮助的老年人的比例的估计值为 70 500 14%. (2)由列联表中数据,得由列联表中数据,得 K2观测值为观测值为 k500 4027030160 2 20030070430 9.967. 由于由于 9.9676.635,所以在犯错误的概率不超过,所以在犯错误的概率不超
15、过 0.01 的前提下认的前提下认为该地区的老年人需为该地区的老年人需 要志愿者提供帮助与性别有关要志愿者提供帮助与性别有关 独立性检验的综合应用独立性检验的综合应用 典例典例 (本小题满分本小题满分 12 分分)调查某医院某段时间内婴儿出生的时间与性别的关系,得到调查某医院某段时间内婴儿出生的时间与性别的关系,得到 下面的数据:出生时间在晚上的男婴为下面的数据:出生时间在晚上的男婴为 24 人,女婴为人,女婴为 8 人;出生时间在白天的男婴为人;出生时间在白天的男婴为 31 人,女婴为人,女婴为 26 人人 (1)将下面的将下面的 22 列联表补充完整;列联表补充完整; 出生时间出生时间 性
16、别性别 晚上晚上 白天白天 总计总计 男婴男婴 女婴女婴 总计总计 (2)能否在犯错误的概率不超过能否在犯错误的概率不超过 0.1 的前提下认为婴儿性别与出生时间有关系?的前提下认为婴儿性别与出生时间有关系? 解析解析 (1) 出生时间出生时间 性别性别 晚上晚上 白天白天 总计总计 男婴男婴 24 31 55 女婴女婴 8 26 34 总计总计 32 57 89 5 分分 (2)由所给数据计算由所给数据计算 K2的观测值的观测值 k89 2426318 2 55343257 3.6892.706.8 分分 根据临界值表知根据临界值表知 P(K22.706)0.10.10 分分 因此在犯错误的
17、概率不超过因此在犯错误的概率不超过 0.1 的前提下认为婴儿的性别与出生的时间有关系的前提下认为婴儿的性别与出生的时间有关系.12 分分 随堂训练随堂训练 1下列关于回归分析与独立性检验的说法正确的是下列关于回归分析与独立性检验的说法正确的是( ) A回归分析和独立性检验没有什回归分析和独立性检验没有什么区别么区别 B 回归分析是对两个变量准确关系的分析, 而独立性检验是分析两个变量之间的不确定 回归分析是对两个变量准确关系的分析, 而独立性检验是分析两个变量之间的不确定 关系关系 C回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关回归分析研究两个变量之间的相关关系,独
18、立性检验是对两个变量是否具有某种关 系的一种检验系的一种检验 D独立性检验可以独立性检验可以 100%确定两个变量之间是否具有某种关系确定两个变量之间是否具有某种关系 解析:解析:由回归分析及独立性检验的特点知选项由回归分析及独立性检验的特点知选项 C 正确正确 答案:答案:C 2某医疗研究所为了检验某种血清预防感冒的作用,把某医疗研究所为了检验某种血清预防感冒的作用,把 500 名使用血清的人与另外名使用血清的人与另外 500 名未使用血清的人一年中的感冒记录进行比较,提出假设名未使用血清的人一年中的感冒记录进行比较,提出假设 H:“这种血清不能起这种血清不能起 到预防感冒的作用到预防感冒的
19、作用”,利用,利用 22 列联表计算得列联表计算得 K23.918,经查临界值表知,经查临界值表知 P(K23.841)0.05.则下列表述中正确的是则下列表述中正确的是( ) A在犯错误的概率不超过在犯错误的概率不超过 0.05 的前提下认为的前提下认为“这种血清能起到预防感冒的作用这种血清能起到预防感冒的作用” B若有人未使用该血清,那么他一年中有若有人未使用该血清,那么他一年中有 95%的可能性得感冒的可能性得感冒 C这种血清预防感冒的有效率为这种血清预防感冒的有效率为 95% D这种血清预防感冒的有效率为这种血清预防感冒的有效率为 5% 解析:解析:由题意可知根据由题意可知根据 K23
20、.9183.841,又,又 P(K23.841)0.05,因此说明了在犯,因此说明了在犯 错误的概率不超过错误的概率不超过 0.05 的前提下认为的前提下认为“这种血清能起到预防感冒的作用这种血清能起到预防感冒的作用”,B,C, D 表达有误表达有误 答案:答案:A 3某电视台在一次某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了 100 名电视观众,相关的数据如表所示:名电视观众,相关的数据如表所示: 文艺节目文艺节目 新闻节目新闻节目 总计总计 20 至至 40 岁岁 40 18 58 大于大于 40 岁岁 15 27
21、42 总计总计 55 45 100 由表中数据直观分析,收看新闻节目的观众是否与年龄有关:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:_(填填“是是”或或 “否否”) 解析:解析:因为在因为在 20 至至 40 岁的岁的 58 名观众中有名观众中有 18 名观众收看新闻节目,而大于名观众收看新闻节目,而大于 40 岁的岁的 42 名观众中有名观众中有 27 名观众收看新闻节目,即名观众收看新闻节目,即 b ab 18 58, , d cd 27 42,两者相差较大,所 ,两者相差较大,所 以,经直观分析,收看新闻节目的观众与年龄是有关的以,经直观分析,收看新闻节目的观众与年龄是有关的
22、 答案:答案:是是 4某校在两个班进行教学方式对比试验,两个月后进行了一次检测,试验班与对照某校在两个班进行教学方式对比试验,两个月后进行了一次检测,试验班与对照 班成绩统计如表所示班成绩统计如表所示(单位:人单位:人): 80 及及 80 分以上分以上 80 分以下分以下 总计总计 试验班试验班 35 15 50 对照班对照班 20 m 50 总计总计 55 45 n (1)求求 m,n; (2)你有多大把握认为你有多大把握认为“教学方式与成绩有关系教学方式与成绩有关系”? 解析:解析:(1)m451530,n5050100. (2)由表中的数据得由表中的数据得 K2的观测值为的观测值为 k100 35301520 2 50505545 9.091. 因为因为 9.0917.879, 所以在犯错误的概率不超过, 所以在犯错误的概率不超过 0.005 的前提下, 即有的前提下, 即有 99.5%的把握认的把握认 为为“教学方式与成绩教学方式与成绩”有关系有关系 课时作业