1、3 3.2 2 独立性检验的基本思想及其初步应用独立性检验的基本思想及其初步应用 1.了解分类变量22列联表、随机变量K2的意义. 2.通过对典型案例的分析,了解独立性检验的基本思想方法. 3.通过对典型案例的分析,了解两个分类变量的独立性检验的应 用. 1 2 1.数据的表示方法 (1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为 分类变量. (2)用图表列出两个分类变量的频数表,称为列联表. (3)与表格相比,图形更能直观地反映出两个分类变量间是否相互 影响,常用等高条形图展示列联表数据的频率特征. 1 2 【做一做1】 班级与成绩22列联表: 表示数据m,n,p,q的值应分别
2、为( ) A.70,73,45,188 B.17,73,45,90 C.73,17,45,90 D.17,73,45,45 答案:B 优秀 不优秀 总计 甲班 10 35 45 乙班 7 38 p 总计 m n q 1 2 2.独立性检验 (1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独 立性检验. (2)独立性检验的基本思想类似于反证法.要判断“两个分类变量 有关系”,首先假设结论不成立,即H0:“两个分类变量没有关系”成立, 在该假设下构造的随机变量K2应该很小.如果由观测数据计算得到 的K2的观测值k很大,则断言H0不成立,即认为“两个分类变量有关 系”;如果观测值k很小,
3、则说明在样本数据中没有发现足够证据拒绝 H0. 1 2 (3)一般地,假设有两个分类变量X和Y,它们的取值分别为 x1,x2,y1,y2,其样本频数列联表如下: 若要推断的结论为H1:“X和Y有关系”,可以通过频率直观地判断 两个条件概率P(Y=y1|X=x1)和P(Y=y1|X=x2)是否相等.如果判断它 们相等,就意味着X和Y没有关系;否则就认为它们有关系.因此,如果 通过直接计算或等高条形图发现 相差很大,就判断两 个分类变量之间有关系. y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d + 和 + 1 2 (4)独立性检验的具体做法:
4、根据实际问题的需要确定容许推断“两个分类变量有关系”犯 错误概率的上界,然后查表确定临界值k0. P(K2k0) 0.50 0.40 0.25 0.15 0.10 k0 0.455 0.708 1.323 2.072 2.706 P(K2k0) 0.05 0.025 0.010 0.005 0.001 k0 3.841 5.024 6.635 7.879 10.828 利用公式 K2= (-)2 (+)(+)(+)(+),计算随机变量 K 2 的观测值 k. 1 2 如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超 过;否则,就认为在犯错误的概率不超过的前提下不能推断“X与 Y有关
5、系”,或者在样本数据中没有发现足够证据支持结论“X与Y 有关系”. 1 2 【做一做2-1】 下面是调查某地区男、女中学生喜欢理科的等 高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( ) A.性别与喜欢理科无关 B.女生中喜欢理科的比例约为80% C.男生比女生喜欢理科的可能性大些 D.男生中不喜欢理科的比例约为60% 解析:由题图可知,女生中喜欢理科的比例约为20%,男生中喜欢 理科的比例约为60%,因此男生比女生喜欢理科的可能性大些,故选 C. 答案:C 1 2 【做一做2-2】 在吸烟与患气管炎这两个分类变量的计算中,下 列说法正确的是( ) A.若K2的观测值为k=3.842
6、,则在犯错误的概率不超过0.05的前提 下认为吸烟与患气管炎有关系,那么在100个吸烟者中,必有95人患 气管炎 B.由独立性检验可知,在犯错误的概率不超过0.10的前提下认为 吸烟与患气管炎有关系时,我们说某人吸烟,那么他有90%的可能患 有气管炎 C.若由独立性检验求出在犯错误的概率不超过0.01的前提下认 为吸烟与患气管炎有关系,是指有1%的可能性使得推断出现错误 D.以上三种说法都不正确 答案:C 独立性检验在实际中的重要作用是什么 剖析独立性检验是数理统计的一种方法,是数学中的一种基本理 论,是数学体系中对数据关系进行探索的一种基本思想.当然,对数 据的统计分析得出的结论只能是在一定
7、程度上对某种关系进行判 断,而不是一种确定性的关系,这也是统计思想与确定性思维的差 异所在.独立性检验在实际中有着广泛的应用,是对实际生活中数 据进行分析的一种方法,通过这种分析得出的结论对实际生活或者 生产都有一定的指导作用.例如,通过吸烟和患肺癌关系的研究可 以让我们认识吸烟的危害,及时预防吸烟对人体的危害;通过对水 稻产量和施肥量关系的研究可以帮助人们正确施肥,提高水稻的产 量,从而增加种植户收入等. 题型一 题型二 题型三 题型四 题型一 利用图形与分类变量间的关系作出分析 【例1】 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别 对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
8、 试画出列联表的等高条形图,分析铅中毒病人与对照组的尿棕色 素阳性数有无差别,并判断铅中毒病人与尿棕色素为阳性是否有关 系? 分析画出图形,分析图中数据的差异,给出结论. 组别 阳性数 阴性数 总计 铅中毒病人 29 7 36 对照组 9 28 37 总计 38 35 73 题型一 题型二 题型三 题型四 解:等高条形图如图. 其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕 色素为阳性的频率. 由图可以直观地看出铅中毒病人与对照组相比较尿棕色素为阳 性差异明显,因此铅中毒病人与尿棕色素为阳性存在相关关系. 题型一 题型二 题型三 题型四 反思反思若要推断的论述为 H1:“X 与 Y 有
9、关”,则可以用等高条形图 来直观地分析两个分类变量 X 与 Y 是否相关.其原理是:分析 22 列 联表中满足条件 X=x1的个体中具有 Y=y1的个体所占的比例 +,与 满足条件 X=x2的个体中具有 Y=y1的个体所占的比例 +,两个比例 的值相差越大,H1成立的可能性就越大. 题型一 题型二 题型三 题型四 【变式训练1】 打鼾不仅影响别人休息,而且可能与患某种疾病 有关.下表是一次调查所得的数据.试问:每晚都打鼾与患心脏病有 关吗?用图表分析. 患心脏病 未患心脏病 合计 每晚都打鼾 30 224 254 不打鼾 24 1 355 1 379 合计 54 1 579 1 633 题型一
10、 题型二 题型三 题型四 解:由列联表中的信息易知打鼾人群中未患心脏病的比例约为 0.88,即患有心脏病的比例约为0.12;同理不打鼾人群中未患心脏病 的比例约为0.98,即患有心脏病的比例约为0.02.作出等高条形图(如 图). 从图中可以看出:打鼾样本中患心脏病的比例明显多于不打鼾样 本中患心脏病的比例.因此可以认为“打鼾与患心脏病有关”. 题型一 题型二 题型三 题型四 题型二 独立性检验的方法 【例2】 在一次天气恶劣的飞行航程中,调查了男女乘客在飞机 上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机 的有8人,不晕机的有26人.根据所给数据,能否在犯错误的概率不超 过
11、0.1的前提下认为在天气恶劣的飞行航程中,男乘客比女乘客更 容易晕机? 分析求出随机变量K2的观测值,分析变量关系. 题型一 题型二 题型三 题型四 解:根据题意,列出22列联表如下: 假设在天气恶劣的飞机航程中男乘客不比女乘客更容易晕机. 由公式可得K2的观测值 因此,可以在犯错误的概率不超过0.1的前提下认为“在天气恶劣 的飞行航程中,男乘客比女乘客更容易晕机”. 晕机 不晕机 总计 男乘客 24 31 55 女乘客 8 26 34 总计 32 57 89 k= (-)2 (+)(+)(+)(+)= 89(2426-318)2 55343257 3.6892.706, 题型一 题型二 题型
12、三 题型四 反思反思解独立性检验问题的基本步骤: (1)认真读题,根据相关数据,得出22列联表; (2)根据22列联表中的数据,计算K2的观测值k; (3)比较观测值k与临界值k0; (4)给出结论. 题型一 题型二 题型三 题型四 【变式训练2】 某大型企业人力资源部为了研究企业员工工作 积极性和对待企业改革态度的关系,随机抽取了189名员工进行调 查,所得数据如下表所示: 对于人力资源部的研究项目,根据上述数据能得出什么结论? 积极支持企业改革 不太赞成企业改革 总计 工作积极 54 40 94 工作一般 32 63 95 总计 86 103 189 题型一 题型二 题型三 题型四 李明和
13、张宇都对该题进行了独立性检验的分析,李明的结论是 “在犯错误的概率不超过0.01的前提下,认为企业员工的工作积极 性和对待企业改革的态度有关系”;张宇的结论是“在犯错误的概率 不超过0.005的前提下,认为企业员工的工作积极性和对待企业改 革的态度有关系”. 他们两个的结论正确吗?为什么他们的结论不一样? 题型一 题型二 题型三 题型四 解:由列联表中的数据求得K2的观测值为 10.7597.8796.635,若以k0=7.879为临界值,则在犯错误的概 率不超过0.005的前提下认为企业员工的工作积极性和对待企业改 革的态度有关系;若以k0=6.635为临界值,则在犯错误的概率不超过 0.0
14、1的前提下认为它们有关系. 故李明和张宇的结论都正确.造成结论不一样的原因是他们两人采 用了两种不同的判断规则,即所选用的临界值不同. k=189(5463-4032) 2 949586103 10.759. 题型一 题型二 题型三 题型四 题型三 独立性检验的综合应用 【例3】 为了调查某生产线上质量监督员甲是否在现场对产品 质量好坏有无影响,现统计数据如下:质量监督员甲在生产现场 时,990件产品中合格品有982件,次品有8件;甲不在生产现场时,510 件产品中合格品有493件,次品有17件.试分别用列联表、独立性检 验的方法分析监督员甲是否在现场对产品质量好坏有无影响. 分析根据题目中给
15、出的相关数据,列出22列联表求解. 题型一 题型二 题型三 题型四 解:(1)22列联表如下: 由列联表可得|ac-bd|=|98217-4938|=12 750,则ac与bd相差较大, 可在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关 系”. (2)由22列联表中数据,计算得到K2的观测值为 所以在犯错误的概率不超过 0.001的前提下认为“质量监督员甲是否在生产现场与产品质量有关系”. 合格品数 次品数 总计 甲在生产现场 982 8 990 甲不在生产现场 493 17 510 总计 1 475 25 1 500 k=1 500(98217-4938) 2 9905101 4
16、7525 13.09710.828, 题型一 题型二 题型三 题型四 反思反思在判断两个分类变量关系的可靠性时一般利用随机变量K2 来确定,把计算出的K2的观测值与相关的临界值作比较,确定出“X 与Y有关系”的犯错误的概率. 题型一 题型二 题型三 题型四 【变式训练3】 某中学对“学生性别和是否喜欢看NBA比赛”作 了一次调查,其中男生人数是女生人数的2倍,男生喜欢看NBA的人 数占男生人数的 (1)若被调查的男生人数为n,根据题意建立一个22列联表; (2)若在犯错误的概率不超过0.05的前提下认为是否喜欢看NBA 和性别有关,求男生至少有多少人? 5 6,女生喜欢看 NBA 的人数占女生
17、人数的 1 3. 题型一 题型二 题型三 题型四 解:(1)由已知得: 喜欢看 NBA 不喜欢看 NBA 总计 男生 5n 6 n 6 n 女生 n 6 n 3 n 2 总计 n n 2 3n 2 题型一 题型二 题型三 题型四 (2)k= 3 2 5 6 3- 6 6 2 2 2 = 3 8n. 若在犯错误的概率不超过 0.05 的前提下认为是否喜欢看 NBA 和性别有关, 则 k3.841,即3 8n3.841,n10.24. 2 , 6为整数, n 最小值为 12, 即男生至少有 12 人. 题型一 题型二 题型三 题型四 题型四 易错辨析 易错点:理解独立性检验思想不清致错 【例4】
18、若两个分类变量x和y的列联表为: 求x与y之间有关系的概率. 错解:计算K2的观测值得k18.822,查表知P(K210.828)0.001. 错因分析没有理解好独立性检验的基本思想. P(K210.828)0.001,则x与y之间有关系的概率约为1- 0.001=0.999. y1 y2 x1 5 15 x2 40 10 正解:k=(5+15+40+10)(510-4015) 2 (5+15)(40+10)(5+40)(15+10) 18.822.查表知 题型一 题型二 题型三 题型四 反思反思独立性检验原理在假设H0下,如果出现一个与H0相矛盾 的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这 个小概率.