1、-1-1.21.2独立性检验的基本思想及其初步应用独立性检验的基本思想及其初步应用目标导航1.了解分类变量、列联表的含义,会作22列联表.2.了解随机变量K2的含义以及观测值k的计算公式.3.了解独立性检验的基本思想及其初步应用.知识梳理1.分类变量和列联表(1)分类变量.变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表.定义:列出的两个分类变量的频数表,称为列联表.22列联表.一般地,假设两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称22列联表)为知识梳理2.等高条形图(1)等高条形图与表格相比,能更直观地反映出两个分类变量间是
2、否相互影响,常用等高条形图展示列联表数据的频率特征.知识梳理【做一做1】观察下列各图,其中两个分类变量X,Y之间关系最强的是()解析:在4个选项中,选项D的图中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选D.答案:D知识梳理3.独立性检验 知识梳理【做一做2】对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是()A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大;
3、k越小,“X与Y有关系”的可信程度越小.故选B.答案:B重难聚焦怎样理解独立性检验的思想?剖析:独立性检验的基本思想类似于数学中的反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下我们构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过P(K26.635)0.01来评价假设不合理的程度,由实际计算出K26.635,说明假设不合理的程度约为99%,即两个分类变量有关系这一结论成立的可信程度为99%.典例透析题型一题型二题型三题型四列联表和等
4、高条形图的应用【例1】从某学校对高三学生作的一项调查中发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.分析:解:作列联表如下:典例透析题型一题型二题型三题型四相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前心情紧张与性格类别有关系.典例透析题型一题型二题型三题型四反思利用数形结合的思想,借助等高条形图来判断两个分类
5、变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,两个分类变量有关系的可能性就越大.在作等高条形图时,可以用列联表来寻找相关数据,作图要精确,且易于观察,以便对结论的判断不出现偏差.典例透析题型一题型二题型三题型四【变式训练1】现从发生交通事故的司机中随机抽取2000名司机的样本,根据他们血液中是否含有酒精以及他们是否对事故负有责任,将数据整理如下:试根据上表画出等高条形图,并结合等高条形图分析血液中含有酒精与对事故负有责任是否有关系.典例透析题型一题型二题型三题型四解:等高条形图如图所示:图中两个深色条的高分别表示司机血液中有酒精和无酒精样本中对事故负有责任的频率,从图中可以
6、看出,司机血液中有酒精样本中对事故负有责任的频率明显高于司机血液中无酒精样本中对事故负有责任的频率.由此可以认为司机血液中含有酒精与对事故负有责任有关系.典例透析题型一题型二题型三题型四独立性检验原理的应用【例2】打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:根据独立性检验原理,能否在犯错误的概率不超过0.001的前提下认为每一晚都打鼾与患心脏病有关系?典例透析题型一题型二题型三题型四反思解决一般的独立性检验问题的步骤:(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0;(3)如果kk0,就推断“两个分类变量有关系”,这种推断犯错误
7、的概率不超过犯错误概率的上界,否则,就认为在犯错误的概率不超过犯错误概率的上界的前提下不能推断“两个分类变量有关系”,或者没有发现足够的证据支持结论“两个分类变量有关系”.典例透析题型一题型二题型三题型四【变式训练2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科生对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.根据以上数据建立一个22列联表,并在犯错误的概率不超过0.50的前提下分析学生选报文、理科与对外语的兴趣是否有关.解:根据题目所给的数据得到如下列联表:典例透析题型一题型二题型三题型四典例透
8、析题型一题型二题型三题型四独立性检验的综合应用【例3】为了调查某生产线上质量监督员甲在现场对产品质量好坏有无影响,现统计数据如下:当甲在生产现场时,990件产品中有合格品982件,次品8件;当甲不在生产现场时,510件产品中有合格品493件,次品17件.试列出22列联表,并画出等高条形图分析质量监督员甲在现场对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲在现场与产品质量好坏有关?分析:由题目所给数据列出列联表,并画出相应的等高条形图,直观判断两个分类变量之间是否有关系,用独立性检验原理判断上述推断是否正确.典例透析题型一题型二题型三题型四解:根据题目所给数
9、据得如下22列联表:由22列联表中的数据,可得等高条形图如下.典例透析题型一题型二题型三题型四图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的频率明显高于甲在生产现场样本中次品数的频率.因此可以认为质量监督员甲在现场与产品质量好坏有关系.由22列联表中的数据,计算得到K2的观测值为因此在犯错误的概率不超过0.001的前提下,认为质量监督员甲在现场与产品质量好坏有关.典例透析题型一题型二题型三题型四典例透析题型一题型二题型三题型四【变式训练3】在一次对人们休闲方式的调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个22列联表;(2)能否在犯错误的概率不超过0.025的前提下认为性别与休闲方式有关系?典例透析题型一题型二题型三题型四解:(1)22列联表如下:(2)根据表中的数据,由公式得K2的观测值因为6.2015.024,所以在犯错误的概率不超过0.025的前提下认为休闲方式与性别有关系.再见再见2022-11-17