1、精品课件第八章 成对数据的统计分析新人教版 列联表与独立检验列联表与独立检验特级教师优秀课件精选教学目标教学目标了解独立性检验(只要求22列联表)的基本思想理解独立性检验中P(K0)的具体含义掌握独立性检验的方法和步骤教学重点教学重点教学难点教学难点相互独立事件的概念以及概率积公式的应用,独立检验的方法与步骤。对独立性检验的基本思想以及 的意义的理解。1定义:事件A是否发生对事件B发生的概率 ,即P(B|A)_,这时,我们称两个事件A,B相互独立,并把这两个事件叫做相互独立事件 2性质:当事件A,B相互独立时,_与_,_与_,_与_也相互独立没有影响P(B)AABBAB相互独立事件的概念与性质
2、相互独立事件的概念与性质饮用水的质量是人类普遍关心的问题据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人人的身体健康状况与饮用水的质量之间有关系吗?问题:数学家庞加莱每天都从一家面包店买一块1000g 的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为950g。于是庞加莱推断这家面包店的面包分量不足。假设“面包份量足”,则一年购买面包的质量数据的平均值应该不少于1000g;“这个平均值不大于950g”是一个与假设“面包份量足”矛盾的小概率事件;这个小概率事件的发生使庞加莱得出推断结果。一:假设检验问题的原理
3、假设检验问题由两个互斥的假设构成,其中一个叫做原假设,用H0表示;另一个叫做备择假设,用H1表示。例如,在前面的例子中,原假设为:H0:面包份量足,备择假设为:H1:面包份量不足。这个假设检验问题可以表达为:H0:面包份量足 H1:面包份量不足二:求解假设检验问题考虑假设检验问题:H0:面包分量足 H1:面包分量不足求解思路分析:1.在H0成立的条件下,构造与H0矛盾的小概率事件;2.如果样本使得这个小概率事件发生,就能以一定把握断言H1成立;否则,断言没有发现样本数据与H0相矛盾的证据。两种变量:变量定量变量:体重。身高,温度。考试成绩等等。分类变量:性别,是否吸烟、是否患肺癌、宗教信仰,国
4、籍等。在日常生活中,我们常常关心分类变量之间是否有关系:例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等。研究两个变量的相关关系:变量本节研究的是两个分类变量的独立性检验问题。定量变量:回归分析(画散点图、相关系数r、相关指数 、残差分析)分类变量:独立性检验总计总计abcdacbdab cdabcd列联表 定义:列出的两个分类变量的_称为列联表 22列联表一般地,假设有两个分类变量X和Y,它们的取值分别为_和_,其样本频数列联表(也称为22列联表)为下表频数表 ,(1)22列联表用于研究两类变量之间是否相互独立,它适用于分析两类变量之间的关系,是对两类变量进行独立性检验的基
5、础(2)表中|adbc|越小,两个变量之间的关系越弱;|adbc|越大,两个变量之间的关系越强对对22列联表的理解列联表的理解1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下据:甲校 43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异.解:用 表示两所学校的全体学生构成的集合,考虑以为样本空间的古典概型.对于2中每一名学生,定义分类变量X和Y如下:我们将所给数据整理成下表学校甲校(X=0)乙校(X=1)数学成绩不优秀(Y=0)优秀(Y=1)33387110717合计合计434588
6、上表是关于分类变量X和Y的抽样数据的22列联表:最后一行的前两个数分别是事件(Y=0)和(Y-1)的频数;最后一列的前两个数分别是事件(X一0)和(X=1)的频数;中间的四个格中的数是事件(X=x,Y=y)(x,y=0,1)的频数;右下角格中的数是样本容量.因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为:乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为:我们可以用等高堆积条形图直观地展示上述计算结果,如下图所示.和和在右图中,左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率。通过比
7、较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率。依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)P(Y=1|X=1),也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的。这就是说,样本的随机性导致了两个频
8、率间出现较大差异,在这种情况下,我们推断出的结论就是错误的.后面我们将讨论犯这种错误的概率大小问题。你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?2下面是一个22列联表则表中a,b处的值分别为()A94,96 B52,50C52,54 D54,52C合计合计ab22125467327100单位:人(1)吸烟是否对每位烟民一定会引发健康问题?(2)有人说吸烟不一定引起健康问题,因此可以吸烟.这种说法对吗?3.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语,那么(1)不一定答案:(2)不对(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验(
9、2)K2 ,其中nabcd为样本容量独立性检验独立性检验根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,然后查表确定_.利用公式计算随机变量 的_ .如果 _,就推断 “X 与Y有关系”,这种推断犯错误的概率不超过,否则就认为在_ _ 不超过的前提下不能推断“X与Y有关系”,或者在样本数据中支持结论“X与Y有关系”.临界值观测值犯错误的概率没有发现足够证据0独立性检验独立性检验的具体做的具体做法法独立性检验的基本思想与反证法的思想的相似之处反证法独立性检验要证明结论A要确认“两个分类变量有关系”在A不成立的前提下进行推理假设该结论不成立,即假设结论“两个在A不成立的前分类
10、变量没有关系”成立,在该假设下提下进行推理计算 独立性检验;根据观测值分析事件是否独立。独立性检验独立性检验2.依据小概率值a=0.1的X2独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?解:零假设为Ho:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.根据表中的数据,计算得到根据小概率值a=0.1的X2独立性检验,没有充分证据推断出H0不成立,因此可以认为Ho成立,即认为两校的数学成绩优秀率没有差异.3.某儿童医院用甲、乙两种疗扶治疗小儿消化不良,采用有故回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈1
11、5名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值 =0.005的独立性检验,分析乙种疗法的效果是否比甲种疗祛好.将所给数据进行整理,得两种疗法治疗数据的列联表,如下表.解:零假设为Ho:疗法与疗效独立,即两种疗祛效果没有差异.疗法疗效合计甲乙合计未治愈治愈1552152631156769136根据列联表中的数据,经计算得到根据小概率值 =0.005的独立性检验,没有充分证推断H,不成立,因此可以认为Ho 成立,即认为两种疗法效果没有差异.单位:人4.为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数
12、据的分类统计结果,如表8.3-6所示。依据小概率值=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.单位:人吸烟非吸烟者吸烟者合计肺癌非肺癌患者肺癌患者777520999874424991合计781721489965解:零假设为Ho:吸烟与患肺之间无关联.根据列联表中的数据,经计算得到据小概率值 =0.001的独立性检验,我们推断H。不成立,即认为吸烟与患肺关联,此推断犯错误的概率不大于0.001.根据 表 8.3-6 中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为和吸烟者中不患肺癌和患肺癌的频率分别为:和由可见,在破调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上.
13、于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌。C1对于分类变量A与B的统计量2,下列说法正确的是()A2越大,说明“A与B有关系”的可信度越小B2越大,说明“A与B无关”的程度越大C2越小,说明“A与B有关系”的可信度越小D2接近于0,说明“A与B无关”的程度越小应用独立性检验解决实际问题大致应包括以下几个主要环节:(1)提出零假设Ho:X和Y相互独立,并给出在问题中的解释;(2)根据抽样数据整理出22列联表,计算 的值,并与临界值x。比较;(3)根据检验规则得出推断结论;(4)在X和Y不独立的情况下,根据需要,通过比较相应的
14、频率,分析X和Y间的影响规律.1.为了研究高三年级学生的性别和身高是否大于170cm的问题,得到某中学高三年级学生的性别和身高的所有观测数据所对应的列联表如下:计算出K2,然后与临界值对比单位:人性别女男合计合计身高低于170cm不低于170cm812810916759197103200请画出列联表的等高堆积条形图,判断该中学高三年级学生的性别和身高是否有关联.如果结论是性别与身高有关联,请解释它们之间如何相互影响.2.从第1题的高三学生中获取容量为40的有放回简单随机样本,得到性别和身高变量的样本观测数据所对应的列联表如下:单位:人性别女男合计身高低于170cm不低于170cm合计1482271118211940(1)依据=0.05的独立性检验,能否认为该中学高三年级学生的性别与身高有关联?解释所得结论的实际含义.(2)得到的结论与第1题的一致吗?如果不一致,你认为原因是什么.3.调查某医院一段时间内婴儿出生的时间和性别的关联性,得到如下的列联表:单位:人出生时间性别女男合计合计晚上白天24832312657553489依据=0.1的独立性检验,能否认为性别与出生时间有关联?解释所得结论的实际含义.根据表中数据,计算对照临界值知,认为婴儿的性别与出生时间有关系的把握为90%.独立性检验22列联表作法(理解)统计量的计算(理解)理解独立性检验的思想(了解)总结总结