1、8.3列联表与独立性检验8.3.1 分类变量与列联表讲课人:邢启强2回顾旧知回顾旧知21( , )()niiiQ a bybxa2.残差平方和: 1122211()()()nniiiiiinniiiixxyyx ynxybxxxnxaybx 3.最小二乘法将 称为Y 关于x 的经验回归方程经验回归方程,ybxa 4.判断模型拟合的效果:残差分析21212()11()niiniiiyyyRy 决定系残差平方和.总偏差平方和数R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差.1.线性回归模型ybxae含有随机误差e,其中x为解释变量,y响应变量讲课
2、人:邢启强3 前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量,数值变量的取值为实数.其大小和运算都有实际含义. 在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案。 在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所
3、在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义,本节我们主要讨论取值于0,1的分类变量的关联性问题.新课引入新课引入讲课人:邢启强4如何利用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法,我们先看下面的具体问题。问题1. 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女
4、生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?新课引入新课引入讲课人:邢启强5新课引入新课引入我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题.按照条件本概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1|X=0),而该男生属于经常锻炼群体的概率是P(Y=1|X=1).“性别对体育锻炼的经常性没有影响”可以描述为P(Y=1|X=0)=P(Y=1|X=1);“性别对体育锻炼的经常性有影响”可以描述为P(Y=1|X=0)P(Y=1
5、|X=1).为了清楚起见,我们用表格整理数据讲课人:邢启强6学习新知学习新知我们用X=0,Y=1表示事件X=0和Y=1的积事件,用X=1,Y=1表示事件X=1和Y=1的积事件,根据古典概型和条件概率的计算公式,我们有由P(Y=1|X=1)P(Y=1|X=0)可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼。讲课人:邢启强7在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为22列联表(contingency table).22列联表给
6、出了成对分类变量数据的交叉分类频数,以右表为例,它包含了X和Y的如下信息:最后一行的前两个数分别是事件Y=0和Y=1中样本点的个数;最后一列的前两个数分别是事件X=0和X=1中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件X=x,Y=y(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率.然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题
7、的思路.比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断。讲课人:邢启强8例1为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异.典型例题典型例题学校学校数学成绩数学成绩合合计计不优秀(Y=0) 优秀(Y=1)甲校(X=0)乙校(X=1)合计左表是关于分类变量X和Y的抽样数据的22列联表:最后一行的前两个数分别是事件(Y=0)和(Y=1)的频数;最后一列的前两个数分别
8、是事件(X=0)和(X=1)的频数;中间的四个格中的数是事件(X=x,Y=y)(x,y=0,1)的频数;33104338745711788讲课人:邢启强9我们可以用等高堆积条形图直观地展示上述计算结果,如下图所示左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率,通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率,依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)P(Y=1|X=1).也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学
9、成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高。881771合计45738乙校(X=1)431033甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校讲课人:邢启强102.两个分类变量之间关联关系的定性分析的方法:(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变 量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两
10、个分类变量间是否相互影响.讲课人:邢启强11分数段分数段29404150516061707180819091100午休考生人数午休考生人数23473021143114不午休考生人数不午休考生人数1751671530173 及格人数及格人数不及格人数不及格人数总计总计午休午休 不午休不午休 总计总计 【例【例2】在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:(1)根据上述表格完成列联表:(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?典型例题典型例题讲课人:邢
11、启强12问题问题2.2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?有可能 “两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.独立性检验方法讲课人:邢启强131.成语“名师出高徒”可以解释为“知名老师指导出高
12、水平学生的概率较大”,即老师的名声与学生的水平之间有关联,你能举出更多的描述生活中两种属性或现象之间关联的成语吗?2.例1中的随机抽样数据是否足够确定与X和Y有关的所有概率和条件概率?为什么?巩固练习巩固练习水涨船高、登高望远不能.因为随机抽样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性.在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与X和Y有关的概率和条件概率,但由于频率具有随机性,这种推断可能犯错误,因此,随机抽样数据不足以确定与X和Y有关的所有概率和条件概率。讲课人:邢启强143.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语,那么(1)吸烟是否对每位烟
13、民一定会引发健康问题?(2)有人说吸烟不一定引起健康问题,因此可以吸烟,这种说法对吗?巩固练习巩固练习3.(1)从已掌握的知识来看,吸烟会损害身体的健康。但除了吸烟之外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用的结果,吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者,因此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定会对每位烟民都引起健康问题.(2)这种说法不正确,虽然吸烟不一定会对每个人都引起健康问题,但根据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此“吸烟不一定引起健康问题,因此可以吸烟”的说法是不对的.讲课人:邢启强154.假设在本小节“问题”中
14、,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如右的列联表:单位:人 性别性别数学成绩数学成绩合合计计不经常(Y=0) 经常 (Y=1)女生(X=0)51520男生(X=1)61824合计113344(1)据此推断性别因素是否影响学生锻炼的经常性;(2)说明你的推断结论是否可能犯错,并解释原因巩固练习巩固练习讲课人:邢启强165.下列关于等高堆积条形图的叙述正确的是()A从等高堆积条形图中可以精确地判断两个分类变量是否有关系B从等高堆积条形图中可以看出两个变量频数的相对大小C从等高堆积条形图中可以粗略地看出两个分类变量是否有关系D以上说法都不对C6.观察下列各图,其中两个分类变量x,
15、y之间关系最强的是()D巩固练习巩固练习讲课人:邢启强17 y1y2总计总计x1a2173x222527总计总计b46 7.下面是一个22列联表:则表中a、b处的分别为()A94,96B52,50C52,54D54,52巩固练习巩固练习C8.假设有两个变量x与y的22列联表如下表:B讲课人:邢启强18我们将下表这种形式的数据统计表称为22列联表(contingency table).巩固练习巩固练习两个分类变量之间关联关系的定性分析的方法:两个分类变量之间关联关系的定性分析的方法:(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.22列联表给出了成对分类变量数据的交叉分类频数,以右表为例,它包含了X和Y的如下信息:最后一行的前两个数分别是事件Y=0和Y=1中样本点的个数;最后一列的前两个数分别是事件X=0和X=1中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件X=x,Y=y(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。