1、 8.3 列联表与独立性检验 高二数学选择性必修 第三册 第八章 成对数据的统计分析学习目标1.通过实例,理解22的统计意义;2.通过实例了解22列联表与独立性检验 及其应用;3.会根据 2 的值判断两个分类变量之间 关系的强弱4.核心素养:数据分析、逻辑推理、数学运算.一、回顾旧知21(,)()niiiQ a bybxa2.残差平方和:1122211()()()nniiiiiinniiiixxyyx ynxybxxxnxaybx 3.最小二乘法 将 称为Y 关于x 的经验回归方程,ybxa 4.判断模型拟合的效果:残差分析21212()11()niiniiiyyyRy 决定系残差平方和.总偏
2、差平方和数R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差.1.线性回归模型ybxae含有随机误差e,其中x为解释变量,y响应变量在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或互相影响的问题.一、探究新知 例如:就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是都存在区别,吸烟是否会增加患肺癌的风险等。独立性检验方法分类变量:用实数表示不同的现象或性质.如:班级:1、2、3,男生、女生:0、1.本节主要讨论取值于0,1的分类变量的关联性 1.问题1:为了有针对性地提高学生体育锻炼的积极性,某中学需
3、要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校生的普查数据如下:523名女生中 有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?解:比较经常锻炼的学生在女生和男中的比率.01.ff经常锻炼的女生数经常锻炼的男生数,女生总数男生总数010.787.ff3314730.633,52360110-=0.154.f f 0.787 0.633男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.1.问题1:为了有
4、针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校生的普查数据如下:523名女生中 有331名经常锻炼;601名男生中有473名经常锻.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?解:对于中的每一名学生,分别令0,0,11XY该生不经常锻炼,该生为女生,该生经常锻炼,该生为男生,性别对体育锻炼的经常性没有影响:1011P YXP YX性别对体育锻炼的经常性有影响:1011P YXP YX1.问题1:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育
5、锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校生的普查数据如下:523名女生中 有331名经常锻炼;601名男生中有473名经常锻.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?1124804320合计601473128男生(X=1)523331192女生(X=0)经常(Y=1)不经常(Y=0)合计锻炼性别1010331100.633,00523P YXn YXP YXP Xn X1111473110.787.11601P YXn YXP YXP Xn X 在该校的学生中,性别对体育锻炼的经常性有影响,男生更经常性的锻炼.1110P YXP YX
6、在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率.然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断。2.22列联表的概念分类变量X和Y的抽样数据的22列联表:22列联表给出成对分类变量数据的交叉分类频数n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX1.例1.为比较
7、甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.二、巩固新知解:用表示两所学校的全体学生构成的集合.考虑以为样本空间的古典概型.对于中每一名学生,定义分类变量X和Y如下:0,10,1XY该生来自甲校,该生来自乙校,该生数学成绩不优秀,该生数学成绩优秀,因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为33,100.76740.2326.4343,3870.84440.1556
8、.4545,我们可以用等高堆积条形图直观地展示上述计算结果:通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.881771合计45738乙校(X=1)431033甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校2.两个分类变量之间关联关系的定性分析的方法:(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否
9、有关联关系.如可以通过列联表中 值的大小粗略地判断分类变量x和Y 之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.aca bc d与(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变 量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.3.问题2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?有可能 “两校学生的数学成绩优秀率存在差异”这个结论是根据
10、两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.独立性检验方法4.独立性检验公式及定义:提出零假设(原假设)H0:分类变量X和Y独立假定我们通过简单随机抽样得到了X和Y的抽样数据列联表,在列联表中,如果零假设H0成立,则应满足 ,即ad-bc0.因此|adbc|越小,说明两个分类变
11、量之间关系越弱;|adbc|越大,说明两个分类变量之间关系越强.acabcd 2=2()()()()()n adbcab cd ac bd为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量 用2取值的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立。这种利用2的取值推断分类变量X和Y是否独立的方法称为2独立性检验,读作“卡方独立性检验”,简称独立性检验.5.临界值的定义:对于任何小概率值,可以找到相应的正实数x,使得P(xx)=成立,我们称x为的临界值,这个临界值可作为判断2大小的标准,概率值越小,临界值x越大.2独立性检验中几个常用
12、的小概率值和相应的临界值.基于小概率值的检验规则:当2x时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;当2x时,我们没有充分证据推断H0不成立,可以认为X和Y独立.10.8287.8796.6353.8412.706x0.0010.0050.010.050.16.例2:依据小概率值=0.1的2独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩
13、优秀率之间是否存在差异.解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.因为 2=20.188(33 7 10 38)0.8372.706=43 45 71 17x 计算得到:根据小概率值=0.1的2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.881771合计45738乙校(X=1)431033甲校(X=0)优秀(Y=1)不优秀(Y=0)合计数学成绩学校7.例3:某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15
14、名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表,根据列联表中的数据,经计算得到2=20.005136(15 63 52 6)4.8817.879=67 69 21 115x根据小概率值=0.005的2独立性检验,没有充分证据推断H0不成立,因此可以认为 H0成立,即认为两种疗法效果没有差异.1361152169636675215治愈未治愈合计疗效合计乙甲疗法思考:若对调两种疗法的位置或对
15、调两种疗效的位置,这样做会 影响2取值的计算结果吗?2=2136(15 63 52 6)4.88167 69 21 1152=252 6 15 636136()4.881217159 61 2=2136()4.88167 69 251 1152 6 15 63 不影响13611521合计69636乙675215甲治愈未治愈合计疗效疗法13611521合计675215甲69636乙治愈未治愈合计疗效疗法13621115合计69663乙671552甲未治愈治愈合计疗效疗法根据小概率值=0.05的独立性检验,分析乙种疗法的效果是否比甲种疗法好.解:零假设为 H0:疗法与疗效独立,即两种疗法效果没有差
16、异.根据列联表中的数据,经计算得到2=20.05136(15 63 52 6)4.8813.841=67 69 21 115x根据小概率值=0.05的2独立性检验,我们推断 H0不成立,即可以认为两种疗法效果有差异,该推断犯错误的概率不超过0.05.1361152169636675215治愈未治愈合计疗效合计乙甲疗法根据小概率值=0.05的独立性检验,分析乙种疗法的效果是否比甲种疗法好.甲种疗法未治愈和治愈的频率分别是因此可以推断乙种疗法的效果比甲种疗法好乙种疗法未治愈和治愈的频率分别是526767150.224,0.77663696960.087,0.9138.例4:为了调查吸烟是否对肺癌有
17、影响,某肿瘤研究所采取有放回简单随机抽样,调查了9965人,得到如下结果(单位:人)依据小概率值=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险。解:零假设为 H0:吸烟和患肺癌之间没有关系 根据列联表中的数据,经计算的2=20.0019965(7775 4942 2099)56.63210.828=7817 2148 9874 91x根据小概率值=0.001的独立性检验,推断H0不成立,即认为吸 烟与患肺癌有关联,此推断犯错误的概率不大于0.001,即我们有99.9的把握认为“吸烟与患肺癌有关系”.吸烟肺癌合计非肺癌患者肺癌患者非吸烟者7775427817吸烟者2099492148合
18、计9874919965根据表中的数据计算不吸烟者中不患肺癌和患肺癌的频率分别为吸烟者中不患肺癌和患肺癌的评率分别为由 可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌频率的4倍以上。于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌概率,即吸烟更容易引发肺癌。427817781777750.9946,0.0054492148214820990.9772,0.02284.20.00540.02289.应用独立性检验解决实际问题大致应包括以下几个主要环节;(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出22列联表,计算2的
19、值,并与临界 值x比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要通过比较相应的频率,分析X和Y间的影响规律.上述几个环节的内容可以根据不同情况进行调整,例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.1.分类变量X和Y的抽样数据的22列联表:三、课堂小结2.独立性检验的一般步骤:(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出22列联表,计算2的值,并与临界值x比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.作业:课本P135 习题8.3 8题n=a+b+c+db+da+c合计c+ddcX=1a+bbaX=0Y=1Y=0合计YX
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。