1、教教 案案教学基本信息课题3. 2.1 独立性检验的基本思想及其初步应用(1)学科数学学段: 高中年级高二教材书名:普通高中课程标准实验教科书数学选修 2-3(A 版)出版社:人民教育出版社出版日期:2009 年 4 月教学设计参与人员姓名单位联系方式设计者王沛梅首经贸附中18201566373实施者王沛梅首经贸附中18201566373指导者张琦北京教育学院丰台分院13141236493课件制作者王沛梅首经贸附中18201566373其他参与者教学目标及教学重点、难点教学目标:(1)通过回顾回归分析的基本思想及应用步骤,获得研究统计案例的一般思路,并尝试将此应用于新的统计案例中。(2)在案例
2、 “吸烟是否与患肺癌有关系”的探究过程中,经历直观感知、理性分析、抽象概括的历程。体会独立性检验的基本思想,归纳独立性检验的基本步骤,发展数学抽象核心素养,提高分析问题解决问题的能力。(3)通过对两个分类变量相关性的探究,发展理性思维,进一步体会科学的严谨性。教学重点:理解独立性检验的基本思想及实施步骤教学难点:了解独立性检验的基本思想、了解 K2的含义教学过程(表格描述)教学环节主要教学活动设置意图引入问题 1前面我们学习了回归分析的基本思想及其初步应用.什么是回归分析呢?回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.我们通过案例“女大学生的身高和体重的关系”介绍了这种思想。
3、在此,我们对研究过程作以简单回顾:8 名女大学生的身高和体重数据,如下表所示:第一步:明确解释变量和预报变量,画散点图直观判断:身高和体重具有较好地线性相关关系。第二步:求线性回顾方程121()()()niiiniixxyybaybxxx, 根据最小二乘法求出斜率和纵截距的估计值,得到了回归方程:0.84985.712yx第三步:残差分析:问题 2 如何判断回归模型拟合效果的好坏?引入了残差的概念,eyy, 对回归方程进行了残差分析。步骤如下:(1)列表格表初步感知8 名女大学生的身高、体重及相应残差数据,如下表所示:初步感知:第 1 个样本数据和第 6 个样本数据残差较大。复习两个定量变量是
4、否相关及相关强弱的判断方法,回顾回归分析的基本思想及应用步骤,获得研究统计案例的一般思路,并尝试将此应用于判断两个分类变量是否相关的统计案例中。(2)画残差图直观判断直观判断:第一个和第六个样本点残差较大,离横轴较远。需要确认数据采集是否有误,如果有,则需修正后重新建立回归模型。(3)引入指标2R准确刻画22121()1()niiiniiyyRyy 引入了一个衡量模型拟合效果的指标2R:2R越接近于 1,表示回归的效果就越好。案例中的2R 0.64,即女大学生的身高解释了 64%的体重变化。残差表和残差图可以让我们直观感知到回归模型拟合程度的好坏, 而指标2R却将这种拟合程度的好坏进行了比较准
5、确地量化,让我们对两个变量的相关关系有了更清晰的了解。引入:在上述案例中,我们的样本数据为 8 名女大学生的身高和体重。这里的“身高”和“体重”是两个变量, 它们的取值一定是实数,取值大小有特定的含义,不同值之间地运算也有特定的含义。比如 1 号同学的身高是 165 厘米,4 号同学的身高是 170 厘米,通过减法运算,二者的身高差为 5厘米 。像“身高”、“体重”这样的变量称为数值变量。我们熟知的长度、速度、温度都是常见的数值变量。而生活中还有其他一些变量,比如: 性别,性别也是一个变量, 它的取值只有男和女两种。再比如: 是否喜欢数学, 它的取值为喜欢数学和不喜欢数学两种。还有:是否吸烟、
6、国籍、宗教信仰等等。这些变量的值既不能比较大小, 也不能相互运算,变量的不同值仅表示个体所属的不同类别,我们称这样的变量为分类变量。日常生活中,分类变量是大量存在的,我们体会表格初步感知,图形直观判断,拟合优度准确刻画。选择贴近学生生活的素材引入,体会数值变量和分类变量的区别。引入课题。常常关心两个分类变量之间是否有关系呢?比如,性别对喜欢数学课程是否有影响?吸烟与患肺癌是否有关系?如何得到准确的判断呢?这就是我们今天要研究的主题,我们将通过统计学的理论来判断两个分类变量是否有关系。新课数值变量:数值变量:变量的取值一定是实数,取值大小有特定地含义,不同值之间地运算也有特定的含义,像这样的变量
7、称为数值变量。比如长度、速度、温度等。分类变量:分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量。了解数值变量和分类变量,知道二者的区别例题探究:为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了 9965 人,得到如下结果:问题:吸烟是否对患肺癌与有影响?1、通过列联表粗略估计、通过列联表粗略估计“吸烟与患肺癌有关吸烟与患肺癌有关”列联表:像上表这样列出的两个分类变量的频数表,称为列联表。计算:在不吸烟者样本中,患肺癌的频率为4278170.54; 在吸烟样本中, 患肺癌的频率为4921482.28判断:2.28明显大于 0.54结论:吸烟群体和不吸烟群体患肺癌
8、的可能性存在差异。2、通过等高条形图直观地判断出、通过等高条形图直观地判断出“吸烟与患肺癌有关吸烟与患肺癌有关”问题 3: 我们能否根据图形得到“吸烟”与“患肺癌”的关系呢?判断: 比较不吸烟和吸烟两个色条内部绿色条的高可以发现,在吸烟样本中患肺癌的频率要高一些。结论: “吸烟群体和不吸烟群体患肺癌的可能性存在差异”,即“吸烟与患肺癌有关”。借助案例“吸烟是否对患肺癌有影响”,获得“判断两个分类变量是否有关系”的一般方法:列联表、等高条形图、独立性检验。在检验吸烟与患肺癌有关系的基础上,体会两个分类变量独立性检验的基本思想,并归纳其一般步骤.问题 4:我们有多大的把握认为“吸烟和患肺癌有关”?
9、借助样本数据的列联表和条形图得到的直观判断是“吸烟和患肺癌有关”。这种判断仅为直观感知,比较粗略。而这种来自于样本的数据在多大程度上能够代表总体?我们有多大的把握认为“吸烟和患肺癌有关”?这种分类变量的相关关系的强弱能否像数值变量的相关关系那样,有一个衡量的标准?本节课将通过统计理论-独立性检验来解决这个问题。3、独立性检验的建构、独立性检验的建构(1)构造随机变量)构造随机变量2K直观判断:吸烟与患肺癌有关假设0H:吸烟与患肺癌没有关系事件 A:不吸烟,事件 B:不患肺癌,事件 AB:不吸烟且不患肺癌“吸烟与患肺癌没有关系”“吸烟与患肺癌相互独立”所以事件 A 的发生不会影响事件 B 发生的
10、概率,由独立事件的概率乘法公式可得:即“假设0H”成立()( ) ( )P ABP A P B将吸烟与患肺癌列联表中的数字用字母代替,得到用字母表示的列联表:a:事件AB“不吸烟且不患肺癌”发生的频数a+b:事件 A“不吸烟”发生的频数a+c:事件 B“不患肺癌”发生的频数样本容量 n=a+b+c+d由于频率近似于概率,则()aP ABn( )abP An( )acP Bn假设 H0:“吸烟与患肺癌没有关系”成立时,有()( ) ( )P ABP A P B体会表格初步感知,图形直观判断, 随机变量2K准确刻画。anabnacn(+)()()ab cd aab ac22+aab acadaab
11、acbcadbc0adbcadbc越小,越接近 0,说明 H0成立的可能性越大,吸烟与患肺癌之间的关系越弱;adbc越大,越远离 0,说明 H0成立的可能性越小,吸烟与患肺癌之间的关系越强。为使不同样本容量的数据有统一的评判标准评判标准,科学家经过不断的实验,构造了这样一个随机变量2K:22()()()()()n adbcKab cd ac bd(其中nabcd )说明:2K公式中的分母为样本中吸烟、不吸烟、患肺癌、不患肺癌四类群体的样本数的成绩,而分子为2()n adbc; 公式中的样本容量 n 越大, 近似程度越高, 在实际应用中,通常要求 a,b,c,d 都不小于 5;此公式的推到需要很
12、多概率统计的知识,感兴趣的同学可以在课后了解这方面的知识, 这里只需要知道这个结果即可。(2)确定)确定2K大小的大小的判断判断标准标准问题 5:在假设0H成立的条件下,2K的值应该有怎样的特点?若假设0H成立,即:吸烟与患肺癌没有关系0adbc即:若0H成立则2K的值应该很小。根据吸烟与患肺癌列联表中的数据,计算得2K的观测值29965 7775 4942 209956.6327817 2148 9874 91k问题 6:2K大或者小的判断标准该如何确定呢?统计学家在长期的探索和研究中, 创立了这样一个表格:说明:第一行为根据实际问题的需要, 容许推断“两个分类变量有关系”犯错误概率的上界。
13、第二行为随机变量2K的判断标准,即与“犯错概率的上界”对应的“临界值”。若犯错误概率的上界为 0.01, 须将2K的观测值与 6.635 这个临界值做比较即可。在假设0H: “吸烟与患肺癌没有关系” 成立的条件下,2K的值应该很小2(6.635)0.01P K然而,2K的观测值56.632k , 远大于 6.635,这与假设是矛盾的。所以断定假设0H:“吸烟与患肺癌没有关系”不成立即认为原结论“ 吸烟与患肺癌有关”成立。该推断也会犯错,但犯错误的概率不超过 0.01,在被现实允许的范围之内。结论:在犯错的概率不超过 0.01 的条件下,有 99%的把握认为“吸烟与患肺癌有关系”。问题 7: 能
14、否在犯错误的概率不超过 0.001 的前提下, 认为“吸烟与患肺癌有关系”?假设0H成立,有2(10.828)0.001P K由于2K的观测值56.63210.828则假设0H不成立原判断“ 吸烟与患肺癌有关”成立但该推断也可能犯错,其犯错的概率不超过 0.001结论: 在犯错误的概率不超过 0.001 的条件下, 我们有 99.9%2K大或者小不能仅凭直觉判断,应有明确的判断标准。进一步理解2K大或小的判断标准是由实际所容许犯错误概率的上界决定的 。的把握认为“吸烟与患肺癌有关系”。总结:2K的观测值要与哪个临界值做比较,应根据实际问题中容许犯错误的概率上界来确定。三、独立性检验方法的提炼三
15、、独立性检验方法的提炼1、过程回顾、过程回顾判断:吸烟与患肺癌有关假设0H:“吸烟与患肺癌没有关系”构造了随机变量22()()()()()n adbcKab cd ac bd若0H成立, 则2K应该很小求出2K的观测值56.632k 由于容许犯错误概率的上界 0.01,确定了2K的临界值 6.6352(6.635)0.01P K又2K的观测值56.632k 远大于 6.635 与假设矛盾因此假设0H不成立原结论:“吸烟与患肺癌有关” 成立该推断犯错误的概率不超过 0.012、抽象概括、抽象概括将上述解决问题的方法其抽象为一般情况:判断:“两个分类变量 X 和 Y 有关系” ;假设0H:“两个分
16、类变量没有 X 和 Y 没有关系”成立;若0H成立, 则2K应该很小;根据容许犯错误概率的上界,确定2K的判断标准,即临界值0k;比较2K的观测值k与0k;若0kk,则假设0H错误,原判断正确,即两个分类变量X 和 Y 有关。该判断有可能犯错,将“两个分类变量有关” 错判为“两个分类变量无关”的概率不超过。否则 ,认为样本数据中没有足够的证据表明假设错误,即认为两个分类变量没有关系。像上面这种利用随机变量2K来判断在多大程度上可以认为 “两个分类变量有关系”的方法,称为独立性检验独立性检验。其优点是给出了将“两个分类变量没有关系”错判为“两个分类变量有关系”的概率。回顾整个案例探究过程,并推广
17、到一般情况,抽象出独立性检验的基本思想。3、深化理解、深化理解从整体思路上看,独立性检验的思想与反证法的思想相类似:独立性检验与反证法的基本思想是类似的:都是先假设结论不成立,然后根据是否能推出“矛盾”来断定结论是否成立。但二者矛盾的含义是有区别的:反正法在推导目标的过程中若出现与与0H不相符合的逻辑矛盾,则假设0H错误,原命题H完全成立。独立性检验在推导目标的过程中若出现与与0H不相符的小概率事件,我们就推断假设0H不成立,原命题H成立。但该推断有可能犯错误,其犯错误的概率不超过这个小概率事件的概率。4、总结判断、总结判断“两个分类变量有关系两个分类变量有关系”的方法及相应步骤的方法及相应步
18、骤方法根据列联表初步感知:列联表 求频率 比大小作判断;方法绘等高条形图直观判断:列联表 求频率 绘图形比高低 作判断;指出:这两种方法能够直观地得到两个分类变量是否相关,但不能推断出到底有多大的把握认为“两个分类变量有关系”。而独立性检验恰好可以弥补这个不足,它可以给出推断“两个分类变量有关系”的犯错误概率。方法独立性检验准确量化:要检验“两个分类变量 X 和 Y 有关系”第一步,提出假设0H:两个分类变量 X 和 Y 没有关系;第二步;根据实际问题容许的犯错上界,确定2K的临界值0k;第三步,将随机变量2K的观测值k与0k比较;通过与反证法的思想相对比,进一步理解独立性检验的基本思想。归纳
19、“判断两个分类变量有关系”的方法及相应步骤。并点评每种方法的特点。第四步,作出判断。当2K 0k,则认为两个分类变量 X 和Y 有关系,这种推断犯错误的概率不超过;否则认为样本数据中没有足够的证据支持“两个分类变量 X 和 Y 有关系”。总结问题 8:本节课我们学习了哪些知识?从中体会到了怎样的数学思想方法?1、内容:复习了回归分析的基本思想 、判断两个分类变量是否相关2、方法:列联表、等高条形图 、独立性检验3、思想:独立性检验的思想本节课我们首先复习了回归分析的基本思想。在此过程中,我们学习了判断“两个分类变量是否相关”的三种方法:分别是列联表、绘制等高条形图及独立性检验。由于列联表中的数
20、据是样本数据,只是总体的代表,具有随机性。因此,前两种方法只能粗略地判断两个分类变量是否相关。而独立性检验通过比较随机变量2K的观测值与临界值的大小, 来判断两个分类变量是否有关系。 并给出了将“两个分类变量没有关系”错判为“两个分类变量有关系”的概率。即独立性检验的方法将判断两个分类变量是否有关系进行了比较准确的量化。独立性检验的思想类似于反证法:要验证“两个分类变量有关系”,先假设这“两个分类变量没有关系”。 以此为前提构造一个与假设相矛盾的小概率事件,其概率不超过。如果样本观测数据使得这个小概率事件发生,则我们认为在犯错误概率不超过的前提下,“两个分类变量有关系”。通过问题梳理本节所学知识、方法、思想。并与数值变量相关关系的研究过程对比,体会二者研究思路的共通之处。作业有甲乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计成绩之后,得到如下列联表:请画出列联表的等高条形图, 并通过图形判断成绩与班级是否有关系;根据列联表的独立性检验,能否在犯错误的概率不超过 0.01 的前提下认为成绩与班级有关?巩固判断“两个分类变量是否有关系”的方法,继续体会独立性检验的基本思想。