8.3.1 分类变量与列联表 ppt课件-2022新人教A版(2019)《高中数学》选择性必修第三册.pptx

上传人(卖家):Q123 文档编号:3588271 上传时间:2022-09-21 格式:PPTX 页数:16 大小:194.17KB
下载 相关 举报
8.3.1 分类变量与列联表 ppt课件-2022新人教A版(2019)《高中数学》选择性必修第三册.pptx_第1页
第1页 / 共16页
8.3.1 分类变量与列联表 ppt课件-2022新人教A版(2019)《高中数学》选择性必修第三册.pptx_第2页
第2页 / 共16页
8.3.1 分类变量与列联表 ppt课件-2022新人教A版(2019)《高中数学》选择性必修第三册.pptx_第3页
第3页 / 共16页
8.3.1 分类变量与列联表 ppt课件-2022新人教A版(2019)《高中数学》选择性必修第三册.pptx_第4页
第4页 / 共16页
8.3.1 分类变量与列联表 ppt课件-2022新人教A版(2019)《高中数学》选择性必修第三册.pptx_第5页
第5页 / 共16页
点击查看更多>>
资源描述

1、8.3 列联表与独立性检验列联表与独立性检验8.3.1 分类变量与列联表分类变量与列联表前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100 m世界世界纪录和创纪录的时间等,都是纪录和创纪录的时间等,都是数值变量数值变量.数值变量的取值为实数,其大小和运算数值变量的取值为实数,其大小和运算都有实际含义都有实际含义.在现实生活中,人们经常需要回答在现实生活中,人们经常需要回答一定范围内的两种现象或性质一定范围内的两种现象或性质之间是否存之间是否存在在关联性或相互影响的问题关联性或相互影响的问题.例如,就读不同学校是否对学生的成

2、绩有影响,不例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等等.本节将要学习的本节将要学习的独立性检验独立性检验方法为我们提供了解决这类问题的方案方法为我们提供了解决这类问题的方案.在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以以区别不同的现象或性质区别不同的现象或性质,这类随机变量称为,这类随机变量称为分类变量分类变量.分类变量的取值可以用分类变量的取值可以用实数表示,

3、例如,学生所在的班级可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用等表示,男性、女性可以用1,0表表示,等等示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义义.本节我们主要讨论本节我们主要讨论取值于取值于0,1的分类变量的分类变量的关联性问题的关联性问题.1.分类变量分类变量 问题问题 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情素是否对本校

4、学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查况进行了普查.全校学生的普查数据如下全校学生的普查数据如下:523名女生中有名女生中有331名经常锻炼;名经常锻炼;601名男生中有名男生中有473名经常锻炼名经常锻炼.你能利用这些数据,说明该校女生和男生在你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗体育锻炼的经常性方面是否存在差异吗?如何利用统计数据判断一对分类变量之间是否具有关联性呢如何利用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计对于这样的统计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在问题,有时可以

5、利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法大多数情况下,需要借助概率的观点和方法.我们先看下面的具体问题我们先看下面的具体问题.这是一个简单的统计问题这是一个简单的统计问题.最直接的解答方法是,比较最直接的解答方法是,比较经常锻炼的学生在女生经常锻炼的学生在女生和男生中的比率和男生中的比率.由已知数据,可得由已知数据,可得0f 经经常常锻锻炼炼的的女女生生数数女女生生总总数数1f 经经常常锻锻炼炼的的男男生生数数男男生生总总数数3310.633523 ,4730.787601 .该校的女生和男该校的女生和男生在体育锻炼的生在体育锻炼的经常性方

6、面有差经常性方面有差异,而且男生更异,而且男生更经常锻炼经常锻炼.上面的问题还可以通过建立一个古典概型,上面的问题还可以通过建立一个古典概型,使用条件概率使用条件概率的语言,给出另外的语言,给出另外一一 种解答方法种解答方法.用用表示该校全体学生构成的集合,则表示该校全体学生构成的集合,则为样本空间,定义一对分类变量为样本空间,定义一对分类变量X和和Y如下如下:对于对于中的每一名学生,分别令中的每一名学生,分别令01X ,该该生生为为女女生生,该该生生为为男男生生,01Y ,该该生生不不经经常常锻锻炼炼,该该生生经经常常锻锻炼炼.下面我们利用已知数据分别来计算这两个条件概率下面我们利用已知数据

7、分别来计算这两个条件概率.若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率为的概率为 而该男生属于经常锻炼群体的概率为而该男生属于经常锻炼群体的概率为 (1|0)P YX ,(1|1).P YX 为了清楚起见,我们用表格整理数据,如下表所示为了清楚起见,我们用表格整理数据,如下表所示.性别性别锻炼锻炼合计合计不经常不经常(Y0)经常经常(Y1)女生女生(X0)192331523男生男生(X1)128473601合计合计3208041124331(1|0)0.633523P YX ,473(1|1)0.78

8、7.601P YX (1|1)(1|0)P YXP YX ,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.2.列联表列联表在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存要,将数据分类统计,并做成表格加以保存.我们将形如下表这种形式我们将形如下表这种形式的数据统计表称为的数据统计表称为22列联表列联表.2

9、2列联表给出了列联表给出了成对分类变量数据的交成对分类变量数据的交叉分类频数叉分类频数.组别组别甲甲(Y0)乙乙(Y1)合计合计A(X0)ababB(X1)cdcd合计合计acbdabcd 用用表示两所学校的全体学生构成的集合,则表示两所学校的全体学生构成的集合,则为样本空间,对于为样本空间,对于中的每中的每一名学生,定义分类变量一名学生,定义分类变量X和和Y如下:如下:例例1 为比较甲、为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽乙两所学校学生的数学水平,采用简单随机抽样的方法抽取取88名学生名学生.通过测验得到了如下数据通过测验得到了如下数据:甲校甲校43名学生中有名学生中

10、有10 名数学成绩名数学成绩优秀优秀;乙校乙校45名学生中有名学生中有7名数学成绩优秀名数学成绩优秀.试分析两校学生中数学成绩优试分析两校学生中数学成绩优秀率之间是否存在差异秀率之间是否存在差异.解:解:01X ,该该生生来来自自甲甲校校,该该生生来来自自乙乙校校,01Y ,该该生生数数学学成成绩绩不不优优秀秀,该该生生数数学学成成绩绩优优秀秀.将所给数据整理成如下将所给数据整理成如下22列联表列联表.学校学校数学成绩数学成绩合计合计不优秀不优秀(Y0)优秀优秀(Y1)甲校甲校(X0)331043乙校乙校(X1)38745合计合计711788学校学校数学成绩数学成绩合计合计不优秀不优秀(Y0)

11、优秀优秀(Y1)甲校甲校(X0)331043乙校乙校(X1)38745合计合计711788330.767443,由等高堆积条形图可知,可以认为两校学生的数学成绩优秀率存在差异,甲由等高堆积条形图可知,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高校学生的数学成绩优秀率比乙校学生的高.由由22列联表可列联表可得,得,甲校学生中数甲校学生中数学成绩不优秀和数学成绩不优秀和数学成绩优秀的频率学成绩优秀的频率分别为分别为100.232643.乙校学生中数学成绩不优秀和乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为数学成绩优秀的频率分别为380.844445,70.

12、155645.作出等高堆积条形图如图示作出等高堆积条形图如图示.甲校甲校乙校乙校1.00.80.60.40.00.2优秀优秀不优秀不优秀 思考思考 你认为你认为“两校学生的数学成绩优秀率存在差异两校学生的数学成绩优秀率存在差异”这一结论是否有可能这一结论是否有可能是错误的是错误的?事实上,事实上,“两校学生的数学成绩优秀率存在差异两校学生的数学成绩优秀率存在差异”这个结论是根据两个这个结论是根据两个频率间存在差异推断出来的频率间存在差异推断出来的.有可能出现这种情况有可能出现这种情况:在随机抽取的这个样在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上本中,两个频

13、率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的是没有差别的.这就是说,样本的随机性导致了两个频率间出现较大差异这就是说,样本的随机性导致了两个频率间出现较大差异.在这种情况下,我们推断出的结论就是错误的在这种情况下,我们推断出的结论就是错误的.后面我们将讨论犯这种后面我们将讨论犯这种错误的概率大小问题错误的概率大小问题.变式变式 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人

14、调查,发现其中经常上网的有人调查,发现其中经常上网的有200人,这人,这200人中有人中有80人期末考试不及人期末考试不及格,而另外格,而另外800人中有人中有120人不及格利用图形判断学生经常上网与学习成人不及格利用图形判断学生经常上网与学习成绩有关吗?绩有关吗?解解:根据题目所给的数据得到如下根据题目所给的数据得到如下22列联表:列联表:成绩成绩上网上网合计合计经常上网经常上网不经常上网不经常上网不及格不及格80120200及格及格120680800合计合计2008001 000由此可得由此可得得到等高堆积得到等高堆积条形图如图所示:条形图如图所示:比较图中阴影部分,可以发现经常上网期末考

15、试不及格的频率明显高于比较图中阴影部分,可以发现经常上网期末考试不及格的频率明显高于经常上网期末考试及格的频率经常上网期末考试及格的频率,因此可以认为经常上网与学习成绩有关因此可以认为经常上网与学习成绩有关课本课本127页页 1.成语成语“名师出高徒名师出高徒”可以解释为可以解释为“知名老师指导出高水平学生的概率较知名老师指导出高水平学生的概率较大大”,即老师的名声与学生的水平之间有关联,即老师的名声与学生的水平之间有关联.你能举出更多的描述生活你能举出更多的描述生活中两种属性或现象之间关联的成语吗中两种属性或现象之间关联的成语吗?解:解:例如水涨船高、登高望远等例如水涨船高、登高望远等.课本

16、课本127页页 2.例例1中的随机抽样数据是否足够确定与中的随机抽样数据是否足够确定与X和和Y有关的所有概率和条件概率有关的所有概率和条件概率?为什么为什么?解:解:不能不能.因为随机抽样得到的样本具有随机性,根据样本数据计算出来因为随机抽样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性的频率也具有随机性.在统计推断中,依据频率稳定于概率的原理,可以在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与利用频率推断与X和和Y有关的概率和条件概率,但由于频率具有随机性,这有关的概率和条件概率,但由于频率具有随机性,这种推断可能犯错误种推断可能犯错误.因此,随机抽样数据不足以确定

17、与因此,随机抽样数据不足以确定与X和和Y有关的所有概有关的所有概率和条件概率率和条件概率.课本课本127页页3.根据有关规定,香烟盒上必须印上根据有关规定,香烟盒上必须印上“吸烟有害健康吸烟有害健康”的警示语的警示语.那么那么 (1)吸烟是否对每位烟民一定会引发健康问题吸烟是否对每位烟民一定会引发健康问题?(2)有人说吸烟不一定引起健康问题,因此可以吸烟有人说吸烟不一定引起健康问题,因此可以吸烟.这种说法对吗这种说法对吗?解:解:(1)从已掌握的知识来看,吸烟会损害身体的健康从已掌握的知识来看,吸烟会损害身体的健康.但除了吸烟之但除了吸烟之外,身体的健康还受许多其他随机因素的影响,它是很多因素

18、共同作用外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用的结果的结果.吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者.因因此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定会对每位烟民都引起健康问题会对每位烟民都引起健康问题.(2)这种说法不正确这种说法不正确.虽然吸烟不一定会对每个人都引起健康问题,但根虽然吸烟不一定会对每个人都引起健康问题,但根据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此

19、“吸烟不一吸烟不一定引起健康问题,因此可以吸烟定引起健康问题,因此可以吸烟”的说法是不对的的说法是不对的.课本课本127页页 4.假设在本小节假设在本小节“问题问题”中,只是随机抽取了中,只是随机抽取了44名学生,按照性别和体名学生,按照性别和体育锻炼情况整理为如下的列联表育锻炼情况整理为如下的列联表:性别性别锻炼锻炼合计合计不经常不经常经常经常女生女生51520男生男生61824合计合计113344(1)据此推断性别因素是否影响据此推断性别因素是否影响学生锻炼的经常性;学生锻炼的经常性;(2)说明你的推断结论是否可能说明你的推断结论是否可能犯错,并解释原因犯错,并解释原因.课本课本127页页

20、性别性别锻炼锻炼合计合计不经常不经常(Y0)经常经常(Y1)女生女生(X0)51520男生男生(X1)61824合计合计113344(1)据此推断性别因素是否影据此推断性别因素是否影响学生锻炼的经常性;响学生锻炼的经常性;(2)说明你的推断结论是否可说明你的推断结论是否可能犯错,并解释原因能犯错,并解释原因.解:解:(1)根据列联表中的数据根据列联表中的数据,计算得男女生中不经常锻,计算得男女生中不经常锻炼和经常锻炼的频率分别为炼和经常锻炼的频率分别为50.2520,150.7520.通过对比发现,男生中不经常锻炼和经常锻炼的频率与女生中不经常锻炼和通过对比发现,男生中不经常锻炼和经常锻炼的频

21、率与女生中不经常锻炼和经常锻炼的频率分别相等,依据频率稳定于概率的原理,可以推断经常锻炼的频率分别相等,依据频率稳定于概率的原理,可以推断P(Y=1|X=0)=P(Y=1|X=1).因此,可以认为性别对体育锻炼的经常性没有影响因此,可以认为性别对体育锻炼的经常性没有影响.60.2524,180.7524,(2)推断可能犯错误推断可能犯错误.因为样本是通过随机抽样得到的,频率具有随机性,因因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误此推断可能犯错误.小结:小结:1.分类变量分类变量 用以区别不同的用以区别不同的现象现象或或性质性质的一种特殊的随机变量,称为分类变量的一种特殊的随机变量,称为分类变量分类变量的取值可以用实数表示,例如,学生所在的班级可以用分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用等表示,男性、女性可以用1,0表示,等等表示,等等2.列联表列联表将形如下表这种形式的数据统计表称为将形如下表这种形式的数据统计表称为22列联表列联表.22列联表给出列联表给出了了成对分类变量数据的交叉分类频数成对分类变量数据的交叉分类频数.组别组别甲甲(Y0)乙乙(Y1)合计合计A(X0)ababB(X1)cdcd合计合计acbdabcd

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高中 > 数学 > 人教A版(2019) > 选择性必修 第三册
版权提示 | 免责声明

1,本文(8.3.1 分类变量与列联表 ppt课件-2022新人教A版(2019)《高中数学》选择性必修第三册.pptx)为本站会员(Q123)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|