1、第八章 成对数据的统计分析8.3列联表与独立性检验知识梳理知识点1.分类变量与列联表分类变量为了方便,会使用一种特殊的随机变量,区别不同的现象或性质,这随机变量称为分类变量.分类变量的取值可以用实数表示.列联表(1)22列联表给出了成对分类变量数据的交叉分类频数(2)定义一对分类变量X和Y,我们整理数据如下表所示:XY合计Y0Y1X0ababX1cdcd合计acbdnabcd像这种形式的数据统计表称为22列联表3.两个分类变量之间关联关系的定性分析方法(1)频率分析法:通过对样本的分类变量的不同类别事件发生的频率大小进行分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的频数表来进
2、行分析.(2)图形分析法:与表格相比,图形更能直观地反映两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.知识点2.独立性检验1定义:利用2的取值推断分类变量X和Y是否独立的方法称为2独立性检验,读作“卡方独立性检验”简称独立性检验22,其中nabcd.3独立性检验解决实际问题的主要环节(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释(2)根据抽样数据整理出22列联表,计算2的值,并与临界值x比较(3)根据检验规则得出推断结论(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律题型探究例1为了解国内不同年龄段的民众旅游消费基本情况,
3、某旅游网站从其数据库中随机抽取了100条客户信息进行分析,这些客户一年的旅游消费金额如下表:旅游消费(千元)合计年轻人(人)910973240中老年(人)59131311960(1)分别估计年轻人和中老年人的旅游消费的平均数(同一组中的数据用该组区间的中点值作代表)(精确到0.01);(2)把一年旅游消费金额满8千元的称为“高消费”,否则称为“低消费”.(i)从这些“低消费”客户中随机选一人,估计该客户是年轻人的概率;(ii)完成列联表,并判断能否有97.5%的把握认为旅游消费高低与年龄有关.低消费高消费合计年轻人(人)中老年(人)合计参考公式:,其中.附临界值表:0.1000.0500.02
4、50.0100.0012.7063.8415.0246.63510.828【答案】(1)年轻人旅游消费的平均数为:(千元),中老年人旅游消费的平均数为:(千元);(2)(i);(ii)列联表答案见解析,有97.5%的把握认为旅游消费高低与年龄有关.【详解】解:(1)由表格可知,年轻人旅游消费的平均数为:(千元).中老年人旅游消费的平均数为:(千元).(2)(i)由表格可知,样本中“低消费”总客户数为,其中“低消费”的年轻人有人.所以随机选一人该客户是年轻人的概率为.(ii)列联表如下:低消费高消费合计年轻人(人)35540中老年(人)402060合计7525100因为,所以有97.5%的把握认
5、为旅游消费高低与年龄有关.例2高考在即,进行适量的体育锻炼有助于缓解考试压力,为了解高三年级同学们每天放学后主动参加体育锻炼的情况,随机调查了名高三学生,通过调查把这人每天锻炼的时间(单位:分钟)绘制成频数分布表,如下表所示:锻炼时间人数若把每天锻炼时间在分钟以上(含分钟)的同学称为“ 锻炼助考生”,余下的称为“非锻炼助考生”,根据统计结果中男女生“ 锻炼助考生”和“非锻炼助考生”的数据,制作成如下图所示的等高条形图.(1)根据抽样结果估计该校高三学生每天放学后的平均锻炼时间(同一组数据用该区间的中点值作为代表);(2)根据已知条件完成下面的列联表,并判断是否有的把握认为“锻炼助考生”跟性别有
6、关?男生女生总计锻炼助考生非锻炼助考生总计附:参考公式, 其中.参考临界值表:【答案】(1)52分;(2)列联表见解析,没有.【详解】(1)由频数分布表中的数据,可得该校高三学生每天放学后的平均锻炼时间为:(分). (2)由频数分布表得,“锻炼助考生”的人数是人,根据等高条形图作出22列联表如下:男生女生总计锻炼助考生非锻炼助考生总计可得,所以没有的把握认为“锻炼助考生”跟性别有关.例3目前,我国大学生、白领和工薪阶层是网购人数最多的群体,一项调查显示女性网民成为网络购物的活跃人群,网购用户年龄大多集中在1835岁,月收入集中在15003500元网购大额产品的用户中,男性多于女性;收入更高的用
7、户,网购金额和频率更高;3545岁的网民,在各年龄段的用户中网络购物频率和金额最高.若全年网购超过40次定义为热衷于网购,现对某市网民进行“热衷网购与性别分布”的调查,采用随机抽样的方法抽取一个容量为200的样本,其中热衷网购的占比.()请根据图表中的数据,完成联表,并根据列联表判断是否有99.9%的把握认为热衷于网购与性别有关?热衷网购非热衷网购总计女性120男性30总计200 ()若在热衷网购网民中按照分层抽样的方法抽取的5名网民,再从中随机抽取2名网民,求这2人中恰有1人为男性的概率.参考公式:,.附表:0.1000.0500.0100.0050.0012.7063.8416.6357.
8、87910.828【答案】()列联表见解析,有99.9%的把握认为热衷网购与性别有关;()【详解】()依题意抽取一个容量为200的样本,其中热衷网购的占比,故热衷网购的总人数为150人,补充完整的列联表如表所示:热衷网购非热衷网购总计女性12020140男性303060总计15050200,故有99.9%的把握认为热衷网购与性别有关.()在热衷网购网民中按照分层抽样的方法抽取的5名网民,其中女性为4人,男性为1人,设4名女性网民分别为,1名男性网民为,从5人中随机抽取2人,则有,共10种基本事件.这2人中恰有1人为男性的基本事件为,共4种情况,故抽取5名网民,再从中随机抽取2名网民恰有1人为男
9、性的概率.例42020年3月,工业和信息化部信息通信发展司发布工业和信息化部关于推动5G加快发展的通知鼓励基础电信企业通过套餐升级优惠信用购机等举措,促进5G终端消费,加快用户向5G迁移.为了落实通知要求,掌握用户升级迁移情况及电信企业服务措施,某市调研部门随机选取了甲乙两个电信企业的用户共165户作为样本进行满意度调查,并针对企业服务措施设置了达标分数线,按照不低于80分的定为满意,低于80分的为不满意,调研人员制作了如图所示的列联表.已知从样本的165户中随机抽取1户为满意的概率是.满意不满意合计甲企业用户75乙企业用户20合计(1)将列联表补充完整,并判断能否有95%的把握认为“满意度与
10、电信企业服务措施有关系”?(2)视样本的频率为概率,在该市乙企业的所有用户中任取3户,记取出的3户中不满意的户数为,求的分布列和数学期望.下面临界值表仅供参考:0.150.100.050.0250.0100.0050.0012.0722.7063.8415.0246.6357.87910.828(参考公式:,其中)【答案】(1)列联表答案见解析,有95%的把握认为“满意度与电信企业服务措施有关系”;(2)分布列答案见解析,数学期望:.【详解】(1)设样本中乙企业用户中满意的有户,结合列联表知,解得,所以,列联表是:满意不满意合计甲企业用户751085乙企业用户602080合计13530165故
11、可以判断有95%的把握认为“满意度与电信企业服务措施有关系”(2)设“从样本中的乙企业用户中任取一户为不满意”为事件A,则由题意可知:的可能值为0,1,2,3,则,所以的分布列为0123从而的数学期望为.例5为了解小学生的体能情况,现抽取某小学六年级名学生进行跳绳测试,观察记录学生们一分钟内的跳绳个数,将所得的数据整理后画出如图所示的频率分布直方图,跳绳个数落在区间,内的频数之比为.若规定某学生一分钟内的跳绳个数大于或等于个,则成绩优秀;否则,成绩为非优秀.(1)求这些学生中成绩优秀的人数;(2)已知这名小学生中女生占,且成绩优秀的女生有人,请根据以上调查结果将下面的列联表补充完整,并判断能否
12、有的把握认为成绩“优秀”与性别有关.成绩“优秀”成绩“非优秀”总计男生女生总计附:,.0.0500.0250.0100.0013.8415.0246.63510.828【答案】(1);(2)列联表见解析,没有的把握认为成绩“优秀”与性别有关.【详解】(1)设区间内的频率为,则,内的频率分别为和,解得:.区间和内的频率为和,这些学生中成绩优秀的人数为.(2)由题意知:女生有人,男生有人,可得列联表如下:成绩“优秀”成绩“非优秀”总计男生女生总计,没有的把握认为成绩“优秀”与性别有关.课后小练1.某高校共有学生15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的
13、情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时) (1)应收集多少位女生的样本数据? (2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12,试估计该校学生每周平均体育运动时间的平均数 (3)已知在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成下面的列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间超过4小时与性别有关” 附:K2 n(ad-bc)2(a+b)(c+d)(a+c)(b+d) 每周平均体
14、育运动时间超过4小时每周平均体育运动时间不超过4小时总计男女60总计3002.为进一步提升学生学习数学的热情,学校举行了数学学科知识竞赛为了解学生对数学竞赛的喜爱程度是否与性别有关,对高中部200名学生进行了问卷调查,得到如下 22 列联表: 喜欢数学竞赛不喜欢数学竞赛合计男生70女生30合计已知在这200名学生中随机抽取1人,抽到喜欢数学竞赛的概率为0.6参考公式及数据: K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d) P(K2k)0.500.400.250.150.100.050.0250.010.0050.001k0.460.711.322.072.713.845.02
15、46.6357.87910.828(1)将 22 列联表补充完整,并判断是否有90%的把握认为喜欢数学竞赛与性别有关? (2)从上述不喜欢数学竞赛的学生中用分层抽样的方法抽取8名学生,再在这8人中抽取3人调查其喜欢的活动类型,用 X 表示3人中女生的人数,求 X 的分布列及数学期望 3.新型冠状病毒的传染性是非常强的,而且可以通过接触传播或者是呼吸道飞沫传播,感染人群年龄大多数是40岁以上的人群.该病毒进入人体后有潜伏期,并且潜伏期越长,感染他人的可能性越高,现对100个病例的潜伏期(单位:天)进行调查,统计发现潜伏期中位数为5,平均数为7.21,方差为5.08.如果认为超过8天的潜伏期属于“
16、长潜伏期”.按照年龄统计样本得到下面的列联表: 长潜伏期非长潜伏期40岁以上155540岁及以下1020附: K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d) .K2k 0.10.05k 2.7063.841若随机变量 Z 服从正态分布 N(,2) ,则 P(-Z+)=0.6826 , P(-2Z+2)=0.9544 , P(-3Z8 天总计60岁以上(含60岁)15060岁以下30总计200(2)依据上述数据,将频率作为概率,且每名患者的潜伏期是否超过8天相互独立为了深入研究,该团队在这一地区抽取了20名患者,其中潜伏期不超过8天的人数最有可能是多少? 5.在新冠肺炎疫情得到
17、有效控制后,某公司迅速复工复产,为扩大销售额,提升产品品质,现随机选取了100名顾客到公司体验产品,并对体验的满意度进行评分(满分100分).体验结束后,该公司将评分制作成如图所示的直方图. (1)将评分低于80分的为“良”,80分及以上的为“优”.根据已知条件完成下面 22 列联表,能否在犯错误的概率不超过0.10的前提下认为体验评分为“优良”与性别有关. 良优合计男40女40合计(2)为答谢顾客参与产品体验活动,在体验度评分为 50,60) 和 90,100 的顾客中用分层抽样的方法选取了6名顾客发放优惠卡.若在这6名顾客中,随机选取4名再发放纪念品,记体验评分为 50,60) 的顾客获得
18、纪念品数为随机变量 X ,求 X 的分布列和数学期望. 附表及公式: K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d) P(K2k0)0.150.100.050.0250.0100.0050.001k0 2.0722.0763.8415.0246.6357.87910.828答案解析1.【答案】 (1)解: 300450015000=90 应收集90位女生的样本数据;(2)解: (10.025+30.100+50.150+70.125+90.075+110.025)2=5.8 该校学生每周平均体育运动时间的平均数约为58小时;(3)解: 每周平均体育运动时间超过4小时每周平均体
19、育运动时间不超过4小时总计男16545210女603090总计22575300 K2=300(4560-16530)221090752254.7623.841 有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”【解析】(1)根据分层抽样的定义直接求解即可;(2)根据直方图,利用公式x=x1p1+x2p2+xnpn直接求解即可;(3)根据独立性检验公式直接求解即可.2.【答案】 (1)解:由200名学生中抽取一人抽到喜欢数学竞赛的概率为0.6,可得喜欢数学竞赛的总人数为 2000.6=120 , 所以喜欢数学竞赛不喜欢数学竞赛合计男生7050120女生503080合计12080200
20、k2=200(7030-5050)212012080800.352.71 , 没有90%的把握认为喜欢数学竞赛与性别有关;(2)解:由题意可知抽取不喜欢数学竞赛的男生有5人,女生有3人, X 的可能取值为0,1,2,3,P(X=0)=C53C83=1056=528 ;P(X=1)=C52C31C83=3056=1528 ;P(X=2)=C51C32C83=1556 ;P(X=3)=C33C83=156 ;所以X的分布列为:X 0123P 528 1528 1556 156 E(X)=0528+11528+21556+3156=98 【解析】(1)利用已知条件补充完整 22 列联表,再利用独立性
21、检验的方法判断出没有90%的把握认为喜欢数学竞赛与性别有关。 (2)利用已知条件求出随机变量X可能的取值,再利用组合数公式结合古典概型求概率公式,进而求出随机变量X的分布列,再利用随机变量X的分布列结合数学期望公式,进而求出随机变量X的数学期望。3.【答案】 (1)解: K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100(1520-5510)2703025751.587 , 由于 1.5878 天总计60岁以上(含60岁)1302015060岁以下302050总计16040200所以 K2=200(13020-3020)2150501604016.66710.828 ,故
22、能在犯错误的概率不超过0.001的前提下认为潜伏期与患者年龄有关(2)解:该地区10000名患者中潜伏期不超过8天的人数为 600+1900+3000+2500=8000 名, 将频率视为概率,潜伏期不超过8天的概率为 800010000=45 ,所以抽取的20名患者中潜伏期不超过8天的人数最有可能是 2045=16 名【解析】 (1)先计算潜伏期大于8天的人数,完成22列联表,再计算K的观测值K2 , 并与附表中的数据对比,即可作出判断; (2)将频率作为概率,计算该地区10000名患者中潜伏期不超过8天的概率,即可得解5.【答案】 (1)解:根据题意,评分低于80分的有 (0.01+0.0
23、1+0.02)10100=40 人,即评分为“良”的有 40 人,所以列联表如下: 良优合计男202040女204060合计4060100由题得, K2=100(2040-2020)240606040=2592.782.706 所以,能在犯错误的概率不超过0.10的前提下认为体验评分为“优良”与性别有关.(2)解:由已知得体验度评分为 50,60) 和 90,100 的顾客分别有10人,20人,则在随机抽取的6人中评分为 50,60) 有2人,评分为 90,100 有4人. 则 X 可能的取值有0,1,2.P(X=0)=C44C64=115 , P(X=1)=C21C43C64=815 , P(X=2)=C22C42C64=615 ,则 X 的分布列为X 012P 115 815 615 所以, E(X)=0115+1815+2615=43 .【解析】 (1)根据题意填写列联表,计算K2 , 对照附表得出结论; (2)利用分层抽样法与列举法求出基本事件数,计算所求的概率值