1、8.3.1分类变量与列联表 8.3.2独立性检验 本资料分享自千人教师 QQ群483122854,期待 你的加入与分享 有关法律规定:香烟盒上必须印上“吸烟有害健康”的警示语,那么吸 烟和健康之间有因果关系吗?每一个吸烟者的健康问题都是由吸 烟引起的吗?“如果你认为健康问题不一定是由吸烟引起的,那么可 以吸烟”的说法对吗?要回答这个问题,我们先一起来学习本课时的 知识吧! 一、分类变量与列联表 1.分类变量:为了表述方便,我们经常会使用一种特殊的随机变量, 以区别不同的现象或性质,这类随机变量称为分类变量. 2.列联表:在实践中,由于保存原始数据的成本较高,人们经常按研 究问题的需要,将数据分
2、类统计,并做成表格加以保存.这种形式的 数据统计表称为22列联表.22列联表给出了成对分类变量数据 的交叉分类频数. 名师点析制作22列联表的基本步骤 第一步,合理选取两个变量,且每一个变量都可以取两个值; 第二步,抽取样本,整理数据; 第三步,画出22列联表. 微练习 在研究某种药物对“H1N1”病毒的治疗效果时,进行动物试验,得到 以下数据:对150只动物服用药物,其中132只动物存活,18只动物死 亡,对150只动物进行常规治疗,其中114只动物存活,36只动物死亡. 请根据以上数据建立一个22列联表. 解:22列联表如下: 类别存活数死亡数合计 药物治疗13218150 常规治疗114
3、36150 合计24654300 二、独立性检验 1.22列联表 X Y 合计 Y=0Y=1 X=0aba+b X=1cdc+d 合计a+cb+dn=a+b+c+d 上表是关于分类变量X和Y的抽样数据的22列联表:最后一行的 前两个数分别是事件Y=0和Y=1的频数;最后一列的前两个数 分别是事件X=0和X=1的频数;中间的四个数a,b,c,d是事件 X=x,Y=y(x,y=0,1)的频数;右下角格中的数n是样本容量. 2.2统计量的计算公式 3.独立性的判断方法 0.10.050.010.0050.001 x2.7063.8416.6357.87910.828 基于小概率值的检验规则是: 当2
4、x时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错 误的概率不超过; 当2x时,我们没有充分证据推断H0不成立,可以认为X和Y独立. 4.独立性检验 利用2的取值推断分类变量X和Y是否独立的方法称为2独立性检 验,读作“卡方独立性检验”,简称独立性检验. 微练习 某大型企业人力资源部为了研究企业员工工作积极性和对待企业 改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表 所示: 态度积极支持企业改革 不太赞成企业改革合计 工作积极 544094 工作一般 326395 合计86103189 对于人力资源部的研究项目,依据小概率=0.005的独立性检验,分 析企业员工工作积极
5、性和对待企业改革态度是否有关联. 解:零假设为H0:企业的员工工作积极性和对待企业改革的态度无 关联. 从题表中的数据可知: a=54,b=40,c=32,d=63, a+b=94,c+d=95,a+c=86,b+d=103, n=189, 代入公式得 依据小概率值=0.005的独立性检验,我们推断H0不成立,即认为员 工工作积极性与对待企业改革的态度有关联. 独立性检验独立性检验 例1某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中 进行了抽样调查,调查结果如下表所示: 类型喜欢甜品不喜欢甜品合计 南方学生602080 北方学生101020 合计7030100 试根据小概率值=0.05
6、的独立性检验,分析南方学生和北方学生在 选用甜品的饮食习惯方面是否有差异. 解:零假设为H0:南方学生和北方学生在选用甜品的饮食习惯方面 无差异.将22列联表中的数据代入公式计算,得 依据小概率值=0.05的独立性检验,我们推断H0不成立,即认为南 方学生和北方学生在选用甜品的饮食习惯方面有差异. 反思感悟 独立性检验的具体做法 (1)提出零假设H0:X和Y相互独立,并给出在问题中的解释; (2)根据抽样数据整理出22列联表,计算2的值,并与临界值x比较; (3)根据检验规则得出推断结论; (4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X 和Y间的影响规律. 变式训练1某省进
7、行高中新课程改革已经四年了,为了解教师对新 课程教学模式的使用情况,某一教育机构对某学校的教师关于新课 程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老 教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人, 不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞 同的有6人. (1)根据以上数据建立一个22列联表; (2)试根据小概率值=0.01的独立性检验,分析对新课程教学模式的 赞同情况与教师年龄是否有关联. 解:(1)22列联表如下: 教师类型赞同不赞同合计 老教师101020 青年教师24630 合计341650 (2)零假设为H0:对新课程教学模式的
8、赞同情况与教师年龄无关联. 依据小概率值=0.01的独立性检验,没有充分证据推断H0不成立, 因此可以认为H0成立,即认为对新课程教学模式的赞同情况与教师 年龄无关联. 独立性检验的综合应用独立性检验的综合应用 例2海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比, 收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg), 其频率分布直方图如下: (1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的 箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计事件A的概 率; (2)填写下面列联表,并依据=0.01的独立性检验,分析箱产量与养 殖方法是否有关联; 类
9、型箱产量50 kg箱产量50 kg合计 旧养殖法 新养殖法 合计 (3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估 计值(精确到0.01). 附: 0.0500.0100.001 x3.8416.63510.828 解:(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新 养殖法的箱产量不低于50 kg”. 由题意知P(A)=P(BC)=P(B)P(C). 旧养殖法的箱产量低于50 kg的频率为 (0.012+0.014+0.024+0.034+0.040)5=0.62, 故P(B)的估计值为0.62. 新养殖法的箱产量不低于50 kg的频率为 (0.068+0.
10、046+0.010+0.008)5=0.66. 故P(C)的估计值为0.66. 因此,事件A的概率估计值为0.620.66=0.409 2. (2)零假设为H0:箱产量与养殖方法无关联.根据箱产量的频率分布 直方图得如下列联表: 类型箱产量50 kg箱产量50 kg合计 旧养殖法6238100 新养殖法3466100 合计96104200 根据列联表中的数据,经计算得到 依据=0.01的独立性检验,我们推断H0不成立,即认为箱产量与养 殖方法有关联. (3)因为在新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)5=0.340.5,
11、故新养殖法箱产量的中位数的估计值为 反思感悟 两个分类变量相关关系的判断 通过22列联表,先计算2的值,再借助2的取值判断两个分类变量 是否有关联. 变式训练2为了解某班学生喜爱打篮球是否与性别有关,对本班48 人进行了问卷调查,并得到了如下的22列联表: 性别喜爱打篮球不喜爱打篮球合计 男生6 女生10 合计48 已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为 (1)请将上面的22列联表补充完整(不用写计算过程). (2)依据=0.05的独立性检验,能否认为喜爱打篮球与性别有关联? 说明你的理由. (3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数 为X,求X的分布
12、列与均值. 解:(1)列联表补充如下: 性别喜爱打篮球 不喜爱打篮球合计 男生22628 女生101020 合计321648 (2)零假设为H0:喜爱打篮球与性别无关联.根据列联表中的数据,经 依据=0.05的独立性检验,我们推断H0不成立,即认为喜爱打篮球 与性别有关联. (3)喜爱打篮球的女生人数X的可能取值为0,1,2. 其概率分别为 故X的分布列为 独立性检验与统计的综合应用独立性检验与统计的综合应用 典例某校为了探索一种新的教学模式,进行了一项课题实验,乙班 为实验班,甲班为对比班,甲、乙两班均有50人,一年后对两班进行 测试,成绩如下表(总分:150分): 甲班 成绩80,90)9
13、0,100)100,110)110,120) 120,130) 人数42015101 乙班 成绩80,90)90,100)100,110) 110,120) 120,130) 人数11123132 (1)现从甲班成绩位于90,120)内的试卷中抽取9份进行试卷分析,请 问用什么抽样方法更合理,并写出最后的抽样结果. (2)根据所给数据可估计在这次测试中,甲班的平均分是101.8分,请 你估计乙班的平均分,并计算两班平均分的差距. (3)完成下面22列联表,并依据=0.05的独立性检验,分析这两个 班在这次测试中成绩的差异与实施课题实验是否有关联,并请说明 理由. 班别成绩小于100分成绩不小于
14、100分合计 甲班a= 2650 乙班12d= 50 合计3664100 解:(1)用分层随机抽样的方法更合理.甲班成绩位于90,120)内的试 (3)补全列联表如下: 班别成绩小于100分成绩不小于100分合计 甲班a=242650 乙班12d=3850 合计3664100 零假设为H0:这两个班在这次测试中成绩的差异与实施课题实验无 关联.由表中的数据, 依据=0.05的独立性检验,我们推断H0不成立,即认为这两个班在 这次测试中成绩的差异与实施课题实验有关联. 方法点睛 1.由90,120)内的三组数据存在差异确定抽样方法,从而 确定各区间抽样份数. 2.累加各组的组中值与频率的积,并计
15、算乙班的平均分,从而得到两 班平均分的差. 3.根据所给的数据得到22列联表,由列联表中的数据求出2,结合 临界值表得出结论. 1.(2019天津高二期中)在吸烟与患肺病这两个分类变量中,零假设 为H0:吸烟与患肺病无关联.下列说法正确的是() 依据=0.05的独立性检验认为吸烟与患肺病有关联时,我们说某 人吸烟,他一定患有肺病; 从统计量中得知依据=0.05的独立性检验认为吸烟与患肺病有 关联,是指不超过0.05的概率使得推断出现错误; 如果由2的值得到依据=0.05的独立性检验认为吸烟与患肺病 有关联,那么在100个吸烟的人中必有95人患有肺病. A.B.C. D. 解析:根据=0.05的
16、独立性检验认为吸烟与患肺病有关联时,指的 是不超过0.05的概率使得推断出现错误,故正确;可知错误. 故选B. 答案:B 2.(2019重庆巴蜀中学高二期末)在对人们休闲方式的一次调查中, 根据数据建立如下的22列联表: 性别看书运动合计 男82028 女161228 合计243256 附: 0.050.01 x3.8416.635 A.0.99B.0.95 C.0.01D.0.05 解析:零假设为H0:休闲方式与性别无关联.结合题意和独立性检验 的结论,由24.6673.841=x0.05, 根据=0.05的独立性检验,我们推断H0不成立,即认为休闲方式与 性别有关联. 故选D. 答案:D
17、3.(2020湖北高二期末)手机给人们的生活带来便捷,但同时也对中 学生的生活和学习造成了严重的影响.某校高一几个学生成立研究 性学习小组,就使用手机对学习成绩的影响随机抽取了该校100名 学生的期末考试成绩并制成下表,则下列说法正确的是() 类别成绩优秀成绩不优秀合计 不用手机401050 使用手机54550 合计4555100 0.010.0050.001 x6.6357.87910.828 A.依据=0.001的独立性检验认为使用手机与学习成绩有关联 B.依据=0.001的独立性检验认为使用手机与学习成绩无关联 C.依据=0.005的独立性检验认为使用手机对学习成绩无影响 D.依据=0.
18、01的独立性检验认为使用手机对学习成绩有影响 解析:零假设为H0:使用手机与学习成绩无关联.因为 所以依据=0.001的独立性检验,我们推断H0不成立,即认为使用手 机与学习成绩有关联. 故选A. 答案:A 4.(2020广东高三月考)2019年10月18日到27日,第七届世界军人运 动会在湖北武汉举办,中国代表团共获得133金64银42铜,共239枚 奖牌.为了调查各国参赛人员对主办方的满意程度,研究人员随机 抽取了500名参赛运动员进行调查,所得数据如下表所示: 满意度男性运动员 女性运动员 合计 对主办方表示满意200220420 对主办方表示不满意503080 合计250250500
19、现有如下说法:在参与调查的500名运动员中任取1人,抽到对主 办方表示满意的男性运动员的概率为 ;依据=0.01的独立性 检验认为对主办方表示满意与运动员的性别有关联;依据=0.01 的独立性检验认为对主办方表示满意与运动员的性别无关联.其中 正确的个数为() 0.10.050.010.001 x2.7063.8416.63510.828 A.0B.1C.2D.3 答案:B 5.(2019北京师大附中高考模拟)已知某企业有职工5 000人,其中男 职工3 500人,女职工1 500人.该企业为了丰富职工的业余生活,决定 新建职工活动中心.为此,该企业工会采用分层随机抽样的方法,随 机抽取了30
20、0名职工每周的平均运动时间(单位:h),汇总得到频率分 布表(如表所示),并据此来估计该企业职工每周的运动时间. 平均运动时间频数频率 0,2)150.05 2,4)m0.2 4,6)450.15 6,8)7550.25 8,10)900.3 10,12)pn 合计3001 (1)求抽取的女职工的人数; (2)根据频率分布表,求出m,n,p的值,补全如图所示的频率分布直 方图,并估计该企业职工每周的平均运动时间不低于4 h的概率; 运动时间男职工女职工合计 平均运动时间低于4 h 平均运动时间不低于4 h 合计 若在样本数据中,有60名女职工每周的平均运动时间不低于4 h, 请完成以下22列联
21、表,并说明依据=0.05的独立性检验,能否认 为该企业职工每周的平均运动时间不低于4 h与性别有关联. 0.250.150.100.050.025 x1.3232.0722.7063.8415.024 (2)n=1-0.05-0.2-0.15-0.25-0.3=0.05, p=3000.05=15,m=300-15-45-75-90-15=60. 频率分布直方图如图: 估计该企业职工每周的平均运动时间不低于4 h的概率为 P=0.15+0.25+0.3+0.05=0.75= 22列联表如下所示: 运动时间男职工女职工合计 平均运动时间低于4 h453075 平均运动时间不低于4 h16560225 合计21090300 零假设为H0:该企业职工每周的平均运动时间不低于4 h与性别无 关联.根据列联表中的数据,经计算得到 依据=0.05的独立性检验,我们推断H0不成立,即认为该企业职工 每周的平均运动时间不低于4 h与性别有关联.