1、INNOVATIVE DESIGN 第九章 第3节统计模型 知识分类落实 考点分层突破 课后巩固作业 内 容 索 引 / 1 2 3 / / 知识分类落实 夯实基础回扣知识1 索引 知识梳理 / 1.线性相关线性相关 一般地,如果收集到了变量一般地,如果收集到了变量x和变量和变量y的的n对数据对数据(简称为成对数据简称为成对数据),如下表,如下表 所示所示. 序号序号i123n 变量变量xx1x2x3xn 变量变量yy1y2y3yn 则在平面直角坐标系则在平面直角坐标系xOy中描出点中描出点(xi,yi),i1,2,3,n,就可以得到,就可以得到 这这n对数据的对数据的_.如果由变量的成对数据
2、、散点图或直观经验可知,变如果由变量的成对数据、散点图或直观经验可知,变 量量x与变量与变量y之间的关系可以近似地用一次函数来刻画,则称之间的关系可以近似地用一次函数来刻画,则称x与与y线性相关线性相关. 此时,如果一个变量增大,另一个变量大体上也增大,则称这两个变量此时,如果一个变量增大,另一个变量大体上也增大,则称这两个变量 _;如果一个变量增大,另一个变量大体上减少,则称这两个变量;如果一个变量增大,另一个变量大体上减少,则称这两个变量 _. 散点图散点图 正相关正相关 负相关负相关 索引 2.回归直线方程回归直线方程 回归直线方程 索引 3.相关系数相关系数 可以证明,相关系数可以证明
3、,相关系数r具有以下性质:具有以下性质: (1)|r|1,且,且y与与x正相关的充要条件是正相关的充要条件是_,y与与x负相关的充要条件是负相关的充要条件是 _; (2)|r|越小,说明两个变量之间的线性相关性越小,说明两个变量之间的线性相关性_,也就是得出的回归直线方程,也就是得出的回归直线方程 越没有价值,即方程越不能反映真实的情况;越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性越大,说明两个变量之间的线性 相关性相关性_,也就是得出的回归直线方程越有价值,也就是得出的回归直线方程越有价值. (3)|r|1的充要条件是成对数据构成的点都在回归直线上的充要条件是成
4、对数据构成的点都在回归直线上. r0 r0 越弱越弱 越强越强 索引 4.22列联表和列联表和2 如果随机事件如果随机事件A与与B的样本数据的的样本数据的22列联表如下列联表如下. 索引 5.独立性检验独立性检验 统计学中,常用的显著性水平统计学中,常用的显著性水平以及对应的分位数以及对应的分位数k如下表所示如下表所示. P(2k)0.10.050.010.0050.001 k2.7063.8416.6357.87910.828 要推断要推断“A与与B有关系有关系”可按下面的步骤可按下面的步骤 (1)作作22列联表列联表. (2)根据根据22列联表计算列联表计算 的值的值. (3)查对分位数查
5、对分位数k,作出判断,作出判断.如果根据样本数据算出如果根据样本数据算出2的值后,发现的值后,发现2k成立,成立, 就称在犯错误的概率不超过就称在犯错误的概率不超过的前提下,可以认为的前提下,可以认为A与与B不独立不独立(也称为也称为A与与B有有 关关);或说有;或说有_的把握认为的把握认为A与与B有关有关.若若20.75,则线性相关程度很高,可用线性回归模型拟合,则线性相关程度很高,可用线性回归模型拟合); 索引 索引 索引 索引 【例例3】 (2020全国全国卷卷)某学某学生兴趣小组随机调查了某市生兴趣小组随机调查了某市100天中每天的空气质天中每天的空气质 量等级和当天到某公园锻炼的人次
6、,整理数据得到下表量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天单位:天): 考点三独立性检验 / 师生共研师生共研 锻炼人次锻炼人次 空气质量等级空气质量等级 0, 200 (200, 400 (400, 600 1(优优)21625 2(良良)51012 3(轻度污染轻度污染)678 4(中度污染中度污染)720 (1)分别估计该市一天的空气质量等级为分别估计该市一天的空气质量等级为1,2,3,4的概率;的概率; 空气质量等级空气质量等级1234 概率的估计值概率的估计值 0.43 0.27 0.21 0.09 索引 【例例3】 (2)求一求一天中到该公园锻炼的平均人次的估计值
7、天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组同一组中的数据用该组 区间的中点值为代表区间的中点值为代表); 解解 一天中到该公园锻炼的平均人次的估计值为一天中到该公园锻炼的平均人次的估计值为 索引 【例例3】 (3)若若某天的空气质量等级为某天的空气质量等级为1或或2,则称这天,则称这天“空气质量好空气质量好”;若某天;若某天 的空气质量等级为的空气质量等级为3或或4,则称这天,则称这天“空气质量不好空气质量不好”根据所给数据,完成根据所给数据,完成 下面的下面的22列联表,并根据列联表,判断是否有列联表,并根据列联表,判断是否有95%的把握认为一天中到该的把握认为一天中到该 公园
8、锻炼的人次与该市当天的空气质量有关?公园锻炼的人次与该市当天的空气质量有关? 人次人次400 人次人次400 空气质量好空气质量好 空气质量不好空气质量不好 P(2k)0.050 0.0100.001 k3.841 6.635 10.828 索引 解解根据所给数据,可得根据所给数据,可得22列联表:列联表: 人次人次400 人次人次400 空气质量好空气质量好3337 空气质量不好空气质量不好228 根据列联表得根据列联表得 由于由于5.8203.841,故有,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的把握认为一天中到该公园锻炼的人次与该市当天 的空气质量有关的空气质量有关 索引
9、 感悟升华 索引 【训练训练2】为了判断为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取高中三年级学生是否选修文科与性别的关系,现随机抽取50 名学生,得到如下名学生,得到如下22列联表:列联表: 理科理科 文科文科 男男1310 女女720 5% 解析解析24.844,这表明小概率事件发生根据假设检验的基本原理,应该断,这表明小概率事件发生根据假设检验的基本原理,应该断 定定“是否选修文科与性别之间有关系是否选修文科与性别之间有关系”成立,成立, 并且这种判断出错的可能性约为并且这种判断出错的可能性约为5%. 课后巩固作业 提升能力分层训练3 A级 基础巩固 / 索引0112131
10、407080910110203040506 一、选择题一、选择题 1对四组对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正 确的是确的是 () Ar2r40r3r1Br4r20r1r3 Cr4r20r3r1Dr2r40r10,r30,图,图(2)与图与图(4)是负相关,是负相关, 故故r20,r40,且图,且图(1)与图与图(2)的样本点集中在一条直线附近,因此的样本点集中在一条直线附近,因此r2r40r3r1, 故选故选A. 索引0112131407080910110203040506 2有下列说法:有下列说法:在
11、残差图中,残差点比较均匀地落在水平的带状区域内,说在残差图中,残差点比较均匀地落在水平的带状区域内,说 明选用的模型比较合适;明选用的模型比较合适;用相关指数用相关指数R2来刻画回归的效果,来刻画回归的效果,R2值越接近于值越接近于1, 说明模型的拟合效果越好;说明模型的拟合效果越好;比较两个模型的拟合效果,可以比较残差平方比较两个模型的拟合效果,可以比较残差平方 和的大小,残差平方和越小的模型,拟合效果越好正确的是和的大小,残差平方和越小的模型,拟合效果越好正确的是 () A B C D D 索引0112131407080910110203040506 3(多选题多选题)(2020枣庄模拟枣
12、庄模拟)某大某大学为了解学生对学校食堂服务的满意度,随机调学为了解学生对学校食堂服务的满意度,随机调 查了查了50名男生和名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,名女生,每位学生对食堂的服务给出满意或不满意的评价, 得到如下所示的列联表,经计算得到如下所示的列联表,经计算24.762,则可以推断出,则可以推断出 () 满意满意 不满意不满意 男男3020 女女4010 P(K2k) 0.100 0.050 0.010 k2.706 3.841 6.635 AC 索引0112131407080910110203040506 索引0112131407080910110203
13、040506 4(多选题多选题)(2021武汉调研武汉调研)已知已知某产品的销售额某产品的销售额y(单位:万元单位:万元)与广告费用与广告费用x(单单 位:万元位:万元)之间的关系如下表:之间的关系如下表: x(单位:万元单位:万元)01234 y(单位:万元单位:万元) 10 15 m 30 35 ABD 索引0112131407080910110203040506 索引0112131407080910110203040506 5(多选题多选题)(2021广东百校联考广东百校联考)下表下表是我国某城市在是我国某城市在2019年年1月份至月份至10月份期月份期 间各月最低温度与最高温度间各月最
14、低温度与最高温度(单位:单位:)的数据一览表的数据一览表 月份月份12345678910 最高温度最高温度/5991117 24 27 30 31 21 最低温度最低温度/12 3 1 2717 19 23 25 10 已知该城市的各月最低温度与最高温度具有相关关系,根据该一览表,则下已知该城市的各月最低温度与最高温度具有相关关系,根据该一览表,则下 列结论正确的是列结论正确的是 ( ) A最低温度与最高温度为正相关最低温度与最高温度为正相关 B每月最高温度与最低温度的平均值在前每月最高温度与最低温度的平均值在前8个月逐月增加个月逐月增加 C月温差月温差(最高温度减最低温度最高温度减最低温度)
15、的最大值出现在的最大值出现在1月月 D1月至月至4月的月温差月的月温差(最高温度减最低温度最高温度减最低温度)相对于相对于7月至月至10月,波动性更大月,波动性更大 ACD 索引0112131407080910110203040506 解析解析将最高温度、最低温度、温差列表如下:将最高温度、最低温度、温差列表如下: 月份月份12345678910 最高温度最高温度/5991117 24 27 30 31 21 最低温度最低温度/12 3 1 2717 19 23 25 10 温差度温差度/171281310787611 由表格可知,最低温度大致随最高温度的升高而升高,由表格可知,最低温度大致随
16、最高温度的升高而升高,A正确;正确; 每月最高温度与最低温度的平均值在前每月最高温度与最低温度的平均值在前8个月不是逐月增加,个月不是逐月增加,B错误;错误; 月温差的最大值出现在月温差的最大值出现在1月,月,C正确;正确; 1月至月至4月的月温差相对于月的月温差相对于7月至月至10月,波动性更大,月,波动性更大,D正确正确 索引0112131407080910110203040506 62018世界特色魅力城市世界特色魅力城市200强新鲜出炉,包括黄山市在内的强新鲜出炉,包括黄山市在内的28个中国城市入个中国城市入 选,美丽的黄山风景和人文景观迎来众多宾客现在很多人喜欢选,美丽的黄山风景和人
17、文景观迎来众多宾客现在很多人喜欢“自助游自助游”, 某调查机构为了了解某调查机构为了了解“自助游自助游”是否与性别有关,在黄山旅游节期间,随机是否与性别有关,在黄山旅游节期间,随机 抽取了抽取了100人,得如下所示的列联表:人,得如下所示的列联表: 赞成赞成“自助游自助游” 不赞成不赞成“自助游自助游”总计总计 男性男性301545 女性女性451055 总计总计7525100 P(2k)0.150.100.050.025 0.010 0.0050.001 k2.072 2.706 3.841 5.024 6.635 7.879 10.828 索引01121314070809101102030
18、40506 参照公式,得到的正确结论是参照公式,得到的正确结论是 () A有有99.5%以上的把握认为以上的把握认为“赞成赞成自助游自助游与性别无关与性别无关” B有有99.5%以上的把握认为以上的把握认为“赞成赞成自助游自助游与性别有关与性别有关” C在犯错误的概率不超过在犯错误的概率不超过0.1的前提下,认为的前提下,认为“赞成赞成自助游自助游与性别无关与性别无关” D在犯错误的概率不超过在犯错误的概率不超过0.1的前提下,认为的前提下,认为“赞成赞成自助游自助游与性别有关与性别有关” D 索引0112131407080910110203040506 索引01121314070809101
19、10203040506 8在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数 据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正 确的是确的是_(填序号填序号) 人体脂肪含量与年龄正相关,且脂肪含量的中位数等于人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%; 人体脂肪含量与年龄正相关,且脂肪含量的中位数小于人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%; 人体脂肪含量与年龄负相关,且脂肪含量的中位数等于人体脂肪含量与
20、年龄负相关,且脂肪含量的中位数等于20%; 人体脂肪含量与年龄负相关,且脂肪含量的中位数小于人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%. 解析解析观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小 于于20%. 索引0112131407080910110203040506 9某医疗研究所为了检验某种血清预防感冒的作用,把某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与名使用血清的人与 另外另外500名未使用血清的人一年中的感冒记录作比较,提出假设名未使用血清的人一年中的感冒记录作比较,提出假设
21、H0:“这种这种 血清不能起到预防感冒的作用血清不能起到预防感冒的作用”,利用,利用22列联表计算得列联表计算得23.918,经查临,经查临 界值表知界值表知P(23.841)0.05.则下列结论中,正确结论的序号是则下列结论中,正确结论的序号是_ 有有95%的把握认为的把握认为“这种血清能起到预防感冒的作用这种血清能起到预防感冒的作用”;若某人未使用若某人未使用 该血清,那么他在一年中有该血清,那么他在一年中有95%的可能性得感冒;的可能性得感冒;这种血清预防感冒的有这种血清预防感冒的有 效率为效率为95%;这种血清预防感冒的有效率为这种血清预防感冒的有效率为5%. 解析解析23.9183.
22、841,而,而P(23.814)0.05,所以有,所以有95%的把握认为的把握认为“这种血这种血 清能起到预防感冒的作用清能起到预防感冒的作用”要注意我们检验的是假设是否成立和该血清预要注意我们检验的是假设是否成立和该血清预 防感冒的有效率是没有关系的,不是同一个问题,不要混淆防感冒的有效率是没有关系的,不是同一个问题,不要混淆 索引0112131407080910110203040506 索引0112131407080910110203040506 索引0112131407080910110203040506 解解分层抽样:根据植物覆盖面积的大小对地块分层,再对分层抽样:根据植物覆盖面积的大
23、小对地块分层,再对200个地块进行分层个地块进行分层 抽样抽样 理由如下:由理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关知各样区的这种野生动物数量与植物覆盖面积有很强的正相关 性由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异性由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异 也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高 了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计了样本的代表性,从而可以获得该地区这种野生动物数量更准
24、确的估计 索引0112131407080910110203040506 11某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行 整理得到了第整理得到了第x年与年销售量年与年销售量y(单位:万件单位:万件)之间的关系如下表:之间的关系如下表: x1234 y 12 28 42 56 (1)在图中画出表中数据的散点图;在图中画出表中数据的散点图; 解解(1)作出的散点图如图:作出的散点图如图: 索引0112131407080910110203040506 (2)根据散点图选择合适的回归模型拟合根据散点图选择合适的回归模型
25、拟合y与与x的关系的关系(不必说明理由不必说明理由); 解解根据散点图观察,可以用线性回归模型拟合根据散点图观察,可以用线性回归模型拟合y与与x的关系的关系. 索引0112131407080910110203040506 解解观察观察(1)中散点图可知各点大致分布在一条直线附近,列出表格:中散点图可知各点大致分布在一条直线附近,列出表格: 索引0112131407080910110203040506 B级 能力提升 / 索引0112131407080910110203040506 12在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的在吸烟与患肺癌这两个分类变量的独立性检验的计算
26、中,下列说法正确的 是是 () A若若26.635,在犯错误的概率不超过,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关的前提下认为吸烟与患肺癌有关 系,那么在系,那么在100个吸烟的人中必有个吸烟的人中必有99人患有肺癌人患有肺癌 B由独立性检验可知,在犯错误的概率不超过由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺的前提下认为吸烟与患肺 癌有关系时,我们说某人吸烟,那么他有癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌的可能患有肺癌 C若从统计量中求出在犯错误的概率不超过若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌的前提下认
27、为吸烟与患肺癌 有关系,是指有有关系,是指有1%的可能性使得判断出现错误的可能性使得判断出现错误 D以上三种说法都不正确以上三种说法都不正确 C 索引0112131407080910110203040506 解析解析独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多 大,而不能完全肯定一个结论,大,而不能完全肯定一个结论, 因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确 定性结论,定性结论, 否则就可能对统计计算的结果作出错误的解释
28、若从统计量中求出在犯错误的否则就可能对统计计算的结果作出错误的解释若从统计量中求出在犯错误的 概率不超过概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判的可能性使得判 断出现错误断出现错误 故选故选C. 索引0112131407080910110203040506 索引0112131407080910110203040506 14某城市地铁将于某城市地铁将于2022年年6月开始运营,为此召开了一个价格听证会,拟定价月开始运营,为此召开了一个价格听证会,拟定价 格后又进行了一次调查,随机抽查了格后又进行了一次调查,随机抽查了50人,
29、他们的收入与态度如下:人,他们的收入与态度如下: 月收入月收入(单单 位:百元位:百元) 15,25) 25,35) 35,45) 45,55) 55,65) 65,75 赞成定价赞成定价 者人数者人数 123534 认为价格偏认为价格偏 高者人数高者人数 4812521 索引0112131407080910110203040506 (1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定赞成定 价者价者”与与“认为价格偏高者认为价格偏高者”的月平均收入的差距是多少的月平均收入的差距是多少(结果保留结果保留2位小数位小数
30、); 解解“赞成定价者赞成定价者”的月平均收入为的月平均收入为 索引0112131407080910110203040506 (2)由以上统计数据填下面由以上统计数据填下面22列联表,分析是否有列联表,分析是否有99%的把握认为的把握认为“月收入以月收入以 55百元为分界点对地铁定价的态度有差异百元为分界点对地铁定价的态度有差异” 月收入不低于月收入不低于 55百元的人数百元的人数 月收入低于月收入低于 55百元的人数百元的人数 总计总计 认为价格偏高者认为价格偏高者 赞成定价者赞成定价者 总计总计 索引0112131407080910110203040506 解解根据条件可得根据条件可得22列联表如下:列联表如下: 月收入不低于月收入不低于 55百元的人数百元的人数 月收入低于月收入低于 55百元的人数百元的人数 总计总计 认为价格偏高者认为价格偏高者32932 赞成定价者赞成定价者71118 总计总计104050 INNOVATIVE DESIGN THANKS本节内容结束