1、8.18.3 综合拔高练综合拔高练 五年高考练五年高考练 考点考点 1 1变量的相关关系与线性回归模型变量的相关关系与线性回归模型 1.(2020 课标全国理,5,5 分,)某校一个课外学习小组为研究某作物种子的发 芽率 y 和温度 x(单位:)的关系,在 20 个不同的温度条件下进行种子发芽实验, 由实验数据(xi,yi)(i=1,2,20)得到下面的散点图: 由此散点图,在 10 至 40 之间,下面四个回归方程类型中最适宜作为发芽率 y 和温度 x 的回归方程类型的是() A.y=a+bxB.y=a+bx 2 C.y=a+be x D.y=a+bln x 2.(2020 课标全国理,18
2、,12 分,)某沙漠地区经过治理,生态系统得到很大改 善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相 近的 200 个地块,从这些地块中用简单随机抽样的方法抽取 20 个作为样区,调查 得到样本数据(xi,yi)(i=1,2,20),其中 xi和 yi分别表示第 i 个样区的植物覆盖 面积(单位:公顷)和这种野生动物的数量,并计算得 ?=1 20 xi=60, ?=1 20 yi=1 200, ?=1 20 (xi- ?) 2=80, ?=1 20 (yi-?) 2=9 000, ?=1 20 (xi-?)(yi-?)=800. (1)求该地区这种野生动物数量的估计值
3、(这种野生动物数量的估计值等于样区这 种野生动物数量的平均数乘以地块数); (2)求样本(xi,yi)(i=1,2,20)的相关系数(精确到 0.01); (3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以 获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方 法,并说明理由. 附:相关系数 r= ?=1 ? (?-?)(?-?) ?=1 ? (?-?)2 ?=1 ? (?-?)2 , 21.414. 3.(2016 课标全国,18,12 分,)下图是我国 2008 年至 2014 年生活垃圾无害化 处理量(单位:亿吨)的折线图. (1)由折线图看出,
4、可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明; (2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害 化处理量. 附注: 参考数据: ?=1 7 yi=9.32, ?=1 7 tiyi=40.17, ?=1 7 (?-?)2=0.55, 72.646. 参考公式:相关系数 r= ?=1 ? (?-?)(?-?) ?=1 ? (?-?)2 ?=1 ? (?-?)2 , 回归方程? =? +? t 中斜率和截距最小二乘估计公式分别为:? = ?=1 ? (?-?)(?-?) ?=1 ? (?-?)2 ,? =?-? ?. 考点考点 2
5、2独立性检验及其应用独立性检验及其应用 4.(2020 新高考,19,12 分,)为加强环境保护,治理空气污染,环境监测部门对 某市空气质量进行调研,随机抽查了 100 天空气中的 PM2.5 和 SO2浓度(单 位:g/m 3),得下表: SO2 PM2.5 0,50(50,150(150,475 0,3532184 (35,756812 (75,1153710 (1)估计事件“该市一天空气中 PM2.5 浓度不超过 75,且 SO2浓度不超过 150”的 概率; (2)根据所给数据,完成下面的 22 列联表: SO2 PM2.5 0,150(150,475 0,75 (75,115 (3)
6、根据(2)中的列联表,判断是否有 99%的把握认为该市一天空气中 PM2.5 浓度与 SO2浓度有关. 附:K 2= ?(?-?t)2 (?+?)(t+?)(?+t)(?+?), P(K 2k) 0.0500.0100.001 k3.8416.63510.828 . 5.(2020 课标全国理,18,12 分,)某学生兴趣小组随机调查了某市 100 天中每 天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天): 锻炼人次 空气质量等级 0,200(200,400(400,600 1(优)21625 2(良)51012 3(轻度污染)678 4(中度污染)720 (1)分别估计
7、该市一天的空气质量等级为 1,2,3,4 的概率; (2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中 点值为代表); (3)若某天的空气质量等级为 1 或 2,则称这天“空气质量好”;若某天的空气质量 等级为 3 或 4,则称这天“空气质量不好”.根据所给数据,完成下面的 22 列联 表,并根据列联表,判断是否有 95%的把握认为一天中到该公园锻炼的人次与该市 当天的空气质量有关. 人次400人次400 空气质量好 空气质量不好 附:K 2= ?(?-?t)2 (?+?)(t+?)(?+t)(?+?), P(K 2k) 0.050 0.010 0.001 k3.841
8、 6.635 10.82 8 . 三年模拟练三年模拟练 应用实践应用实践 1.(2020 陕西西安八校联考,)设两个变量 x 和 y 之间线性相关,它们的样本相关 系数为 r,y 关于 x 的经验回归方程为? =kx+b,则() A.k 与 r 的符号相同B.b 与 r 的符号相同 C.k 与 r 的符号相反D.b 与 r 的符号相反 2.(2020 黑龙江齐齐哈尔高二下学期期末,)某工厂为研究某种产品的产量 x(吨) 与所需某种原材料 y(吨)的相关性,在生产过程中收集了 4 组对应数据(x,y)如下 表所示:(残差=观测值-预测值) x3456 y2.534m 根据表中数据,得出 y 关于
9、 x 的经验回归方程为? =0.7x+a.据此计算出在样本点 (4,3)处的残差为-0.15,则表中 m 的值为. 3.(2020 河南开封高二调研,)某相关部门推出了环境执法力度的评价与环境质 量的评价系统,每项评价只有满意和不满意两个选项,市民可以随意进行评价,某 工作人员利用随机抽样的方法抽取了 200 位市民的评价结果,发现对环境质量满 意的占 60%,对执法力度满意的占 75%,其中对环境质量与执法力度都满意的有 80 人. (1)依据=0.001 的独立性检验,分析环境质量与执法力度是否有关; (2)为了改进工作作风,针对抽取的 200 位市民,从其中对执法力度不满意的人中 随机抽
10、取 3 位征求意见,用 X 表示 3 人中对环境质量与执法力度都不满意的人数, 求 X 的分布列与均值. 附表及公式: 0.10.050.010.0050.001 x2.7063.8416.6357.87910.828 2= ?(?-?t)2 (?+?)(t+?)(?+t)(?+?),其中 n=a+b+c+d. 4.(2020 四川广元高三第一次高考适应性统考,)国家逐步推行全新的高考制度. 新高考不再分文、理科,而是采用 3+3 模式,其中语文、数学、外语三科为必考科 目,满分各 150 分,另外考生还要依据想考取的高校及专业的要求,结合自己的兴 趣爱好等因素,在思想政治、历史、地理、物理、
11、化学、生物 6 门科目中自选 3 门参加考试(6 选 3),每科目满分 100 分.为了应对新高考,某高中从高一年级 1 000 名学生(其中男生 550 人,女生 450 人)中,采用分层随机抽样的方法从中抽取 n 名学生进行调查. (1)已知抽取的 n 名学生中有女生 45 人,求 n 的值及抽取到的男生人数; (2)学校计划在高一上学期开设选修中的物理和地理两个科目,为了了解学生对这 两个科目的选课情况,对在(1)的条件下抽取到的 n 名学生进行问卷调查(假设每 名学生在这两个科目中必须选择一个科目且只能选择一个科目),下表是根据调查 结果得到的 22 列联表.请将列联表补充完整,并依据
12、=0.01 的独立性检验,分 析选择科目与性别是否有关; 单位:人 选择物理选择地理合计 男生10 女生25 合计 (3)在抽取的选择地理的学生中用分层随机抽样的方法再抽取 6 名学生,然后从这 6 名学生中抽取 2 名学生了解他们对地理的选课意向情况,求 2 名学生中至少有 1 名男生的概率. 附表及公式: 0.10.050.010.0050.001 x2.7063.8416.6357.87910.828 2= ?(?-?t)2 (?+?)(t+?)(?+t)(?+?),其中 n=a+b+c+d. 答案全解全析答案全解全析 8.18.3 综合拔高练 五年高考练 1.D观察散点图可知,散点图用
13、光滑曲线连接起来比较接近对数型函数的图象, 故选 D. 2.解析(1)由已知得样本平均数?= 1 20 ?=1 20 yi=60,从而该地区这种野生动物数量的估 计值为 60200=12 000. (2)样本(xi,yi)(i=1,2,20)的相关系数 r= ?=1 20 (?-?)(?-?) ?=1 20 (?-?)2 ?=1 20 (?-?)2 = 800 809 000= 2 2 3 0.94. (3)分层抽样:根据植物覆盖面积的大小对地块分层,再对 200 个地块进行分层抽 样. 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关. 由于各地块间植物覆盖面积差异很
14、大,从而各地块间这种野生动物数量差异也很 大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本 的代表性,从而可以获得该地区这种野生动物数量更准确的估计. 3.解析(1)由题图中数据和附注中参考数据得?=4, ?=1 7 (ti- ?) 2=28, ?=1 7 (?-?)2=0.55, ?=1 7 (ti-?)(yi-?)= ?=1 7 tiyi-? ?=1 7 yi=40.17-49.32=2.89, r 2.89 0.5522.6460.99. 因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以 用线性回归模型拟合 y 与 t
15、 的关系. (2)由?=9.32 7 1.331 及(1)得? = ?=1 7 (?-?)(?-?) ?=1 7 (?-?)2 =2.89 28 0.10, ? =?-? ?=1.331-0.1040.93. 所以 y 关于 t 的回归方程为? =0.93+0.10t. 将 2016 年对应的 t=9 代入回归方程得? =0.93+0.109=1.83. 所以预测 2016 年我国生活垃圾无害化处理量为 1.83 亿吨. 4.解析(1)根据抽查数据,该市 100 天的空气中 PM2.5 浓度不超过 75,且 SO2浓度 不超过 150 的天数为 32+18+6+8=64,因此,该市一天空气中
16、PM2.5 浓度不超过 75, 且 SO2浓度不超过 150 的概率的估计值为 64 100=0.64. (2)根据抽查数据,可得 22 列联表: SO2 PM2.5 0,150(150,475 0,756416 (75,1151010 (3)根据(2)中的列联表得 K 2=100(6410-1610)2 80207426 7.484. 由于 7.4846.635,故有 99%的把握认为该市一天空气中 PM2.5 浓度与 SO2浓度有 关. 5.解析(1)由所给数据,该市一天的空气质量等级为 1,2,3,4 的概率的估计值如 下表: 空气质量等级1234 概率的估计值0.430.270.210
17、.09 (2)一天中到该公园锻炼的平均人次的估计值为 1 100(10020+30035+50045)=350. (3)根据所给数据,可得 22 列联表: 人次400人次400 空气质量好3337 空气质量不好228 根据列联表得 K 2=100(338-2237)2 70305545 5.820. 由于 5.8203.841,故有 95%的把握认为一天中到该公园锻炼的人次与该市当天的 空气质量有关. 三年模拟练 1.A若样本相关系数 r 为正,则两个变量呈现正相关,经验回归直线呈上升趋势; 若样本相关系数 r 为负,则两个变量呈现负相关,经验回归直线呈下降趋势,k 与 r 的符号相同.故选
18、A. 2.答案4.5 解析由在样本点(4,3)处的残差为-0.15,可得? =3.15,则 3.15=0.74+a,解得 a=0.35,由题意可知,产量 x 的平均数为?=1 4(3+4+5+6)=4.5,由经验回归方程 ? =0.7x+a 过点(?,?),可得?=0.7?+a=0.74.5+a=3.15+a,则 a=?- 3.15=1 4(9.5+m)-3.15,解得 m=4.5. 3.解析(1)对环境质量满意的有 20060%=120(人),对执法力度满意的有 20075%=150(人),对环境质量与执法力度都满意的有 80 人,由此可列出 22 列 联表如下: 单位:人 对执法力 度满意
19、 对执法力 度不满意 合计 对环境质 量满意 8040120 对环境质 量不满意 701080 合计15050200 零假设为 H0:环境质量与执法力度无关.计算可得 2=200(8010-4070)2 1208015050 =100 9 10.828=x0.001,依据=0.001 的独立性检验,推断 H0不成 立,即认为环境质量与执法力度有关. (2)X 的可能取值为 0,1,2,3, P(X=0)= C40 3 C50 3 =247 490,P(X=1)= C10 1 C40 2 C50 3 =39 98,P(X=2)= C10 2 C40 1 C50 3 = 9 98,P(X=3)=
20、C10 3 C50 3 = 3 490, 则 X 的分布列为 X0123 P 247 490 39 98 9 98 3 490 E(X)=0247 490+1 39 98+2 9 98+3 3 490= 3 5. 4.解析(1)由题意得, ? 1 000= 45 450,解得 n=100,则抽取到的男生人数 为 550 100 1 000=55. (2)补充完整的 22 列联表如下: 单位:人 选择物理选择地理合计 男生451055 女生252045 合计7030100 零假设为 H0:选择科目与性别无关.计算可得 2=100(4520-1025)2 55457030 8.1296.635=x0.01, 依据=0.01 的独立性检验,推断 H0不成立,即认为选择科目与性别有关. (3)从 30 名选择地理的学生中用分层随机抽样的方法抽取 6 名学生, 则这 6 名学生中有 2 名男生,4 名女生, 设男生编号分别为 1,2,女生编号分别为 a,b,c,d,从这 6 名学生中抽取 2 名学生, 所有可能的结果为ab,ac,ad,a1,a2,bc,bd,b1,b2,cd,c1,c2,d1,d2,12,共 15 种, 至少有一名男生的结果为a1,a2,b1,b2,c1,c2,d1,d2,12,共 9 种, 所以 2 名学生中至少有 1 名男生的概率 P= 9 15= 3 5.