1、新教材)人教(新教材)人教 A 版数学选择性必修第三册单元测试版数学选择性必修第三册单元测试 第八章第八章 成对数据的统计分析(成对数据的统计分析(B 卷提高卷)卷提高卷) 一选择题(共一选择题(共 8 小题)小题) 1 (2019新疆模拟)对于给定的两个变量的统计数据,下列说法正确的是( ) A都可以分析出两个变量的关系 B都可以用一条直线近似地表示两者的关系 C都可以作出散点图 D都可以用确定的表达式表示两者的关系 2 (2020 春郑州期末)对两个变量 y 和 x 进行回归分析,得到一组样本数据: (x1,y1) , (x2,y2) , (xn, yn) ,则下列说法中不正确的是( )
2、A由样本数据得到的回归方程x必过样本中心( , ) B残差平方和越小的模型,拟合的效果越好 C用相关指数 R2来刻画回归效果,R2越小,说明模型的拟合效果越好 D若变量 y 和 x 之间的相关系数为 r0.9362,则变量 y 和 x 之间具有线性相关关系 3 (20202 月份模拟)已知变量 x,y 的关系可以用模型 ycekx拟合,设 zlny,其变换后得到一组数据下: x 16 17 18 19 z 50 34 41 31 由上表可得线性回归方程,则 c( ) A4 Be4 C109 De109 4 (2020泉州模拟)如图是某地区 2010 年至 2019 年污染天数 y(单位:天)与
3、年份 x 的折线图根据 2010 年至 2014 年数据, 2015 年至 2019 年的数据, 2010 年至 2019 年的数据分别建立线性回归模型b1x+a1, ,则( ) Ab1b2b3,a1a2a3 Bb1b3b2,a1a3a2 Cb2b3b1,a1a3a2 Db2b3b1,a3a2a1 5 (2020金安区校级模拟)某研究员为研究某两个变量的相关性,随机抽取这两个变量样本数据如表: xi 0.04 1 4.84 10.24 yi 1.1 2.1 2.3 3.3 4.2 若依据表中数据画出散点图,则样本点(xi,yi) (i1,2,3,4,5)都在曲线附近波动但 由于某种原因表中一个
4、 x 值被污损,将方程作为回归方程,则根据回归方程和表中 数据可求得被污损数据为( ) A4.32 B1.69 C1.96 D4.32 6 (2019湛江二模)有人认为在机动车驾驶技术上,男性优于女性这是真的么?某社会调查机构与交警 合作随机统计了经常开车的 100 名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下面 的列联表: 男 女 合计 无 40 35 75 有 15 10 25 合计 55 45 100 附:K2 P(K2k0) 0.50 0.40 0.25 0.15 0.10 k0 0.455 0.708 1.323 2.072 2.706 据此表,可得( ) A认为机动
5、车驾驶技术与性别有关的可靠性不足 50% B认为机动车驾驶技术与性别有关的可靠性超过 50% C认为机动车驾驶技术与性别有关的可靠性不足 60% D认为机动车驾驶技术与性别有关的可靠性超过 60% 7 (2020德州二模)某中学共有 1000 人,其中男生 700 人,女生 300 人,为了了解该校学生每周平均体育 锻炼时间的情况以及经常进行体育锻炼的学生是否与性别有关(经常进行体育锻炼是指:周平均体育锻 炼时间不少于4小时) , 现在用分层抽样的方法从中收集200位学生每周平均体育锻炼时间的样本数据 (单 位:小时) ,其频率分布直方图如图已知在样本数据中,有 40 位女生的每周平均体育锻炼
6、时间超过 4 小时,根据独立性检验原理( ) 附:,其中 na+b+c+d P(K2k0) 0.10 0.05 0.01 0.005 k0 2.706 3.841 6.635 7.879 A有 95%的把握认为“该校学生每周平均体育锻炼时间与性别无关” B有 90%的把握认为“该校学生每周平均体育锻炼时间与性别有关” C有 90%的把握认为“该校学生每周平均体育锻炼时间与性别无关” D有 95%的把握认为“该校学生每周平均体育锻炼时间与性别有关” 8 (2019 秋高安市校级期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了 一次调查,其中女生人数是男生人数的 ,男生
7、追星的人数占男生人数的 ,女生追星的人数占女生人数 的 若有 95%的把握认为是否追星和性别有关,则男生至少有( ) P(K2k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 参考数据及公式如下: K2 A12 B11 C10 D18 评卷人 得 分 二多选题(共二多选题(共 4 小题)小题) 9 (2020 春奎文区校级月考)已知由样本数据点集合(xi,yi)|i1,2,n,求得的回归直线方程为 1.5x+0.5,3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的回归直 线 l 的斜率为 1.2,则( ) A变量 x 与
8、 y 具有正相关关系 B去除后的回归方程为 C去除后 y 的估计值增加速度变快 D去除后,当 x4 时,y 的估计值为 6.2 10 (2020烟台模拟)某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向学 生开展了一次随机调查,其中参加调查的男女生人数相同,并绘制如图等高条形图,则( ) P(K2k0) 0.05 0.01 k0 3.841 6.635 参考公式:,na+b+c+d A参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多 B参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多 C若参与调查的男女生人数均为 100 人,则有 99%的把握认为喜欢攀岩和性
9、别有关 D无论参与调查的男女生人数为多少,都有 99%的把握认为喜欢攀岩和性别有关 11 (2020 春琼山区校级月考)已知由样本数据点集合(xi,yi)|i1,2,n,求得的回归直线方程 为1.5x+0.5,且3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的回 归直线 l 的斜率为 1.2,则( ) A变量 x 与 y 具有正相关关系 B去除后的回归方程为1.2x+1.4 C去除后 y 的估计值增加速度变快 D去除后相应于样本点(2,3.75)的残差为 0.05 12 (2020山东模拟)某机构在研究性别与是否爱好拳击运动的关系中,通过收集数据得到如下 2
10、 2 列联表 男 女 合计 爱好拳击 35 22 57 不爱好拳击 15 28 43 合计 50 50 100 经计算得 K2 之后又对被研究者的身高进行了统计,得 到男、女身高分别近似服从正态分布 N(175,16)和 N(164,9) ,则下列选项中正确的是( ) P(K2k) 0.50 0.05 0.010 0.005 0.001 k 0.455 3.841 6.635 7.897 10.828 A在犯错误的概率不超过 1%的前提下,认为“爱好拳击运动与性别有关” B在 100 个男生中,至少有一个人爱好打拳击 C男生身高的平均数为 175,男生身高的标准差为 16 D女生身高的平均数为
11、 164,女生身高的标准差为 3 评卷人 得 分 三填空题(共三填空题(共 4 小题)小题) 13 (2020蚌埠三模)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各 100 名客户代表, 了解他们对该企业产品的发展前景所持的态度, 得到如图所示的等高条形图, 则 (填 “能”或“不能”)有 99%以上的把握认为是否持乐观态度与国内外差异有关 P(K2k) 0.050 0.010 0.005 0.001 k 3.841 6.635 7.879 10.828 附 14 (2020宜昌模拟)某种品牌汽车的销量 y(万辆)与投入宣传费用 x(万元)之间具有线性相关关系, 样本数
12、据如表所示: 宣传费用 x 3 4 5 6 销量 y 2.5 3 4 4.5 经计算得回归直线方程的斜率为 0.7,若投入宣传费用为 8 万元,则该品牌汽车销量的预报值 为 万辆 15 (2019 秋雅安期末)已知 x,y 的取值如表所示:从散点图分析,y 与 x 线性相关,且, 则 x 0 1 3 4 y 2.2 4.3 4.8 6.7 16 (2019 春山西期中)已知一组数据的回归直线方程为,且,发现有两组数据(1.7, 2.9) , (2.3,5.1)的误差较大,去掉这两组数据后,重新求得回归直线方程为,则当 x 3 时, 评卷人 得 分 四解答题(共四解答题(共 5 小题)小题) 1
13、7 (2020南平三模)为了解高新产业园引进的甲公司前期的经营状况,市场研究人员对该公司 2019 年下 半年连续六个月的利润进行了统计,统计数据列表如表: 月份 7 月 8 月 9 月 10 月 11 月 12 月 月份代码 1 2 3 4 5 6 月利润(万元) 110 130 160 150 200 210 (1)请用相关系数说明月利润 y(单位:万元)与月份代码 x 之间的关系的强弱(结果保留两位小数) , 求 y 关于 x 的线性回归方程,并预测该公司 2020 年 1 月份的利润; (2)甲公司新研制了一款产品,需要采购一批新型材料,已知生产新型材料的乙企业对 A、B 两种型号 各
14、 100 件新型材料进行模拟测试,统计两种新型材料使用寿命频数如表所示: 使用寿命 材料类型 1 个月 2 个月 3 个月 4 个月 总计 A 15 40 35 10 100 B 10 30 40 20 100 现有采购成本分别为 10 万元/件和 12 万元/件的 A、B 两种型号的新型材料可供选择,按规定每种新型材 料最多可使用 4 个月,不同类型的新型材料损坏的时间各不相同,经甲公司测算,平均每件新型材料每 月可以带来 5 万元收入,不考虑除采购成本之外的其他成本,假设每件新型材料的使用寿命都是整数月, 且以频率估计每件新型材料使用寿命的概率,如果你是甲公司的负责人,以每件新型材料产生利
15、润的期 望值为决策依据,你会选择采购哪款新型材料? 参考公式:相关系数; 回归直线方程为,其中, 参考数据:, 18 (2020三模拟)2020 年春节前后,一场突如其来的新冠肺炎疫情在武汉出现并很快地传染开来(已有 证据表明 2019 年 10 月、11 月国外已经存在新冠肺炎病毒) ,人传人,传播快,传播广,病亡率高,对 人类生命形成巨大危害在中华人民共和国,在中共中央、国务院强有力的组织领导下,全国人民万众 一心抗击、防控新冠肺炎,疫情早在 3 月底已经得到了非常好的控制(累计病亡人数 3869 人) 然而, 国外因国家体制、思想观念与中国的不同,防控不力,新冠肺炎疫情越来越严重据美国约
16、翰斯霍普金 斯大学每日下午 6 时公布的统计数据,选取 5 月 6 日至 5 月 10 日的美国的新冠肺炎病亡人数如表(其中 t 表示时间变量,日期“5 月 6 日”、“5 月 7 日”对应于“t6“、“t7“,依次下去) : 日期 5 月 6 日 5 月 7 日 5 月 8 日 5 月 9 日 5 月 10 日 新冠肺炎累计病亡人数 72271 75477 76938 78498 80037 新冠肺炎累计病亡人数近似值 (对个位十位进行四舍五入) 72300 75500 76900 78500 80000 时间 t 6 7 8 9 10 由如表求得累计病亡人数与时间的相关系数 r0.98 (
17、1)在 5 月 6 日10 日,美国新冠肺炎病亡人数与时间(日期)是否呈现线性相关性? (2)选择对累计病亡人数四舍五入后个位、十位均为 0 的近似数,求每日累计病亡人数 y 随时间 t 变化 的线性回归方程; (3)请估计美国 5 月 11 日新冠肺炎病亡累计人数,请初步预测病亡人数达到 9 万的日期 附:回归方程中斜率和截距最小二乘估计公式分别为, 19 (2020淄博模拟)新生儿某疾病要接种三次疫苗免疫(即 0、1、6 月龄) ,假设每次接种之间互不影响, 每人每次接种成功的概率相等为了解新生儿该疾病疫苗接种剂量与接种成功之间的关系,现进行了两种 接种方案的临床试验:10g/次剂量组与
18、20g/次剂量组,试验结果如表: 接种成功 接种不成功 总计(人) 10g/次剂量组 900 100 1000 20g/次剂量组 973 27 1000 总计(人) 1873 127 2000 (1) 根据数据说明哪种方案接种效果好?并判断能否有 99.9%的把握认为该疾病疫苗接种成功与两种接 种方案有关? (2)以频率代替概率,若选用接种效果好的方案,参与该试验的 1000 人的成功人数比此剂量只接种一 次的成功人数平均提高多少人 参考公式:,其中 na+b+c+d 参考附表: P(K2k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 20 (2020泉
19、州二模)FEV1(一秒用力呼气容积)是肺功能的一个重要指标为了研究某地区 1015 岁男 孩群体的 FEV1与身高的关系, 现从该地区 A、 B、 C 三个社区 1015 岁男孩中随机抽取 600 名进行 FEV1 与身高数据的相关分析 (1)若 A、B、C 三个社区 1015 岁男孩人数比例为 1:3:2,按分层抽样进行抽取,请求出三个社区 应抽取的男孩人数 (2)经过数据处理后,得到该地区 1015 岁男孩身高 x(cm)与 FEV1y(L)对应的 10 组数据(xi,yi) (i1,2,10) ,并作出如图散点图: 经计算得:,152,2.464, (xi,yi) (i1,2,10)的
20、相关系数 r0.987 请你利用所给公式与数据建立 y 关于 x 的线性回归方程,并估计身高 160cm 的男孩的 FEV1的预报值 y0 已知,若中回归模型误差的标准差为 s,则该地区身高 160cm 的男孩的 FEV1的实际值落在(y03s, y0+3s)内的概率为 99.74%现已求得 s0.1,若该地区有两个身高 160cm 的 12 岁男孩 M 和 N,分别测 得 FEV1值为 2.8L 和 2.3L,请结合概率统计知识对两个男孩的 FEV1指标作出一个合理的推断与建议 附:样本(xi,yi) (i1,2,n)的相关系数 r , 其回归方程的斜率和截距的最小二乘法估计分别为, 21
21、(2020香坊区校级二模)近期,湖北省武汉市等多个地区发生新型冠状病毒感染的肺炎疫情为了尽快 遏制住疫情, 我国科研工作者坚守在科研一线, 加班加点、 争分夺秒与病毒抗争, 夜以继日地进行研究 新 型冠状病毒的潜伏期检测是疫情控制的关键环节之一在传染病学中,通常把从致病刺激物侵入机体或 对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期钟 南山院士带领的研究团队统计了武汉市某地区 10000 名医学观察者的相关信息,并通过咽拭子核酸检测 得到 1000 名确诊患者的信息如表格: 潜伏期(单位:天) 0,7 (7,14 (14,21 (21,28 人数 800
22、 190 8 2 (1)求这 1000 名确诊患者的潜伏期样本数据的平均数 (同一组数据用该组数据区间的中点值代表) (2)新型冠状病毒的潜伏期受诸多因素影响,为了研究潜伏期与患者性别的关系,以潜伏期是否超过 7 天为标准进行分层抽样,从上述 1000 名患者中抽取 100 名,得到如下列联表请将列联表补充完整,并 根据列联表判断是否有 90%的把握认为潜伏期与患者性别有关 潜伏期7 天 潜伏期7 天 总计 男性患者 12 女性患者 50 总计 100 (3)由于采样不当、标本保存不当、采用不同类型的标本以及使用不同厂家试剂都可能造成核酸检测结 果“假阴性”而出现漏诊当核酸检测呈阴性时,需要进
23、一步进行血清学 IgM/IgG 抗体检测,以弥补核酸 检测漏诊的缺点 现对 10 名核酸检测结果呈阴性的人员逐一地进行血清检测, 记每个人检测出 IgM (IgM 是近期感染的标志)呈阳性的概率为 p(0p1)且相互独立,设至少检测了 9 个人才检测出 IgM 呈阳 性的概率为 f(p) ,求 f(p)取得最大值时相应的概率 p 附:,其中 na+b+c+d P(K2k0) 0.100 0.050 0.025 0.010 0.005 0.001 k0 2.706 3.841 5.024 6.635 7.879 10.828 (新教材)人教(新教材)人教 A 版数学选择性必修第三册单元测试版数学
24、选择性必修第三册单元测试 第八章第八章 成对数据的统计分析成对数据的统计分析(B 卷提高卷)卷提高卷) 参考答案与试题解析参考答案与试题解析 一选择题(共一选择题(共 8 小题)小题) 1 (2019新疆模拟)对于给定的两个变量的统计数据,下列说法正确的是( ) A都可以分析出两个变量的关系 B都可以用一条直线近似地表示两者的关系 C都可以作出散点图 D都可以用确定的表达式表示两者的关系 【解答】解:给出一组样本数据,总可以作出相应的散点图,故 C 正确, 但不一定能分析出两个变量的关系,故 A 不正确, 更不一定符合线性相关,不一定用一条直线近似的表示,故 B 不正确, 两个变量的统计数据不
25、一定有函数关系,故 D 不正确 故选:C 2 (2020 春郑州期末)对两个变量 y 和 x 进行回归分析,得到一组样本数据: (x1,y1) , (x2,y2) , (xn, yn) ,则下列说法中不正确的是( ) A由样本数据得到的回归方程x必过样本中心( , ) B残差平方和越小的模型,拟合的效果越好 C用相关指数 R2来刻画回归效果,R2越小,说明模型的拟合效果越好 D若变量 y 和 x 之间的相关系数为 r0.9362,则变量 y 和 x 之间具有线性相关关系 【解答】解:样本中心点在直线上,故 A 正确, 残差平方和越小的模型,拟合效果越好,故 B 正确, R2越大拟合效果越好,故
26、 C 不正确, 当 r 的值大于 0.75 时,表示两个变量具有线性相关关系, 故选:C 3 (20202 月份模拟)已知变量 x,y 的关系可以用模型 ycekx拟合,设 zlny,其变换后得到一组数据下: x 16 17 18 19 z 50 34 41 31 由上表可得线性回归方程,则 c( ) A4 Be4 C109 De109 【解答】解:17.5,39 代入,得 394,则 , 由 ycekx,得 lnyln(cekx)lnc+lnekxlnc+kx, 令 zlny,则 zlnc+kx,lnc109,则 ce109 故选:D 4 (2020泉州模拟)如图是某地区 2010 年至 2
27、019 年污染天数 y(单位:天)与年份 x 的折线图根据 2010 年至 2014 年数据, 2015 年至 2019 年的数据, 2010 年至 2019 年的数据分别建立线性回归模型b1x+a1, ,则( ) Ab1b2b3,a1a2a3 Bb1b3b2,a1a3a2 Cb2b3b1,a1a3a2 Db2b3b1,a3a2a1 【解答】解:不妨设 l1:b1x+a1,l2:,l3: , 由线性回归方程恒过样本点的中心,可知三条回归直线方程的大致形状如图: 由图可知,b2b3b1,a1a3a2 故选:C 5 (2020金安区校级模拟)某研究员为研究某两个变量的相关性,随机抽取这两个变量样本
28、数据如表: xi 0.04 1 4.84 10.24 yi 1.1 2.1 2.3 3.3 4.2 若依据表中数据画出散点图,则样本点(xi,yi) (i1,2,3,4,5)都在曲线附近波动但 由于某种原因表中一个 x 值被污损,将方程作为回归方程,则根据回归方程和表中 数据可求得被污损数据为( ) A4.32 B1.69 C1.96 D4.32 【解答】解:设缺失的数据为 x,(i1,2,3,4,5) ,则样本(mi,yi)的数据如下表所示: mi 0.2 1 2.2 3.2 yi 1.1 2.1 2.3 3.3 4.2 其回归直线方程为,由表中数据额可得, 由线性回归方程,得1.6, 即,
29、解得 x1.96 故选:C 6 (2019湛江二模)有人认为在机动车驾驶技术上,男性优于女性这是真的么?某社会调查机构与交警 合作随机统计了经常开车的 100 名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下面 的列联表: 男 女 合计 无 40 35 75 有 15 10 25 合计 55 45 100 附:K2 P(K2k0) 0.50 0.40 0.25 0.15 0.10 k0 0.455 0.708 1.323 2.072 2.706 据此表,可得( ) A认为机动车驾驶技术与性别有关的可靠性不足 50% B认为机动车驾驶技术与性别有关的可靠性超过 50% C认为机动车驾
30、驶技术与性别有关的可靠性不足 60% D认为机动车驾驶技术与性别有关的可靠性超过 60% 【解答】解:由表中数据,计算 K20.33670.455, 认为机动车驾驶技术与性别有关的可靠性不足 50%; 故选:A 7 (2020德州二模)某中学共有 1000 人,其中男生 700 人,女生 300 人,为了了解该校学生每周平均体育 锻炼时间的情况以及经常进行体育锻炼的学生是否与性别有关(经常进行体育锻炼是指:周平均体育锻 炼时间不少于4小时) , 现在用分层抽样的方法从中收集200位学生每周平均体育锻炼时间的样本数据 (单 位:小时) ,其频率分布直方图如图已知在样本数据中,有 40 位女生的每
31、周平均体育锻炼时间超过 4 小时,根据独立性检验原理( ) 附:,其中 na+b+c+d P(K2k0) 0.10 0.05 0.01 0.005 k0 2.706 3.841 6.635 7.879 A有 95%的把握认为“该校学生每周平均体育锻炼时间与性别无关” B有 90%的把握认为“该校学生每周平均体育锻炼时间与性别有关” C有 90%的把握认为“该校学生每周平均体育锻炼时间与性别无关” D有 95%的把握认为“该校学生每周平均体育锻炼时间与性别有关” 【解答】解:根据题意知,200 位学生中男生有 200140(人) , 女生有 60 人,其中有 40 位女生的每周平均体育锻炼时间超
32、过 4 小时, 由频率分布直方图知,男生每周平均体育锻炼时间超过 4 小时的人数是(10.025 20.100 2) 200 40110, 由此填写列联表,如下; 性别/ 平均锻炼时间 t 男生 女生 总计 t4 30 20 50 t4 110 40 150 总计 140 60 200 由表中数据,计算 K23.1752.706, 所以有 90%的把握认为“该校学生每周平均体育锻炼时间与性别有关” 故选:B 8 (2019 秋高安市校级期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了 一次调查,其中女生人数是男生人数的 ,男生追星的人数占男生人数的 ,女生追星的人数
33、占女生人数 的 若有 95%的把握认为是否追星和性别有关,则男生至少有( ) P(K2k0) 0.050 0.010 0.001 k0 3.841 6.635 10.828 参考数据及公式如下: K2 A12 B11 C10 D18 【解答】解:设男生人数为 x,依题意可得列联表如下: 喜欢追星 不喜欢追星 总计 男生 x 女生 总计 x 若在犯错误的概率不超过 0.05 的前提下认为是否喜欢追星和性别有关,则 K23.841, 由 K2 3.841,解得 x10.24, , 都为整数, 若在犯错误的概率不超过 0.05 的前提下认为是否喜欢追星和性别有关, 则男生至少有 12 人 故选:A
34、二多选题(共二多选题(共 4 小题)小题) 9 (2020 春奎文区校级月考)已知由样本数据点集合(xi,yi)|i1,2,n,求得的回归直线方程为 1.5x+0.5,3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的回归直 线 l 的斜率为 1.2,则( ) A变量 x 与 y 具有正相关关系 B去除后的回归方程为 C去除后 y 的估计值增加速度变快 D去除后,当 x4 时,y 的估计值为 6.2 【解答】解:由样本数据点集合(xi,yi)|i1,2,n,求得的回归直线方程为1.5x+0.5,3, 所以1.5 3+0.55, 因为重新求得的回归直线 l 的斜
35、率为 1.2,是正相关, 设新的数据所有横坐标的平均值 ,则(n2)n(1.2+4.8)3n63(n2) ,故3, 纵坐标的平均数为,则(n2)n(2.2+7.8)n105n105(n2) ,5, 设新的线性回归方程为 y1.2x+b,把(3,5)代入 51.2 3+b,b1.4, 所以新的线性回归方程为 y1.2x+1.4 所以 A,B 正确, 因为斜率为 1.21.5,所以 y 的估计值增长速度变慢,C 错误; 把 x4 代入,得 y1.2 4+1.46.2,所以 D 正确 故选:ABD 10 (2020烟台模拟)某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向学
36、生开展了一次随机调查,其中参加调查的男女生人数相同,并绘制如图等高条形图,则( ) P(K2k0) 0.05 0.01 k0 3.841 6.635 参考公式:,na+b+c+d A参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多 B参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多 C若参与调查的男女生人数均为 100 人,则有 99%的把握认为喜欢攀岩和性别有关 D无论参与调查的男女生人数为多少,都有 99%的把握认为喜欢攀岩和性别有关 【解答】解:对于选项 A:因为参加调查的男女生人数相同,而男生中喜欢攀岩的占 80%,女生中喜欢 攀岩的占 30%, 所以参与调查的学生中喜欢攀岩
37、的男生人数比喜欢攀岩的女生人数多, 所以选项 A 正确; 对于选项 B:参与调查的女生中喜欢攀岩的人数占 30%,不喜欢攀岩的人数占 70%,所以参与调查的女 生中喜欢攀岩的人数比不喜欢攀岩的人数多,所以选项 B 错误; 对于选项 C:若参与调查的男女生人数均为 100 人,根据图表,列出 2 2 列联表如下: 喜欢 不喜欢 总计 男 80 20 100 女 30 70 100 总计 110 90 200 K2 10.1016.635, 有 99%的把握认为喜欢攀岩和性别有关,所以选项 C 正确; 对于选项 D: 如果不确定参与调查的男女生人数, 无法计算是否有 99%的把握认为喜欢攀岩和性别
38、有关, 所以选项 D 错误; 故选:AC 11 (2020 春琼山区校级月考)已知由样本数据点集合(xi,yi)|i1,2,n,求得的回归直线方程 为1.5x+0.5,且3,现发现两个数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的回 归直线 l 的斜率为 1.2,则( ) A变量 x 与 y 具有正相关关系 B去除后的回归方程为1.2x+1.4 C去除后 y 的估计值增加速度变快 D去除后相应于样本点(2,3.75)的残差为 0.05 【解答】解:3,代入1.5x+0.5,5,因为重新求得的回归直线 l 的斜率为 1.2,故正相关, 设新的数据所以横坐标的平均值 ,则(
39、n2)n(1.2+4.8)3n63(n2) ,故3, 纵坐标的平均数为,则(n2)n(2.2+7.8)n105n105(n2) ,5, 设新的线性回归方程为 y1.2x+b,把(3,2)代入 51.2 3+b,b1.4, 故新的线性回归方程为 y1.2x+1.4, 故 A,B 正确, 因为斜率为 1.2 不变,所以 y 的增长速度不变,C 错误, 把 x2 代入,y3.8,3.753.80.05,故 D 错误, 故选:AB 12 (2020山东模拟)某机构在研究性别与是否爱好拳击运动的关系中,通过收集数据得到如下 2 2 列联表 男 女 合计 爱好拳击 35 22 57 不爱好拳击 15 28
40、 43 合计 50 50 100 经计算得 K2 之后又对被研究者的身高进行了统计,得 到男、女身高分别近似服从正态分布 N(175,16)和 N(164,9) ,则下列选项中正确的是( ) P(K2k) 0.50 0.05 0.010 0.005 0.001 k 0.455 3.841 6.635 7.897 10.828 A在犯错误的概率不超过 1%的前提下,认为“爱好拳击运动与性别有关” B在 100 个男生中,至少有一个人爱好打拳击 C男生身高的平均数为 175,男生身高的标准差为 16 D女生身高的平均数为 164,女生身高的标准差为 3 【解答】解:K26.8956.635,A 对
41、, 显然 B 错, 男生标准差为 4,C 错, 显然 D 对, 故选:AD 三填空题(共三填空题(共 4 小题)小题) 13 (2020蚌埠三模)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各 100 名客户代表, 了解他们对该企业产品的发展前景所持的态度, 得到如图所示的等高条形图, 则 能 (填 “能”或“不能”)有 99%以上的把握认为是否持乐观态度与国内外差异有关 P(K2k) 0.050 0.010 0.005 0.001 k 3.841 6.635 7.879 10.828 附 【解答】解:根据题目所给数据得到如下 2 2 的列联表: 乐观 不乐观 总计 国内
42、代表 60 40 100 国外代表 40 60 100 总计 100 100 200 则 K 的观测值:K286.635 所以有 99%的把握认为认为是否持乐观态度与国内外差异有关, 故答案为:能 14 (2020宜昌模拟)某种品牌汽车的销量 y(万辆)与投入宣传费用 x(万元)之间具有线性相关关系, 样本数据如表所示: 宣传费用 x 3 4 5 6 销量 y 2.5 3 4 4.5 经计算得回归直线方程的斜率为 0.7,若投入宣传费用为 8 万元,则该品牌汽车销量的预报值 为 5.95 万辆 【解答】解:由题意可得4.5; 3.5; 回归直线方程的斜率为 0.7,可得, 所以 3.5,可得
43、0.35, 回归直线方程为:, 投入宣传费用为 8 万元,则该品牌汽车销量的预报值为:0.7 8+0.355.95(万辆) 故答案为:5.95 15 (2019 秋雅安期末)已知 x,y 的取值如表所示:从散点图分析,y 与 x 线性相关,且, 则 2.8 x 0 1 3 4 y 2.2 4.3 4.8 6.7 【解答】解:, 样本点的中心的坐标为(2,4.5) , 代入,得 4.50.85, 解得 故答案为:2.8 16 (2019 春山西期中)已知一组数据的回归直线方程为,且,发现有两组数据(1.7, 2.9) , (2.3,5.1)的误差较大,去掉这两组数据后,重新求得回归直线方程为,则
44、当 x 3 时, 5 【解答】解:由回归直线方程过样本中心点,可将代入,得, 所以原数据的样本中心点为(2,4) , 去掉两组数据(1.7,2.9) , (2.3,5.1)后的新数据的, , 所以新数据的样本中心点为(2,4) , 因为新数据的回归直线方程为,将(2,4)代入得, 所以, 当 x3 时, 故答案为:5 四解答题(共四解答题(共 5 小题)小题) 17 (2020南平三模)为了解高新产业园引进的甲公司前期的经营状况,市场研究人员对该公司 2019 年下 半年连续六个月的利润进行了统计,统计数据列表如表: 月份 7 月 8 月 9 月 10 月 11 月 12 月 月份代码 1 2
45、 3 4 5 6 月利润(万元) 110 130 160 150 200 210 (1)请用相关系数说明月利润 y(单位:万元)与月份代码 x 之间的关系的强弱(结果保留两位小数) , 求 y 关于 x 的线性回归方程,并预测该公司 2020 年 1 月份的利润; (2)甲公司新研制了一款产品,需要采购一批新型材料,已知生产新型材料的乙企业对 A、B 两种型号 各 100 件新型材料进行模拟测试,统计两种新型材料使用寿命频数如表所示: 使用寿命 材料类型 1 个月 2 个月 3 个月 4 个月 总计 A 15 40 35 10 100 B 10 30 40 20 100 现有采购成本分别为 1
46、0 万元/件和 12 万元/件的 A、B 两种型号的新型材料可供选择,按规定每种新型材 料最多可使用 4 个月,不同类型的新型材料损坏的时间各不相同,经甲公司测算,平均每件新型材料每 月可以带来 5 万元收入,不考虑除采购成本之外的其他成本,假设每件新型材料的使用寿命都是整数月, 且以频率估计每件新型材料使用寿命的概率,如果你是甲公司的负责人,以每件新型材料产生利润的期 望值为决策依据,你会选择采购哪款新型材料? 参考公式:相关系数; 回归直线方程为,其中, 参考数据:, 【解答】解: (1)由题意知,相关系数 r0.96, 所以月利润 y(单位:万元)与月份代码 x 之间的关系很强; 计算(
47、1+2+3+4+5+6)3.5, (110+130+160+150+200+210)160, 20, 16020 3.590, 所以 y 关于 x 的线性回归方程是20 x+90, 计算 x7 时,20 7+90230, 所以预测该公司 2020 年 1 月份的利润为 230 万元; (2) 由频率估计概率, 每件 A 型新材料可使用 1 个月, 2 个月, 3 个月和 4 个月的概率分别为 0.15, 0.40, 0.35 和 0.1, 所以每件 A 型新材料可产生的利润的平均值为(510) 0.15+(1010) 0.40+(1510) 0.35+ (2010) 0.12.9(万元) ,
48、每件 B 型新材料可使用 1 个月,2 个月,3 个月和 4 个月的概率分别为 0.1,0.3,0.4 和 0.2, 所以每件 B 型新材料可产生的利润的平均值为(512) 0.1+(1012) 0.3+(1512) 0.4+(20 12) 0.21.5(万元) , 由 2.91.5, 所以应该采购 A 型新材料甲公司新型材料产生利润的期望值更高 18 (2020三模拟)2020 年春节前后,一场突如其来的新冠肺炎疫情在武汉出现并很快地传染开来(已有 证据表明 2019 年 10 月、11 月国外已经存在新冠肺炎病毒) ,人传人,传播快,传播广,病亡率高,对 人类生命形成巨大危害在中华人民共和
49、国,在中共中央、国务院强有力的组织领导下,全国人民万众 一心抗击、防控新冠肺炎,疫情早在 3 月底已经得到了非常好的控制(累计病亡人数 3869 人) 然而, 国外因国家体制、思想观念与中国的不同,防控不力,新冠肺炎疫情越来越严重据美国约翰斯霍普金 斯大学每日下午 6 时公布的统计数据,选取 5 月 6 日至 5 月 10 日的美国的新冠肺炎病亡人数如表(其中 t 表示时间变量,日期“5 月 6 日”、“5 月 7 日”对应于“t6“、“t7“,依次下去) : 日期 5 月 6 日 5 月 7 日 5 月 8 日 5 月 9 日 5 月 10 日 新冠肺炎累计病亡人数 72271 75477
50、76938 78498 80037 新冠肺炎累计病亡人数近似值 (对个位十位进行四舍五入) 72300 75500 76900 78500 80000 时间 t 6 7 8 9 10 由如表求得累计病亡人数与时间的相关系数 r0.98 (1)在 5 月 6 日10 日,美国新冠肺炎病亡人数与时间(日期)是否呈现线性相关性? (2)选择对累计病亡人数四舍五入后个位、十位均为 0 的近似数,求每日累计病亡人数 y 随时间 t 变化 的线性回归方程; (3)请估计美国 5 月 11 日新冠肺炎病亡累计人数,请初步预测病亡人数达到 9 万的日期 附:回归方程中斜率和截距最小二乘估计公式分别为, 【解答