1、20202021学年高二数学下学期第八章 成对数据的统计分析专项训练一、单选题(共12题;共60分)1已知具有线性相关的变量x,y,设其样本点为,回归直线方程为,若(O为坐标原点),则( )A-1B-6C1D62某中学共有1000人,其中男生700人,女生300人,为了了解该校学生每周平均体育锻炼时间的情况以及经常进行体育锻炼的学生是否与性别有关(经常进行体育锻炼是指:周平均体育锻炼时间不少于4小时),现在用分层抽样的方法从中收集200位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如图.已知在样本数据中,有40位女生的每周平均体育锻炼时间超过4小时,根据独立性检验原理(
2、)附:,其中.0.100.050.010.0052.7063.8416.6357.879A有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”B有90%的把握认为“该校学生每周平均体育锻炼时间与性别有关”C有90%的把握认为“该校学生每周平均体育锻炼时间与性别无关”D有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”3一组数据如下表所示:1234已知变量关于的回归方程为,若,则预测的值可能为ABCD4已知的对应值表为:013456且线性相关,由于表格污损,的对应值看不到了,若,且线性回归直线方程为,则时,的预报值为( )ABCD5以下说法:将一组数据中的每一个数据都加上或减去
3、同一个常数后,方差不变;设有一个回归方程,变量增加1个单位时,平均增加5个单位线性回归方程必过设具有相关关系的两个变量的相关系数为,那么越接近于0,之间的线性相关程度越高;在一个列联表中,由计算得的值,那么的值越大,判断两个变量间有关联的把握就越大。其中错误的个数是( )A0B1C2D36为了研究某大型超市开业天数与销售额的情况,随机抽取了5天,其开业天数与每天的销售额的情况如表所示:开业天数1020304050销售额/天(万元)62758189根据上表提供的数据,求得关于的线性回归方程为,由于表中有一个数据模糊看不清,请你推断出该数据的值为( )A68B68.3C71D71.37下列有关命题
4、的说法错误的是( )A已知是椭圆的两个焦点,过点的直线与椭圆交于A,B两点,则 的周长为B若“”为假命题,则与均为假命题C若命题,则命题D两个随机变量的线性相关性越强,相关系数的绝对值越接近于08已知变量x,y之间具有较强的线性相关性,测得它们的四组数据如表所示:x1234y现已求得变量x,y之间的回归方程为,请根据给出的条件,预测时,y的值约为( )ABCD9下列命题中正确的个数“,”的否定是“,”;用相关指数可以刻画回归的拟合效果,值越小说明模型的拟合效果越好;命题“若,则”的逆命题为真命题;若的解集为,则.ABCD10从某大学中随机选取8名女大学生,其身高(单位:)与体重(单位:)数据如
5、下表:1651651571701751651551704857505464614359若已知与的线性回归方程为,那么选取的女大学生身高为时,相应的残差为( )AB0. 96C63. 04D11有下列说法:若某商品的销售量(件)关于销售价格(元/件)的线性回归方程为,当销售价格为10元时,销售量一定为300件;线性回归直线一定过样本点中心;若两个随机变量的线性相关性越强,则相关系数的值越接近于1;在残差图中,残差点比较均匀落在水平的带状区域中即可说明选用的模型比较合适,与带状区域的宽度无关;在线性回归模型中,相关指数表示解释变量对于预报变量变化的贡献率,越接近于1,表示回归的效果越好;其中正确的
6、结论有几个A1B2C3D412下列说法中错误的是A先把高二年级的名学生编号为到,再从编号为到的名学生中随机抽取名学生,其编号为,然后抽取编号为,的学生,这样的抽样方法是系统抽样法.B正态分布在区间和上取值的概率相等C若两个随机变量的线性相关性越强,则相关系数的值越接近于D若一组数据的平均数是,则这组数据的众数和中位数都是二、填空题(共4题;共20分)13下列说法:线性回归方程必过;命题“”的否定是“” 相关系数越小,表明两个变量相关性越弱;在一个列联表中,由计算得,则有的把握认为这两个变量间有关系;其中正确的说法是_(把你认为正确的结论都写在横线上)本题可参考独立性检验临界值表:142019年
7、7月15日,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价元和销售量件之间的一组数据如下表所示:价格99.510.511销售量11865可知,销售量与价格之间有较强的线性相关关系,其线性回归方程是,且,则其中的_.15对两个变量和进行回归分析,得到一组样本数据,则下列说法中正确的序号是_.由样本数据得到的回归直线方程必过样本点的中心残差平方和越小的模型,拟合的效果越好用相关指数来刻画回归效果,越小说明拟合效果越好若变量和之间的相关系数为,则变量和之间线性相关性强16下列命题中:已知点,动点满足,则点的轨迹是一个圆;已知,则动点的轨迹是双曲线;两个随机变量的线性
8、相关性越强,则相关系数的绝对值就越接近于1;在平面直角坐标系内,到点和直线的距离相等的点的轨迹是抛物线;正确的命题是_三、解答题(共4题;共20分)17受疫情的影响,各实体商铺的销售额受到了不同程度的冲击,某小商品批发市场的管理部门提出了“线上线下两不误,打赢销售攻坚战”的口号,鼓励小商品批发市场内的所有商户开展线上销售活动.管理部门为了调查商户每天销售额与每天线上销售时间之间的相关关系,对小商品批发市场内的商户随机选取45家进行跟踪调查,其中每日线上销售时间不少于6小时的商户有19家,余下的商户中,每天的销售额不足3万元的占,统计后得到如下 列联表:销售额不少于3万元销售额不足3万元合计线上
9、销售时间不少于6小时4 19线上销售时间不足6小时合计45(1)请完成上面的列联表,并判断是否所有99%的把握认为“小商品批发市场内的商户每天销售额与商户每天线上销售时间有关.”(2)(i)按分层抽样的方法,在上述样本中从销售额不少于3万元和销售额不足3万元的两组商户上抽取9家商户,设抽到销售额不足3万元且每天线上销售时间不足6小时的人数是,求的分布列(概率用组合数算式表示);(ii)若将频率视为概率,从小商品批发市场内所有商户中每天销售额不少于3万元的商户中随机抽取20家,求这些商户中每天线上销售时间不少于6小时的商户家数的数学期望和方差.附:()0.100.050.0250.0100.00
10、50.0012.7063.8415.0246.6357.87910.828参考公式:,其中 .18某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人.萌宠机器人语音功能让它就像孩子的小伙伴一样和孩子交流,记忆功能还可以记住宝宝的使用习惯,很快找到宝宝想听的内容.同时提供快乐儿歌、国学经典、启蒙英语等早期教育内容,且云端内容可以持续更新.萌宠机器人一投放市场就受到了很多家长欢迎.为了更好地服务广大家长,该公司研究部门从流水线上随机抽取100件萌宠机器人(以下简称产品),统计其性能指数并绘制频率分布直方图(如图1):产品的性能指数在的适合托班幼儿使用(简称A类产品),在的适合小班和中班幼儿使用(
11、简称B类产品),在的适合大班幼儿使用(简称C类产品),A,B,C,三类产品的销售利润分别为每件1.5,3.5,5.5(单位:元).以这100件产品的性能指数位于各区间的频率代替产品的性能指数位于该区间的概率.(1)求每件产品的平均销售利润;(2)该公司为了解年营销费用(单位:万元)对年销售量(单位:万件)的影响,对近5年的年营销费用,和年销售量数据做了初步处理,得到的散点图(如图2)及一些统计量的值.16.3024.870.411.64表中,.根据散点图判断,可以作为年销售量(万件)关于年营销费用(万元)的回归方程.(i)建立关于的回归方程;(ii)用所求的回归方程估计该公司应投入多少营销费,
12、才能使得该产品一年的收益达到最大?(收益=销售利润-营销费用,取).参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.19某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成每批产品的非原料总成本(元)与生产该产品的数量(千件)有关,经统计得到如下数据:1234567611213466101196根据以上数据,绘制如图所示的散点图观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型和指数函数模型分别对两个变量的关系进行拟合(1)根据散点图判断,与(,均为大于零的常数)哪一个适宜作为非原料总成本关于生产该产品的数量的回归方程类型;(给出判断即可,不必说明理由)
13、(2)根据(1)的判断结果及表1中的数据,建立关于的回归方程;(3)已知每件产品的原料成本为10元,若该产品的总成本不得高于123470元,请估计最多能生产多少千件产品参考数据:62.141.54253550.123.47其中,参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,202018年11月5日至10日,首届中国国际进口博览会在国家会展中心(上海)举行,吸引过来58个“一带一路”沿线国家的超过1000多家企业参展,成为共建“一带一路”的又一个重要支撑。某企业为了参加这次盛会,提升行业竞争力,加大了科技投入;该企业连续6年来得科技投入(百万元)与收益(百万元)的数据统
14、计如下:根据散点图的特点,甲认为样本点分布在指数曲线的周围,据此他对数据进行了一些初步处理,如下表:其中,(1)()请根据表中数据,建立关于的回归方程(保留一位小数);()根据所建立回归方程,若该企业想在下一年的收益达到2亿,则科技投入的费用至少要多少(其中)?(2)乙认为样本点分布在二次曲线的周围,并计算得回归方程为,以及该回归模型的相关指数,试比较甲乙两位员工所建立的模型,谁的拟合效果更好附:对于一组数据,其回归直线方程的斜率和截距的最小二乘估计分别为,相关指数:参考答案1A【详解】因为样本点为且,所以 所以 ,; 又回归直线方程为过, ,解得,故选:A2B【详解】由频率分布直方图可知,
15、平均体育锻炼时间不少于4小时的频率为,故经常进行体育锻炼的学生人.又其中有40位女生的每周平均体育锻炼时间超过4小时,故有位男生经常锻炼.根据分层抽样的方法可知,样本中男生的人数为,女生有.列出列联表有:男生女生总计经常锻炼11040150不经常锻炼302050总计14060200故,因为.故有90%的把握认为“该校学生每周平均体育锻炼时间与性别有关”.故选:B3C【详解】将式子两边取对数,得到,令,得到,根据已知表格数据,得到的取值对照表如下:由上述表格可知:,利用回归直线过样本中心点,即可得,求得,则,进而得到,将代入,解得.故选:C.4A【详解】由表格知,代入得:,则回归方程为,当时,故
16、选:A5C【详解】方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方差不变,故正确;一个回归方程,变量增加1个单位时,平均减少5个单位,故不正确;线性回归方程必过样本中心点,故正确;根据线性回归分析中相关系数的定义:在线性回归分析中,相关系数为r,越接近于1,相关程度越大,故不正确;对于观察值来说,越大,“x与y有关系”的可信程度越大,故正确.故选:C6A【详解】根据表中数据,可得,代入线性回归方程中,求得,则表中模糊不清的数据是,故选:A.7D【详解】椭圆的标准方程是,的周长为,A正确;若“”为假命题,则都是假命题,只要有一个为真,则为真,B正确;命题,则命题,C
17、正确;两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,D错故选:D8B【详解】,则线性回归方程为,取,得故选:B9C【详解】根据全称量词的否定可知“,”的否定是“,”,则错误;相关指数越接近,模型拟合度越高,即拟合效果越好;越接近,模型拟合度越低,即拟合效果越差,则错误;若“,则”的逆命题为:若“若,则”,根据不等式性质可知其为真命题,则正确;当时,此时解集不为,不合题意;当时,若解集为,只需:解得:,则正确.正确的命题为:本题正确选项:10B【详解】已知与的线性回归方程为当时: 相应的残差为:故答案选B11B【详解】当销售价格为时,销售量的预估值为件,但预估值与实际值未必相同,错误
18、;由最小二乘法可知,回归直线必过,正确;若两个随机变量为负相关,若线性相关性越强,相关系数越接近,错误;残差图中,带状区域越窄,模型拟合度越高,错误;相关指数越接近,拟合度越高,则在线性回归模型中,回归效果越好,正确.可知正确的结论为:,共个本题正确选项:12C【详解】对于,根据抽样方法特征是数据多,抽样间隔相等,是系统抽样,正确;对于,正态分布的曲线关于对称,区间和与对称轴距离相等,所以在两个区间上的概率相等,正确;对于,两个随机变量的线性相关性越强,则相关系数的值越接近于,错误;对于,一组数据的平均数是,;所以该组数据的众数和中位数均为,正确.13【解析】分析:根据性回归方程,独立性检验,
19、相关关系,以及命题的否定等知识,选出正确的,得到结果详解:线性回归方程必过样本中心点,故正确命题“”的否定是“” 故错误相关系数r绝对值越小,表明两个变量相关性越弱,故不正确;在一个列联表中,由计算得,则有的把握认为这两个变量间有关系,正确.故答案为.1410【详解】依题意,代入回归直线方程得,根据题意,解组成的方程组得,故填.15【详解】由题意,根据回归直线方程的特征,可得线性回归直线方程一定过样本中心,所以正确;根据残差的概念,可得残差平方和越小的模型,拟合效果越好,所以正确;根据相关指数的概念,可得越大说明拟合效果越好,所以不正确;若变量和之间的相关系数为,则变量和之间负相关,且线性相关
20、性强,所以正确;故答案为:.16【详解】:设动点,由,故可得,整理得:,且,故该方程表示圆,则正确;:根据双曲线的定义,则动点的轨迹只表示双曲线的左支,故错误;:根据相关系数的性质,相关性越强,则相关系数的绝对值就越接近于1,故正确;:因为点在直线上,故满足题意的点的轨迹为过点且垂直于直线的直线,故错误.故答案为:.17(1)列联表见解析,有99%的把握;(2)(i)分布列见解析;(ii),.【详解】(1)销售额不少于3万元销售额不足3万元合计线上销售时间不少于6小时15419线上销售时间不足6小时101626合计252045,有99%的把握认为“小商品批发市场内的商户每天销售额与商户每天线上
21、销售时间有关”.(2)(i)由分层抽样知,需要从销售额不足3万元的商户中抽取(家),则的可能取值为0,1,2,3,4,的分布列为01234(ii)从全市场销售额不少于3万元的商户中随机抽取1家,此商户每天线上销售时间不少于6小时的概率为,设从全市场销售额不少于3万元的商户中随机抽取20家,这些商户中每天线上销售时间不少于6小时的人数为,则,故,.18(1)每件产品的平均销售利润为4元(2)(i)(ii)该厂应投入256万元营销费.【详解】(1)设每件产品的销售利润为元,则的所有可能取值为1.5,3.5,5.5,由直方图可得,三类产品的频率分别为0.15、0.45、0.4,所以,所以随机变量的分
22、布列为:1.53.55.50.150.450.4所以,故每件产品的平均销售利润为4元;(2)(i)由得,令,则,由表中数据可得,则,所以,即,因为,所以,故所求的回归方程为;(ii)设年收益为万元,则,设,则,当时,在单调递增,当时,在单调递减,所以,当,即时,有最大值为768,即该厂应投入256万元营销费,能使得该产品一年的收益达到最大768万元.19(1)适宜;(2);(3)12千件产品【详解】(1)根据散点图判断,适宜作为非原料总成本y关于生产该产品的数量x的回归方程类型(2)由,两边同时取常用对数得设,把代入,得,即y关于x的回归方程为 (3)设生产了x千件该产品.则生产总成本为又在其定义域内单调递增,且,故最多能生产12千件产品20(1)(i);(ii);(2)甲建立的回归模型拟合效果更好【详解】(1)(),令令,则,根据最小二乘估计可知从而,故回归方程为,也即()设,解得=(2)先计算残差:则,从而即甲建立的回归模型拟合效果更好