1、第八章 成对数据的统计分析8.2一元线性回归模型及其应用知识梳理知识点一一元线性回归模型称为Y关于x的一元线性回归模型其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bxa之间的随机误差,如e0,那么Y与x之间的关系就可以用一元线性函数模型来描述知识点二最小二乘法线性回归方程与最小二乘法将x称为Y关于x的经验回归方程,也称经验回归函数,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法,求得的,叫做b,a的最小二乘估计,其中,.知识点三残差与残差分析残差对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减
2、去预测值称为残差残差分析残差是随机误差的估计结果,残差的分析可以判断模型刻画数据效果和判断原始数据中是否存在可疑数据等,称为残差分析知识点四对模型刻画数据效果的分析残差图法残差图中,如残差比较均匀地集中在以横轴为对称轴的水平带状区域内,说明经验回归方程较好地刻画两个变量的关系残差平方和法残差平方和(yii)2越小,模型的拟合效果越好题型探究例12021年是“十四五”开局之年,是实施乡村振兴的重要一年.某县为振兴乡村经济,大力发展乡村生态旅游,激发乡村发展活力.该县为了解乡村生态旅游发展情况,现对全县乡村生态旅游进行调研,统计了近9个月来每月到该县乡村生态旅游的外地游客人数(单位:万人),并绘制
3、成下图所示散点图,其中月份代码19分别对应2020年7月至2021年3月.(1)用模型,分别拟合与的关系,根据散点图判断,哪个模型的拟合效果最好?(不必说理由)(2)根据(1)中选择的模型,求关于的回归方程(系数精确到0.01);(3)据以往数据统计,每位外地游客可为该县带来100元左右的旅游收入,根据(2)中的回归模型,预测2021年10月,外地游客可为该县带来的生态旅游收入为多少万元?参考数据:下表中,.232.15603.5884.521.31参考公式:对于一组数据,回归方程中的斜率和截距的最小二乘估计公式分别为,.【答案】(1)模型的拟合效果最好;(2);(3)3400万元.【详解】(
4、1)模型的拟合效果最好.(2)令,知与可用线性方拟合,则,所以,关于的线性回归方程为,故关于x的回归方程为.(3)2021年10月,即时,(万人),此时,外地游客可为该县带来的生态旅游收入为3400万元.例22021年,我国脱贫攻坚战取得了全面胜利.为了巩固拓展脱贫攻坚成果,不断提高群众的幸福感,某县继续推进山羊养殖项目.为了建设相应的配套项目,该县主管部门对该县近年来山羊养殖业的规模进行了跟踪调查,得到了该县每年售卖山羊数量(单位:万只)与相应年份代码的数据如下表:年份201520162017201820192020年份代码123456售卖山羊数量(万只)111316152021(1)由表可
5、知与有较强的线性相关关系,求关于的线性回归方程;(2)已知该县养殖的山羊品种只有甲、乙两种,且甲品种山羊与乙品种山羊的数量之比为,甲品种山羊达到售卖标准后的出售价为2500元/只,乙品种山羊达到售卖标准后的出售价为2700元/只.为了解养殖山羊所需要的时间,该县主管部门随机抽取了甲品种山羊和乙品种山羊各100只进行调查,得到要达到售卖标准所需的养殖时间如下表:养殖时间(月数)6789甲品种山羊(只)20353510乙品种山羊(只)10304020以上述样本统计的养殖山羊所需时间情况估计全县养殖山羊所需时间(即以各养殖时间的频率作为各养殖时间的概率),且每月每只山羊的养殖成本为300元,结合(1
6、)中所求回归方程,试求2022年该县养殖山羊所获利润的期望(假设山羊达到售卖标准后全部及时卖完).(利润=卖山羊的收入一山羊的养殖成本)参考公式及数据:回归直线方程为,其中,.【答案】(1);(2)8800万元.【详解】(1)因为,所以,可得.所以与之间的线性回归方程为.(2)由可知,当时,可得,其中甲品种山羊有万只,乙品种山羊有万只.由频率估计概率,可得甲品种山羊达到售卖标准需要的养殖时间为6个月,7个月,8个月和9个月的概率分别为0.2,0.35,0.35和0.1,所以甲品种山羊要达到售卖标准需要养殖时间的期望为(月).由频率估计概率,可得乙品种山羊达到售卖标准需要的养殖时间为6个月,7个
7、月,8个月和9个月的概率分别为0.1,0.3,0.4和0.2,所以乙品种山羊要达到售卖标准需要养殖时间的期望为(月).养殖每只甲品种山羊利润的期望为(元),养殖每只乙品种山羊利润的期望为(元),故2022年该县售卖的山羊所获利润的期望为(万元).例3年月日,在全国脱贫攻坚总结表彰大会上,习近平总书记庄严宣告:我国脱贫攻坚战取得全面胜利目前,河南省个贫困县已经全部脱贫摘帽,退出贫困县序列年起,我省某贫困地区创新开展产业扶贫,响应第三产业的扶贫攻坚政策,经济收入逐年增加该地的经济收入变化及构成比例如图所示:年份年年年年年年份代号经济收入(单位:百万元)(1)根据以上图表,试分析:与年相比,年第三产
8、业与种植业收入变化情况;(2)求经济收入关于的线性回归方程,并预测年该地区的经济收入参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为:,【答案】(1)答案见解析;(2);年该地区的经济收入预测为百万元【详解】解:(1)与年相比,年第三产业的收入占比大幅度增加;年第三产业的收入为百万元,年第三产业的收入为百万元,收入大幅度增加;与年相比,种植业收入占比减少,但种植业收入依然保持增长;(2)由表格中的数据可知,则,所以,故经济收入关于的线性回归方程为,当时,则年该地区的经济收入预测为百万元例4随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数A
9、PI一直居高不下,对人体的呼吸系统造成了严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康情况,得到22列联表如下:室外工作室内工作总计有呼吸系统疾病150无呼吸系统疾病100总计200(1)补全22列联表;(2)能否在犯错误的概率不超过0.05的前提下认为感染呼吸系统疾病与工作场所有关?(3)现采用分层抽样从室内工作的居民中抽取一个容量为6的样本,将该样本看成一个总体,从中随机地抽取两人,求两人都有呼吸系统疾病的概率.【答案】(1)列联表见解析;(2)能在犯错误的概率不超过0.05的前提下认为感染呼吸系统疾病与工作场所有关;(3).【详解】(1)列联表如下:室外工作室内工作总计有呼
10、吸系统疾病150200350无呼吸系统疾病50100150总计200300500(2)2=3.9683.841.所以能在犯错误的概率不超过0.05的前提下认为感染呼吸系统疾病与工作场所有关.(3)采用分层抽样从室内工作的居民中抽取6名,其中有呼吸系统疾病的抽4人,无呼吸系统疾病的抽2人,设A为“从中随机地抽取两人,两人都有呼吸系统疾病”,则P(A)=.例5为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础在产业扶贫政策的大力支持下,某玩具厂对原有的生产线进行技术升级,为了更好地对比升级前和升级后的效果,其中甲生产线继续使用旧的生产模式,乙生产线采用新的生产模式质检部门随机抽
11、检了甲、乙两条生产线的各100件玩具,在抽取的200件玩具中,根据检测结果将它们分为“A”、“B”、“C”三个等级,等级都是合格品,C等级是次品,统计结果如表所示:等级ABC频数1007525(表二)合格品次品合计甲80乙5合计在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由厂家自行销毁(1)请根据所提供的数据,完成上面的列联表(表二),并判断是否有的把握认为产品的合格率与技术升级有关?(2)每件玩具的生产成本为20元,等级产品的出厂单价分别为m元、40元若甲生产线抽检的玩具中有35件为A等级,用样本的频率估计概率,若进行技术升级后,平均生产一件玩具比技术升级前
12、多盈利12元,则A等级产品的出产单价为多少元?附:,其中0.050.0250.0100.0050.0013.8415.0246.6357.87910.828【答案】(1)列联表见解析;有的把握认为产品的合格率与技术升级有关;(2)60元.【详解】解:(1)根据所提供的数据,可得列联表:合格品次品合计甲8020100乙955100合计17525200设产品的合格率与技术升级无关由,可得,故有的把握认为产品的合格率与技术升级有关(2)法一:甲生产线抽检的产品中有35件等级,45件等级,20件等级,对于甲生产线,单件产品利润的取值可能为,的分布列如下:20则,乙生产线抽检的产品中有65件等级,30件
13、等级,5件等级;对于乙生产线,单位产品利润的取值可能为,的分布列如下:20则,依题意,所以,等级产品的出产单价为60元法二:甲生产线抽检的产品中有35件等级,45件等级,20件等级,乙生产线抽检的产品中有65件等级,30件等级,5件等级;因为用样本的频率估计概率所以对于甲生产线,单件产品的利润对于乙生产线,单件产品的利润依题意,所以,等级产品的出产单价为60元课后小练1.为了迎接十四运,提高智慧城市水平,西安公交公司近期推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的
14、人次,x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),统计数据如表下所示: x1234567y611213466101196根据以上数据,绘制了散点图(1)根据散点图判断,在推广期内, y=a+bx 与 y=cdx ( c,d 均为大于零的常数),哪一个适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型?(给出判断即可,不必说明理由); (2)根据(1)的判断结果及表1中的数据,建立y与x的回归方程,并预测活动推出第8天使用扫码支付的人次; (3)推广期结束后,车队对乘客的支付方式进行统计,结果如下表: 支付方式现金乘车卡扫码比例10%60%30%西安公交六公司车队为
15、缓解周边居民出行压力,以90万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有 16 的概率享受7折优惠,有 13 的概率享受8折优惠,有 12 的概率享受9折优惠预计该车队每辆车每个月有2万人次乘车,根据所给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,请你估计这批车辆需要几年(结果取整数年)才能盈利?参考数据:y v i=17xiyi i=17xivi 100.54
16、 62.141.54253550.123.47其中其中 vi=lgyi , v=17i=17vi ,参考公式:对于一组数据 (u1,v1) , (u2,v2) , (un,vn) ,其回归直线 v=+u 的斜率和截距的最小二乘估计公式分别为: =i=1nuivi-nuvi=1nui2-nu2 , =v-u 2.某公司为一所山区小学安装了价值2万元的一台饮用水净化设备,每年都要为这台设备支出保养维修费用,我们称之为设备年度保养维修费.下表是该公司第 x 年为这台设备支出的年度保养维修费 y (单位:千元)的部分数据: x 23456y 2.13.45.96.67.0画出散点图如下:通过计算得 y
17、 与 x 的相关系数 r0.96 .由散点图和相关系数 r 的值可知, y 与 x 的线性相关程度很高.附: b=i=1n(xi-x)(yi-y)i=1n(xi-x)2 , a=y-bx .(1)建立 y 关于 x 的线性回归方程 y=bx+a ; (2)若设备年度保养维修费不超过1.93万元就称该设备当年状态正常,根据(1)得到的线性回归方程,估计这台设备有多少年状态正常? 3.2021年2月25日,在全国脱贫攻坚总结表彰大会上,习近平总书记庄严宣告:我国脱贫攻坚战取得全面胜利.目前,陕西省56个贫困县已经全部脱贫摘帽,退出贫困县序列.2016年起,我省某贫困地区创新开展产业扶贫,响应第三产
18、业的扶贫攻坚政策,经济收入逐年增加.该地的经济收入变化及构成比例如下表所示: 年份2016年2017年2018年2019年2020年年份代号 x 12345经济收人 y (单位:百万元)581318202016年2020年经济收入构成比例:年份类别种植收人养殖收人第三产业收人其他收人2016年60%30%6%4%2020年34%30%30%6%参考公式:对于一组具有线性相关关系的数据 (xi,yi)(i=1,2,3,n) ,其回归直线 y=bx+a 的斜率和截距的最小二计分别为 b=i=1n(xi-x)(yi-y)i=1n(xi-x)2=i=1nxiyi-nxyi=1nxi2-nx2,a=y-
19、bx (1)根据上表,试分析:与2016年相比,2020年第三产业种植业收入变化情况; (2)求经济收入y关于x的线性回归方程,并预测2025年该地区的经济收入. 4.某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人.萌宠机器人语音功能让它就像孩子的小伙伴一样和孩子交流,记忆功能还可以记住宝宝的使用习惯,很快找到宝宝想听的内容.同时提供快乐儿歌、国学经典、启蒙英语等早期教育内容,且云端内容可以持续更新.萌宠机器人一投放市场就受到了很多家长欢迎.为了更好地服务广大家长,该公司研究部门从流水线上随机抽取100件萌宠机器人(以下简称产品),统计其性能指数并绘制频率分布直方图(如图1): 产品的性
20、能指数在 50,70) 的适合托班幼儿使用(简称A类产品),在 70,90) 的适合小班和中班幼儿使用(简称B类产品),在 90,110 的适合大班幼儿使用(简称C类产品),A,B,C,三类产品的销售利润分别为每件1.5,3.5,5.5(单位:元).以这100件产品的性能指数位于各区间的频率代替产品的性能指数位于该区间的概率.参考公式:对于一组数据 (u1,1),(u2,2),(un,n) ,其回归直线 =+u 的斜率和截距的最小二乘估计分别为 =i=1n(ui-u)(i-)i=1n(ui-u)2 , =-u .(1)求每件产品的平均销售利润; (2)该公司为了解年营销费用 x (单位:万元)
21、对年销售量 y (单位:万件)的影响,对近5年的年营销费用 xi ,和年销售量 yi(i=1,2,3,4,5) 数据做了初步处理,得到的散点图(如图2)及一些统计量的值. i=15ui i=15i i=15(ui-u)(i-) i=15(ui-u)2 16.3024.870.411.64表中 ui=lnxi , i=lnyi , u=15i=15ui , =15i=15i .根据散点图判断, y=axb 可以作为年销售量 y (万件)关于年营销费用 x (万元)的回归方程.(i)建立 y 关于 x 的回归方程;(ii)用所求的回归方程估计该公司应投入多少营销费,才能使得该产品一年的收益达到最大
22、?(收益=销售利润-营销费用,取 e4.159=64 ).5.某地一公司的市场研究人员为了解公司生产的某产品的使用情况,从两个方面进行了调查统计,一是产品的质量参数x,二是产品的使用时间t(单位:千小时),经统计分析,质量参数x服从正态分布 N(0.8,0.0152) ,使用时间t与质量参数x之间有如下关系: 质量参数x0.650.700.750.800.850.900.95使用时间t2.602.813.053.103.253.353.54附:参考数据: x=0.8,t=3.1,i=17xi2=4.55,i=17ti2=67.88,0.115=0.339 若 N(,2) ,则 P(-+)=0.
23、6828,P(-20 , f(t) 在 (0,4) 单调递增,当 t(4,+) 时, f(t)0 , f(t) 在 (4,+) 单调递减,所以,当 t=4 ,即 x=256 时, z 有最大值为768,即该厂应投入256万元营销费,能使得该产品一年的收益达到最大768万元.【解析】(1)设每件产品的销售利润为元,则的所有可能取值为1.5,3.5,5.5,求出概率,得到分布列,然后求解期望;(2)(i)由y=axb得,lny=ln(axb)=lna+blnx,令u=lnx,=lny,c=lna,可得=c+bu,求出回归直线方程的系数,然后求解y关于x的回归方程; (ii)设年收益为z万元,则 z
24、=(E)y-x=256x14-x, 利用换元法,以及函数的导数,判断函数的单调性,求解函数的最值,推出结果5.【答案】 (1)解:一件产品的质量参数在0.785以上的概率 p=1-1-0.68282=0.8414 , 设抽取20件该产品中为合格产品的件数为 ,则 B(20,0.8414) ,则 E()=200.8414=16.828 (2)解: i=1n(xi-x)2=i=1nxi2-2xi=1nxi+nx2=i=1nxi2-2xnx+nx2=i=1nxi2-nx2 , 同理, i=1n(ti-t)2=i=1nti2-nt2 ,b=i=1n(xi-x)(ti-t)i=1n(xi-x)2 , i
25、=1n(xi-x)(ti-t)=bi=1n(xi-x)2 ,r=i=1n(xi-x)(ti-t)i=1n(xi-x)2(ti-t)2=bi=1n(xi-x)2i=1n(xi-x)2(ti-t)2=bi=1n(xi-x)2i=1n(ti-t)2 =bi=1nxi2-nx2i=1nti2-nt2=2.924.55-70.8267.88-73.12=2.920.070.61 =2.920.114=2.920.3370.98 所以使用时间 t 与质量参数 x 之间具有较强的线性相关关系,可用线性回归模型拟合.【解析】(1)根据题意由概率的定义结合已知条件求出结果,再由正太分布的数值结合期望公式计算出答案即可。(2)结合已知条件把数值代入到公式计算出参考数据,由此得到线性回归方程并代入数值计算出 使用时间 t 与质量参数 x 之间具有较强的线性相关关系,可用线性回归模型拟合.