1、第八章 成对数据的统计分析8.2一元线性回归模型及其应用知识梳理知识点一一元线性回归模型称为Y关于x的一元线性回归模型其中Y称为_或_变量,x称为自变量或解释变量,a称为_参数,b称为_参数;e是Y与bxa之间的随机误差,如e0,那么Y与x之间的关系就可以用一元线性函数模型来描述知识点二最小二乘法线性回归方程与最小二乘法将x称为Y关于x的经验回归方程,也称_,其图形称为经验回归_,这种求经验回归方程的方法叫最小二乘法,求得的,叫做b,a的最小二乘估计,其中,.知识点三残差与残差分析残差对于响应变量Y,通过观测得到的数据称为_,通过经验回归方程得到的称为_值,观测值减去预测值称为_残差分析残差是
2、随机误差的估计结果,残差的分析可以判断模型刻画数据效果和判断原始数据中是否存在可疑数据等,称为残差分析知识点四对模型刻画数据效果的分析残差图法残差图中,如残差比较_地集中在以横轴为对称轴的水平带状区域内,说明经验回归方程较好地刻画两个变量的关系残差平方和法残差平方和(yii)2越小,模型的拟合效果越_课后小练1十四五发展纲要提出要推进能源革命,建设清洁低碳、安全高效的能源体系,加快发展非化石能源,大力提升风电、光伏发展规模,有序发展海上风电海上风电相比与陆上风电有着一定的优势,海上风电可装的风机更大,风资源利用率更高,近几年我国海上风电事业发展良好下面是近五年我国海上风电发展情况表和对应的散点
3、图2016-2020年中国海上风电新增装机容量及累计装机容量表(单位:万千瓦)年份20162017201820192020年份代号t12345新增装机容量u3169140219306累计装机容量v104173313532838(1)为了分析中国海上风电装机容量的情况,建立了和两个线性回归模型,你认为用哪个线性回归模型更可靠?并说明理由(2)根据(1)的判断结果及表中数据,求出回归方程,并根据这个回归模型回答下列问题:2021年我国海上风电新增装机容量的预测值是多少?预计至少要到哪一年,我国海上风电累计装机容量超过2000万千瓦?参考数据:765299519607707参考公式:回归方程中2年开
4、始,小李在县城租房开了一间服装店,每年只卖甲品牌和乙品牌的服装小李所租服装店每年的租金如下表:年份年份代号租金(千元)根据以往的统计可知,每年卖甲品牌服装的收入为万元,卖乙品牌服装的收入为万元(I)求关于的线性回归方程;(II)由(I)求得的回归方程预测此服装店年的利润为多少(年利润年收入年租金)参考公式:在线性回归方程中,3新疆拥有巨大的植棉气候优势,日照时间长,光线充足,生长周期长,昼夜温差大,常年供不应求,品质属于世界顶级,植保无人机、打包采棉机、残膜回收机、智能深翻犁、,这些智能机器,受到越来越多新疆棉农的青睐,新疆棉花生产早已经实现高度机械化,即使在忙碌的采摘季节,也不需要大量的“采
5、棉工”,下表是新疆长绒棉近年来产量表:年份201520162017201820192020年份代码x123456年产量y(百万吨)6.66.777.17.27.4(1)根据表中数据,建立y关于x的线性回归方程;(2)根据线性回归方程预测2021年新疆长绒棉的年产量附:对于一组数据,其回归直线方程的斜率和截距的最小二乘估计分别为,(参考数据:,计算结果保留到小数点后两位)4某蛋糕店制作的蛋糕尺寸有6,8,10,12,14,16(单位:英寸)六种,根据日常销售统计,将蛋糕尺寸)、平均月销量 (个)以及成本和单价的数据整理得到如下的表格.蛋糕尺寸x(英寸)6810121416平均月销量y(个)912
6、1515138成本(元)20406080100120单价(元)5090140180200220(1)求该蛋糕店销售蛋糕的平均月利润(利润=销售收入一成本);(2)根据题中数据,从与两个模型中选择更合适的,建立关于的回方程(系数精确到0.01).参考公式:对于一组数据,其回归直线方程的针率和截距的最小二乘法分别是,参考数据:, 5FEV1(一秒用力呼气容积)是肺功能的一个重要指标.为了研究某地区1015岁男孩群体的FEV1与身高的关系,现从该地区A、B、C三个社区1015岁男孩中随机抽取600名进行FEV1与身高数据的相关分析.(1)若A、B、C三个社区1015岁男孩人数比例为1:3:2,按分层
7、抽样进行抽取,请求出三个社区应抽取的男孩人数.(2)经过数据处理后,得到该地区1015岁男孩身高x(cm)与FEV1y(L)对应的10组数据(i1,2,10),并作出如图散点图:经计算得:, 152, 2.464,(i1,2,10)的相关系数r0.987.请你利用所给公式与数据建立y关于x的线性回归方程,并估计身高160cm的男孩的FEV1的预报值y0.已知,若中回归模型误差的标准差为s,则该地区身高160cm的男孩的FEV1的实际值落在(y0-3s,y0+3s)内的概率为99.74%.现已求得s0.1,若该地区有两个身高160cm的12岁男孩M和N,分别测得FEV1值为2.8L和2.3L,请
8、结合概率统计知识对两个男孩的FEV1指标作出一个合理的推断与建议.附:样本(xi,yi)(i1,2,n)的相关系数r,其回归方程的斜率和截距的最小二乘法估计分别为,.6区块链技术被认为是继蒸汽机、电力、互联网之后下一代颠覆性的核心技术.区块链作为构造信任的机器,将可能彻底改变整个人类社会价值传递的方式.某5G科技公司对2020年1月份至6月份某款5G产品的销售量及销售单价进行了调查,销售单价和销售量之间的一组数据如下表所示:月份123456月销售单价(百元)98.88.68.48.28月销售量(万件)687580838490(1)由散点图可知变量,具有线性相关关系,根据1至6月份的数据,求出关
9、于的回归直线方程;(2)预计在今后的销售中,月销售量与月销售单价仍然服从(1)中的关系,若该种产品的成本是350元/件,那么该产品的月销售单价应定为多少元才能获得最大月利润?(注:利润=销售收入成本)参考公式和数据:,其中,.参考答案1(1)模型更可靠,理由见解析;(2)363;2023年.【详解】(1)模型更可靠原因:从散点图可以看出,左边的散点图上的点比右边散点图上的点更集中在一条直线的附近,说明变量u和t具有更强的线性相关关系(2)依题意得,所以,则,所以;当时,2021年我国海上风电新增装机容量的预测值是当时,2022年我国海上风电新增裝机容量的预测值是当时,2023年我国海上风电新增
10、装机量的预测值是因为,;所以预计至少要到2023年,我国海上风电累计装机量超过2000万千瓦.2(I);(II)14.45万元.【详解】命题意图 本题考查线性回归方程解析(I)根据表中数据,计算可得,关于的线性回归方程为(II)将代入回归方程得(千元)预测第年卖甲品牌服装的收入为万元,卖乙品牌服装的收入为万元,预测年的利润为(万元)3(1);(2)约为7.56百万吨【详解】(1)由题意,根据表格中熟记,可得,所以,又由,所以关于的线性回归方程为(2)由(1)可得,当年份为2021年时,年份代码为,此时所以可预测2021年新疆长绒棉年产量约为7.56百万吨4(1)6570元;(2).【详解】解:
11、(1)根据题意,该蛋糕店销售蛋糕的平均月利润为元;(2)由表中的数据可知与之间不是线性关系,所以选,设,则,所以因此y关于x的回归方程为.5(1)A:100人,B:300人,C:200人;(2),2.84,答案见解析.【详解】(1)A社区抽取人数:人;B社区抽取人数:人;C社区抽取人数:人;(2)对比b与r的公式,得:,.所求的线性回归方程为,而当x160时,预计y00.047160-4.682.84;s0.1,则y0 - 3s2.84 - 30.12.54,y0+3s2.84+30.13.14.该地区身高160cm的男孩的FEV1的实际值落在区间(2.54,3.14)内的概率为99.74%,即该地区身高160cm的男孩的EFV1值不在这个区间内的概率极小,仅有0.26%,M的EFV1值落在这个区间内,我们推断他的EFV1是正常的,N的EFV1值低于该区间的下限,我们推断他的EFV1是不正常的,建议他去找一下不正常的原因.6(1);(2)800元.【详解】解:(1)根据表中数据,可得,.因为,所以,所以关于的线性回归方程为.(2)设该产品的月销售单价为百元,月利润为百万元,则由,得,所以当时,(百万元),所以月销售单价应定为800元,才能获得最大月利润