1、8.2一元线性回归模型及其应用第八章成对数据的统计分析学习目标XUE XI MU BIAO1.结合实例,了解一元线性回归模型的含义,了解模型参数的统计 意义.2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计 方法.3.针对实际问题,会用一元线性回归模型进行预测.内容索引知识梳理题型探究随堂演练课时对点练1知识梳理PART ONE称 为Y关于x的一元线性回归模型.其中Y称为_或 ,x称为 或 ,称为截距参数,称为斜率参数;e是 与 之间的随机误差,如果e ,那么Y与x之间的关系就可以用一元线性函数模型来描述.知识点一一元线性回归模型因变量响应变量自变量解释变量abYbxa0知识点二最
2、小二乘法思考1经验回归方程一定过成对样本数据(x1,y1),(x2,y2),(xn,yn)中的某一点吗?答案不一定.思考2点()在经验回归直线上吗?答案在.知识点三残差与残差分析1.残差对于响应变量Y,通过观测得到的数据称为 ,通过经验回归方程得到的 称为 ,减去 称为残差.2.残差分析 是随机误差的估计结果,通过对 的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.观测值预测值观测值预测值残差残差知识点四对模型刻画数据效果的分析1.残差图法在残差图中,如果残差比较均匀地集中在以 ,则说明经验回归方程较好地刻画了两个变量的关系.2.残差平方和法残差
3、平方和 越小,模型的拟合效果越好.横轴为对称轴的水平带状区域内3.R2法大小思考利用经验回归方程求得的函数值一定是真实值吗?答案不一定,他只是真实值的一个预测估计值.1.求经验回归方程前可以不进行相关性检验.()2.在残差图中,纵坐标为残差,横坐标可以选为样本编号.()3.利用经验回归方程求出的值是准确值.()4.残差平方和越小,线性回归模型的拟合效果越好.()5.R2越小,线性回归模型的拟合效果越好.()思考辨析 判断正误SI KAO BIAN XI PAN DUAN ZHENG WU2题型探究PART TWO一、求经验回归方程例1某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表
4、数据:x681012y2356(1)请画出上表数据的散点图;解散点图如图所示:(2)请根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程 ;(3)试根据求出的经验回归方程,预测记忆力为9的同学的判断力.即预测记忆力为9的同学的判断力为4.反思感悟求经验回归方程可分如下四步来完成(4)写:写出经验回归方程.跟踪训练1随着我国经济的发展,居民储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份20152016201720182019时间代号t12345储蓄存款y(千亿元)567810(2)用所求经验回归方程预测该地区2021年(t7)的人民币储蓄存款.年份2015201
5、6201720182019时间代号t12345储蓄存款y(千亿元)567810所以预测该地区2021年的人民币储蓄存款为12千亿元.例2已知某种商品的价格x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:二、线性回归分析x1416182022y1210753求y关于x的经验回归方程,并借助残差平方和和R2说明回归模型拟合效果的好坏.列出残差表:所以回归模型的拟合效果很好.反思感悟刻画回归效果的三种方法(1)残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.跟踪训练2为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表
6、所示:x51015202530y7.25 8.12 8.95 9.90 10.9 11.8(1)作出散点图并求经验回归方程;解散点图如图.(2)求出R2;x51015202530y7.25 8.12 8.95 9.90 10.9 11.8解残差表如下:所以回归模型的拟合效果很好.(3)进行残差分析.x51015202530y7.25 8.12 8.95 9.90 10.9 11.8解由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有,则需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域
7、中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系.三、非线性回归例3下表为收集到的一组数据:(1)作出x与y的散点图,并猜测x与y之间的关系;x21232527293235y711212466115325解作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数型曲线yc1 的周围,其中c1,c2为待定的参数.2ec x(2)建立x与y的关系,预报回归模型并计算残差;x21232527293235y711212466115325解对两边取对数把指数关系变为线性关系,令zln y,则有变换后的样本点应分布在直线zbxa
8、(aln c1,bc2)的周围,这样就可以利用经验回归模型来建立y与x之间的非线性经验回归方程了,数据可以转化为x21232527293235z1.9462.3983.0453.1784.1904.7455.784残差表如下:yi7112124661153256.44311.10119.12532.95056.770128.381290.3250.5570.1011.8758.9509.2313.38134.675(3)利用所得模型,预测x40时y的值.x21232527293235y711212466115325反思感悟非线性回归问题的处理方法(1)指数函数型yebxa函数yebxa的图象,
9、如图所示;处理方法:两边取对数得ln yln ebxa,即ln ybxa.令zln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.(2)对数函数型ybln xa函数ybln xa的图象,如图所示;处理方法:设xln x,原方程可化为ybxa,再根据线性回归模型的方法求出a,b.(3)ybx2a型处理方法:设xx2,原方程可化为ybxa,再根据线性回归模型的方法求出a,b.跟踪训练3为了研究甲型H1N1中的某种细菌随时间x变化的繁殖个数y,收集数据如下:天数x123456繁殖个数y612254995190求y关于x的非线性经验回归方程.解作出散点图如图(1)所示.
10、由散点图看出样本点分布在一条指数型曲线ycebx的周围,则ln ybxln c.令zln y,aln c,则zbxa.x123456z1.792.483.223.894.555.25相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用经验回归方程来拟合.x123456z1.792.483.223.894.555.253随堂演练PART THREE1.(多选)以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是12345解析AC中的点分布在一条直线附近,适合线性回归模型.2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,
11、计算可得它们的决定系数R2分别如下表:哪位同学建立的回归模型拟合效果最好A.甲 B.乙 C.丙 D.丁 甲乙丙丁R20.980.780.500.85解析决定系数R2越大,表示回归模型的拟合效果越好.123453.已知人的年龄x与人体脂肪含量的百分数y的经验回归方程为y0.577x0.448,如果某人36岁,那么这个人的脂肪含量A.一定是20.3%B.在20.3%附近的可能性比较大C.无任何参考数据D.以上解释都无道理解析将x36代入经验回归方程得y0.577360.44820.3,故这个人的脂肪含量在20.3%附近的可能性较大,故选B.123456312345123451.知识清单:(1)一元
12、线性回归模型.(2)最小二乘法、经验回归方程的求法.(3)对模型刻画数据效果的分析:残差图法、残差平方和法和R2法.2.方法归纳:数形结合、转化化归.3.常见误区:不判断变量间是否具有线性相关关系,盲目求解经验回归方程致误.课堂小结KE TANG XIAO JIE4课时对点练PART FOUR1.如果两个变量之间的线性相关程度很高,则其R2的值应接近于A.0.5 B.2 C.0 D.1基础巩固12345678910 11 12 13 14 1516解析R2越接近于1,相关程度越高,故选D.2.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是1234
13、5678910 11 12 13 14 15 16解析用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.12345678910 11 12 13 14 15 163.工人工资y(元)与劳动生产率x(千元)的相关关系的经验回归方程为 5080 x,下列判断正确的是A.劳动生产率为1 000元时,工人工资为130元B.劳动生产率提高1 000元时,工人工资平均提高80元C.劳动生产率提高1 000元时,工人工资平均提高130元D.当月工资为250元时,劳动生产率为2 000元解析因为经验回归方程的斜率为80,所以x
14、每增加1,y平均增加80,即劳动生产率提高1 000元时,工人工资平均提高80元.12345678910 11 12 13 14 15 164.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是A.yaxb B.yabln xC.yaebx D.ya解析由散点图可知,此曲线类似对数函数型曲线,因此可用函数yabln x模型进行拟合.ebx12345678910 11 12 13 14 15 16解析经验回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在经验回归直线上.12345678910 11 12 13 14 15 1612.1
15、12345678910 11 12 13 14 15 167.若经验回归直线方程中的回归系数 0,则样本相关系数r_.012345678910 11 12 13 14 15 168.某品牌服装专卖店为了解保暖衬衣的销售量y(件)与平均气温x()之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:(1)表中数据m_;40时间二月上旬二月中旬二月下旬三月上旬旬平均气温x()381217旬销售量y(件)55m332412345678910 11 12 13 14 15 16(2)气象部门预测三月中旬的平均气温约为22,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为_件.14时间二月上
16、旬二月中旬二月下旬三月上旬旬平均气温x()381217旬销售量y(件)55m3324故三月中旬的销售量约为14件.12345678910 11 12 13 14 15 169.已知变量x,y有如下对应数据:(1)作出散点图;解散点图如图所示.x1234y134512345678910 11 12 13 14 15 16(2)用最小二乘法求关于x,y的经验回归方程.x1234y134512345678910 11 12 13 14 15 1612345678910 11 12 13 14 15 1612345678910 11 12 13 14 15 1612345678910 11 12 13
17、 14 15 16(2)判断变量x与y之间是正相关还是负相关;当使用年限为8年时,试估计支出的维修费是多少?解由(1)知,当x8时,1.280.29.8,即使用年限为8年时,支出的维修费约是9.8万元.12345678910 11 12 13 14 15 16综合运用12345678910 11 12 13 14 15 1612.恩格尔系数是食品支出总额占个人消费支出总额的比重.据某机构预测,n(n10)个城市职工购买食品的人均支出y(千元)与人均月消费支出x(千元)具有线性相关关系,且经验回归方程为 0.4x1.2,若其中某城市职工的人均月消费支出为5千元,则该城市职工的月恩格尔系数约为A.
18、60%B.64%C.58%D.55%12345678910 11 12 13 14 15 1613.(多选)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的经验回归方程为 0.85x85.71,则下列结论中正确的是A.y与x具有正的线性相关关系B.经验回归方程过样本点的中心()C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可判定其体重必为58.79 kg解析A,B,C均正确,是经验回归方程的性质,D项是错误的,经验回归方程只能预测学生的体重,应为
19、大约58.79 kg.12345678910 11 12 13 14 15 1614.某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm,170 cm,182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为_ cm.18512345678910 11 12 13 14 15 16解析因为儿子的身高与父亲的身高有关,所以设儿子的身高为Y(单位:cm),父亲身高为X(单位:cm),根据数据列表:X173170176Y170176182于是儿子身高与父亲身高的关系式为YX3,当X182时,Y185.故预测该老师的孙子的身高为185 cm.1234
20、5678910 11 12 13 14 15 16拓广探究x1234yee3e4e6若x5,则预测y的值可能为A.e5 B.C.e7 D.112e152e12345678910 11 12 13 14 15 16列出x,z的取值对应的表格如下:x1234z134612345678910 11 12 13 14 15 16152e12345678910 11 12 13 14 15 1616.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)88.28.48.68.89销量y(件)90848380756812345678910 11 12 13 14 15 16单价x(元)88.28.48.68.89销量y(件)90848380756812345678910 11 12 13 14 15 16(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润销售收入成本)解设工厂获得的利润为L元,依题意得Lx(20 x250)4(20 x250)20 x2330 x1 00020(x8.25)2361.25.故当单价定为8.25元时,工厂可获得最大利润.12345678910 11 12 13 14 15 16