1、8.2.2 一元线性回归模型参数的最小二乘估计一元线性回归模型参数的最小二乘估计(2)复习:复习:1122211()()()nniiiiiinniiiixxyyx ynx ybxxxnxaybx 1.经验回归方程:经验回归方程:我们将我们将 称为称为Y关于关于x的的经验回归方程经验回归方程,也称,也称经验回归函数经验回归函数或或经经验回归公式验回归公式,其图形称为,其图形称为经验回归直线经验回归直线.这种求经验回归方程的方法叫做这种求经验回归方程的方法叫做最小二乘法最小二乘法.ybxa2.最小二乘估计:最小二乘估计:经验回归方程经验回归方程中的参数中的参数 计算公式为:计算公式为:b a,例例
2、1 经验表明,一般树的胸径经验表明,一般树的胸径(树的主干在地面以上树的主干在地面以上1.3m处的直径处的直径)越大,越大,树就越高,由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树就越高,由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(如下表如下表),试根据这些数据建立树高关于胸径的经验回归方程,试根据这些数据建立树高关于胸径的经验回归方程.编号编号123456789101112胸径胸径/cm18.120.122.224.426.028.329.632
3、.433.735.738.340.2树高树高/cm18.819.221.021.022.122.122.422.623.024.323.924.7解解:以胸径为横坐标、树高为纵坐标以胸径为横坐标、树高为纵坐标作散点图如图示作散点图如图示.散点大致分布在一条从左下角到散点大致分布在一条从左下角到右上角的直线附近,表明两个变量正右上角的直线附近,表明两个变量正线性相关,因此可以用一元线性回归线性相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系模型刻画树高与胸径之间的关系.用用d表示胸径,表示胸径,h表示树高,根据最小二乘法,计算可得经验回归方程为表示树高,根据最小二乘法,计算可得经验回归方
4、程为 例例1 经验表明,一般树的胸径经验表明,一般树的胸径(树的主干在地面以上树的主干在地面以上1.3m处的直径处的直径)越大,越大,树就越高,由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树就越高,由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(如下表如下表),试根据这些数据建立树高关于胸径的经验回归方程,试根据这些数据建立树高关于胸径的经验回归方程.编号编号123456789101112胸径胸径/cm18.120.122.224.426.028.32
5、9.632.433.735.738.340.2树高树高/cm18.819.221.021.022.122.122.422.623.024.323.924.70.249314.84.dh 相应的经验回归直线如图相应的经验回归直线如图(1)所示所示.(1)编号编号胸径胸径/cm树高观测值树高观测值/m树高预测值树高预测值/m残差残差/m118.118.819.40.6220.119.219.90.7322.221.020.40.6424.421.020.90.1526.022.121.30.8628.322.121.90.2729.622.422.20.2832.422.622.90.3933.7
6、23.023.20.21035.724.323.70.61138.323.924.40.51240.224.724.90.2计算残差:计算残差:以胸径为横坐标,残差为纵坐标,作残差图,如图以胸径为横坐标,残差为纵坐标,作残差图,如图(2)所示所示.作残差图:作残差图:观察残差表和残差图,可以看到,残差的绝对值最大是观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差,所有残差分布在分布在以横轴为对称轴、宽度小于以横轴为对称轴、宽度小于2的带状区域内的带状区域内.可见可见经验回归方程较好经验回归方程较好地刻画了树高与胸径的关系地刻画了树高与胸径的关系,我们,我们可以根据经验回归方程由
7、胸径预测树高可以根据经验回归方程由胸径预测树高.00.51.0-0.5-1.0152025303540残差残差/m胸径胸径/cm45(2)问题问题 人们常将男人们常将男 子短跑子短跑100m的高水平运动员称为的高水平运动员称为“百米飞人百米飞人”.下表给下表给出了出了1968年之前男子短跑年之前男子短跑100m世界纪录产生的年份和世界纪录的数据世界纪录产生的年份和世界纪录的数据.试试依据这些成对数据,建立男子短跑依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经世界纪录关于纪录产生年份的经验回归方程验回归方程.编号编号12345678年份年份189619121921193019
8、36195619601968记录记录/s11.80 10.60 10.40 10.30 10.20 10.10 10.009.951.画散点图:画散点图:由散点图可知,散点看上去由散点图可知,散点看上去大致分布在一条直线附近大致分布在一条直线附近,似乎可用,似乎可用一元线性一元线性回归模型回归模型建立经验回归方程建立经验回归方程.根据根据最小二乘法最小二乘法,由表中数据可得经验回归,由表中数据可得经验回归方程为方程为2()0()YbtaeE eD e ,2.求经验回归方程:求经验回归方程:10.0203374349.76913031.yt 将经验回归方程叠加到散点图,如图将经验回归方程叠加到散
9、点图,如图(3)所示所示.由图形可知,第一点远离由图形可知,第一点远离经验回归直线,并且前后两时经验回归直线,并且前后两时间段中的散点都在经验回归直间段中的散点都在经验回归直线的上方,中间时间段的散点线的上方,中间时间段的散点都在经验回归直线的下方都在经验回归直线的下方.这这说明说明散点并不是随机分布在经散点并不是随机分布在经验回归直线的周围验回归直线的周围,而是围绕,而是围绕着经验回归直线着经验回归直线有一定的变化有一定的变化规律规律,即成对样本数据呈现出,即成对样本数据呈现出明显的非线性相关明显的非线性相关的特征的特征.(3)3.修改模型:修改模型:对模型进行修改,以使其更好地反映散点的分
10、布特征对模型进行修改,以使其更好地反映散点的分布特征.仔细观察图形,可以发现散点更趋向于落在仔细观察图形,可以发现散点更趋向于落在中间下凸且递减中间下凸且递减的某条曲线的某条曲线附近附近.回顾已有的函数知识,可以发现函数回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状的图象具有类似的形状特征特征.注意到注意到100m短跑的第一个世界纪录产生于短跑的第一个世界纪录产生于1896年,因此可以认为散年,因此可以认为散点是集中在曲线点是集中在曲线 的周围的周围.其中其中c1和和c2为未知参数为未知参数,且,且c2 0.12()ln(1895)yf tcct 用上述函数刻画数据变化的趋势
11、,这是一个用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数非线性经验回归函数,其中,其中c1,c2 是待定参数是待定参数.现在问题转化为如何利用成对数据估计参数现在问题转化为如何利用成对数据估计参数c1和和c2.为了利用一元线性回归模型估计参数为了利用一元线性回归模型估计参数c1和和c2,我们引进一个中间变量,我们引进一个中间变量x,令令x=ln(t-1895).通过通过x=ln(t-1895),将年份变量数据进行变换,得到新的成,将年份变量数据进行变换,得到新的成对数据对数据(精确到精确到0.01),如下表所示,如下表所示.编号编号12345678x0.002.833.263.563
12、.714.114.174.29Y/s11.8010.6010.4010.3010.2010.1010.009.95作出上表的散点图:作出上表的散点图:由散点图可知,现在散点的由散点图可知,现在散点的分布呈现出分布呈现出很强的线性相关特很强的线性相关特征征,故可以一元线性回归模型,故可以一元线性回归模型建立经验回归方程建立经验回归方程.212()0()Yc xcuE uD u ,根据根据最小二乘法最小二乘法,可得新的经验回归方程为,可得新的经验回归方程为20.426439811.8012653.()yt 再在散点图中画出再在散点图中画出(*)式所对应的经验回归直线,如图式所对应的经验回归直线,如
13、图(4)所示所示.(4)图图(4)表明,经验回归方程表明,经验回归方程(*)对于改进后的成对数据具有对于改进后的成对数据具有非常好的拟合精度非常好的拟合精度.将图将图(4)与与图图(3)进行对比,可以发现进行对比,可以发现x和和Y之间的之间的线性相关程度比原始样线性相关程度比原始样本数据的线性相关程度强得多本数据的线性相关程度强得多.将将x=ln(t-1895)代入代入(*)式,得到由创纪录年份预报世界纪录的经验回归方程式,得到由创纪录年份预报世界纪录的经验回归方程20.4264398ln(1895)11.8012653.yt 在同一坐标系中画出成对数据散点图、非线性经验回归方程的图象在同一坐
14、标系中画出成对数据散点图、非线性经验回归方程的图象(蓝色蓝色)以及经验回归方程的图象以及经验回归方程的图象(红色红色),如图,如图(5)所示所示.我们发现,我们发现,散点图中各散点都散点图中各散点都非常靠近的图象非常靠近的图象,表明,表明非线性经验回归方程对于原始数据的拟合效果远远非线性经验回归方程对于原始数据的拟合效果远远好于经验回归方程好于经验回归方程.(5)下面通过下面通过残差残差来比较这两个来比较这两个经验回归方程对数据刻画的好坏经验回归方程对数据刻画的好坏.用用ti表示编号为表示编号为i的年份数据,用的年份数据,用yi表示编号为表示编号为i的纪录数据,则经验回归方程的纪录数据,则经验
15、回归方程和的残差计算公式分别为和的残差计算公式分别为0.0203374349.769130311,28iiieyti ,;0.4264398(1895)11.80126531,28.iiieyti ,两个经验回归方程的残差两个经验回归方程的残差(精确到精确到0.001)如下表所示如下表所示.观察各项观察各项残差的绝对值残差的绝对值,发现经验回归方程远远小于,即,发现经验回归方程远远小于,即经验回归方程经验回归方程的拟合效果要远远好于的拟合效果要远远好于.编号编号12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.
16、1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022 e u在一般情况下,直接比较两个模型的残差比较困难,因为在某些散点上一个在一般情况下,直接比较两个模型的残差比较困难,因为在某些散点上一个模型的残差的绝对值比另一个模型的小,而另一些散点的情况则相反模型的残差的绝对值比另一个模型的小,而另一些散点的情况则相反.可以通过可以通过比较比较残差的平方和残差的平方和来比较两个模型的效果来比较两个模型的效果.由由8211()0.669iiQe ,8211()0.004iiQu ,可知可知Q2小于小于Q1.因此在残差平方和最小的标
17、准下,非线性回归模型因此在残差平方和最小的标准下,非线性回归模型212ln(1895)()0()YctcuE uD u ,的拟合效果要优于一元线性回归模型的拟合效果的拟合效果要优于一元线性回归模型的拟合效果.决定系数决定系数R2:通过前面的讨论我们知道,当通过前面的讨论我们知道,当残差的平方和越小残差的平方和越小,经验回归模型的拟经验回归模型的拟合效果就越好合效果就越好,故我们可以用,故我们可以用决定系数决定系数R2来验证模型的拟合效果来验证模型的拟合效果.决定系数决定系数R2的计算公式为的计算公式为22121()1.()niiiniiyyRyy 在在R2表达式中,由于表达式中,由于 与经验回
18、归方程无关与经验回归方程无关,残差平方和,残差平方和与经验回归方程有关与经验回归方程有关,因此,因此R2越大越大,表示,表示残差平方和越小残差平方和越小,即,即模型的拟合效果模型的拟合效果越好越好;R2越小越小,表示,表示残差平方和越大残差平方和越大,即,即模型的拟合效果越差模型的拟合效果越差.21()niiyy 21()niiiyy 决定系数决定系数R2:22121()1()niiiniiyyRyy 2121()()niiniiyyyy 决定系数是决定系数是总偏差平方和总偏差平方和中中回归平方和回归平方和所占的比重所占的比重.显然显然0R21,R2越接近越接近1,则线性回归刻画的效果越好,则
19、线性回归刻画的效果越好.还可以证明,在一元线性回归模型中还可以证明,在一元线性回归模型中R2=r2,即决定系数,即决定系数R2等于响等于响应变量与解释变量的样本相关系数应变量与解释变量的样本相关系数r的平方的平方.12211()()()()niiinniiiixxyyrxxyy 回归平回归平方和方和总偏差总偏差平方和平方和编号编号12345678t189619121921193019361956196019680.591-0.284-0.301-0.218-0.1960.1110.0920.205-0.0010.007-0.0120.015-0.0180.052-0.021-0.022 e u
20、由上述残差表可算出经验回归方程和的决定系数由上述残差表可算出经验回归方程和的决定系数R2分别为分别为210.7325R ,220.9983R ,由于由于 因此经验回归方程的刻画效果比经验回归方程的好很多因此经验回归方程的刻画效果比经验回归方程的好很多.2221RR,例例2 为研究质量为研究质量x(单位:单位:g)对弹簧长度对弹簧长度y(单位:单位:cm)的影响,对不同质量的的影响,对不同质量的6个物体进行测量,数据如表所示:个物体进行测量,数据如表所示:(1)作出散点图,并求经验回归方程;作出散点图,并求经验回归方程;(2)求出求出R2;(3)进行残差分析进行残差分析x51015202530y
21、7.258.128.959.9010.911.86621122751076.2iiiiixx y ,.17.59.487xy ,0.1836.285ba,0.1836.285yx 所所求求的的经经验验回回归归方方程程为为.(2)求出求出R2;(3)进行残差分析进行残差分析x51015202530y7.258.128.959.9010.911.8解:解:(2)列表如下:列表如下:662211()0.01318()14.6784iiiiiiyyyy ,.0.050.0050.080.0450.040.0252.241.370.540.411.412.31iiyy iiyy 20.0131810.9
22、991.14.6784R 解:解:(3)由残差表中的数值可以看出第由残差表中的数值可以看出第3个样本点的残差比较大,需要确个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过超过0.15的狭窄的水平带状区域中,说明选用的回归模型的精度较高,的狭窄的水平带状区域中,说明选用的回归模型的精度较高,由以上分析可知,弹簧长度与质量成线性关系由以上分析可知,弹簧长度与质量成线性关
23、系0.050.0050.080.0450.040.0252.241.370.540.411.412.31iiyy iiyy 变式变式 已知某种商品的单价已知某种商品的单价x(单位单位:元元)与需求量与需求量y(单位单位:件件)之间的关系有如之间的关系有如下一组数据下一组数据:x1416182022y1210753求求y关于关于x的经验回归方程,并说明回归模型拟合效果的好坏的经验回归方程,并说明回归模型拟合效果的好坏.662111660620iiiiixx y ,.187.4xy ,1.1528.1ba ,1.1528.1yx 所所求求的的经经验验回回归归方方程程为为.解:解:列残差表如下:列残
24、差表如下:y1210753129.77.45.12.800.30.40.10.24.62.60.42.44.4iiyy iiyy iy552211()0.3()53.2iiiiiiyyyy ,.20.310.994.53.2R 故回归模型的拟合效果很好故回归模型的拟合效果很好.例例3 某企业为确定下一年投入某种产品的研发费用,需了解年研发费用某企业为确定下一年投入某种产品的研发费用,需了解年研发费用x(单位单位:千千万元万元)对年销售量对年销售量y(单位单位:千万件千万件)的影响,统计了近的影响,统计了近10年投入的年研发费用年投入的年研发费用xi与年销与年销售量售量yi(i=1,2,10)的
25、数据,得到散点图如图所示的数据,得到散点图如图所示.(1)利用散点图判断利用散点图判断y=a+bx和和y=c xd(其其中中c,d均为大于均为大于0的常数的常数)哪一个更适合作哪一个更适合作为年销售量为年销售量y和年研发费用和年研发费用x的回归方程的回归方程类型类型(只要给出判断即可,不必说明理由只要给出判断即可,不必说明理由);(2)对数据作出如下处理,令对数据作出如下处理,令ui=lnxi,vi=lnyi,得到相关统计量的值如下表得到相关统计量的值如下表.根据第根据第(1)问的判断结果及表中数据,求问的判断结果及表中数据,求y关于关于x的回归方程的回归方程.1010101021111151
26、5()()28.25()56.5iiiiiiiiivuuu vvuu参参考考数数据据:,.附附:对于一组数据对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线,其回归直线 的斜率的斜率和截距的最小二乘估计分别为和截距的最小二乘估计分别为vu121()().()niiiniiuu vvvuuu ,10113102iiuvu 由由表表中中数数据据求求得得,ln.cmvmdu令令,则则343133.2224mvduce ,即即解:解:(1)由散点图可知,选择回归类型由散点图可知,选择回归类型y=c xd更合适更合适.(2)对对y=c xd两边取对数,的两边取对数,的lny=lnc
27、+dlnx,1011021()()28.251.56.52()iiiiiuu vvduu 34.yxyex 关关于于 的的回回归归方方程程为为 变式变式 某地今年上半年患某种传染病的人数某地今年上半年患某种传染病的人数y(人人)与月份与月份x(月月)之间满足函数之间满足函数关系,模型为关系,模型为yaebx,确定这个函数解析式,确定这个函数解析式月份月份x/月月123456人数人数y/人人526168747883lnlnuy caucbx 设设,得得,解:解:ux则则 与与 的的数数据据关关系系如如下下表表:x123456u=lny3.95124.11094.21954.30414.35674
28、.41883.54.2269xu 由由上上表表,得得,,6662211191107.347690.3442iiiiiiixux u ,0.09023.9112.bc ,3.91120.09020.09023.9112.xuxyee ,即即在使用经验回归方程进行预测时,需要注意下列问题在使用经验回归方程进行预测时,需要注意下列问题:(1)经验回归方程经验回归方程只适用于所研究的样本的总体只适用于所研究的样本的总体.例如,根据我国父亲身例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的
29、关系子身高之间的关系.同样,根据生长在南方多雨地区的树高与胸径的数据建同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干旱地区的树高与胸径之间的关系立的经验回归方程,不能用来描述北方干旱地区的树高与胸径之间的关系.(2)经验回归方程经验回归方程一般都有时效性一般都有时效性.例如,根据例如,根据20世纪世纪80年代的父亲身高年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系子身高之间的关系.(3)解释变量的取值解释变量的取值不能离样本数据的范围太远不能
30、离样本数据的范围太远.一般解释变量的取值在一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差预报的效果越差.(4)不能不能期望经验回归方程得到的预报值就是响应变量的精确值期望经验回归方程得到的预报值就是响应变量的精确值.事实上事实上,它是响应变量的可能取值的平均值,它是响应变量的可能取值的平均值.课本课本120页页 1.在回归分析中,分析残差能够帮助我们解决哪些问题在回归分析中,分析残差能够帮助我们解决哪些问题?解:解:分析残差可以帮助我们解决以下几个问题分析残差可以帮助我们解决
31、以下几个问题:(1)寻找残差明显比其他残差大很多的异常点,如果有,检查相应的样本寻找残差明显比其他残差大很多的异常点,如果有,检查相应的样本数据是否有错数据是否有错.(2)分析残差图可以诊断选择的模型是否合适,如果不合适,可以参考残分析残差图可以诊断选择的模型是否合适,如果不合适,可以参考残差图提出修改模型的思路差图提出修改模型的思路.(1)作作GDP和年份的散点图,根和年份的散点图,根据该图猜想它们之间的关系可据该图猜想它们之间的关系可以用什么模型描述;以用什么模型描述;(2)建立年份为解释变量,建立年份为解释变量,GDP为响应变量的一元线性回归模为响应变量的一元线性回归模型,并计算残差型,
32、并计算残差;(3)根据你得到的一元线性回归模型,预测根据你得到的一元线性回归模型,预测2017年的年的GDP,看看你的预测值,看看你的预测值与实际的与实际的GDP的误差是多少的误差是多少;(4)你认为这个模型能较好地刻画你认为这个模型能较好地刻画GDP和年份的关系吗和年份的关系吗?请说明理由请说明理由.课本课本120页页 2.1997-2006 年我国的国内生产总值年我国的国内生产总值(GDP)的数据如下的数据如下:年份年份GDP/亿元亿元年份年份GDP/亿元亿元199779715.02002121727.4199885195.52003137422.0199990564.4200416184
33、0.22000100280.12005187318.92001110863.12006219438.5(5)随着时间的发展,又收集到随着时间的发展,又收集到2007-2016年的年的GDP数据如下数据如下:建立年份建立年份(1997-2016)为解释为解释变量,变量,GDP为响应变量的经验为响应变量的经验回归方程,并预测回归方程,并预测2017年的年的GDP,与实际的,与实际的GDP误差是多误差是多少少?你能发现什么你能发现什么?年份年份GDP/亿元亿元年份年份GDP/亿元亿元2007270232.32012540367.42008319515.52013595244.42009349081.
34、42014643974.02010413030.32015689052.12011489300.62016744127.2(1)作作GDP和年份的散点图,根和年份的散点图,根据该图猜想它们之间的关系可据该图猜想它们之间的关系可以用什么模型描述;以用什么模型描述;课本课本120页页 2.1997-2006 年我国的国内生产总值年我国的国内生产总值(GDP)的数据如下的数据如下:年份年份GDP/亿元亿元年份年份GDP/亿元亿元199779715.02002121727.4199885195.52003137422.0199990564.42004161840.22000100280.1200518
35、7318.92001110863.12006219438.5解:解:(1)画画GDP与年份的散点与年份的散点图,如图所示,可以观察到随图,如图所示,可以观察到随着年份的增加着年份的增加GDP也随之增加也随之增加,GDP值与年份呈现近似线性值与年份呈现近似线性关系,可以用一元线性回归模关系,可以用一元线性回归模型刻画型刻画.(2)建立年份为解释变量建立年份为解释变量,GDP为响应变量的一元线性回归模型为响应变量的一元线性回归模型,并计算残差并计算残差;(3)根据你得到的一元线性回归模型,预测根据你得到的一元线性回归模型,预测2017年的年的GDP,看看你的预测值,看看你的预测值与实际的与实际的G
36、DP的误差是多少的误差是多少;课本课本120页页 2.1997-2006 年我国的国内生产总值年我国的国内生产总值(GDP)的数据如下的数据如下:解:解:(2)用用y表示表示GDP的值,的值,t表示年份,用一元线性回归模型拟合数据,表示年份,用一元线性回归模型拟合数据,用统计软件计算,得到经验回归方程为用统计软件计算,得到经验回归方程为残差的计算结果见下表残差的计算结果见下表.14854.75333329602353.29.yt 年份年份1997199819992000200120022003200420052006残差残差171267752-1734-6873-11145-15145-142
37、96-4732589223157 (3)2017年的年的GDP预报值为预报值为359684亿元,亿元,2017年的实际的年的实际的GDP为为820754亿亿元,预测值比实际值少元,预测值比实际值少461070亿元亿元.(4)你认为这个模型能较好地刻画你认为这个模型能较好地刻画GDP和年份的关系吗和年份的关系吗?请说明理由请说明理由.课本课本120页页 2.1997-2006 年我国的国内生产总值年我国的国内生产总值(GDP)的数据如下的数据如下:解:解:(4)上面建立的回归方程的上面建立的回归方程的R2=0.9213,说明在,说明在1997-2006 年内,该模年内,该模型年份能够解释型年份能
38、够解释92.13%的的GDP值变化,因此所建立的模型较好地刻画了值变化,因此所建立的模型较好地刻画了GDP和年份的关系和年份的关系.但因为残差呈现一定的规律性,中间是负数,两边但因为残差呈现一定的规律性,中间是负数,两边是正数,所以可以考虑用非线性回归模型拟合数据是正数,所以可以考虑用非线性回归模型拟合数据.(5)随着时间的发展,又收集到随着时间的发展,又收集到2007-2016年的年的GDP数据如下数据如下:建立年份建立年份(1997-2016)为解释为解释变量,变量,GDP为响应变量的经验为响应变量的经验回归方程,并预测回归方程,并预测2017年的年的GDP,与实际的,与实际的GDP误差是
39、多误差是多少少?你能发现什么你能发现什么?年份年份GDP/亿元亿元年份年份GDP/亿元亿元2007270232.32012540367.42008319515.52013595244.42009349081.42014643974.02010413030.32015689052.12011489300.62016744127.2解:解:(5)仍用仍用y表示表示GDP的值,的值,t表示年份,用一元线性回归模型拟合表示年份,用一元线性回归模型拟合1997-2016年的数据,用统计软件计年的数据,用统计软件计算,得到经验回归方程为算,得到经验回归方程为 利用上述模型,利用上述模型,预测预测2017年
40、的年的GDP值为值为704025亿元,而亿元,而2017年年GDP的实际值的实际值820754亿元,亿元,预测值比实际值少预测值比实际值少116729亿元通过两个模型预测亿元通过两个模型预测2017年的年的GDP值,发现第值,发现第2个模型预测的更准确,说明建立的模型自变量的取值范围决定了模型的适个模型预测的更准确,说明建立的模型自变量的取值范围决定了模型的适用范围,通常不能超出太多,否则会出现较大的误差用范围,通常不能超出太多,否则会出现较大的误差.36802.08849673562093.55.yt 小结:小结:决定系数决定系数R2:22121()1()niiiniiyyRyy 2121()()niiniiyyyy 决定系数是决定系数是总偏差平方和总偏差平方和中中回归平方和回归平方和所占的比重所占的比重.显然显然0R21,R2越接近越接近1,则线性回归刻画的效果越好,则线性回归刻画的效果越好.还可以证明,在一元线性回归模型中还可以证明,在一元线性回归模型中R2=r2,即决定系数,即决定系数R2等于响等于响应变量与解释变量的样本相关系数应变量与解释变量的样本相关系数r的平方的平方.
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。