1、8.2.2一元线性回归模型参数的最小二乘估计(一元线性回归模型参数的最小二乘估计(2)非线性回归方程的分析讲课人:邢启强2对于一组具有线性相关关系的数据对于一组具有线性相关关系的数据1122( ,),(,),.,(,),nnx yxyxy我们知道其经验回归方程的截距和斜率的最小二乘估计公式分别为:我们知道其经验回归方程的截距和斜率的最小二乘估计公式分别为:1122211()(),.(2)()nniiiiiinniiiixxyyxnxybxxxnxy,.(1)aybx1111,.nniiiixx yynn其中( , )x y称为样本点的中心称为样本点的中心.残差图:残差图:作图时作图时纵坐标纵坐
2、标为残差为残差, ,横坐标横坐标可以选为样本编号,可以选为样本编号,解释变量或响应变量,这样作出的,这样作出的图形称为残差图图形称为残差图复习引入复习引入讲课人:邢启强3求经验回归直线方程的步骤:求经验回归直线方程的步骤:1111(1),nniiiixxyynn求211(2),.nniiiiixx y求(3)代入公式)代入公式1122211()(),(),.(1)nniiiiiinniiiixx yyxnxybxxxnxa y bxy (4)写出直线方程为)写出直线方程为y=bx+a,即为所求的回归直线方程即为所求的回归直线方程.复习引入复习引入讲课人:邢启强4典型例题典型例题 例1.经验表明
3、,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程.编号123456胸径/cm18.120.122.224.426.028.3树高/m18.819.221.021.022.122.1编号789101112胸径/cm29.632.433.735.738.340.2树高/m22.422.623.024.323.924.7讲课人:邢启强5解: 以胸径为横坐标,树高为纵坐标作散点图如下: 散点大致分
4、布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.0.249314.84hd 用d表示胸径,h表示树高,根据据最小二乘法,计算可得经验回归方程为0.249314.84hd讲课人:邢启强6编号胸径/cm树高观测值/m树高预测值/m残差/m118.1 18.8 19.4 -0.6 220.1 19.2 19.9 -0.7 322.2 21.0 20.4 0.6 424.4 21.0 20.9 0.1 526.0 22.1 21.3 0.8 628.3 22.1 21.9 0.2 729.6 22.4 22.2 0.2 832
5、.4 22.6 22.9 -0.3 933.7 23.0 23.2 -0.2 1035.7 24.3 23.7 0.6 1138.3 23.9 24.4 -0.5 1240.2 24.7 24.9 -0.2 根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.以胸径为横坐标,残差为纵坐标,作残差图,得到下图.30252015 -1.0 -0.5 0.0 0.5 1.0残差/m 35 40 45 胸径/cm 观察残差表和残差图,可以看到残差的绝对值最大是 0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内 .可见经验回归方程较好地刻画了树高与
6、胸径的关系,我们可以根据经验回归方程由胸径预测树高.讲课人:邢启强7编号12345678年份18961912192119301936195619601968记录/s11.8010.6010.4010.3010.2010.1010.009.95 例2.人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程 典型例题典型例题 用Y表示男子短跑100m的世界纪录,t表示纪录产生的年份 ,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关
7、系 . 根据最小二乘法,由表中的数据得到经验回归方程为:76913031.4902033743. 01ty讲课人:邢启强8将经验回归直线叠加到散点图,得到下图:仔细观察:从图中可以看到,经验回归方程较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗?世界纪录所对应的散点经验回归直线,并且, 这说明散点并不是随机分布在经验回归直线的周围, 而是围绕着经验回归直线有一定的变化规律, 即成对样本数据呈现出明显的非线性相关的特征.讲课人:邢启强9回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征思考:你能对模型进行修改,以使其更好地反映散点的分布特征吗?仔细观察左
8、图,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近. 注意到100m短跑的第一个世界纪录产生于1896年, 因此可以认为散点是集中在曲线y=f(t)=c1+c2ln(t-1895)的周围,其中c1、c2为未知参数,且c20.用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中c1,c2是待定参数,现在问题转化为如何利用成对数据估计参数c1和c2讲课人:邢启强10令x=ln(t-1895),则 Y=c2x+c1编号12345678年份/t18961912192119301936195619601968x0.002.833.263.563.714.114.174.29记录Y/s11
9、.8010.60 10.40 10.30 10.20 10.10 10.009.95对数据进行变化可得下表:由表中的数据得到经验回归方程为:8012653.114264398.02xy得到散点图如右:讲课人:邢启强118012653.114264398. 02xy上图表明,经验回归方程对于成对数据具有非常好的拟合精度.将经验回归直线叠加到散点图,得到下图:将x=ln(t-1895)8012653.114264398. 02xy8012653.11)1895ln(4264398. 02ty讲课人:邢启强12 对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判
10、断哪个回归方程拟合的精度更好吗?8012653.114264398. 02xy20.4264398 ln(1895) 11.8012653yt 我们发现,散点图中各散点都非常靠近的图象, 表明非线性经验回归方程对于原始数据的拟合效果远远好于经验回归方程.(1).直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程的图象(蓝色)以及经验回归方程的图象(红色).讲课人:邢启强1328212811,QQ()0.004)0.669iiiieu8012653.114264398. 02xy20.4264398 ln(1895) 11.8012653yt (2).残差分析:残差平方和越小,模型
11、拟合效果越好.Q2明显小于Q1,说明非线性回归方程的拟合效果要优于线性回归方程.(3).利用决定系数R2刻画回归效果.21212()11()niiniiiyyyyR 残差平方和。总偏差平方和和的R2分别为0.7325和0.9983说明非线性回归方程的拟合效果要优于线性回归方程R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差.讲课人:邢启强14(4)用新的观测数据来检验模型的拟合效果,事实上,我们还有1968年之后的男子短跑100m世界纪录数据,如表所示在散点图中,绘制表中的散点(绿色),再添加经验回归方程所对应的经验回归直线(红色),以及经验回
12、归方程所对应的经验回归曲线(蓝色),得到右图.显然绿色散点分布在蓝色经验回归曲线的附近,远离红色经验回归直线,表明经验回归方程对于新数据的预报效果远远好于.讲课人:邢启强15思考:在上述问题情境中,男子短跑100m世界纪录和纪录创建年份之间呈现出对数关系,能借助于样本相关系数刻画这种关系的强弱吗?在使用经验回归方程进行预测时,需要注意下列问题:(1)经验回归方程只适用于所研究的样本的总体,例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系,同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干早地区的树高与胸径之
13、间的关系。(2)经验回归方程一般都有时效性,例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系。(3)解释变量的取值不能离样本数据的范围太远,一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差,(4)不能期望经验回归方程得到的预报值就是响应变量的精确值,事实上,它是响应变量的可能取值的平均值。讲课人:邢启强16 一只药用昆虫的产卵数y与一定范围内的温度x有关,现收集了6组观测数据列于表中: 经计算得: 66622111(- )(- )557,(- )84,(y -y)3930,
14、iiiiiiix xyyx x线性回归残差的平方和: 其中 分别为观测数据中的温度和产卵数,i=1,2,3,4,5,6.iixy,(1)若用线性回归模型拟合,求y关于x的回归方程 (精确到0.1);ybxa (2)若用非线性回归模型拟合,求得y关于x回归方程为且相关指数R20.9522 0 23030 06e e.x y., 试与(1)中的线性回归模型相比较,用R2说明哪种模型的拟合效果更好 ?用拟合效果好的模型预测温度为35时该种药用昆虫的产卵数.(结果取整数). 附:相关系数 21212()1).(niiniiiyyyRy 巩固练习巩固练习讲课人:邢启强17解:121()()557=6.6
15、336.626138.6.84()niiiniixxyybaxx ,所以y关于x的经验回归方程为讲课人:邢启强1821212()236.641=10.9398.3930()niiiniiyRyyy 相关系数0.93980.9522 非线性回归模型的回归方程 比线性回归方程为:y6.6x-139.4拟合的拟合效果更好 0 23030 06e e.x y., 0.06e0.2303x 0.06e0.2303350.06e8.060531670.06190(个) 预测温度为35时该种药用昆虫的产卵数为190个y讲课人:邢启强19讲课人:邢启强20讲课人:邢启强21讲课人:邢启强22讲课人:邢启强23课堂小结课堂小结21( , )()niiiQ a bybxa1.残差平方和: 1122211()()()nniiiiiinniiiixxyyx ynxybxxxnxaybx 2.最小二乘法将 称为Y 关于x 的经验回归方程,ybxa 3.判断模型拟合的效果:残差分析21212()11()niiniiiyyyRy 决定系残差平方和。总偏差平方和数R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差.
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。