11回归分析的基本思想及其初步应用(优秀经典公开课比赛课件).ppt

上传人(卖家):ziliao2023 文档编号:5674280 上传时间:2023-05-01 格式:PPT 页数:30 大小:15.65MB
下载 相关 举报
11回归分析的基本思想及其初步应用(优秀经典公开课比赛课件).ppt_第1页
第1页 / 共30页
11回归分析的基本思想及其初步应用(优秀经典公开课比赛课件).ppt_第2页
第2页 / 共30页
11回归分析的基本思想及其初步应用(优秀经典公开课比赛课件).ppt_第3页
第3页 / 共30页
11回归分析的基本思想及其初步应用(优秀经典公开课比赛课件).ppt_第4页
第4页 / 共30页
11回归分析的基本思想及其初步应用(优秀经典公开课比赛课件).ppt_第5页
第5页 / 共30页
点击查看更多>>
资源描述

1、11回归分析的基本思想及其初步回归分析的基本思想及其初步应用应用1.1.了解回归分析的基本思想了解回归分析的基本思想.2.2.会对两个变量进行回归分析会对两个变量进行回归分析.(重点重点)3.3.明确解决回归模型的基本步骤,并对具体问题进明确解决回归模型的基本步骤,并对具体问题进行回归分析以解决实际应用问题行回归分析以解决实际应用问题4.4.了解最小二乘法的推导,解释残差变量的含义了解最小二乘法的推导,解释残差变量的含义.5.5.了解偏差平方和分解的思想,了解判断刻画模型了解偏差平方和分解的思想,了解判断刻画模型拟合效果的方法拟合效果的方法相关指数和残差分析相关指数和残差分析6.6.掌握利用计

2、算器求线性回归直线方程参数及相关掌握利用计算器求线性回归直线方程参数及相关系数的方法系数的方法.(难点)难点)探究点探究点1 1 回归分析的基本思想回归分析的基本思想 我我们们知知道道,函函数数关关系系是是一一种种确确定定性性关关系系,而而相相关关关关系系是是一一种种非非确确定定性性关关系系.回回归归分分析析是是对对具具有有相相关关关关系系的的两两个个变变量量进进行行统统计计分分析析的的一一种种常常用用方方法法.在在之之前前的的学学习习中中,我我们们对对两两个个具具有有线线性性相相关关关关系系的的变变量量利利用用回回归归分分析析的的方方法法进进行行了了研研究究,其其步步骤骤为为画画散散点点图图

3、,求求回回归归直直线线方方程程,并并用用回回归归直直线线方方程程进进行行预预报报.例例1 1从从某某大大学学中中随随机机选选取取8 8名名女女大大学学生生,其其身身高高和和体体重重数数据据如如下下表表所所示示.5943616454505748kg/170155165175170157165165cm/87654321体重体重身高身高编号编号求求根根据据女女大大学学生生的的身身高高预预报报体体重重的的回回归归方方程程,并并预预报报一一名名身身高高为为172 cm172 cm的的女女大大学学生生的的体体重重.:由由于于问问题题中中要要求求根根据据身身高高预预报报体体重重,因因此此选选取取身身高高为

4、为自自变变量量 x,x,体体重重为为因因变变量量y.y.作作散散点点图图(图图1 1解解.1-1):.1-1):11.1图从从图图1.1-11.1-1中中可可以以看看出出,样样本本点点呈呈条条状状分分布布,身身高高和和体体重重有有比比 较较好好的的线线性性相相关关关关系系,因因此此可可以以用用回回归归直直线线y=bx+ay=bx+a来来近近似似刻刻画画它它们们之之间间的的关关系系.未未知知参参数数b b和和a a的的最最小小二二乘乘估估计计分分别别为为b b和和a a,其其计计算算公公式式如如下下:身高身高/cm/cm体重体重/kg/kg a=y-bx,a=y-bx,121niiniiixxy

5、yxxb的nnnniiiii=1i=1i=1i=11111其其中中x=x,y=y.x,yx=x,y=y.x,y 称称为为样样本本点点中中心心.nnnnx线性 在在本本例例中中,根根据据上上面面的的公公式式,可可以以得得到到 b=0.849 b=0.849,a=-85.712.a=-85.712.于于是是得得到到回回归归方方程程y=0.849-85.712.y=0.849-85.712.为身身高高172cm172cm的的女女大大学学生生的的体体重重一一定定是是60.316kg60.316kg吗吗?如如果果不不是是,你你能能解解释释一一下下思思考考:原原因因吗吗?b b=0 0.8 84 49 9

6、是是回回归归直直线线的的斜斜率率的的估估计计值值,说说明明身身高高x x每每增增加加1 1个个单单位位,体体重重y y就就增增加加0 0.8 84 49 9个个单单位位,这这表表明明体体重重与与身身高高具具有有正正的的线线性性相相关关关关系系.所所以以,对对身身高高为为172 cm172 cm的的女女大大学学生生,由由回回归归方方程程可可以以预预报报其其体体重重为为 y=0.849 172-85.712=60.316 y=0.849 172-85.712=60.316(kgkg).在 显显然然身身高高为为172cm172cm的的女女大大学学生生的的体体重重不不一一定定是是60.316kg60.

7、316kg,但但一一般般可可以以认认为为她她的的体体重重60.316kg60.316kg左左右右.图图1.1-21.1-2中中的的样样本本点点和和回回归归直直线线的的相相互互位位置置说说明明了了这这一一点点.从从散散点点图图中中还还看看到到,样样本本点点散散布布在在某某一一条条直直线线的的附附近近,而而不不是是在在一一条条直直线线上上,所所以以不不能能用用一一次次函函数数 y=bx+a y=bx+a来来描描述述它它们们之之间间的的关关系系.这这时时我我们们把把身身高高和和体体重重的的关关系系用用下下面面的的线线性性回回归归模模型型 y=bx+a+e y=bx+a+e(1 1)来来表表示示,其其

8、中中a a和和b b为为模模型型的的未未知知参参数数,e e称称为为随随机机误误差差.产产生生随随机机误误差差项项e e的的原原思思考考:因因是是什什么么?实实际际上上,一一个个人人的的体体重重值值除除了了受受身身高高的的影影响响外外,还还受受许许多多其其他他因因素素的的影影响响.例例如如,饮饮食食习习惯惯、是是否否喜喜欢欢运运动动、度度量量误误差差等等.另另外外,我我们们选选用用的的线线性性模模型型往往往往只只是是一一种种近近似似的的模模型型.所所有有这这些些因因素素都都会会导导致致随随机机误误差差项项e e的的产产生生.线线性性回回归归模模型型(1 1)与与我我们们熟熟悉悉的的一一次次函函

9、数数模模型型的的不不同同之之处处是是增增加加了了随随机机误误差差项项e e,因因变变量量y y的的值值由由自自变变量量x x和和随随机机误误差差e e共共同同确确定定,即即自自变变量量x x只只能能解解释释部部分分y y的的变变化化.在在统统计计中中,我我们们也也把把自自变变量量x x称称为为解解释释变变量量,因因变变量量y y称称为为预预报报变变量量.:呢在在线线性性回回归归模模型型中中,e,e是是用用bx+abx+a预预报报真真实实值值y y的的随随机机误误差差,它它是是一一个个不不可可观观测测的的量量,那那么么应应该该怎怎样样研研究究思思随随机机误误差差考考?随随机机对于样本点的估计量是

10、所以由于随机误差)中的估计(的中回归方程在实际应用中,我们用.),(.1 eyyeabxyeabxyaxby1122nn (x,y),(x,y),(x,y)而言,它们的随机误差为iii eybxa,i1,2,n,,其估计值为iiiiiiii eyyybxa,i1,2,n,ex,y.,称为相应于点()的残差思考:如何发现数据中的错误?如何衡量模型的拟思考:如何发现数据中的错误?如何衡量模型的拟合效果?合效果?可以通过残差发现原始数据中的可疑数据,判可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果断所建立模型的拟合效果.下表列出了女大学生身下表列出了女大学生身高和体重的原始数据以及相

11、应的残差数据高和体重的原始数据以及相应的残差数据.382.0883.2627.6137.1618.4419.2627.2373.6e 5943616454505748kg/170155165175170157165165cm/87654321残差残差体重体重身高身高编号编号.,.我我们们可可以以利利用用图图形形来来分分析析残残差差特特性性 作作图图时时纵纵坐坐标标为为残残差差 横横坐坐标标可可以以选选为为样样本本编编号号 或或身身高高数数据据 或或体体重重估估计计值值等等 这这样样作作出出的的图图形形为为残残差差图图下下图图是是以以样样本本编编号号为为横横坐坐标标的的 残残差差图图 编号编号残

12、差残差41.1图 从图从图1.1-41.1-4中可以看出,第中可以看出,第1 1个样本点和第个样本点和第6 6个样本个样本点的残差比较大,需要确认在采集这两个样本点的过程点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误中是否有人为的错误.如果数据采集有错误,就予以纠如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因采集没有错误,则需要寻找其他的原因.另外,残差点另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比比较均匀地落在水平的带状区域中,说明选用的模型比较

13、合适较合适.这样的带状区域的宽度越窄,说明模型拟合精这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高度越高,回归方程的预报精度越高.1:,121222niiniiiyyyyRR其计算公式是来刻画回归的效果我们还可以用相关指数另外.,1.,.,222表示回归的效果越好于接近越量变化的贡献率示解释变量对于预报变表在线性回归模型中好是说模型的拟合效果越也就意味着残差平方和越小取值越大显然RRR222 1,R0.64,64%,64%.RR.在例 中表明 女大学生的身高解释了的体重变化 或者说 女大学生的体重差异有是由身高引起的是常用的选择模型的指标之一,在实际应用中应该尽量选择大

14、的回归模型用用身身高高预预报报体体重重时时 需需要要注注意意下下列列问问题题,:1.1.回回归归方方程程只只适适用用于于我我们们所所研研究究的的样样本本的的总总体体.例例如如,不不能能用用女女大大学学生生的的身身高高和和体体重重之之间间的的回回归归方方程程,描描述述女女运运动动员员的的身身高高和和体体重重之之间间的的关关系系.同同样样,不不能能用用生生长长在在南南方方多多雨雨地地区区的的树树木木的的高高与与直直径径之之间间的的回回归归方方程程,描描述述北北方方干干旱旱地地区区的的树树木木的的高高与与直直径径之之间间的的关关系系.2.,2080,.我们所建立的回归方程一般都有时间性例如 不能用世

15、纪年代的身高、体重数据所建立的回归方程 描述现在的身高和体重之间的关系3.,(,x155cm 175cm,x70cmy,.)样本取值的范围会影响回归方程的适用范围例如我们的回归方程是由女大学生身高和体重的数据建立的 那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当.在回归方程中 解释变量的样本的取值范围为而用这个方程计算时的 值 显然不合适.,.4值的平均值它是预报变量的可能取事实上精确值的的预报值就是预报变量不能期望回归方程得到一一般般地地,建建立立回回归归模模型型的的基基本本步步骤骤为为:(1 1)确确定定研研究究对对象象,明明确确哪哪个个变变量量是是解解释释变变量量,哪哪个个变

16、变量量是是预预报报变变量量(2 2)画画出出解解释释变变量量和和预预报报变变量量的的散散点点图图,观观察察它它们们之之间间的的关关系系(如如是是否否存存在在线线性性关关系系等等)(4 4)按按一一定定规规则则(如如最最小小二二乘乘法法)估估计计回回归归方方程程中中的的参参数数得得出出结结果果后后分分析析残残差差图图是是否否有有异异常常(如如个个别别数数据据对对应应残残差差过过大大,残残差差呈呈现现不不随随机机的的规规律律性性等等).若若存存在在异异常常,则则检检查查数数据据是是否否有有误误,或或模模型型是是否否合合适适等等.(5 5)经经验验确确定定回回归归方方程程的的类类型型(如如我我们们观

17、观察察到到数数据据呈呈线线性性关关系系,则则选选用用线线性性回回归归方方程程)(3 3)由由探究点探究点2 2 回归分析的初步应用回归分析的初步应用测关于例例2 2一一只只红红铃铃虫虫的的产产卵卵数数y y和和温温度度x x有有关关.现现收收集集了了7 7组组观观数数据据列列于于表表1-31-3中中,试试建建立立yxyx的的回回归归方方程程.31表根根据据收收集集的的数数据据作作散散点点图图(1.1.解解:1-51-5).0 x/C 21 23 2527293235y/711212466 115 325温度产卵数个 1.1 5,.在图中 样本点并没有分布在某个带状区域内 因此两个变量不呈线性相

18、关关系 不能直接利用线性回归方程来建立两个变量之间的关系51.1图温度/产卵数产卵数/个个2c x112 ,yc e,cc.根据已有的函数知识 可以发现样本点分布在某一条指数函数曲线的周围 其中 和是待定参数1212 ,cc.,zln y,zbxa(alnc,bc).,yx.现在 问题变为如何估计待定参数 和我们可以通过对数变换把指数关系变为线性关系 令则变换后样本点应该分布在直线的周围这样 就可以利用线性回归模型来建立 关于的非线性回归方程 了当回归方程不是形如当回归方程不是形如y=bx+a(ay=bx+a(a,bRbR)时,时,称之为称之为非线性回归方非线性回归方 程程.图的样本数据表的数

19、据可以得到变换后由表,4131.,61.1.4161.1用线性回归方程来拟合因此可以一条直线的附近变换后的样本点分布在看出中可以从图中数据的散点图给出了表784.5745.4190.4178.3045.3398.2946.1z35322927252321x41表产卵数的对数温度1.16图x xz z1 4 z0.272x3.849.由表中的数据得到线性回归方程为温度的非线性回归方程因此红铃虫的产卵数对 10.272x 3.849 ye.2234342 ,-5yc xc,cc.,tx,yt,yx.另一方面 可以认为图1.1 中样本点集中在某二次曲线的附近 其中和为待定参数因此可以对温度变量做变换

20、 即令然后建立 与 之间的线性回归方程 从而得到 与 之间的非线性回归方程.71.1,51 是相应的散点图图应的温度的平方是红铃虫的产卵数和对表325115662421117y12251024841729625529441t5表1 温度的平方数卵产1.17图t ty y234 1.17,yt,yc xcyx.从图中可以看出 与 的散点图并不分布在一条直线的周围因此不宜用线性回归方程来拟合它 即不宜用二次函数来拟合 与 之间的关系这个结论还可以通过残差分析得到 ,.yx,yx.1 5yt为比较两个不同模型的残差 需要建立两个相应的回归方程前面已经建立了 关于 的指数回归方程(2)下面建立 关于

21、的二次回归方程用线性回归模型拟合表中的数据,得到 关于 的线性回归方程 222 y0.367t202.543,yx y0.367x202.543.3即关于的二次回归方程为 i 23.x1 31i 1,23可以通过残差来比较两个回归方程和的拟合效果用 表示表中第 行第列的数据 则回归方程和的残差计算公式分别为 i110.272x3.849iiiieyyye,i1,2,7;222iiiiieyyy0.367x202.543,i1,2,7.12x212325272932 35y711212466115 325 e0.5570.101 1.8758.9509.230 13.381 34.675 e47

22、.69619.4005.83241.00040.10458.265 77.96861表 222 ,.,.R.R.1 623R0.980.8023.在一般情况下比较两个模型的残差比较困难原因是在某些样本点上一个模型的残差的绝对值比另一个模型的小 而另一些样本点的情况则相反这时可以用来比较两个模型的拟合效果越大,模型的拟合效果越好由表容易算出模型和的分别约为和,因此模型的拟合效果好于模型 .32,32.61 的拟合效果好果比模型的拟合效因此模型的残差的绝对值小显然比模型的残差的绝对值模型从表中的数据可以看出残差的两个回归方程的给出了原始数据及相应表 回归分析回归分析 统计案例统计案例独立性检验独立性检验线线 性性非线性非线性列联表列联表等高条形图等高条形图独立性检验步骤独立性检验步骤

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(11回归分析的基本思想及其初步应用(优秀经典公开课比赛课件).ppt)为本站会员(ziliao2023)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|