1、第三章 统计案例3.1 回归分析的基本思想及其初步应用l 假设某地区从假设某地区从20032003年到年到20122012年的人年的人均均GDPGDP(单位(单位:美元)数据如表美元)数据如表:l 能否根据提供的数据建立一个合适能否根据提供的数据建立一个合适的模型,预报的模型,预报20142014年(或年(或20152015年)年)的人均的人均GDPGDP是多少?是多少?年份年份人均人均GDPGDP200320031200120020042004151015102005200518701870200620062210221020072007257025702008200830003000200
2、92009367036702010201045004500201120115430543020122012610061001.1.通过对实际问题的分析,了解回归分析的必要性通过对实际问题的分析,了解回归分析的必要性 与回归分析的一般步骤;了解线性回归模型与函与回归分析的一般步骤;了解线性回归模型与函 数模型的区别数模型的区别.(重点重点)2.2.尝试作散点图,求回归直线方程尝试作散点图,求回归直线方程.(重点重点)3.3.能用所学的知识对实际问题进行回归分析,体会能用所学的知识对实际问题进行回归分析,体会 回归分析的实际价值与基本思想;了解判断回归回归分析的实际价值与基本思想;了解判断回归模型
3、拟合好坏的方法模型拟合好坏的方法相关指数和残差分析相关指数和残差分析.(重点、难点)重点、难点)探究点探究点1 1 回归分析的基本思想回归分析的基本思想 我我们们知知道道,函函数数关关系系是是一一种种确确定定性性关关系系,而而相相关关关关系系是是一一种种非非确确定定性性关关系系.回回归归分分析析(regression analysis)(regression analysis)是是对对具具有有相相关关关关系系的的两两个个变变量量进进行行统统计计分分析析的的一一种种常常用用方方法法.在在之之前前的的学学习习中中,我我们们对对两两个个具具有有线线性性相相关关关关系系的的变变量量利利用用回回归归分分
4、析析的的方方法法进进行行了了研研究究,其其步步骤骤为为画画散散点点图图,求求回回归归直直线线方方程程,并并用用回回归归直直线线方方程程进进行行预预报报.1122nnx,y,x,y,x,y,对于一组具有线性相关关系的数据我们知道其回归直线y=bx+a的斜率和截距的最小二乘估计分别为 1,121niiniiixxyyxxb aybx,2nniii 1i 111xx,yy.x,ynn.?其中称为样本点的中心 你能推导出这两个计算公式吗3 1例例1 1从从某某大大学学中中随随机机选选取取8 8名名女女大大学学生生,其其身身高高和和体体重重数数据据如如表表所所示示.-5943616454505748kg
5、/170155165175170157165165cm/87654321体重体重身高身高编号编号求求根根据据女女大大学学生生的的身身高高预预报报体体重重的的回回归归方方程程,并并预预报报一一名名身身高高为为172 cm172 cm的的女女大大学学生生的的体体重重.由由于于问问题题中中要要求求根根据据身身高高预预报报体体重重,因因此此选选取取身身高高为为自自变变量量 x,x,体体重重为为因因变变量量 y.y.作作散散点点图图(图图3.13.1解解:-1):-1):3 1表表-图 3.1 1-1 1从从图图3.1-13.1-1中中可可以以看看出出,样样本本点点呈呈条条状状分分布布,身身高高和和体体
6、重重有有比比 较较好好的的线线性性相相关关关关系系,因因此此可可以以用用回回归归直直线线y=bx+ay=bx+a来来近近似似刻刻画画它它们们之之间间的的关关系系.身高身高/cm/cm体重体重/kg/kg12b0.849a85.712.y0.84985.712.x 根据探究中的公式()和(),可以得到,于是得到回归方程 b=0.849 b=0.849是是回回归归直直线线的的斜斜率率的的估估计计值值,说说明明身身高高x x每每增增加加1 1个个单单位位,体体重重y y就就增增加加0.8490.849个个单单位位,这这表表明明体体重重与与身身高高具具有有正正的的线线性性相相关关关关系系.为身身高高1
7、72 cm172 cm的的女女大大学学生生的的体体重重一一定定是是 60.316 kg60.316 kg吗吗?如如果果不不是是,你你能能解解释释一一下下思思考考:原原因因吗吗?所所以以,对对身身高高为为172 cm172 cm的的女女大大学学生生,由由回回归归方方程程可可以以预预报报其其体体重重为为 y=0.849 172-85.712=60.316 y=0.849 172-85.712=60.316(kgkg).在 显显然然,身身高高为为172 cm172 cm的的女女大大学学生生的的体体重重不不一一定定是是60.316 kg60.316 kg,但但一一般般可可以以认认为为她她的的体体重重6
8、0.316 kg60.316 kg左左右右.图图3.1-23.1-2中中的的样样本本点点和和回回归归直直线线的的相相互互位位置置说说明明了了这这一一点点.体重体重/kg/kg 从从散散点点图图中中还还看看到到,样样本本点点散散布布在在某某一一条条直直线线的的附附近近,而而不不是是在在一一条条直直线线上上,所所以以不不能能用用一一次次函函数数 y=bx+a y=bx+a来来描描述述它它们们之之间间的的关关系系.这这时时我我们们把把身身高高和和体体重重的的关关系系用用下下面面的的线线性性回回归归模模型型 y=bx+a+e y=bx+a+e(3 3),来表示2 2这这里里a a和和b b为为模模型型
9、的的未未知知参参数数,e,e是是y y与与bx+abx+a之之间间的的误误差差.通通常常e e为为随随机机变变量量,称称为为随随机机误误差差,它它的的均均值值E e=0,E e=0,方方差差D e=D e=0.0.这这样样线线性性回回归归模模型型的的完完整整表表达达式式为为:2ybxae,E e0,D e.(4 4)预报随机误差是引起的精度越高预报真实值用越小的方差随机误差中在线性回归模型.,4 2yabxe yy,.值 与真实值 之间存在误差的原因之一 其大小 取决于随机误差的方差 ,12ab,ab,yy.另一方面 由于公式和中 和 为截距和斜率的估计值 它们与真实值和之间也存在误差 这种误
10、差是引起预报值 与真实值 之间存在误差的另一个原因产产生生随随机机误误差差项项e e的的原原思思考考:因因是是什什么么?实实际际上上,一一个个人人的的体体重重值值除除了了受受身身高高的的影影响响外外,还还受受其其他他许许多多因因素素的的影影响响.例例如如饮饮 食食习习惯惯、是是否否喜喜欢欢运运动动、度度量量误误差差等等.另另外外,我我们们选选用用的的线线性性模模型型往往往往只只是是一一种种近近似似的的模模型型.所所有有这这些些因因素素都都会会导导致致随随机机误误差差e e的的产产生生.,ey,?x在在线线性性回回归归模模型型中中是是用用b+ab+a预预报报真真实实值值 的的随随机机误误差差 它
11、它是是一一个个不不可可观观测测的的量量 那那么么应应该该怎怎样样研研究究随随机机误误差差 如如何何衡衡量量探探预预报报的的精精度度究究 ybxa 在在实实际际应应用用中中,我我们们用用回回归归方方程程 ybxa.ey(bxa),eyye.中中的的 估估计计(4 4)中中的的由由于于随随机机误误差差所所以以是是 的的估估计计量量 1122nniiix,y,x,y,x,y,eybxa,i1,2,n.对对于于样样本本点点而而言言 相相应应它它们们的的随随机机误误差差为为其其估估计计值值为为iiiiiiiieyyybxa,i1,2,n,ex,y.,称称为为相相应应于于点点(的的残残 )差差思考:如何发
12、现数据中的错误?如何衡量模型的拟合效果?思考:如何发现数据中的错误?如何衡量模型的拟合效果?可以通过残差发现原始数据中的可疑数据,判断所建立模型的可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果拟合效果.表表3-23-2列出了女大学生身高和体重的原始数据以及相应的列出了女大学生身高和体重的原始数据以及相应的残差数据残差数据.382.0883.2627.6137.1618.4419.2627.2373.6e 5943616454505748kg/170155165175170157165165cm/87654321残差残差体重体重身高身高编号编号表表3-23-23.1-3我我们们可
13、可以以利利用用图图形形来来分分析析残残差差特特性性 作作图图时时纵纵坐坐标标为为残残差差 横横坐坐标标可可以以选选为为样样本本编编号号 或或身身高高数数据据或或体体重重估估计计值值等等 这这样样作作出出的的图图形形称称为为残残差差图图 图图是是以以样样本本编编号号为为横横坐坐标标的的残残差差图图 .,.从图从图3.1-33.1-3中可以看出,第中可以看出,第1 1个样本点和第个样本点和第6 6个样本点个样本点的残差比较大,的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集如果数据采集有错误,就予以纠正,然后再重新利用
14、线性回归模型拟合数据;如果数据有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因采集没有错误,则需要寻找其他的原因.另外,残差点比较均匀地落在水另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高说明模型拟合精度越高,回归方程的预报精度越高.2n2ii2i 1n2ii 1,R,yy:R1.yy另另外外 我我们们还还可可以以用用相相关关指指数数来来刻刻画画回回归归的的效效果果其其计计算算公公式式是是
15、222,R,.,R.R1,.显显然然取取值值越越大大 意意味味着着残残差差平平方方和和越越小小 也也就就是是说说模模型型的的拟拟合合效效果果越越好好在在线线性性回回归归模模型型中中表表示示解解释释变变量量对对于于预预报报变变量量变变化化的的贡贡献献率率越越 接接近近于于表表示示回回归归的的效效果果越越好好2 22 22 2 在在例例1 1中中,R,R 0.64,0.64,表表明明 女女大大学学生生的的身身高高解解释释了了64%64%的的体体重重变变化化,或或者者说说 女女大大学学生生的的体体重重差差异异有有64%64%是是由由身身高高引引起起的的.R.R 是是常常用用的的选选择择模模型型的的指
16、指标标之之一一,在在实实际际应应用用中中应应该该尽尽量量选选择择R R 大大的的回回归归模模型型.“”“”用用身身高高预预报报体体重重时时 需需要要注注意意下下列列问问题题,:1.1.回回归归方方程程只只适适用用于于我我们们所所研研究究的的样样本本的的总总体体.例例如如,不不能能用用女女大大学学生生的的身身高高和和体体重重之之间间的的回回归归方方程程,描描述述女女运运动动员员的的身身高高和和体体重重之之间间的的关关系系.同同样样,不不能能用用生生长长在在南南方方多多雨雨地地区区的的树树木木的的高高与与直直径径之之间间的的回回归归方方程程,描描述述北北方方干干旱旱地地区区的的树树木木的的高高与与
17、直直径径之之间间的的关关系系.2.2.我我们们所所建建立立的的回回归归方方程程一一般般都都有有时时间间性性.例例如如,不不能能用用2020世世纪纪8080年年代代的的身身高高、体体重重数数据据所所建建立立的的回回归归方方程程来来描描述述现现在在的的身身高高和和体体重重之之间间的的关关系系.3.3.样样本本取取值值的的范范围围会会影影响响回回归归方方程程的的适适用用范范围围.例例如如,我我们们的的回回归归方方程程是是由由女女大大学学生生身身高高和和体体重重的的数数据据建建立立的的,那那么么用用它它来来描描述述一一个个人人幼幼儿儿时时期期的的身身高高和和体体重重之之间间的的关关系系就就不不恰恰当当
18、.(.(在在例例1 1的的回回归归方方程程中中,解解释释变变量量x x的的样样本本的的取取值值范范围围为为155155175,175,而而用用这这个个方方程程计计算算x=70 x=70时时的的y y值值,显显然然不不合合适适.).)4.,.不不能能期期望望回回归归方方程程得得到到的的预预报报值值就就是是预预报报变变量量的的精精确确值值事事实实上上 它它是是预预报报变变量量的的可可能能取取值值的的平平均均值值一一般般地地,建建立立回回归归模模型型的的基基本本步步骤骤为为:(1 1)确确定定研研究究对对象象,明明确确哪哪个个变变量量是是解解释释变变量量,哪哪个个变变量量是是预预报报变变量量(2 2
19、)画画出出解解释释变变量量和和预预报报变变量量的的散散点点图图,观观察察它它们们之之间间的的关关系系(如如是是否否存存在在线线性性关关系系等等)(4 4)按按一一定定规规则则(如如最最小小二二乘乘法法)估估计计回回归归方方程程中中的的参参数数(5 5)得得出出结结果果后后分分析析残残差差图图是是否否有有异异常常(如如个个别别数数据据对对应应残残差差过过大大,残残差差呈呈现现不不随随机机的的规规律律性性等等),),若若存存在在异异常常,则则检检查查数数据据是是否否有有误误,或或模模型型是是否否合合适适等等.(3 3)由由经经验验确确定定回回归归方方程程的的类类型型(如如我我们们观观察察到到数数据
20、据呈呈线线性性关关系系,则则选选用用线线性性回回归归方方程程)探究点探究点2 2 回归分析的初步应用回归分析的初步应用测关于例例2 2一一只只红红铃铃虫虫的的产产卵卵数数y y和和温温度度x x有有关关.现现收收集集了了7 7组组观观数数据据列列于于表表3-33-3中中,试试建建立立yxyx的的回回归归方方程程.根根 据据 收收 集集 的的 据据 作作 散散 (3 3.1 1-4 4):.解解数数 点点 图图 x/2123 2527293235y/711212466 115 325温度产卵数个表表 3 3-3 3在图3.1-4中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,
21、不能直接利用线性回归模型来刻画两个变量之间的关系.图 3.14温 度/产卵数产卵数/个个2c x112 ,yc e,cc.根据已有的函数知识 可以发现样本点分布在某一条指数函数曲线的周围 其中 和是待定参数1212 ,cc.,zln y,zbxa(alnc,bc).,yx.现在 问题变为如何估计待定参数和我们可以通过对数变换把指数关系变为线性关系 令则变换后样本点应该分布在直线的周围这样 就可以利用线性回归模型来建立 关于的非线性回归方程 了当回归方程不是形如当回归方程不是形如y=bx+a(ay=bx+a(a,bR)bR)时,称之为时,称之为非线性回归方非线性回归方 程程.由表3-3的数据可以
22、得到变换后的样本数据表3-4,图3.1-5给出了表3-4中数据的散点图.从图3.1-5中可以看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.784.5745.4190.4178.3045.3398.2946.1z35322927252321x表343.15图x xz z4 z0.272x3.849.由表3中的数据得到线性回归方程 10.272x 3.849 ye.5234342 ,-4yc xc,cc.,tx,yt,yx.另一方面 可以认为图3.1 中样本点集中在某二次曲线的附近 其中和为待定参数 因此可以对温度变量做变换 即令然后建立 与 之间的线性回归方程 从而得到
23、 与 之间的非线性回归方程因 此 红 铃 虫 的 产 卵 数 关 于 温 度 的 非 线 性 回 归 方 程 为 表3-5是红铃虫的产卵数和对应的温度的平方,图3.1-6是相应的散点图.325115662421117y12251024841729625529441t表 35.16图 3t ty y234 .16,yt,yc xcyx.从图3中可以看出与 的散点图并不分布在一条直线的周围 因此不宜用线性回归方程来拟合它 即不宜用二次函数来拟合 与 之间的关系这个结论还可以通过残差分析得到 ,.yx,yx.35yt为比较两个不同模型的残差 需要建立两个相应的回归方程 前面已经建立了 关于 的指数回
24、归方程 下面建立 关于 的二次回归方程 用线性回归模型拟合表中的数据,得到 关于 的线性回归方程 222 y0.367t202.543,yx y0.367x202.543.6即关于的二次回归方程为 i 56.x331i1,56可以通过残差来比较两个回归方程和的拟合效果用表示表中第 行第列的数据 则回归方程和的残差计算公式分别为 i110.272x3.849iiiieyyye,i1,2,7;222iiiiieyyy0.367x202.543,i1,2,7.12x212325272932 35y711212466115 325 e0.5570.101 1.8758.9509.230 13.381
25、34.67 5 e47.69619.4005.83241.00040.10458.265 77.96836表 222 ,.,.R.R.656R0.980.8056.在一般情况下比较两个模型的残差比较困难 原因是在某些样本点上一个模型的残 差的绝对值比另一个模型的小 而另一些样本点的情况则相反 这时可以用来比较两个模型的拟合效果越大,模型的拟合效果越好 由表3容易算出模型和的分别约为和,因此模型的拟合效果好于模型 表36给出了原始数据及相应的两个回归方程的残差.从表中的数据可以看出模型 5 的残差的绝对值显然比模型 6 的残差的绝对值小,因此模型 5 的拟合效果比模型 6 的拟合效果好.1.1.
26、有下列说法有下列说法:在残差图中在残差图中,残差点比较均匀地落残差点比较均匀地落在水平的带状区域内在水平的带状区域内,说明选用的模型比较合适说明选用的模型比较合适.用相关指数用相关指数R R2 2来刻画回归的效果来刻画回归的效果,R,R2 2值越大值越大,说明模说明模型的拟合效果越好型的拟合效果越好.比较两个模型的拟合效果比较两个模型的拟合效果,可可以比较相关系数的大小以比较相关系数的大小,相关系数越大的模型相关系数越大的模型,拟合拟合效果越好效果越好.其中正确命题的个数是()其中正确命题的个数是()A.0A.0B.1B.1C.2C.2D.3D.3C C2.2.一位母亲记录了儿子一位母亲记录了
27、儿子3 39 9岁的身高,由此建立的身岁的身高,由此建立的身高与年龄的回归模型为高与年龄的回归模型为y=7.19x+73.93y=7.19x+73.93,用这个模型预用这个模型预测这个孩子测这个孩子1010岁时的身高,则正确的叙述是(岁时的身高,则正确的叙述是()A.A.身高一定是身高一定是145.83 cm B.145.83 cm B.身高在身高在145.83 cm145.83 cm以上以上 C.C.身高在身高在145.83 cm145.83 cm以下以下 D.D.身高在身高在145.83 cm145.83 cm左右左右D D 3.3.在研究身高和体重的关系时,求得相关指数在研究身高和体重的
28、关系时,求得相关指数 _,可以叙述为,可以叙述为“身高解释了身高解释了64%64%的的体重变化,而随机误差贡献了剩余的体重变化,而随机误差贡献了剩余的36%”36%”,所以身所以身高对体重的效应比随机误差的效应大得多高对体重的效应比随机误差的效应大得多.2R64.04.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:房屋面积房屋面积 11011090908080100100120120销售价格销售价格(万元)(万元)333331312828343439392(m)(1 1)画出数据对应的散点图)画出数据对应的散点图.(2 2)求线性回归方程)求线性回归方程.(3 3)据()据(2 2
29、)的结果估计当房屋面积为)的结果估计当房屋面积为150 150 时的时的销售价格销售价格.2m(提示:,)1221niiiniix ynx ybxnx aybx2 22 22 22 22 21 11 10 0+9 90 0+8 80 0+1 10 00 0+1 12 20 0=5 51 1 0 00 00 01103390318028100341203916 740解:解:(1 1)数据对应的散点图如图所示:)数据对应的散点图如图所示:1 2 0 x 8 0 9 0 1 0 0 1 1 0 销 售 价 格 2 5 3 0 3 5 4 0 7 0 y 2 0 y y房屋面积,5 5i ii i=
30、1 11 11 1(2 2)x x=x x=(1 11 10 0+9 90 0+8 80 0+1 10 00 0+1 12 20 0)=1 10 00 05 55 55111(3331283439)3355iiyy,52222221110908010012051 000iix,511103390318028100341203916 740iiix y,5152221516 7405100330.2451 00051005iiiiix yx ybxx,330.241009.aybx所以所以回归直线方程为回归直线方程为:0.249.ybxax(3 3)据()据(2 2)知知,当,当 时,销售价格的估计值时,销售价格的估计值为:为:2x150 m0.24150945(万 元).y(1 1)如何描述两个变量的关系?)如何描述两个变量的关系?线性回归方程:线性回归方程:(2 2)非线性回归模型的选用和建立)非线性回归模型的选用和建立.(3 3)利用残差比较不同模型的拟合效果)利用残差比较不同模型的拟合效果.ybxa 实现自己既定的目标,必须能耐得住寂寞单干.