1、 1信息管理学院信息管理学院 徐晔徐晔第第10章章 回归分析回归分析 2信息管理学院信息管理学院 徐晔徐晔 10.1 10.1 一元线性回归一元线性回归一、回归的概念一、回归的概念1885年年F.Galton(高尔登高尔登)选取了大量的豌豆种子选取了大量的豌豆种子,将将它们分成它们分成7个不同的重量组,然后说服住在各地的朋个不同的重量组,然后说服住在各地的朋友按照一致的指示种友按照一致的指示种70颗种子颗种子,每一重量组种每一重量组种10颗颗,连种两代连种两代,结果如下表结果如下表 种子直径种子直径(0.01英寸英寸)上一代上一代 15 16 17 18 19 20 21下一代下一代 15.4
2、 15.7 16.0 16.3 16.6 17 17.3注意到注意到:小个子豌豆的下一代没有上一代那么小小个子豌豆的下一代没有上一代那么小而大个子豌豆的下一代比上一代要小一些而大个子豌豆的下一代比上一代要小一些 3信息管理学院信息管理学院 徐晔徐晔F.Galton称这一现象为回复变异称这一现象为回复变异,他说他说:回复变异是理想平均子型回复变异是理想平均子型(下一代下一代)与父型与父型(上一代上一代)有差异的趋势使回复到可以粗糙地也许正确地称之有差异的趋势使回复到可以粗糙地也许正确地称之平均祖先型平均祖先型这就是回归现象这就是回归现象人类的身高也是如此人类的身高也是如此 4信息管理学院信息管理
3、学院 徐晔徐晔二、一元线性回归模型二、一元线性回归模型miXYi,2,1,和和设设具具有有相相关关关关系系的的变变量量称称为为解解释释变变量量的的量量是是可可以以控控制制或或精精确确观观测测其其中中,iX的的值值不不能能确确定定取取一一固固定定值值时时但但变变化化的的量量是是依依赖赖YXXYii,的的概概率率分分布布并并可可以以确确定定是是一一个个随随机机变变量量不不过过YY,记为记为的函数的函数并且是并且是有关有关与与的数学期望的数学期望,iiXXEYy),(21mxxxfEY 的的关关系系与与来来描描述述因因此此可可用用函函数数imxyxxxfy),(21 5信息管理学院信息管理学院 徐晔
4、徐晔的的回回归归方方程程对对称称为为mmxxxyxxxfy,),(2121 yY 令令 ),(21mxxxfY则则有有称称为为随随机机扰扰动动项项的的回回归归模模型型对对上上式式称称为为,21mxxxY 6信息管理学院信息管理学院 徐晔徐晔yx和和若若考考虑虑两两个个变变量量之之间间具具有有线线性性相相关关关关系系和和且且假假定定yx一元线性回归方程为一元线性回归方程为)(xfy 一元线性回归模型为一元线性回归模型为 )(xfYx10 x10称为回归系数称为回归系数10,1010,的的估估计计量量(值值)若若根根据据样样本本得得到到xy10 则则称称方方程程的的样样本本线线性性回回归归方方程程
5、对对为为xy 7信息管理学院信息管理学院 徐晔徐晔三、样本线性回归方程的建立三、样本线性回归方程的建立1.散点图散点图例例1.考察某种纤维的强度与其拉伸倍数的关系考察某种纤维的强度与其拉伸倍数的关系,下表是下表是实际测定的实际测定的24个纤维样品的强度与相应的拉伸倍数的个纤维样品的强度与相应的拉伸倍数的记录记录:iiyxiiyx 8信息管理学院信息管理学院 徐晔徐晔1234567891012345678912345678910123456789纤维强度随拉伸纤维强度随拉伸倍数增加而增加倍数增加而增加关关系系应应是是线线性性关关系系与与拉拉伸伸倍倍数数的的主主要要因因此此可可以以认认为为强强度度
6、y并且并且24个点大致分个点大致分布在一条直线附近布在一条直线附近xy10 即即xy8587.01505.0 事实上事实上,用用最小二乘法最小二乘法可以得到线性回归方程可以得到线性回归方程 9信息管理学院信息管理学院 徐晔徐晔2.最小二乘法最小二乘法ninyxyxii,2,1,),(,个样本点个样本点为为假定假定和和对变量对变量xyxy10 的回归方程的回归方程对对要求要求10,即求回归系数即求回归系数但几乎不可能但几乎不可能1010,的的估估计计出出因因此此可可以以利利用用样样本本点点做做xy10 从而得到回归方程的估计从而得到回归方程的估计上式称为样本回归方程上式称为样本回归方程其图象称为
7、样本回归直线其图象称为样本回归直线 10信息管理学院信息管理学院 徐晔徐晔尽尽可可能能接接近近与与样样本本点点希希望望样样本本回回归归直直线线),(10iiyxxy ),(iiyxixiyxy10iy 为此引入以下概念为此引入以下概念:残差残差:iiyy 回回归归直直线线偏偏离离程程度度与与描描述述样样本本点点),(iiyx残差平方和残差平方和SSE niiiyyQSSE12)(描述样本回归直线与所有样本点的拟合程度描述样本回归直线与所有样本点的拟合程度 11信息管理学院信息管理学院 徐晔徐晔残差平方和越小,拟合得就越好残差平方和越小,拟合得就越好最最小小使使因因此此要要求求SSE,10 ni
8、iiyyQSSE12)(niiixy1210)(求求偏偏导导和和对对的的最最小小值值为为求求残残差差平平方方和和10,QQ niiixyQ1100)(2 niiiixxyQ1101)(2 12信息管理学院信息管理学院 徐晔徐晔令偏导数为零令偏导数为零,得得0)(21100 niiixyQ 0)(21101 niiiixxyQ niiniiyxn1110 niiiniiniiyxxx112110 niix1乘乘以以加加n乘乘以以 13信息管理学院信息管理学院 徐晔徐晔 niixnx11记记 niiyny11iniiniiniininiiyxnyxxnxi 11112211)(niiniixnyn
9、111011 niixxxxL12)(niiyyyyL12)(niiixyyyxxL1)(2112)(1 niinixnxi2112)(1niiniynyiniiniiiniiyxnyx11112xsn 2ysn 2xysn 14信息管理学院信息管理学院 徐晔徐晔 niniiiniiniiniiixnxyxnyx12211111)(niiniixnyn111011 xxxyLL xy1 由此可得样本回归方程为由此可得样本回归方程为xy10 以上求样本回归方程的的方法称为最小二乘法以上求样本回归方程的的方法称为最小二乘法 15信息管理学院信息管理学院 徐晔徐晔例例1.考察某种纤维的强度与其拉伸倍
10、数的关系考察某种纤维的强度与其拉伸倍数的关系,下表是下表是实际测定的实际测定的24个纤维样品的强度与相应的拉伸倍数的个纤维样品的强度与相应的拉伸倍数的记录记录:数据数据P7.建立强度与拉伸倍数的线性回归方程建立强度与拉伸倍数的线性回归方程.解解:根据强度与拉伸倍数的样本数据根据强度与拉伸倍数的样本数据,可得可得127.5113.1829.61650.93731.6sum(x)sum(y)sum(x*x)sum(y*y)sum(x*y)niix1niiiyx15.127 niiy11.113niix1261.829 niiy1293.650 6.731 16信息管理学院信息管理学院 徐晔徐晔 n
11、iixnx11 niiyny1131.5245.127 71.4241.113 niixxxxL12)(2112)(1 niinixnxi27.152245.1276.8292 niiixyyyxxL1)(niiniiiniiyxnyx111176.130241.1135.12760.731 17信息管理学院信息管理学院 徐晔徐晔xxxyLL xy1 1 0 859.027.15276.130 15.031.5859.071.4 强度与拉伸倍数的样本强度与拉伸倍数的样本线性回归方程线性回归方程为为xy859.015.0 18信息管理学院信息管理学院 徐晔徐晔四、线性回归方程的线性相关关系的显著
12、性检验四、线性回归方程的线性相关关系的显著性检验关关系系之之间间是是否否存存在在线线性性相相关关与与要要判判断断xy是否为零是否为零中中关键是线性回归方程关键是线性回归方程110 xy 时时01 系系之之间间不不存存在在线线性性相相关关关关与与xy时时01 之之间间存存在在线线性性相相关关关关系系与与xy niiiyyQSSE12)(残差平方和残差平方和回归平方和回归平方和 niiiyyVSSR12)(xxxyLL2 19信息管理学院信息管理学院 徐晔徐晔检验检验 F.10:,0:1110 HH构造统计量构造统计量总离差平方和总离差平方和 niiiyyyyLSST12)(VQSSRSSE xx
13、xyyyLLLQSSE2 2 nSSESSRF)2,1(0 nFH原假设的拒绝域为原假设的拒绝域为)2,1(1 nFF 为为显显著著性性水水平平 20信息管理学院信息管理学院 徐晔徐晔例例2 对对例例1中的样本回归方程进行显著性检验中的样本回归方程进行显著性检验 )05.0(xxL27.152 xyL76.130 95.117 yyL解解由例由例1可知可知SSRxxxyLL2 29.11227.15276.1302 SSExxxyyyLLL2 66.529.11295.117 2 nSSESSRF46.4362266.529.112 统计量观测值为统计量观测值为)2,1(1 nF)22,1(9
14、5.0F 30.4)2,1(1 nFF 0:10 H拒绝拒绝即认为纤维强度即认为纤维强度y与拉伸倍数与拉伸倍数x间存在线性相关关系间存在线性相关关系,回归效果显著回归效果显著查表得临界值查表得临界值 21信息管理学院信息管理学院 徐晔徐晔2.相关系数检验相关系数检验定义比值定义比值yyxxxyLLL 为样本相关系数为样本相关系数0:10 H对于假设对于假设其拒绝域为其拒绝域为)2(|n 时相关系数临界值时相关系数临界值是显著性水平为是显著性水平为其中其中 )2(n 22信息管理学院信息管理学院 徐晔徐晔即认为纤维强度即认为纤维强度y与拉伸倍数与拉伸倍数x间存在线性相关关间存在线性相关关系系,线
15、性回归方程有效线性回归方程有效例例3 对例对例1中的样本回归方程进行相关系数检验中的样本回归方程进行相关系数检验)05.0(解解样本相关系数为样本相关系数为yyxxxyLLL xxL27.152 xyL76.130 95.117 yyL由例1可知95.11727.15276.130 976.0 查表的相关系数临界值查表的相关系数临界值)2(n )22(05.0 404.0|976.0)2(n 404.0 23信息管理学院信息管理学院 徐晔徐晔五、预测五、预测xy10 样本线性回归方程为样本线性回归方程为0 xx 若给定若给定应是一个随机变量应是一个随机变量的取值的取值变量变量0yy的的一一个个
16、置置信信区区间间用用样样本本回回归归方方程程给给出出时时此此时时在在置置信信度度为为0,1y )(),(0000 xyxy 0100 xy 其中其中)(0 x xxLxxnSnt2021)(11)2(22 nSSES22 nLLLxxxyyy 24信息管理学院信息管理学院 徐晔徐晔时时接接近近且且很很大大当当样样本本容容量量xxn0,)(0 x Su 21)2(21 nt 21 uxxLxxn20)(11 1 则则 25信息管理学院信息管理学院 徐晔徐晔例例4.预测例预测例1中中解解xxL27.152 xyL76.130 95.117 yyL由例由例1可知可知样本线性回归方程样本线性回归方程为
17、为)05.0(yx时时的的纤纤维维强强度度拉拉伸伸倍倍数数40 xy859.015.0 00859.015.0 xy 4859.015.0 586.3 22 nSSES22 nLLLxxxyyy257.02266.5 51.0 S31.5 x 26信息管理学院信息管理学院 徐晔徐晔)(0 x xxLxxnSnt2021)(11)2()2(21 nt 0739.2)22(975.0t 27.152)31.54(241151.00739.22 08.1)4(因此拉伸倍数为4时,纤维强度的0.95-置信区间为)(),(0000 xyxy )666.4,506.2(27信息管理学院信息管理学院 徐晔徐晔作业作业3.P268 练习10.2