1、1应用多元统计分析应用多元统计分析第四章第四章 回归分回归分析析2第四章第四章 回归分析目录4.1 经典多元线性回归经典多元线性回归4.2 回归变量的选择与逐步回归回归变量的选择与逐步回归4.3 多因变量的多元线性回归多因变量的多元线性回归4.4 多因变量的逐步回归多因变量的逐步回归4.5 双重筛选逐步回归双重筛选逐步回归3第四章第四章 回归分析 回归分析是处理多个变量间相关关系回归分析是处理多个变量间相关关系的一种数学方法的一种数学方法.变量间的关系有两种类型变量间的关系有两种类型:确定性的函确定性的函数关系和相关关系数关系和相关关系.回归分析方法是处理回归分析方法是处理变量间相关关系的有力
2、工具变量间相关关系的有力工具.回归分析用于确定一个或几个连续变回归分析用于确定一个或几个连续变量量(称为响应变量、因变量或指标称为响应变量、因变量或指标)与另一些与另一些连续变量连续变量(称为自变量或因素称为自变量或因素)间的相互依赖间的相互依赖关系关系.4第四章第四章 回归分析 如果只要考察某一个因变量与如果只要考察某一个因变量与其余多个变量的相互依赖关系其余多个变量的相互依赖关系.我我们称为多元回归问题们称为多元回归问题.如果要同时考察如果要同时考察p个因变量与个因变量与m个自变量的相互依赖关系个自变量的相互依赖关系,我们称我们称为多因变量的多元回归问题(或简为多因变量的多元回归问题(或简
3、称为多对多回归)称为多对多回归).5第四章第四章 回归分析具体地说具体地说,我们研究以下几方面问题:我们研究以下几方面问题:建立因变量建立因变量Y(或或Y1,Yp)与与x1,x2,xm的经的经验公式验公式(回归方程回归方程);对经验公式的可信度进行检验;对经验公式的可信度进行检验;判断每个自变量判断每个自变量xi(i=1,m)对对Y(或或Y1,Yp)的影响是否显著的影响是否显著?利用经验公式利用经验公式(回归关系式回归关系式)进行预报和控进行预报和控制制,并用于指导生产;并用于指导生产;诊断经验公式是否适合这组数据。诊断经验公式是否适合这组数据。6第四章第四章 回归分析 在一元统计分析中讨论的
4、多元线性回归是只在一元统计分析中讨论的多元线性回归是只考虑一个因变量的回归问题考虑一个因变量的回归问题.多元统计分析中讨论的回归问题是指有多个多元统计分析中讨论的回归问题是指有多个因变量的回归问题因变量的回归问题,它自然把一元统计中的回归它自然把一元统计中的回归作为特例作为特例.因多元线性回归问题在实际应用中更因多元线性回归问题在实际应用中更为广泛为广泛,它涉及的统计推断结论能够推广到多因它涉及的统计推断结论能够推广到多因变量的多元线性回归的问题中变量的多元线性回归的问题中.本章首先不加证明地介绍经典多元线性回归本章首先不加证明地介绍经典多元线性回归、逐步回归的一些结论,然后简单介绍多因变、逐
5、步回归的一些结论,然后简单介绍多因变量的多元线性回归和双重筛选逐步回归量的多元线性回归和双重筛选逐步回归.7第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 多元线性回归模型多元线性回归模型 多元回归分析是研究因变量多元回归分析是研究因变量Y与与m个自变量个自变量x1,x2,.,xm的相关关系的相关关系.而且总是假设因变量而且总是假设因变量Y是随机变量是随机变量,而而x1,x2,.,xm 为一般变量为一般变量.假定因变量假定因变量Y与与x1,x2,.,xm 线性相关线性相关.收集到的收集到的n组组数据数据(yt,xt1,xt2,.,xtm )(t=1,2,n)满足以下回归模型:满
6、足以下回归模型:(4.1.1)8第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 多元线性回归模型多元线性回归模型 记记 9第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 多元线性回归模型多元线性回归模型 则则(4.1.1)的矩阵形式为的矩阵形式为 Y=C+,E()=0,D()=2In,或或 Y=C+,Nn(0,2In),(4.1.2)(4.1.3)并称模型并称模型(4.1.2)或或(4.1.3)为经典多元线性回归模为经典多元线性回归模型型.其中其中Y是可观测的随机向量是可观测的随机向量,是不可观测的是不可观测的随机向量随机向量,C是已知矩阵是已知矩阵,2是未知参
7、数是未知参数.并设并设nm,且且rk(C)=m+1.10第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 多元线性回归模型多元线性回归模型 在经典回归分析中在经典回归分析中,我们讨论多元线我们讨论多元线性回归模型中未知的参数向量性回归模型中未知的参数向量=(0,1,m)和和2的估计和检验问题的估计和检验问题.在近代回归分析中讨论变量筛选、在近代回归分析中讨论变量筛选、估计的改进及对模型中的一些假定进估计的改进及对模型中的一些假定进行诊断行诊断.11第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 参数向量参数向量的最小二乘估计的最小二乘估计 定义定义4.1.1 在模
8、型在模型(4.1.2)中,参数中,参数的最小的最小二乘估计量二乘估计量b=(b0,b1,bm)是使误差平方和是使误差平方和Q(b)达最小达最小.即即其中其中 12第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 参数向量参数向量的最小二乘估计的最小二乘估计 ,111)()2()1(1221111nnmnmmcccxxxxxxC记记,)()2()1(ncccC则则)()(),()()()()1(1)()1(112)(12110CYCYcycycycycyxxyQnnnnntttnttmmtt13第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归参数向量参数向量的最小二乘
9、估计的最小二乘估计 定理定理4.1.1 设设rk(C)=m+1n,则则 b=(CC)-1CY=BY 是是的最小二乘估计的最小二乘估计(其中其中B=(CC)-1C).参数向量参数向量的最小二乘估计的最小二乘估计=b正好是正好是m+1阶阶的线性方程组的线性方程组 CC=CY的解的解.常称以上方程组为常称以上方程组为正规方程正规方程.预测向量为预测向量为 Y=C b=HY,其中其中H=C(CC)-1C称为称为“帽子帽子”矩阵矩阵。14第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 参数向量参数向量的最小二乘估计的统计性质的最小二乘估计的统计性质 的最小二乘估计量的最小二乘估计量b有以
10、下性质:有以下性质:(1)b是是的极小方差线性无偏估计的极小方差线性无偏估计.(2)bNm+1(,2(CC)-1).因因b=BY,Y Nn(C,2In),故故b服从正态分布服从正态分布,且且 E(b)=BC=(CC)-1CC=,D(b)=B2InB=2(CC)1.(3)在在Nn(0,2 In)的假定下的假定下,b还是一切还是一切无偏估计中方差最小的估计无偏估计中方差最小的估计.15第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 2的估计的估计 最小二乘法没有给出最小二乘法没有给出2的估计的估计.利用最大似然利用最大似然原则可得原则可得的最大似然估计量仍为的最大似然估计量仍为b,
11、同时给出了同时给出了2 的最大似然估计为的最大似然估计为但因但因2不是不是2 的无偏估计量的无偏估计量.通常取通常取s 2作为作为2的估计的估计:16第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 2的估计的估计)()()()()()()(1是对称幂等阵因HIPPYYYHIYYHIYCCCCYCbYCbYbQnnn(定理定理4.1.24.1.2的证明的证明)0,()()()(PCCYPCCYPCCYPYYbQ)1()(tr)(tr)(Etr)(tr(E)(tr(E)(E)(E222mnPIPPPPPbQn17第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 回归方
12、程的显著性检验回归方程的显著性检验 在实际问题中在实际问题中,我们事先并不能判定因变量我们事先并不能判定因变量Y与变量与变量x1,x2,xm 之间确有线性关系之间确有线性关系.在求出在求出回归系数回归系数的估计之前的估计之前,回归模型回归模型(4.1.2)只是一种只是一种假定假定,尽管这种假定常常不是没有根据的尽管这种假定常常不是没有根据的,但在但在求出线性回归方程后求出线性回归方程后,还需对还需对Y与与x1,x2,.,xm 有有否线性关系进行统计检验否线性关系进行统计检验,以给出肯定或者否定以给出肯定或者否定的结论的结论.我们假定我们假定E(Y)=0+1 x1+mxm,如果如果Y与与x1,x
13、2,.,xm之间均无线性相关关系之间均无线性相关关系,则以上模型中则以上模型中xi(i=1,2,m)的系数的系数i 应均为应均为0.18第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 回归方程的显著性检验回归方程的显著性检验 首先应检验以下假设:首先应检验以下假设:H0:1=2=.=m=0使用的方法仍是方差分析法。从分析引起使用的方法仍是方差分析法。从分析引起yt(t=1,n)变化的总变差变化的总变差Total SS的原因入手。显然使得的原因入手。显然使得Y变化的变化的原因有二个:原因有二个:第一第一,因因Y与与xi(i=1,m)线性相关,由线性相关,由xi的变化引起的变化引起
14、Y的变化的变化(Model SS);第二,其它因素或误差引起的第二,其它因素或误差引起的(Error SS)。若。若Y的变的变化主要是由化主要是由xi的变化引起的,则模型中的自变量的变化引起的,则模型中的自变量xi的系的系数数i0。用方差分析的思想用方差分析的思想,把把yt(t=1,n)的总变差进行分解:的总变差进行分解:Total SS=Model SS+Error SS19第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 回归方程的显著性检验回归方程的显著性检验-平方和分解公式平方和分解公式 niiniiiniiyyyyyy121212)()()(引理引理4.1.1 对任给定
15、的观测数据阵对任给定的观测数据阵 恒有公式恒有公式:其中其中).,1(11101nixxyynyimmiinii(4.1.4)20第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 回归方程的显著性检验回归方程的显著性检验-平方和分解公式平方和分解公式 而而=(CC)-1CY是是的最小二乘估计的最小二乘估计.公式公式(4.1.4)称为平方和分解公式称为平方和分解公式.平方和分解公式平方和分解公式(4.1.4)的左边的左边(yi-y)2体现了体现了Y的观测值的观测值y1,y2,.,yn 总波动大小,称为总偏差总波动大小,称为总偏差平方和平方和,记作记作lyy(或或TSS).(4.1.
16、4)式右边的第二项式右边的第二项(yi-y)2体现了体现了n个估计值个估计值 y1,y2,.,yn的波动大小的波动大小;它是由于它是由于Y与变量与变量x1,x2,.,xm 之间确有线性关之间确有线性关系而通过系而通过x1,x2,.,xm 的变化而引起的变化而引起,我们称它为我们称它为回归平方和或模型平方和回归平方和或模型平方和,记为记为U(或或MSS)21第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 回归方程的显著性检验回归方程的显著性检验-平方和分解公式平方和分解公式 (4.1.4)式右边第一项式右边第一项(yi-yi)2=2称为残差平方和称为残差平方和,记记为为Q(或或E
17、SS).在模型在模型(4.1.2)假定下假定下,即即E(Y)=0+1 x1+mxm,Q是由于随机误差引起的是由于随机误差引起的.实际上模型实际上模型(4.1.2)只是一种假只是一种假定定,变量变量x1,x2,.,xm和和Y的关系除了线性关系外的关系除了线性关系外,可能还可能还有非线性的关系有非线性的关系.Q是除了是除了x1,x2,.,xm对对Y的线性关系之的线性关系之外的一切其它因素外的一切其它因素(包括包括x1,x2,.,xm对对Y的非线性关系的非线性关系及随机误差及随机误差)引起的引起的.故故Q也称为剩余平方和或误差平方也称为剩余平方和或误差平方和和.利用以上记号利用以上记号(4.1.4)
18、式可简写为式可简写为:lyy=Q+U,或或 TSS=ESS+MSS,(4.1.5)22第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归回归方程的显著性检验回归方程的显著性检验-平方和分解公式平方和分解公式 Error SS=ESS=Y(I-C(C C)-1C )Y=Error SS/(n-m-1)R2=Model SS/Total SS =U/lyy 称为决定系数;称为决定系数;而而R称为复相关系数。称为复相关系数。23第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 回归方程的显著性检验回归方程的显著性检验定理定理4.1.3 4.1.3 定理定理4.1.3 在模型
19、在模型(4.1.3)下有下有 24第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 回归方程的显著性检验回归方程的显著性检验-定理定理4.1.3 4.1.3 ).1(1:.1)(tr,),0(,)(222mnQmnPPINPbQQnn知由第三章第一节的结论且是对称幂等阵而 定理的结论定理的结论(1)前面已经证明前面已经证明.(2)因因25第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 回归方程的显著性检验回归方程的显著性检验-定理定理4.1.3 4.1.3 (3)因因 Q=P,.)()()()()(111相互独立与故因且QOHICPCOBPCCCBBCCCCYCC
20、Cbn(4)YPDYPYYYnIYPYYYYYYQlUnnnnnyy)()111()1()1(因26第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 回归方程的显著性检验回归方程的显著性检验-定理定理4.1.3 4.1.3 ),()(14).,1(,1)1(,.)1()1()(tr,2220000mYPDYINYOXCHmmnnPDPDnnnnn知由第三章第一节的结论所以下在且是对称幂等阵可以验证27第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 回归方程的显著性检验回归方程的显著性检验-定理定理4.1.3 4.1.3 非中心参数非中心参数 为为0)11()1(1
21、1)()1(1002002nnnnnPDPD).()(1222mYPDYU所以28第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 回归方程的显著性检验回归方程的显著性检验 为检验为检验H0,由总变差的分解公式:由总变差的分解公式:Total SS=MSS+ESS可构造检验假设的检验统计量可构造检验假设的检验统计量F F=MSS/fm MMS(模型均方)模型均方)ESS/fe MSE(均方误差)(均方误差)在在H0成立时成立时,检验统计量检验统计量FF(m,n-m-1),其中其中fm=m和和fe=n-m-1分别称为模型的自由度和误差的自由度分别称为模型的自由度和误差的自由度.29
22、第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 回归方程的显著性检验回归方程的显著性检验 由观测数据计算由观测数据计算F F 值及显著性概率值及显著性概率(p p值值),p p值是指在值是指在H H0 0下,利用下,利用F F 的分布规的分布规律,计算出检验统计量律,计算出检验统计量F F大于或等于样本大于或等于样本F F 值(即比该组样本得到的值(即比该组样本得到的F F 值更极端值更极端的事件)的概率。若得出的的事件)的概率。若得出的p p值很小值很小(小小于显著性水平于显著性水平),依统计思想,小概率,依统计思想,小概率事件在一次实践中一般不会发生。如果事件在一次实践中一
23、般不会发生。如果发生小概率事件,将否定前提假定发生小概率事件,将否定前提假定H H0 0.30第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 正规方程的等价形式及正规方程的等价形式及U U的计算公式的计算公式 回归模型回归模型(4.1.1)可以改写为可以改写为(4.1.7)它与原模型它与原模型(4.1.1)没有本质差别,只不过是没有本质差别,只不过是 模型模型(4.1.7)的特点是对观测数据的特点是对观测数据(yt,xt1,xt2,.,xtm )(t=1,2,n)做了中心化处理做了中心化处理.下面将说明在下面将说明在(4.1.7)下得下得到的正规方程的形式到的正规方程的形式.3
24、1第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 正规方程的等价形式及正规方程的等价形式及U U的计算公式的计算公式记记 32第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 正规方程的等价形式及正规方程的等价形式及U U的计算公式的计算公式则则(4.1.7)的矩阵形式为的矩阵形式为 正规方程为:正规方程为:又又 其中其中.YCCC33第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 正规方程的等价形式及正规方程的等价形式及U U的计算公式的计算公式而而 其中其中 于是正规方程可写为:于是正规方程可写为:(修改修改P112).),2,1,()(1mj
25、ixxxxlnkjkjikiij34第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 正规方程的等价形式及正规方程的等价形式及U U的计算公式的计算公式 由此可得出由此可得出*0=0,故正规方程的另一等价形故正规方程的另一等价形式为式为 LB=l,(4.1.8)其中其中(4.1.8)是是m阶线性方程组阶线性方程组,解解(4.1.8)得得B的的最小二乘估计为:最小二乘估计为:35第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 正规方程的等价形式及正规方程的等价形式及U U的计算公式的计算公式数据中心化后的线性回归模型数据中心化后的线性回归模型(4.1.7)可表为可表
26、为(4.1.9)因为因为 所以回归平方和所以回归平方和U有以下计算公式有以下计算公式:,1),1()1(BXyYYyYyYUnnnmymyyllllBBLBBXBXU)(221136第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 多元线性回归的简单例子多元线性回归的简单例子 设因变量设因变量Y与与x1,x2线性相关线性相关,n=5次观测数据次观测数据如下如下:x1 x2 Y 0 -1 11 -1 42 2 3 3 3 84 2 9设设n次观测数据满足次观测数据满足:),.,1(221110nixxYiiii(1)试求参数试求参数 0,1,2 的最小二乘估计的最小二乘估计;(2)
27、计算计算(3)计算回归平方和计算回归平方和U及决定系数及决定系数R2.;)5,.,2,1(,QiYii及残差平方和37第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 多元线性回归的简单例子多元线性回归的简单例子(1)试求参数试求参数 0,1,2 的最小二乘估计的最小二乘估计;假设假设n=5次观测数据满足次观测数据满足:)5,.,1(221110ixxYiiii.,98341,241331221111101其中,),0(54321210525YCINCY38第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 多元线性回归的简单例子多元线性回归的简单例子 解一解一:因因
28、437025,192052030105105YCCC555579591720150505050709050901702001)(1CC所以参数所以参数 0,1,2 的最小二乘估计的最小二乘估计:5.05.25.0105010201)(1YCCC39第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 多元线性回归的简单例子多元线性回归的简单例子(2)由由)5,.,1(5.05.25.021ixxYiii512),5,1(iiiiiiQiYy经计算可得经计算可得:5)5.0(5.1)5.1(5.00,5.05.15.15.00,5.95.65.45.312222QYYY残差平方和残差平
29、方和Q为为40第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 多元线性回归的简单例子多元线性回归的简单例子8913.0464141546,46)(212yyyyniiyylURQlUyyl(3)计算回归平方和计算回归平方和U及决定系数及决定系数R2:总偏差平方和总偏差平方和由平方和分解公式可得回归平方和由平方和分解公式可得回归平方和U为为:决定系数为决定系数为:41第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 多元线性回归的简单例子多元线性回归的简单例子 解二解二:(1)把数据中心化把数据中心化)5,1,2(21yxx432145958535451,12211
30、0212214241323122211211120YX由中心化后的正规方程可得由中心化后的正规方程可得:22110121,)(xxyYXXXB42第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 多元线性回归的简单例子多元线性回归的简单例子 由由1820,14101010YXXX1114.14110101014401)(1XX所以参数所以参数 1,2 的最小二乘估计的最小二乘估计:5.05.2181041)(1YXXXB5.015.025.2522110 xxy43第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 多元线性回归的简单例子多元线性回归的简单例子(2)由
31、由)5,.,1(5.05.25.021ixxYiii512),5,1(iiiiiQiYy经计算可得经计算可得:5)5.0(5.1)5.1(5.00,5.05.15.15.00,5.95.65.45.312222QYYY残差平方和残差平方和Q为为44第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 多元线性回归的简单例子多元线性回归的简单例子8913.04641411820)5.0,5.2(4622211yyyyyylURllUYYl(3)计算回归平方和计算回归平方和U及决定系数及决定系数R2:总偏差平方和总偏差平方和由回归平方和由回归平方和U的另一计算公式计算可得的另一计算公式计
32、算可得:决定系数为决定系数为:复相关系数复相关系数.9441.08913.0R45第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归回归系数的显著性检验回归系数的显著性检验 对回归方程的显著性检验对回归方程的显著性检验,若否定若否定H0,仅表示仅表示1,2,m不全为不全为0,但并不排除有个别但并不排除有个别i为为0。若。若i=0,说明说明自变量自变量xi对因变量对因变量Y的影响不明显的影响不明显,应从回归模型中删应从回归模型中删除。因此对回归系数除。因此对回归系数i(i=1,2,m)是否为是否为0逐个进行逐个进行检验是很必要的。即检验以下的假设:检验是很必要的。即检验以下的假设:H
33、(i):i=0(i=1,2,m)类似地,可构造检验以上假设的检验统计量类似地,可构造检验以上假设的检验统计量T,并由并由n组观测计算组观测计算T值和显著性概率值和显著性概率(p值值)。从而对。从而对H(i)是否是否成立进行统计推断。成立进行统计推断。46第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归回归系数的显著性检验回归系数的显著性检验 我们引进偏回归平方和的概念我们引进偏回归平方和的概念.它是刻划某它是刻划某个自变量对个自变量对Y作用大小的统计量作用大小的统计量.定义定义4.1.2 称称 Pi=U-U(i)(或或Pi=Q(i)-Q)为变量为变量xi的的偏回归平方偏回归平方和
34、和.其中其中U为为x1,xm对对Y的回归平方和的回归平方和.U(i)为去掉为去掉xi后余下的后余下的m-1个变量对个变量对Y的回的回归平方和归平方和.47第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归回归系数的显著性检验回归系数的显著性检验 还可以证明还可以证明Pi 的计算公式为的计算公式为 其中其中lii为为L-1的第的第i个对角元素个对角元素.,),2,1(2milPiiii Pi表示去掉变量表示去掉变量xi后回归平方和减少后回归平方和减少(或或残差平方和增加残差平方和增加)的数值的数值,这个数值大这个数值大,说明说明xi重要重要,这个数值小这个数值小,说明说明xi不重要不
35、重要.48第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归回归系数的显著性检验回归系数的显著性检验检验检验H0:i=0(i=1,2,m)的检验统计量选为的检验统计量选为 由定理由定理4.1.3知知Q/22(n-m-1).又已知又已知 所以所以,)1/(/,)1/(mnQltmnQPFiiiiii或49第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 回归系数的显著性检验回归系数的显著性检验且与且与Q相互独立,所以相互独立,所以),1()1/(/),1,1()1/(mntmnQltmnFmnQPFiiiiii或50第四章第四章 4.1 4.1 经典多元线性回归经典多元
36、线性回归 回归系数的显著性检验回归系数的显著性检验 给定检验水平给定检验水平,由样本观测数据计算由样本观测数据计算Q、Pi及检验统计量的值及检验统计量的值(记为记为fi),并计算显并计算显著性概率值著性概率值(p值值):p=P Fi fi .若若p,否定否定H0,即认为即认为xi 对对Y的作用是显著的作用是显著(xi 在回归方程中是显著的在回归方程中是显著的);否则否则H0,相容相容.51第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 建立建立“最优最优”回归方程回归方程 所谓所谓“最优最优”回归方程是指包含所有在检验水平回归方程是指包含所有在检验水平下对下对Y作用显著的变量作
37、用显著的变量,而不包含在检验水平而不包含在检验水平下对下对Y作作用不显著的变量的回归方程用不显著的变量的回归方程.经对经对m个变量逐个做检验个变量逐个做检验后后,如如m个变量在给定的检验水平个变量在给定的检验水平下对下对Y作用都是显著作用都是显著的的,即认为所得方程就是即认为所得方程就是“最优最优”回归方程回归方程.如果有不显著变量如果有不显著变量,则每次只能剔除一个则每次只能剔除一个,然后由余然后由余下的变量和下的变量和Y再做回归再做回归,然后再逐个检验然后再逐个检验,每次只许剔除每次只许剔除一个最不重要的变量一个最不重要的变量.重复以上步骤重复以上步骤,直至方程中的变量直至方程中的变量都是
38、重要变量为止都是重要变量为止.这时得到的方程即为这时得到的方程即为“最优最优”回归回归方程方程.利用这个方程可对生产过程作预报或进行控制利用这个方程可对生产过程作预报或进行控制.52第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归 预测值和预测区间预测值和预测区间-选项选项:P,CLM,CLI预测残差平方和预测残差平方和 预测值预测值(P):(P):均值均值E(y)E(y)的置信限的置信限(CLM):(CLM):/2Var()yty预测值预测值y y置信限置信限(CLI)CLI):/2Var()y tyy CY niiiiyy12)(PRESS53第四章第四章 4.1 4.1 经
39、典多元线性回归经典多元线性回归回归分析的例子(回归分析的例子(REGREG)例例4.1.1(水泥数据水泥数据)某种水泥在凝固时所某种水泥在凝固时所释放的热量为释放的热量为Y(卡(卡/克)与水泥中下列四种化克)与水泥中下列四种化学成份有关:学成份有关:x1-3CaO.Al2O3的成分的成分(%);x2-3CaO.SiO2的成分的成分(%);x3-4CaO.Al2O3.Fe2O3的成分的成分(%);x4-2CaO.SiO2的成分的成分(%).共观测了共观测了13组数据组数据(见表见表4.1),试求出,试求出Y与与x1,x2,x3,x4 的回归关系式,并对回归方程和各的回归关系式,并对回归方程和各个
40、回归系数进行检验个回归系数进行检验.54第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归回归分析的例子(回归分析的例子(REGREG)表表4.1 水泥数据水泥数据 55第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归回归分析的例子(回归分析的例子(REGREG)解解 使用使用SAS/STAT软件中最常用的软件中最常用的REG过程来完过程来完成经典多元线性回归分析中的估计和检验问题成经典多元线性回归分析中的估计和检验问题.一般先用一般先用DATA步创建步创建SAS数据集数据集,设该数据集的名设该数据集的名字为字为d411.用用REG过程对过程对d411数据进行回归计算
41、:数据进行回归计算:proc reg data=d411;model y=x1-x4;title “水泥数据水泥数据 的多元回归模型的多元回归模型”;run;REG过程产生的主要结果见输出过程产生的主要结果见输出4.1.1.56第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归回归分析的例子(回归分析的例子(REGREG)57第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归回归分析的例子(回归分析的例子(REGREG)输出输出4.1.14.1.1给出以下几方面结果:给出以下几方面结果:回归方程:回归方程:Y Y=62.4054+1.5511=62.4054+1.551
42、1x1 1+0.5102+0.5102x2 2+0.1019+0.1019x3 3-0.1441-0.1441x4 4.回归方程显著性检验的结果:由方差分析表可得回归方程显著性检验的结果:由方差分析表可得平方和分解式为:平方和分解式为:2715.7631=2667.8994+47.86362715.7631=2667.8994+47.8636;误差的均方为误差的均方为Error MS=47.86364/8=Error MS=47.86364/8=5.982955.98295是模型中是模型中误差方差误差方差2 2的估计的估计.给出检验统计量给出检验统计量F F 值值=111.479,=111.4
43、79,p p值为值为0.0001,0.0001,表示表示拟合的模型是高度显著的拟合的模型是高度显著的,该模型解释了这组数据总变该模型解释了这组数据总变差中的主要部分差中的主要部分.58第四章第四章 4.1 4.1 经典多元线性回归经典多元线性回归回归分析的例子(回归分析的例子(REGREG)回归系数显著性检验的结果回归系数显著性检验的结果:参数估计表不仅:参数估计表不仅给 出 回 归 方 程 的 系 数给 出 回 归 方 程 的 系 数,并 给 出 检 验并 给 出 检 验 H H(i)0 0:i i=0 =0 (i=0,1,=0,1,m)的结果的结果.见该表的最后一列见该表的最后一列“Pro
44、bProbT T”(即显著性概率即显著性概率p值值),),若给定若给定=0.05,=0.05,常数项常数项(或称截或称截距项距项)和和4 4个自变量的个自变量的p值均值均,这与回归方程高度显这与回归方程高度显著产生矛盾著产生矛盾.从后面的讨论将看到此现象是因为从后面的讨论将看到此现象是因为4 4个自个自变量间存在较强的相关性变量间存在较强的相关性.为了得到为了得到“最优最优”回归方程回归方程,应从方程中删除最不重要的变量,应从方程中删除最不重要的变量(如如x3 3,因因x3 3的的p值值=0.89590.8959为最大为最大),重新建立,重新建立Y Y与其余变量的回归方程后与其余变量的回归方程
45、后再检验再检验.我们将在我们将在4.24.2中介绍变量选择问题中介绍变量选择问题.有关的回归统计量有关的回归统计量:决定系数:决定系数R2 2=0.9824,=0.9824,标准差标准差的估计量的估计量(Roo(Root MSE)MSE)为为2.44601,2.44601,回归平方和回归平方和U=2667.8994,=2667.8994,残差平方和残差平方和 Q=47.9837.=47.9837.59第四章第四章4.24.2回归变量的选择与逐步回归回归变量的选择与逐步回归 在实际问题中在实际问题中,影响因变量影响因变量Y的因素的因素(自变量自变量)可能很多可能很多,人们希望从中挑选出影响显著的
46、自人们希望从中挑选出影响显著的自变量来建立回归关系式变量来建立回归关系式,这就涉及到变量选择这就涉及到变量选择问题问题.在回归方程中若漏掉对在回归方程中若漏掉对Y影响显著的变量,影响显著的变量,那么建立的回归式用于预测时会产生大的偏差那么建立的回归式用于预测时会产生大的偏差.但回归式中若包含的变量太多但回归式中若包含的变量太多,且其中有些对且其中有些对Y影响不大影响不大,显然这样的回归式不仅使用不方显然这样的回归式不仅使用不方便便,而且反而会影响预测的精度而且反而会影响预测的精度.因而选择合适因而选择合适的变量用于建立一个的变量用于建立一个“最优最优”的回归方程是十的回归方程是十分重要的问题分
47、重要的问题.60第四章第四章4.24.2回归变量的选择与逐步回归回归变量的选择与逐步回归变量选择问题变量选择问题 什么是“最优最优”回归方程回归方程?直观考虑应直观考虑应该是方程中包含的所有变量对因变量该是方程中包含的所有变量对因变量Y的的影响都是显著的;而不包含在方程中的影响都是显著的;而不包含在方程中的变量对变量对Y的影响是不显著的的影响是不显著的(可忽略可忽略)。也就是从自变量集也就是从自变量集x1,x2,,xm中选中选出适当的子集出适当的子集xi1,xi2,,xil(l=m),使,使得建立得建立Y与与xi1,xi2,,xil 的回归方程就是的回归方程就是这样的这样的“最优最优”回归方程
48、。这就是回归回归方程。这就是回归变量的选择问题变量的选择问题。61第四章第四章4.24.2回归变量的选择与逐步回归回归变量的选择与逐步回归变量选择问题变量选择问题 回归变量的选择问题在实用上和理论回归变量的选择问题在实用上和理论上都是十分重要的。这个问题最大的困难上都是十分重要的。这个问题最大的困难就是如何比较不同选择就是如何比较不同选择(即不同子集即不同子集)的优的优劣,即最优选择的标准。从不同的角度出劣,即最优选择的标准。从不同的角度出发,可以有不同的比较准则,在不同的准发,可以有不同的比较准则,在不同的准则下,则下,“最优最优”回归方程也可能不同。回归方程也可能不同。62第四章第四章4.
49、24.2回归变量的选择与逐步回归回归变量的选择与逐步回归最优选择的标准最优选择的标准 (1)均方误差均方误差s2最小最小 (2)Cp统计量最小准则统计量最小准则 (3)修正修正R2准则准则 (4)预测均方误差最小预测均方误差最小 (5)AIC,SBC或或BIC准则准则 63第四章第四章4.24.2回归变量的选择与逐步回归回归变量的选择与逐步回归 变量选择方法变量选择方法-逐步筛选法逐步筛选法(计算量小计算量小)在在REG过程中逐步筛选变量的方法通过以下有过程中逐步筛选变量的方法通过以下有关的选项给出:关的选项给出:FORWARD:向前加入法向前加入法,即即逐个加入变量逐个加入变量;BACKWA
50、RD:向后删除法向后删除法,全部加入后逐个剔除全部加入后逐个剔除;STEPWISE:逐步筛选法逐步筛选法,边进边出边进边出;64第四章第四章4.24.2回归变量的选择与逐步回归回归变量的选择与逐步回归变量选择方法变量选择方法-逐步筛选法逐步筛选法(计算量适中计算量适中)MAXRMAXR:逐个加入和对换,使逐个加入和对换,使R2增加最大增加最大;开始加入使开始加入使R2 2增加最大的变量,以后每一步选择模型增加最大的变量,以后每一步选择模型内外变量进行对换内外变量进行对换-.选择使选择使R2 2增加最大的对换增加最大的对换;.选择加入一个使选择加入一个使R2 2增加最大的新变量增加最大的新变量.