1、例 设一个质点作匀速直线运动,其位移可以表示为S=+t。但在实验中由于受到环境等干扰因素的作用,在每一个时刻,人们观察到的不是准确的位移,而是具有误差S+,记这一观测值为Y,则所有观察数据满足tY注意到各误差实际无法确切地知道,因此要确定质点的运动规律,需要使用回归分析的方法。更一般地,回归分析在经济管理中常被用来分析变量之间的非确切对应的关系。例例 用来评价商业中心经营好坏的一个综合指标是用来评价商业中心经营好坏的一个综合指标是单位面积的营业额,它是单位时间内单位面积的营业额,它是单位时间内(通常为一年通常为一年)的营业额与经营面积的比值对单位面积营业额的营业额与经营面积的比值对单位面积营业
2、额的影响因素的指标有单位小时车流量、日人流量、的影响因素的指标有单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分这几个指标中及商品的丰富程度的满意度评分这几个指标中车流量和人流量是通过同时对几个商业中心进行车流量和人流量是通过同时对几个商业中心进行实地观测而得到的而居民年平均消费额、消费实地观测而得到的而居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意者对商场的环境、设施及商品的丰富程度的满意度评分是通过随机采访顾客而得到的平均值数度评分是通过随机采访顾客而得到的平均值数据据设各指标(变量
3、)的变量名分别为:单位面积营业额:y,每小时机动车流量:x1,日人流量:x2,居民年消费额:x3,对商场环境的满意度:x4,对商场设施的满意度:x5,为商场商品丰富程度满意度:x6问题:对单位面积营业额的影响因素确实是如下对单位面积营业额的影响因素确实是如下6 6个吗?个吗?单位小时车流量、日人流量、居民年平均消费额、消费者对单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分。商场的环境、设施及商品的丰富程度的满意度评分。yx1x2x3x4x5x6y1x10.3953951x20.7869030.73811x30.798802-0.13815 0.
4、2744081x40.361470.71967 0.634186-0.112921x50.437227 0.415426 0.260294 0.423137 0.0560231x60.691886 0.759951 0.982733 0.143417 0.692221 0.2214641在社会经济和管理中,变量之间的关系更经常地表现为不确定的函数关系。如销售量与人口数量销售量与广告费用收入与受教育水平。它们之间存在着明显的相互关系(称为相关关系),但这种关系又不像数学里常用到的确切的函数关系。回归分析是研究随机变量之间相关关系的一种统计方法,其用意是研究一个被解释变量(因变量)与一个或多个解释
5、变量(自变量)之间的统计关系。宝丽来公司是即时显影技术的开拓者,并保持着技术领先地位。自公司成立以来,就不断地在化学、光学和电子学方面进行试验和发展,以生产具有更高品质、更高可靠性和更为便利的摄影系统。在宝丽来的感光实验室中,科学家们把即时显像胶片置于一定的温度和湿度下,使之近似于消费者购买后的保存条件,然后再对其进行系统的抽样和分析。他们选择了专业彩色摄影胶卷,抽取了分别已保存113个月不等的胶卷以便研究它们保存时间和感光速率之间的联系。数据显示,感光速率随保存时间的延长而下降。它们之间的变动关系可用一条直线或线性关系近似表示出来。xy6.78.19y胶卷感光率的变动x胶卷保存时间(月)从这
6、一方程可以看出,胶卷的感光速率平均每月下降7.6个单位。通过此分析得到的信息,有助于公司把消费者的购买和使用结合起来考虑,调整生产,提供顾客需要的胶卷。运用回归分析,宝丽来公司建立了一个方程式,它能反映胶卷保存时间对感光速率的影响。人均收入X与人均食品消费支出Y之间的散点关系可以如下图表示出来人均收入与人均食品支出关系的散点图人均收入4000300020001000人均食品支出140012001000800600400根据散点图,我们有可能找到一条直线,从“平均”的角度来反映两个变量之间的关系。从经济意义上看,这里人均收入可以作为解释变量(解释人均食品支出的变化。这时,两个变量之间的不确定关系
7、,可以用下式表示:uXY21其中,人均食品消费支出Y是被解释变量,人均收入X是解释变量,1,2是两个待估计的参数,分别表示截距和斜率(反映了关于X的边际效益)。u是随机干扰项,通常假设它与X无关,它反映了Y被X解释的不确定性。如果随机干扰项u的均值为0,那么上式两边在X的条件下求均值,就有XXYE21)|(反映了从“平均”角度看的确定的函数关系(解释关系)。例例 一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出家庭消费支出Y与每月家庭可支配收入家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。收集了这100户家庭收入与消费支出的数据后,发现
8、可将该100户家庭组成的总体按可支配收入水平划分为10组,具体数据见下表。表表 2.1.1 某某社社区区家家庭庭每每月月收收入入与与消消费费支支出出统统计计表表 每月家庭可支配收入X(元)800 1100 1400 1700 2000 2300 2600 2900 3200 3500 561 638 869 1023 1254 1408 1650 1969 2090 2299 594 748 913 1100 1309 1452 1738 1991 2134 2321 627 814 924 1144 1364 1551 1749 2046 2178 2530 638 847 979 1155
9、 1397 1595 1804 2068 2266 2629 935 1012 1210 1408 1650 1848 2101 2354 2860 968 1045 1243 1474 1672 1881 2189 2486 2871 1078 1254 1496 1683 1925 2233 2552 1122 1298 1496 1716 1969 2244 2585 1155 1331 1562 1749 2013 2299 2640 1188 1364 1573 1771 2035 2310 1210 1408 1606 1804 2101 1430 1650 1870 2112 1
10、485 1716 1947 2200 每 月 家 庭 消 费 支 出 Y(元)2002 共计 2420 4950 11495 16445 19305 23870 25025 21450 21285 15510 05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)如 E(Y|X=800)=605人均收入与多孩率之间关系的散点图人均国民收入500040003000200010000多孩率%3020100不同地区的多孩率与人均国民收入之间的散点图为同样有可能找到一条曲线,从平均的角度来反映两个
11、变量之间的关系。这里仍然将人均国民收入作为解释变量。这时两个变量之间的不确定关系可以大致用如下包含对数的函数关系表示:uXYln21其中多孩率Y是被解释变量,人均国民收入X是解释变量,1,2是两个待估计的参数。但是2不再表示边际效益,而是表示当X增加百分之一时,Y的增加值。u是随机干扰项,仍假设它与X无关,从而与 ln X 无关。注意此时Y与X的关系并非线性关系,但经变换XZln就转化为线性关系:uZY21上面的这些例子中反映一个变量(被解释变量)的变动可以被另一变量(解释变量)来解释的变量之间的关系的表达式uXY21就是最普通的线性回归式。经济与管理中广泛利用线性回归式来研究变量之间的解释关
12、系。线性回归的任务,就是用恰当的方法,估计出参数1,2,并且使估计出来的参数具有良好的统计性质,由此可见,回归问题实际上是一种特殊的参数估计问题。变量X,Y之间成立的关系式对它们的每对对应的样本值都成立,因此对任一对样本值Xi,Yi,i=1,2,n,有iiiuXY21估计参数的目的就是求参数的估计值 ,使得直线(称为线性回归方程)21,XY21最好地拟合了这些样本数据点,并且参数估计值还具有较好的统计性质。对于线性回归模型niuXYiii,.,2,1,21高斯基本假设为:(1)ui为随机变量;(2)E(ui)=0,即所有的随机扰动项的期望值为零;(3),即所有的随机扰动项的方差等于一个常数;2
13、)(uiuVar(4);这等价于)(0)(jiuuEji)(0)(jiuuCovji即所有不同的随机扰动项的协方差等于零,也就是不同的随机扰动项是不相关的。(5)即随机扰动项都服从正态分布。),0(2uiNu(6)E(Xi uj)=0 对所有的i和j都成立。关于解释变量Xi的这一性质可以分为两种情况:Xi是随机变量但它与uj无关,因此(6)成立。Xi是确定型变量,它自然与uj无关,因此(6)成立。介绍了参数估计方法后,再具体说明这些假设的应用。对线性回归模型niuXYiii,.,2,1,21回归分析的任务就是要求参数的估计值 ,使得到的回归方程21,XY21最好地拟合了所有样本数据点。XiYi
14、iY这意味着对所有的样本点(Xi,Yi)|iiYY 都应尽可能小。为了使得回归直线 最好地拟合所有样本数据,就应该使所有残差 绝对值都尽可能小。XY21iiiYYe具体地做法是让残差的平方和达到最小,这就是所谓的最小二乘准则。最小二乘准则:niiiniiYYe1212)(min最小二乘法就是根据最小二乘准则来确定 1,2 的估计值 的方法。相应的估计量称为最小二乘估计量(OLS估计量)21,注意到iiXY21因此iiiiXYYY21为此,我们求参数的估计值 使残差平方和21,niniiiiiniiXYYYeQ11221212)()(达到最小。注意到上式可以看成 的二次函数,因此其最小值存在,取
15、最小值的条件就是21,0,021QQ由此得到关于 的线性方程组,解之得21,XYxyxniiniii211212,其中xi,yi分别为Xi,Yi的中心化数据(也称离差)XXxiiYYyii在高斯的基本假设下,按上式计算得到的参数估计值 是最优的线性无偏估计量(BLUE,Best Linear Unbiased Estimator)。即OLS估计量 是线性估计量并且是无偏的,在所有的无偏估计量中,的方差是最小的。21,21,具体来说模型是线性的 是线性的21,假设(2)、(6)是无偏的21,假设(3)、(4)具有最小方差21,注:对于 是BLUE来说,(5)是不必要的。但是如果(5)成立,则还能
16、保证 也服从正态分布。21,21,在实际问题中,常常需要研究一个被解释变量,多个解释变量的线性回归模型uXXYkk221例(详见商务与经济统计)位于南加州的巴特勒运输公司的管理人员为制定最佳的工作计划,希望估计他们的司机每天行驶的时间。起初,公司管理人员认为,司机每天行驶的时间与每天运送货物行驶的里程密切相关,通过观察散点图,管理人员假设,能利用一元线性回归模型uXY21来描述行驶的小时数(Y)与行驶的英里数(X)之间的关系。对公司的实际数据,采用普通最小二乘法估计出回归方程为XY0678.027.1通过对方程的分析,公司的管理人员发现,虽然这一结果不错,但方程只能解释每天行驶时间的变异性的6
17、6.4%。因此希望增加第二个解释变量去解释剩下的变异性。管理人员在研究其它影响行驶时间的因素时,觉得运送货物的次数也会影响行驶的时间。因此在增加了一个解释变量运送货物的次数,以及相应的数据后,再进行回归分析,得到的回归方程具有形式21923.00611.0869.0XXY管理人员现在发现,这一方程能解释行驶时间变异性的90.4%。这已是相当好的结果了。l多元线性回归模型的矩阵表示多元线性回归模型的矩阵表示多元线性回归模型uXXYkk221应该对所有的样本数据都成立,因此有niuXXYikikii,.,2,1,221这是n个表达式。回归分析的目的就是利用由样本数据产生的这n个表达式估计模型的参数
18、,得到模型的参数估计值 使得回归方程k,.,21最好地拟合了所有样本数据。XXYk221为便于讨论,对多元线性回归模型,常使用矩阵形式uXY其中nkknnkknuuuXXXXXXYYY2121222212121,111,uXY1nkn1k1n为为随随机机扰扰动动项项列列向向量量为为待待估估计计参参数数列列向向量量为为自自变变量量数数据据矩矩阵阵。为为因因变变量量观观测测值值列列向向量量uXY(1)u是随机向量;(2)E(u)=0;这里)()()()(2121nnuEuEuEuuuEEu所以这一假设就是要求所有的随机扰动项的期望值为零。即.,.,2,1,0)(niuEi(3);Iuuu2)()(
19、uTECov这里)(),(),(),()(),(),(),()()()()()()()()()()()()()()(21221212112212221212121nnnnnnnnnnTTuVaruuCovuuCovuuCovuVaruuCovuuCovuuCovuVaruEuuEuuEuuEuEuuEuuEuuEuEEEEECovuuuuuuu因此条件(3)意味着2222122121211000000)(),(),(),()(),(),(),()()(uuunnnnnuVaruuCovuuCovuuCovuVaruuCovuuCovuuCovuVarCovu这等价于 并且niuVarui,.,
20、1,)(2jiuuCovji,0),(也即所有扰动项方差相等,并且不存在序列相关。(4)),0(2nuNIu注意这一条件是用矩阵形式给出的。这相当于niNuui,.,2,1),0(2(5)要求所有变量Xji是非随机的;或变量Xji虽然是随机的,但与ui不相关。用数学表达式的形式,后者就是.,.,1;,.,1,0),()(kjniuXCovuXEijiiji(6)秩)(,)(nkkX这里实际上是两个判断,一个是 而另一个则是k n。k)(XknnkkXXXXXX2222121111X在(6)中的要求k n,实际上是要求样本数据的数量n大于解释变量的个数(或待估计的参数的个数)k。而注意到矩阵X为
21、因此意味着矩阵X的行数大于列数。而要求k)(X意味着矩阵X是满列秩的,即其所有列向量线性无关。并且这一条件蕴涵矩阵XTX正定(从而非奇异)。其他假设:(7)行列式|XTX|远离零。现在仍采用矩阵的记法,多元线性回归模型为uXY若得到了参数的估计量 则相应的回归方程为XY于是残差向量为TnnYYYYYY),(2211YYe普通最小二乘法就是要确定参数的估计值 使残差平方和)()(12YYYYeeTTniieQ达到最小。由于残差的平方和可以表示为XXXYYYXXYXXYYYXYXYXYXYYYYY2)()()()()(TTTTTTTTTTTTTTTQYXXXTT而XXYX22Q要使残差的平方和最小
22、就必须 ,即0Q这就是所谓的正规方程组,其解就是要求的估计量。由条件(6)可知矩阵 可逆。因此正规方程组的解为XXYXXX1)(这就是要求的普通最小二乘(OLS)估计量。高斯马尔柯夫定理:若关于多元线性回归模型的高斯假设中除了(4)外,其他假设都满足,则普通最小二乘估计量 是最优线性无偏估计量(BLUE)。若当 时,收敛于非奇异矩阵,则普通最小二乘估计量 还是一致估计量。nnT/)(XX由上述定理可知,在高斯假设下,多元线性回归模型的普通最小二乘估计量具有非常好的统计性质。具体来说模型是线性的OLS估计量是线性的假设(2)、(5)OLS估计量是无偏的假设(3)OLS估计量具有最小方差假设(6)
23、OLS估计量的存在性假设(4)OLS估计量服从正态分布为了计算 的方差,考虑 的方差-协方差矩阵i)()()()(EEEECov而uXXX)(1所以12112121111111)()()()()()()()()()()()()()(XXXXXXXXXXXIXXXXXXuuXXXXXXuuXXXuXXXuXXXnEEEECov假设(5)假设(3)12)()(XXTuCov即122122121211)()(),(),(),()(),(),(),()(XXTukkkkkVarCovCovCovVarCovCovCovVar从而有12)()(jjTujVarXX其中 是矩阵 对角线上的第j个元素,常常
24、将它记为cjj。于是有 或1)(jjTXX1)(XXTjjujcVar2)(jjucj可以证明:(1)服从正态分布j),(2jjujcN(2)服从 分布jjujjc22)()1(2在上面的讨论中可以看到我们要经常用到随机扰动项的方差 。然而随机扰动项的方差是观察不到的。不过可以证明2uknkneTniiuee122是 的无偏估计量2u设想有如下图所示的两个样本,要分别建立能拟合它们的线性回归方程。直观上容易看出,左边的图形显示的数据建立的回归方程对样本数据的拟合情况更好。这一观察表明:(1)使用不同的数据建立的线性回归方程对样本数据的拟合程度是有差别的。(2)线性回归方程对样本数据的拟合程度越
25、好,样本数据所代表的解释变量与被解释变量之间的线性关系就越显著,从而越适合用线性回归方程来描述解释变量与被解释变量的相关关系。YiYiYiX可以看出离差(此处称为总变差)可分解为YYyiiYYYYYYiiii其中iiYY残差YYi解释变差并且可以证明niiniiiniiYYYYYY121212)()()(即总变差的平方和=残差的平方和+解释变差的平方和明显地,线性回归方程对样本数据的拟合情况越好,残差平方和就越小,从而残差平方和在总变差平方和中占的比重就越小,于是解释变差平方和占的比重就越大。niiniiniiniiiYYYYYYYY12121212)()()()(1解释变差平方和占的比重我们
26、就把解释变差平方和在总变差平方和中占的比重称为判定系数,记为R2,即niiniiniiniiiniiniiYYeYYYYYYYYR1212121212122)(1)()(1)()(或者使用矩阵与离差的记号niiTyR1221eeR2越接近于1,线性回归方程对样本的拟合程度越好,也就是,整体回归效果越好。实际上R2越大,能用线性回归方程解释的被解释变量变异性的比例越大。此外称R为复相关系数(Multiple Correlation Coefficient).考虑如下的模型ttttuXXY33221其中Yt时期t的真实通货膨胀率(%)X2t时期t的失业率(%)X3t时期t的预期通货膨胀率(%)根据
27、宏观经济理论,预期有 ,并且值应该接近1。现在采用美国商务部经济分析局及联邦储备银行的数据(1970-1982年)估计模型0203根据上表,可知回归的结果为)3626.8()5652.4()5105.4(8766.0470.1392.1193.7232RXXYttt可见这一回归结果还是比较好的,判定系数表明,两个解释变量合起来,可以解释真实通货膨胀率的变异的87.66%。此外直观地,并不为1,但可利用后面将要介绍的系数的t检验,检验它是否显著异于1。3尽管判定系数较好地说明了回归效果,但它没有提供一个客观的标准来判断回归效果是否可以接受。这可以通过如下的F检验来判别。原假设H0:032k若不拒
28、绝H0,则表明回归模型表示的线性关系并不显著,否则回归模型所表示的线性关系是显著的,因此回归效果是可以接受的。检验统计量)()1()(1212knekYYFniinii其自由度残差平方和其自由度解释变差平方和易知),1(knkFF2211RRkknF这就是为什么我们说拒绝了H0,就表明总的回归效果较好的缘故。在F统计量的表达式中,分子与分母同时除以总变差平方和就可得前面定义的判定系数R2中不含自由度,因此在解释变量的个数k增加时,R2会变大,但它并不意味回归效果的改善。为了得到不依赖自由度变化的回归效果的检验,可以考虑使用校正的判定系数,即考虑了自由度的判定系数:knnRnYYkneRniin
29、ii1)1(1)1()()(1212122adj2adjR剔除了自由度影响,且也可以用来衡量回归效果对线性回归模型,除了需要考虑总的回归效果外,还需要考虑每个解释变量对被解释变量的影响是否显著。这可通过如下的方式进行检验。原假设 H0:j=0;备择假设 H1:j 0检验统计量:jjjt其中记号 称为 的标准误差表示将 的标准差 中的 换成 的结果。t服从自由度为n k 的t分布。jjuujj对给定的显著性水平,查t分布表可得临界值)(2knt若 则拒绝H0,而不拒绝H1。这表明 显著异于零,因此解释变量Xj对被解释变量有显著影响。)(|2knttj这一检验称为系数 的显著性检验。拒绝H0,称通
30、过了显著性检验。j反之若系数 没有通过显著性检验,则表明变量Xj对被解释变量的线性影响关系并不显著,因此可以考虑将它从回归模型中剔除出去。j在前面的美国“期望扩充”的菲利普斯曲线中,变量X1,X2系数的t统计值分别为-4.5652,8.3626,可见它们对被解释变量的影响都是显著的。此外,t检验统计量也可用于0jj的检验。仍以前面的美国“期望扩充”的菲利普斯曲线为例。我们已经提到对变量X3t时期t的预期通货膨胀率,我们预期其系数的值为1,但实际估计值为1.470032。现在来检验它是否显著异于1。这时6739.2175786.01470032.1jjjt而在显著性水平5%下,临界值为t=2.2
31、281,可见X3的系数是显著异于1的。对于系数 ,利用前面的T统计量,可以得到它在指定置信水平1-下的置信区间为:j)(),(22kntkntjjjj在多元线性回归统计性质研究中,人们最注重的是如下三个统计量:niiTyR1221ee)()1()(1212knekYYFniinii其自由度残差平方和其自由度解释变差平方和jjjt在回归方程中,自变量的单位(例如,元,百元,万元等)对回归系数的数量级有很大的影响,如果要简单比较自变量对因变量作用的大小,就应剔除自变量单位的影响。一种经典的处理方式是将所有变量标准化。所谓标准化就是对变量Y,X1,X2,Xk进行如下处理:YjjjjSYYySXXx,
32、其中Sj,SY分别表示变量Xj,Y的样本数据的标准差。标准化以后的变量均值为0,而方差为1。经过标准化处理,原始方程:uXXYkk221就化为了标准方程kkxxy22所谓标准回归系数,就是指这一方程的回归系数。通常的统计软件会自动计算标准回归系数。在前面的美国“期望扩充”的菲利普斯曲线例子中,注意到我们使用EXCEL进行回归并没有给出标准回归系数的估计值,但如果使用SPSS进行回归,将自动计算并给出标准回归系数的估计值。为了检验回归方程某个系数是否显著异于零,可使用前面介绍的T检验,那里我们采用检验统计量jjjt来检验系数j是否显著地为零,以便考虑是否应剔除变量Xj。但是有可能存在这样的情况,
33、尽管系数绝对值比较小,但在整个回归方程中,变量Xj在解释因变量的作用中占的比重却不小。因此在这种情况下,根据T检验的结果来剔除Xj就不是适当的。为此,考虑一种新的方法来检验j是否小到足以让我们剔除Xj的地步。原假设 H0:j=0备择假设 H0:j 0由于 服从分布 ,(其中Q为残差平方和)服从分布 。因此)(22jjujc)1(22uQ)(2kn),1()(2knFQcknFjjjj检验统计量如果变量Xj的系数通过这一检验,则该变量可以作为自变量,否则可以考虑将其从自变量中剔除。若在回归模型uXXYkk221将自变量Xj从解释变量中剔除,我们实际上得到新的模型uXXXXYkkjjjj11112
34、21估计该模型得到一个新的回归方程kkjjjjXXXXY*1*11*12*2*1*分别用小写的x,y表示中心化的数据(即离差)则原来的回归方程和新回归方程可分别表示为kkxxy22和kkjjjjxxxxy*1*11*12*2*对于第i个数据,恰好就是解释变差。因此YYyiiiiy2*)(iiy2)(和分别是新回归方程和原回归方程的解释变差平方和。解释变差反映了回归方程解释作用的大小,剔除掉的变量多少会有一点解释作用因此一般有iiiiyy22*)()(并且iiiiyy2*2)()(就度量了被删除的变量被删除的变量Xj对解释变差的贡献对解释变差的贡献,并且称它为Xj的偏解释变差(偏回归平方和)。可
35、以证明iiiijjjjyycV2*22)()(即Vj就是Xj的偏解释变差(偏回归平方和)。于是我们前面使用的F统计量QVknQcknFjjjjj)()(2是变量Xj的偏解释变差与残差平方和(未解释变差平方和)与相应的自由度的商之比。它反映了变量Xj的解释作用(对解释变差的贡献)的相对大小。逐步回归法的基本思路:在考虑被解释变量Y对一组解释变量的回归时,只将那些对解释变差贡献较大的变量作为解释变量,那些贡献小的则不能作为解释变量。具体做法逐步进入(Forward):先选择统计量Fj的值fj最大的变量Xj进入模型,然后在剩下的变量中再考虑这统计量有最大值的变量,依次类推。需注意的是每次进入模型的变
36、量的这一统计量都必须接受在一给定的显著性水平的显著性检验,只有通过检验的变量才进入。逐步移除(Backward):与前面相比现在反过来进行变量的挑选。先让所有变量进入模型,然后逐步将统计量Fj的值小的变量从模型中剔除,剩下那些该统计量能通过在某一给定显著性水平下的显著性检验的变量。边进边出(Stepwise):即“一边进”、“一边出”的方法。值得注意的是在SPSS中默认的“进入”变量的F统计量显著性的概率为0.05,而“出来”的显著性概率为0.10。SPSS默认的方法:Enter,即全部变量一次进入。此外SPSS还有一种回归的方式:Remove,即在现有的回归的基础上剔除变量。经典回归问题满足
37、所有的高斯假设的单方程的线性回归模型的分析。例10.4.1 关于人均食品支出与人均收入关系的回归模型考虑如下形式的模型:u人均收入人均食出21数据文件“CH10回归人均食品支出”操作过程与结果说明(p277)见演示。例10.4.2多元线性回归模型本例讨论人均食品支出由两个解释变量:人均收入与粮食单价解释的回归模型u粮食单价人均收入人均食出321方法:Enter例10.4.3 研究某市散户股民在“证券市场投资总额”是否可以用变量“证券市场外的收入”、“受教育程度”、“入市年份”和“股民年龄”来解释。被解释变量:“证券市场投资总额”解释变量:“证券市场外的收入”、“受教育程度”、“入市年份”和“股
38、民年龄”方法:逐步回归数据:“CH6CH9CH10证券投资额与依据”操作及结果说明:(p282)见演示若多元线性回归模型的解释变量X2,X3,Xk是线性相关的,则 ,从而逆矩阵 不存在。这种现象称为完全的多重共线性。0|XXT1)(XXT若高斯假设(6)“秩 ”满足,则各解释变量X2,X3,Xk是线性无关的。因而一定不会出现完全多重共线性这种情况。所以完全多重共线性完全多重共线性实际上就是指高斯假设(实际上就是指高斯假设(6)不满足的情况)不满足的情况。)()(nkkX完全多重共线性在实际问题中并不多见,即便出现了完全多重共线性,也容易判别出来。实践中常见的多重共线性是指解释变量X2,X3,X
39、k是近似线性相关的。这时虽然有 ,但却0|XXT0|XXT注意到)(|1)(1的伴随矩阵XXXXXXTTT实际问题中,解释变量X2,X3,Xk近似线性相关,往往表现为几个解释变量之间存在着高度的相关性表现为几个解释变量之间存在着高度的相关性,其数据有共同变化的趋势。因此若存在多重共线性,矩阵 的各元素的绝对值将变得非常大。回顾OLS估计量的方差表达式。1)(XXTjjujcVar2)(其中cjj就是矩阵 对角线上第j个元素。因此OLS估计量的方差将变得非常大估计量的方差将变得非常大,这意味着估计的误差非常大。1)(XXT所以多重共线性将给模型的建立带来严重的后果。(1)计算 时,将溢出j(2)
40、的方差将变的很大j(3)各变量系数的t统计量的值普遍变小。实际上jjjt其中记号表示将 的标准差 中的 换成 的结果。由于t的表达式中分母变的很大,因此t的值会变的很小。jjuu(4)R2的值变得接近于1,给出虚假的回归结果好的结果。(5)各参数估计值仍然是无偏的。此外由于各解释变量之间存在相关性,解释变量系数的大小和符号可能变得不合理。不能单独考虑一个解释变量对因变量的影响。)014.0()0149.0(99.002.0918.02RZYC例如应用中国宏观经济运行的实际数据(1985-2019)建立的反映人均消费C与人均可支配收入Y、人均储蓄余额Z之间关系的线性回归方程为这是否意味着存钱越多
41、,消费也越多?(1)容许度(Tolerance)方法将某个解释变量Xj对其他解释变量进行回归,得到的回归方程的判定系数记为 。定义Xj的容许度为2jR21TolijR容许度越小,由Xj导致的共线性越强。(2)方差膨胀因子(VIF)Toli1VIFVIF越大,由Xj导致的共线性越强。(3)根据回归分析的结果判别若回归方程的判定系数R2很大,但各系数的显著性检验的t统计值却小,则模型中可能出现了多重共线性。(4).通过条件指数检验条件指数(condition index或条件数condition number)是矩阵 的最大特征值与最小特征值之比的平方根,易见条件指数越大,越接近于零,因而存在越严
42、重的多重共线性。XX|XX但并没有一个绝对的标准来判断,当条件指数大到什么程度时,存在多重共线性。经验的法则:条件指数小于10,不存在多重共线性;大于30,存在严重的多重共线性。一些常用统计软件都会提供计算此检验值的功能。(1)逐步消除不重要的解释变量,可直接使用逐步回归法完成(但需考虑遗漏重要的解释变量导致的估计有偏问题)。(2)对模型施加适当的约束例如对生产函数 。若规模效益是不变的,则有 因此模型两端除以K后得ueKaLY1ueKLaKY然后两端取对数得uKLaKYlnlnln新模型中不存在多重共线性。(3)改变模型的结构包括改变数学表达式的形式及选择不同形式的变量。例如表示某商品需求量
43、及其影响因素的模型为uPPXQ*3210其中 分别为需求量、收入、该商品的出厂价格和市场价格。*,PPXQ在实际数据中,出厂价格和市场价格往往呈同方向变动,因此高度相关,模型存在多重共线性。如果我们仅要求知道相对价格变动时需求量的变化规律,则可将需求函数变为vPPXQ)*(321就可解决多重共线性问题。(4)恰当处理滞后变量ttttuXXY110对包含滞后自变量的模型由于滞后变量的同趋势性,很容易出现多重共线性。解决问题的办法是,令 ,则 0ssttttuXXY)(10而在时刻 t 1,有12101)(ttttuXXY于是将前式减后式的倍,得ttttvYXY10)1(其中 ,这样就消除了多重共
44、线性的问题。1tttuuv(5)增加数据多重共线性实际上是数据问题。理论上高度相关的变量,其具体观察值之间未必高度相关。因此可以用增加观测值、利用不同的数据集或采用新的样本等方法,有可能消除或减缓多重共线性问题。对于多元线性回归模型,多重共线性总是存在的,只是影响的程度上有区别,如果模型仅用于进行预测,则只要模型拟合样本数据的情况较好,可不处理多重共线性问题。由前面的讨论,高斯假设中的(3)Iuuu2)()(uTECov这等价于 并且niuVarui,.,1,)(2jiuuCovji,0),(也即所有扰动项方差相等,并且不存在序列相关。若其中的所有扰动项的方差相等的假设不再成立,则称模型(或随
45、机扰动项)出现了异方差性。这时高斯基本假设中的表达式只能写成如下形式。uuu2)()(TECov其中是一个对称正定矩阵,但不再是对角线上元素都相等的矩阵。使用截面数据建立的模型较易出现异方差性。例如研究一个行业的各企业的截面数据时,可能会发现,大企业的误差项比小企业的误差大;大企业的销售量会比小企业的销售量有更大幅度的变化。再如在考虑家庭的收入与消费的截面数据时,可能会发现,低收入家庭的支出比较稳定,而高收入家庭的消费相对波动较大,因此利用这样的数据建立家庭的收入与消费的回归模型时,将导致异方差出现。.x1x2E(y|x)=0+1xyf(y|x)Normaldistributions在前面的讨
46、论中我们已经提到:高斯基本假设(3)保证了OLS估计量具有最小方差。因此若存在异方差性,则假设(3)不再成立,从而OLS估计量不再具有最小方差性。这意味着,估计的误差可能十分大估计的误差可能十分大;此外构造系数的显著性检验的t统计量,我们需要用到同方差的假设,因此异方差存在时,显著性检验失去意义显著性检验失去意义;进一步,利用模型预测可能失效模型预测可能失效。使用截面数据建立的模型较易出现异方差性。判断异方差存在的基本思路就是考察随机扰动项的方差是否与Yi有关,或是否与某个解释变量Xji有关。问题是随机扰动项的取值通常是观测不到的。因此在实际问题中通常将残差ei的平方作为随机扰动项方差的估计值
47、。即通过观察ei与Yi或某个解释变量Xji是否相关来判断是否出现了异方差。具体方法有下面一些。(1)用散点图判断以残差与Yi的散点图为例,在同方差情况,散点图应该具有右边的形状。点应该分布在一水平的带形区域。YieiYiei若存在异方差,则可观察到ei的取值随Yi的取值的变化而变化的现象。如YieiYiei(2)通过ei与Xi的相关性来判别。值得注意的是ei与Xi的简单相关系数总是等于零的,但这并不能排除所提及的相关性。为此计算的|ei|与Xi等级相关系数(Spearman)。如果计算得到的等级相关系数显著异于零,则表明ei与Xi相关,因此存在异方差。(1)试算异方差的形式|ei|对某个解释变
48、量的各种形式进行回归,如ijiiijiiijiiijiiuXeuXeuXeuXe1|101021010或者|ei|对被解释变量的各种形式进行回归然后利用决定系数选择最佳的拟合形式。再对这种最佳的拟合形式进行系数的显著性检验。若通过检验,则表明存在相应的相关性。并由此可得到 与|ie2ie(2)用下面的广义最小二乘法,求原方程的系数|ie2ie得到 与 后,若仅存在异方差的影响,就可估计下面表达式中的矩阵uuu2)()(TECov为22221000000neee然后就可以利用广义最小二乘法得到多元线性回归模型的系数的估计值。(1)广义最小二乘法的估计式YXXX111)(TT设多元线性回归模型为u
49、XY设高斯基本假设中的其他假设都满足,只有(3)现在为 ,其中是一个对称正定矩阵。则有如下的广义最小二乘估计式。uuu2)()(TECov(2)广义最小二乘估计量的性质对广义最小二乘估计量,高斯马尔柯夫定理的结论仍然成立。(3)WLS估计法特别地,当矩阵是对角矩阵,但其对角线上的元素不相等。这意味着仅存在异方差性的影响。此时按照前面的方法可以得到22221000000neee从而可以计算GLS估计量。但这等价于以下的方法:将原模型的第i个表达式ikikiiuXXY221的两端除以 ,得|ie|221iiikikiiiiieueXeXeeY容易证明此时新的随机扰动项|iiieuv 具有同方差性。
50、于是可用OLS估计上面的模型。得到的参数估计量就是GLS估计量。这种方法相当于以原模型残差绝对值的倒数为权,将所有的样本数据分别乘以相应的权值,然后用变换以后的数据来估计多元回归模型。所以这种方法称为加权最小二乘法(WLS)。本例中考虑由4组家庭住房支出和年收入的截面数据:利用该组数据建立住房支出模型iiiuXY采用OLS法进行估计得:)9.15()4.4(:934.0237.089.02tRXYii由数据分析,以及由散点图可知存在异方差性。ScatterplotDependent Variable:住房支出Regression Standardized Predicted Value1.51