1、一、多重共线性的概念一、多重共线性的概念二、实际经济问题中的多重共线性二、实际经济问题中的多重共线性三、多重共线性的后果三、多重共线性的后果四、多重共线性的检验四、多重共线性的检验五、克服多重共线性的方法五、克服多重共线性的方法六、案例六、案例第六章第六章 多重共线性多重共线性问题的提出 在前述基本假定下OLS估计具有BLUE的优良性。然而实际问题中,这些基本假定往往不能满足,使OLS方法失效不再具有BLUE特性。估计参数时,必须检验基本假定是否满足,并针对基本假定不满足的情况,采取相应的补救措施或者新的方法。检验基本假定是否满足的检验称为计量经济学检验回顾6项基本假定(1)解释变量间不相关(
2、无多重共线性)(2)E(ui)=0 (随机项均值为零)(3)Var(ui)=2 (同方差)(4)Cov(ui,uj)=0(随机项无自相关)(5)Cov(X,ui)=0(随机项与解释变量X不相关)(6)随机扰动服从正态分布。不满足基本假定的情形(1)1、通常不会发生随机扰动项均值不等于0的情形。若发生也不会影响解释变量的系数,只会影响截距项。2、随机扰动项正态性假设一般能够成立,就算不成立,在大样本下也会近似成立的。所以不讨论此假定是否违背。不满足基本假定的情形(2)3、解释变量之间相关=多重共线 4、随机扰动项相关=序列自相关 时间序列数据经常出现序列相关 5、随机扰动项方差不等于常数=异方差
3、 截面数据时,经常出现异方差解决问题的思路 1、定义违反各个基本假定的基本概念 2、违反基本假定的原因、背景 3、诊断基本假定的违反 4、违反基本假定的补救措施(修正)一、多重共线性的概念一、多重共线性的概念对于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性多重共线性(Multicollinearity)。如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其中:ci不全为0,则称为解释变量间存在则称为解释变量间存在完全共完全共线性线性(perfect multico
4、llinearity)。如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其中ci不全为0,vi为随机误差项,则称为 近似近似共线性共线性(approximate multicollinearity)或交交互相关互相关(intercorrelated)。在矩阵表示的线性回归模型 Y=X+中,完全共线性完全共线性指:指:秩秩(X)k+1,即knnnkkXXXXXXXXXX212221212111111中,至少有一列向量可由其他列向量(不包括第一列)线性表出。如:X2=X1,则X2对Y的作用可由X1代替。二、实际经济问题中的多重共线性二、实际经济问题中的多重共线性 一般地,产
5、生多重共线性的主要原因有以下三个方面:(1 1)经济变量相关的共同趋势)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。(2 2)滞后变量的引入)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入,前期收入)显然,两期收入间有较强的线性相关性。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。(3)样本资料的限制样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。一般经
6、验一般经验:时间序列数据时间序列数据样本:简单线性模型,往往存在多重共线性。截面数据截面数据样本:问题不那么严重,但多重共线性仍然是存在的。三、多重共线性的后果三、多重共线性的后果1.1.完全共线性下参数估计量不存在完全共线性下参数估计量不存在如果存在完全共线性完全共线性,则(XX)-1不存在,无法得到参数的估计量。XY的OLS估计量为:YXXX1)(例:例:对离差形式的二元回归模型2211xxy如果两个解释变量完全相关,如x2=x1,则121)(xy这时,只能确定综合参数1+2的估计值:2.2.近似共线性下近似共线性下OLS估计量非有效估计量非有效 近似共线性下,可以得到OLS参数估计量,但
7、参数估计量方差方差的表达式为 由于|XX|0,引起(XX)-1主对角线元素较大,使参数估计值的方差增大,OLS参数估计量参数估计量非有效。非有效。12)()(XXCov仍以二元线性模型 y=1x1+2x2+为例:2221221212221222122211121)(1/)()()var(iiiiiiiiiixxxxxxxxxxXX221211rxi2221221)(iiiixxxx恰为X1与X2的线性相关系数的平方r2由于 r2 1,故 1/(1-r2)1多重共线性使参数估计值的方差增大重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子方差膨胀因子(Variance Inflati
8、on Factor,VIF)当完全不共线完全不共线时,r2=0 2121/)var(ix当近似共线近似共线时,0 r2 15.19,故认上述粮食生产的总体线性关系显著成立。但X4、X5 的参数未通过t检验,且符号不正确,故解释变量间可能存在多重共线性解释变量间可能存在多重共线性。54321028.0098.0166.0421.0213.644.12816XXXXXYT=(-0.91)(8.39)(3.32)(-2.81)(-1.45)(-0.14)2.2.检验简单相关系数检验简单相关系数 发现:发现:X1与X4间存在高度相关性。列出X1,X2,X3,X4,X5的相关系数矩阵:X1X2X3X4X
9、5X11.000.010.640.960.55X20.011.00-0.45-0.040.18X30.64-0.451.000.690.36X40.96-0.040.691.000.45X50.550.180.360.451.003.3.找出最简单的回归形式找出最简单的回归形式 可见,应选可见,应选第一个式子第一个式子为初始的回归模型。为初始的回归模型。分别作Y与X1,X2,X4,X5间的回归:1576.464.30867XY (25.58)(11.49)R2=0.8919 F=132.1 DW=1.562699.018.33821XY (-0.49)(1.14)R2=0.075 F=1.30
10、 DW=0.124380.00.31919XY (17.45)(6.68)R2=0.7527 F=48.7 DW=1.115240.219.28259XY (-1.04)(2.66)R2=0.3064 F=7.07 DW=0.364.4.逐步回归逐步回归 将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。CX1X2X3X4X52RDWY=f(X1)308684.230.88521.56 t 值25.5811.49Y=f(X1,X2)-438714.650.670.95582.01t 值-3.0218.475.16Y=f(X1,X2,X3)-119785.260.41-0.190.975
11、21.53t 值0.8519.63.35-3.57Y=f(X1,X2,X3,X4)-130566.170.42-0.17-0.090.97751.80t 值-0.979.613.57-3.09-1.55Y=f(X1,X3,X4,X5)-126905.220.40-0.200.070.97981.55t 值-0.8717.853.02-3.470.37 回归方程以Y=f(Y=f(X1,X2,X3)为最优:5.5.结论结论32119.041.026.511978XXXY注:虽然后两个模型的调整判定系数更大,但注:虽然后两个模型的调整判定系数更大,但是分别有是分别有x4x4和和x5x5的参数估计值不
12、显著,所以不的参数估计值不显著,所以不是只看拟合优度一个指标的。是只看拟合优度一个指标的。六、案例二六、案例二中国消费函数模型中国消费函数模型1 1、OLSOLS估计结果估计结果Dependent Variable:CONS Method:Least Squares Date:03/01/03 Time:00:46 Sample:1981 1996 Included observations:16 Variable Coefficient Std.Error t-Statistic Prob.C 540.5286 84.30153 6.411848 0.0000 GDP 0.480948 0.
13、021861 22.00035 0.0000 CONS1 0.198545 0.047409 4.187969 0.0011 R-squared 0.999773 Mean dependent var 13618.94 Adjusted R-squared 0.999739 S.D.dependent var 11360.47 S.E.of regression 183.6831 Akaike info criterion 13.43166 Sum squared resid 438613.2 Schwarz criterion 13.57652 Log likelihood-104.4533
14、 F-statistic 28682.51 Durbin-Watson stat 1.450101 Prob(F-statistic)0.000000 2 2、差分法估计结果、差分法估计结果Dependent Variable:DCONS Method:Least Squares Date:03/18/03 Time:23:18 Sample(adjusted):1982 1996 Included observations:15 after adjusting endpoints Variable Coefficient Std.Error t-Statistic Prob.DGDP 0.4
15、96723 0.026879 18.48006 0.0000 DCONS1 0.158504 0.051678 3.067122 0.0090 R-squared 0.992686 Mean dependent var 2457.533 Adjusted R-squared 0.992123 S.D.dependent var 2422.687 S.E.of regression 215.0169 Akaike info criterion 13.70288 Sum squared resid 601019.5 Schwarz criterion 13.79728 Log likelihood
16、-100.7716 Durbin-Watson stat 2.612102 3 3、比较、比较1:0.480950.496722:0.198540.15850在消除了共线性后,在消除了共线性后,GDP对对CONS的影响增大,的影响增大,CONS1对对CONS的影响减少。的影响减少。当模型存在共线性,将某个共线性变量去掉,当模型存在共线性,将某个共线性变量去掉,剩余变量的参数估计结果将发生变化,而且经剩余变量的参数估计结果将发生变化,而且经济含义发生变化;济含义发生变化;严格地说,实际模型由于总存在一定程度的共严格地说,实际模型由于总存在一定程度的共线性,所以每个参数估计量并不真正反映对应线性,
17、所以每个参数估计量并不真正反映对应变量与被解释变量之间的结构关系。变量与被解释变量之间的结构关系。附:违反三个假定的总结对于模型对于模型Y Yi i=0 0+1 1X X1i1i+2 2X X2i2i+k kX Xkiki+i i i=1,2,i=1,2,n,n 其基本假设之一其基本假设之一是解释变量是互是解释变量是互相独立的相独立的。如果如果某两个或多个解某两个或多个解释变量之间出现释变量之间出现了相关性了相关性,则称则称为为多重共线性多重共线性。定义要点多重共线性多重共线性序列相关性序列相关性异方差性异方差性随机误差项互相独随机误差项互相独立的基本假设表现立的基本假设表现为:为:Covij
18、(,)0如果出现如果出现Covij(,)0即即对于不同的样本对于不同的样本点,随机误差项之点,随机误差项之间不再是完全互相间不再是完全互相独立,而是存在某独立,而是存在某种相关性种相关性后果多重共线性多重共线性序列相关性序列相关性异方差性异方差性1参数估计量非有效参数估计量非有效2变量的显著性检验变量的显著性检验失去意义失去意义3模型的预测失效模型的预测失效1参数估计量非有效参数估计量非有效2变量的显著性检验变量的显著性检验失去意义失去意义3模型的预测失效模型的预测失效1完完全全共共线线性性下下参参数数估估计计量量不不存存在在2一一般般共共线线性性下下普普通通最最小小二二乘乘法法参参数数估估计
19、计量量非非有有效效3参参数数估估计计量量经经济济含含义义不不合合理理4变变量量的的显显著著性性检检验验失失去去意意义义5模模型型的的预预测测功功能能失失效效检检验验解解释释变变量量之之间间的的相相关关性性1 1 采采 用用 普普 通通 最最 小小 二二 乘乘 法法估估 计计 模模 型型,以以 求求 得得 随随 机机误误 差差 项项 的的“近近 似似 估估 计计 量量”ei2 2 分分 析析 这这 些些“近近 似似 估估 计计 量量”之之 间间 的的 相相 关关 性性检验随机误差项的检验随机误差项的方差与解释变量观方差与解释变量观测值之间的相关性测值之间的相关性检验思路1判定系数检验法2逐步回归法检验方法多重共线性多重共线性序列相关性序列相关性异方差性异方差性解决方法排除引起共线性的变量排除引起共线性的变量差分法差分法减小参数估计量的方差减小参数估计量的方差1 1 广义最小二乘法广义最小二乘法2 2 差分法差分法(1 1)一阶差分法)一阶差分法(2 2)广义差分法)广义差分法1 1 回归检验法回归检验法2 2 冯诺曼比检验法冯诺曼比检验法3 3D.W.D.W.检验检验加加权权最最小小二二乘乘法法1 图图示示检检验验法法2 等等级级相相关关系系数数法法3 戈戈里里瑟瑟检检验验4 巴巴特特列列特特检检验验5 戈戈德德菲菲尔尔特特夸夸特特检检验验