1、 如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。ikikiiiXXXY22110对于模型多重共线性在实际的多元线性回归分析尤其是涉及经济变里的模型中很常见。即在决定一个因变量的多个自变量中,有部分自变量呈高度相关,也就是说,这些变量被用来解释因变量时导致所提供的信息出现“重叠”。例如、模型中如果有多个自变量有共同的上升趋势,它们之间很可能有高度的相关关系导致共线性。一般经验:010,10100,100kkk没有多重共线性存在较强的多重共线性,存在严重的多重共线性 条件指数(condition index)可以用来判断多重共线性是否存在以及多重
2、共线性的严重程度,通常认为:,0,1,2,miikip例例3.1 3.1 根据例根据例2.12.1计算特征值及条件指数计算特征值及条件指数多重共线性检验多重共线性检验SPSSSPSSCollinearity DiagnosticsCollinearity Diagnosticsa a4.7971.000.00.00.00.00.00.1755.240.00.00.13.00.00.02713.250.01.00.61.00.01.00188.903.08.26.01.08.81.000162.804.92.74.25.92.18Dimension12345Model1EigenvalueCon
3、ditionIndex(Constant)MOBPMGPOPGNPVariance ProportionsDependent Variable:QMGa.打开Linear Regression:Statistics子对话框,选择Collinearity diagnostics(共线性诊断),单击Continue返回主对话框并单击OK按钮。这样SPSS 便可输出所有检查多重共线性的指标。与特征根法比较,方差扩大因子法可以较准确地说明哪些变量与其他变量有严重的共线性,严重程度如何CoefficientsCoefficientsa a2E+0073E+007.979.3351.419.2672.48
4、45.315.000.005218.079-3E+0075027085-.415-5.569.000.1805.548-59.875198.552-.071-.302.765.01855.074-30540.99557.981-1.099-3.195.003.008118.205(Constant)MOBPMGPOPGNPModel1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.ToleranceVIFCollinearity StatisticsDependent Variable:QMGa.例2.1
5、 删去POP,再进行回归 一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。中国中国GDPGDP与居民消费与居民消费C C的总量与增量数据的总量与增量数据YearGDPCONSCONS/GDPGDPCONSCONS/GDP1980NA2976NANANANA1981490133090.675168NA333NA1982548936380.662785883290.5595241983607640210.6617845873830.652471984716446940.65522110886730.618566198587925773 0.65662162810790.6627761986
6、1013365420.64561313417690.57345319871178474510.63229816519090.55057519881470493600.636561292019090.653767198916466105560.641079176211960.678774199018320113620.62019718548060.434736199121280131460.617763296017840.602703199225864159520.616765458428060.612129199334501201820.584969863742300.489753199447
7、111272160.5776991261070340.557811201959405345290.5812471229473130.594843201968498401720.58647909356430.620587 即对于不同的样本点,随机误差项的方差不即对于不同的样本点,随机误差项的方差不再是常数,则认为出现了再是常数,则认为出现了异方差性异方差性。2222110)()(iiiikikiiiVarVarXXXY如果出现同方差假设为对于模型2222var)iiE()(22var()iiiE()23一般认为,如果回归方程满足所给出的基本假设,所有残差应该在e0的附近随机变化,并在变化不大的一
8、条带子内。图a中的残差都落在变化不大的一条带子内,也就可以说明回归模型满足基本假设。当回归模型满足所有假定时,残差图上的散点应该是随机的,无任何规律。如果回归模型存在异方差时,残差图上的散点呈现出相应的趋势。当然,如果存在异方差,也可能随着x的增加而减少。图b的情况表明,残差图上的散点随着x的增加而增加。从残差图可以看出,误差项具有明显的异方差性,误差随着自变量的增加而增加-12,000,000-8,000,000-4,000,00004,000,0008,000,00012,000,0001,0002,0003,0004,000GNPRESID回归方程的回归方程的 White White 异
9、方差检验的结果:异方差检验的结果:该结果该结果F F 统计量和统计量和 ObsObs*R R2 2 统计量的统计量的P P值均很小,值均很小,表明拒绝原假设,即残差存在异方差性。表明拒绝原假设,即残差存在异方差性。加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用普通最小二乘法估计其参数。例如,在递增异方差下,对来自较小Xi的子样本,其真实的总体方差较小,Yi与回归线拟合值之间的残差ei的信度较大,应予以重视;而对较大Xi的子样本,由于真实总体的方差较大,残差反映的信息应打折扣。加权最小二乘法就是对加了权重的残差平方和加权最小二乘法就是对加了权重的残差平方和实施实施O
10、LS法:法:对较小的残差平方ei2赋予较大的权数,对较大的残差平方ei2赋予较小的权数。21102)(kkiiiiXXYWeW 尝试一些m值,如m=-2,-1.5,-1,-0.5,0,0.5,1,1.5,2等,建立不同的模型,然后选择其中表现最好的模型。例3.4 承接例2.1和例3.3 ls qmg c mob pmg gnpgenr w=gnp-1.5 或series 点击options 选加权最小二乘法,然后再进行Harvey检验。结果各统计量在0.05显著性水平下都无法拒绝原假设,说明异方差问题得到较好的解决。mkikxwxf函数作试探性的研究。的,实践中常用下面的的具体形式往往是未知由
11、于)(/1寻找最优权函数利用SPSS软件可以确定(6.6)式幂指数m的最优取值。对例6.3的数据,依次点选Analyze-Regression-Weight Estimation进入估计权函数对话框,默认的幂指数m的取值为m=-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0,这一默认值可以更改。先将因变量y与自变量x选入各自的变量框,再把x选入Weight变量框,幂指数(Power)取默认值,计算结果如下(格式略有变动):对异方差问题的处理至今没有什么更好的方法,对异方差问题的处理至今没有什么更好的方法,一些方法的处理效果往往不甚明显,所以此例能一些方法的处理效果往往
12、不甚明显,所以此例能有所改进也就不错了。有所改进也就不错了。3.1.3 自相关性即即:0),(jiuuE 大多数经济时间数据都有一个明显的特点大多数经济时间数据都有一个明显的特点:惯性,惯性,表现在时间序列不同时间的前后关联上。表现在时间序列不同时间的前后关联上。如如GDP、价格、就业等经济指标都会随经济系、价格、就业等经济指标都会随经济系统的周期而波动。例如,在经济高涨时期,较高的统的周期而波动。例如,在经济高涨时期,较高的经济增长率会持续一段时间,而在经济衰退期,较经济增长率会持续一段时间,而在经济衰退期,较高的失业率也会持续一段时间,这种现象就会表现高的失业率也会持续一段时间,这种现象就
13、会表现为经济指标的自相关现象。为经济指标的自相关现象。2.2.经济活动的滞后效应经济活动的滞后效应 所谓模型设定偏误(所谓模型设定偏误(Specification error)是指)是指所设定的模型所设定的模型“不正确不正确”。主要表现在模型中丢掉。主要表现在模型中丢掉了重要的解释变量或模型函数形式有偏误。了重要的解释变量或模型函数形式有偏误。例如例如,本来应该估计的模型为,本来应该估计的模型为 Yt=0+1X1t+2X2t+3X3t+t但在模型设定中做了下述回归:但在模型设定中做了下述回归:Yt=0+1X1t+1X2t+vt因此,因此,vt=3X3t+t,如果,如果X3确实影响确实影响Y,则
14、出,则出现现序列相关。序列相关。随机误差项的一阶自回归形式为:随机误差项的一阶自回归形式为:为了检验序列的相关性,构造的原假设是:为了检验序列的相关性,构造的原假设是:为了检验上述假设,构造为了检验上述假设,构造DW统计量首先要求出统计量首先要求出回归估计式的残差回归估计式的残差 定义定义DW统计量为统计量为:2-1=22=1(-)DW=ntttntteee-1=+tttuuv0H:0te(无一阶自相关)(无一阶自相关)22-1-1=2=2=22=1+-2DW=nnnttt ttttntteeeee222-1=2=2=1nnntttttteee(由)-1=22=12 1-2 1ntttntte
15、ee ()-1=22=1ntttntteee(由)由由 可得可得DW 值与值与 的对应关系如表所示。的对应关系如表所示。4(2,4)2(0,2)0-1(-1,0)0(0,1)1DWDW2(1)误差项的相关性完全负自相关负自相关无自相关正自相关完全正自相关由上述讨论可知由上述讨论可知DW的取值范围为:的取值范围为:0DW根据样本容量根据样本容量 和解释变量的数目和解释变量的数目 (不包括常不包括常数项数项)查查DW分布表,得临界值分布表,得临界值 和和 ,然后依,然后依下列准则考察计算得到的下列准则考察计算得到的DW值,以决定模型的值,以决定模型的自相关状态。自相关状态。LdUdnkDW检验决策
16、规则检验决策规则误差项误差项 间存在间存在负相关负相关不能判定是否有自相关不能判定是否有自相关误差项误差项 间间无自相关无自相关不能判定是否有自相关不能判定是否有自相关误差项误差项 间存在间存在正相关正相关0DWLdDWLUddDW 4-UUdd4-DW 4-ULdd4-DW 4Ld 1,2,.,nu uu1,2,.,nu uu1,2,.,nu uu用坐标图更直观表示用坐标图更直观表示DW检验规则检验规则:42LdUd4Ud4Ld(DW)fDW0 拉格朗日乘数检验(拉格朗日乘数检验(LM检验检验)克服了克服了DW检验的缺检验的缺陷,适合于高阶序列相关以及模型中存在滞后被解释陷,适合于高阶序列相
17、关以及模型中存在滞后被解释变量的情形。变量的情形。如果怀疑随机扰动项存在如果怀疑随机扰动项存在p阶序列相关:阶序列相关:tptpttt2211提出原假设为:提出原假设为:H0:1=2=p=0 (无自相关)(无自相关)根据观测量根据观测量nR2的的P值可以值可以做出判断,做出判断,实际检验中,实际检验中,可从可从1阶、阶、2阶、阶、逐次向更高阶检验。逐次向更高阶检验。不妨设含有高阶扰动项和滞后项的方程形式为:不妨设含有高阶扰动项和滞后项的方程形式为:tptptktkttXXY11110WD.211或:(2)线性化涉及参数eLAKY eLAKY2903003103203303403503,0004
18、,0005,0006,0007,0008,0009,000XYxbay/xxxbay/1eLAKY LAKY LAKY eLAKYLAKY 1LAKY 1LAKY 1模型简化为:LKALY 是人均产量,是人均资本投入LYLKLAKY 1LAKY 1)log(224248.0693887.0)log(LKLY7758.02242.04996.0LKY t、c均为上上标 设消费函数为非线性形式:设消费函数为非线性形式:其其 中:中:cscst t 是实际居民消费,是实际居民消费,incinct t 是实际可支配收入。利是实际可支配收入。利用用19591959年第一季度(年第一季度(1959Q11959Q1)至)至19791979第四季度(第四季度(1979Q41979Q4)的人)的人均消费支出(均消费支出(cs)cs)和人均可支配收入(和人均可支配收入(incinc)共)共8484个观察值数据个观察值数据估计此非线性方程。估计此非线性方程。由于用迭代法计算,首先要赋初值,比如可以设由于用迭代法计算,首先要赋初值,比如可以设 3 3的估计的估计值值b b3 3初值是初值是1 1,则可以利用,则可以利用OLSOLS估计值,然后,非线性方程估计。估计值,然后,非线性方程估计。tttuinccs32105496.15858.0846.337ttincsc