1、第四章第四章 多重共线性多重共线性计量经济学计量经济学引子:引子:发展农业会减少财政收入吗?发展农业会减少财政收入吗?为了分析各主要因素对财政收入的影响,建立财政收为了分析各主要因素对财政收入的影响,建立财政收入模型入模型:其中其中:CS财政收入财政收入(亿元亿元);NZ农业增加值农业增加值(亿元亿元);GZ工业增加值工业增加值(亿元亿元);JZZ建筑业增加值建筑业增加值(亿元亿元);TPOP总人口总人口(万人万人);CUM最终消费最终消费(亿元亿元);SZM受灾面积受灾面积(万公顷万公顷)数据样本时期数据样本时期1978年年-2007年(资料来源:年(资料来源:中国统计年鉴中国统计年鉴200
2、8,中国统计出版社,中国统计出版社2008年版)年版)采用普通最小二乘法得到以下估计结果采用普通最小二乘法得到以下估计结果iiiiiiiiuSZMCUMTPOPJZZGZNZCS6543210财政收入模型的财政收入模型的EViewsEViews估计结果估计结果VariableCoefficient Std.Error t-Statistic Prob.农业增加值工业增加值建筑业增加值总人口最终消费受灾面积截距-1.9075480.0459476.4583740.0960220.003108-0.027627-5432.5070.3420450.0427460.7657670.0916600.0
3、428070.0489048607.753-5.5768881.0748928.4338671.0475910.072609-0.564916-0.6311180.00000.29360.00000.30570.94270.57760.5342R-squared 0.989654Adjusted R-squared 0.986955S.E.of regression 1437.448Sum squared resid 47523916Log likelihood -256.7013Durbin-Watson stat 1.654140Mean dependent var 10049.04S.D
4、.dependent var 12585.51Akaike info criterion 17.58009Schwarz criterion 17.90704F-statistic 366.6801Prob(F-statistic)0.000000 可决系数为可决系数为0.9897,校正的可决系数为,校正的可决系数为0.98700.9870,模,模型拟合很好。模型对财政收入的解释程度高达型拟合很好。模型对财政收入的解释程度高达98.9%98.9%。F F统计量为统计量为366.68366.68,说明,说明0.050.05水平下回归方程整体水平下回归方程整体上显著。上显著。t t 检验结果表明,
5、检验结果表明,除了农业增加值、建筑业增加除了农业增加值、建筑业增加值以外,其他因素对财政收入的影响均不显著。值以外,其他因素对财政收入的影响均不显著。农业增加值的回归系数是负数。农业增加值的回归系数是负数。农业的发展反而会使财政收入减少吗?农业的发展反而会使财政收入减少吗?!这样的异常结果显然与理论分析和实践经验不相符。这样的异常结果显然与理论分析和实践经验不相符。若模型设定和数据真实性没问题,问题出在哪里呢?若模型设定和数据真实性没问题,问题出在哪里呢?模型估计与检验结果分析模型估计与检验结果分析第四章第四章 多重共线性多重共线性 本章讨论四个问题:本章讨论四个问题:什么是多重共线性什么是多
6、重共线性 多重共线性产生的后果多重共线性产生的后果 多重共线性的检验多重共线性的检验 多重共线性的补救措施多重共线性的补救措施第一节第一节 什么是多重共线性什么是多重共线性 本节基本内容本节基本内容:多重共线性的含义多重共线性的含义 产生多重共线性的背景产生多重共线性的背景 在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括完全的多重共线性,还包括不完全的多重共线性。在有截距项的模型中,截距项可以视为其对应的解释变量总是为1。对于解释变量,如果存在不全为0的数,使得则称解释变量之间存在着完全的多重共线性。231,kXXX一、多重共线性的含义一、多重共线性的含义12
7、2330(i1,2,n)iikkiXXX231,kXXX12k,.2131122322231111kknnknXXXXXXXXXX或者说,当 时,表明在数据矩阵 中,至少有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。()RankkXX用矩阵表示,解释变量的数据矩阵为:不完全的多重共线性不完全的多重共线性 实际中,常见的情形是解释变量之间存在不完全的多重共线性。常见的是解释变量之间存在不完全的多重共线性。即对于解释变量 ,存在不全为存在不全为0的数的数,使得为随机变量。这表明解释变量只是一种近似的线性关系。其中,231,kXXX12,k12233.01,2,.,iikkii
8、XXXuiniu231,kXXX注意这里增加了一个随机变量如果X矩阵中Rank(X)=k,则认为k-1个解释变量之间不存在多重共线性。需要强调的是:解释变量之间不存在线性关系,并非不存在非线性关系,当解释变量存在非线性关系时,并不违反多重共线性假定。,解释变量间毫无线性关系,变量间相互正交。这时已不需要作多元回归(这个说法是不太准确的),每个参数j都可以通过Y 对Xj 的一元回归来估计。回归模型中解释变量的关系回归模型中解释变量的关系 相关系数来解释上述问题可以表述如下:相关系数来解释上述问题可以表述如下:1.,解释变量间完全共线性。此时模型参数将无法确定。,解释变量间存在一定程度的线性关系。
9、实际中常遇到的情形。2.3.0ijx xr1ijx xr01ijx xr 二、产生多重共线性的背景二、产生多重共线性的背景 多重共线性产生的经济背景主要有几种情形:多重共线性产生的经济背景主要有几种情形:1.经济变量之间具有共同变化趋势。例如,对于时间序列数据,收入、消费、就业率等,在经济上升时期均呈现出增长趋势,当经济下滑时,又都呈现出下降趋势。此时变量之间的相关性就比较强。2.模型中包含滞后变量。当建模过程中引入滞后变量,由于变量的时间序列之间往往呈现出较强的线性关系,所以也会导致多重共线性比较严重。3.利用截面数据建立模型也可能出现多重共线性。利用截面数据建模,不同截面的变量变化与发展规
10、模有关,会出现共同增长的趋势,例如,资本、劳动力,科技、能源投入等要素的投入都呈现出规模经济的特征。4.样本数据自身的原因。抽样仅仅局限于总体中解释变量取值的一个有限范围,使得变量变异不够大;或由于总体受限,多个解释变量的样本数据之间存在,这是都会引起多重共线性(事实这种情况几乎不可避免)。第二节第二节 多重共线性产生的后果多重共线性产生的后果 本节基本内容本节基本内容:完全多重共线性产生的后果完全多重共线性产生的后果 不完全多重共线性产生的后果不完全多重共线性产生的后果一、完全多重共线性产生的后果一、完全多重共线性产生的后果1 参数的估计值不确定当解释变量完全线性相关时X矩阵的秩小于k,此时
11、 OLS 估计式不确定。这里以两个解释变量的回归模型为例,说明完全共线性的影响。原式:,采用其离差形式由最小二乘估计得两个偏回归系数表达式如下:假定 ,这里 是非零常数,将其分别带入上式可得:0X X,12233iiYXXu2233iiyxx2233232222232323222332222323()()()()()()()()()()()()()()iiiiiiiiiiiiiiiiiiiiiiy xxy xx xxxx xy xxy xx xxxx x23iiXX233333222222333322333333222223333()()()()0()()()0()()()()0()()()0
12、iiiiiiiiiiiiiiiiiiiiiiy xxy xx xxxx xy xxy xx xxxx x很明显上式是未定式,无法用OLS方法进行估计。从回归模型的建模思想看,完全的多重共线性使得解释变量前面的偏回归系数的失去了原有的经济学含义,无法区两个解释变量对被解释变量的各自的影响。一、完全多重共线性产生的后果一、完全多重共线性产生的后果2 参数估计量的方差无限大 仍以两个变量的多元回归为例,由OLS方法得出偏回归系数的方差如下式:在完全共线性情况下 带入上式得:这表明,在解释变量之间存在完全共线性时,参数估计量的方差将变成无限大。2322222232322222232323()()()(
13、)()()()()xVarxxx xxVarxxx x23iiXX223322222233332222332222233333()()()()0()()()()0 xxVarxxx xxxVarxxx x 二、不完全多重共线性产生的后果二、不完全多重共线性产生的后果 完全多重共线性只不过是一种极端情形。通常,解释变量之间会存在不同程度的线性关系,此时可以得到关于偏回归系数的估计值,但是会由于线性关系的强弱会影响参数估计的结果。1.参数估计值的方差增大 仍以只有两个解释变量的回归模型为例,X2与X3不完全的共线性关系表示为:其中,23iiiXXvi300iix v并且v是具有性质的随机误差项。2
14、3233,OLS这种情况下,可以用法估计回归系数和将和 的上述关系式带到对 的估计式中得:2222333332222222333()()()()()()()iiiiiiiiiiiiiy xxvy xy vxxvxx233230iXXXXv32因此在与近似共线性时,还是可以估计的。但是如果与共线程度越高,会非常小,以至于非常接近于,此时会趋于不确定。对于 同样可以得出类似的结论。2323XXXX在与为不完全共线性时,与的相关系数的平方用离差形式可以表示为:2232232223()x xrxx 23将上式带入到和方差估计式中可以得到两个偏回归系数方差估计的相关系数表达式如下:23222222323
15、22223222232222232322323()()()()1()1(1)()(1)iixVarxxx xx xxxxxrVarxr 123从上式中可以更清楚的看出,随着共线性增加,r 趋于,两个参数估计量的方差也将增大。22322222222322232223233223r()=(1)()=(1)r1iiiiVarVIFxrxVarVIFxrxVIF1此外如果定义VIF=,(Variance inflation factor)那么上述两式(1-)可以写成更为简单的表达式:表明,参数估计量的方差是由于多重共线性的出现而膨胀起来的。随着共线性的增加趋于,那么方差的估计量将趋于无穷大。2.对参数
16、区间估计时,置信区间变大0.000.500.990.99923r3%r=0.991023存在多重共线性时,参数估计值的方差增大,其标准误差也增大,导致总体参数的置信区间也随之增大。假设方差已知,正态分布下95置信度下临界值为1.96,当时,的置信区间约比相关系数为零时大倍。395%的置信区间2233/1.9 6ix 2233/1.9 61.3 3ix 2233/1.9 61 0 0ix 2233/1.9 65 0 0ix 3395%SE表4.2 增加共线性对 的置信区间的影响3.当存在严重的多重共线性时,假设检验容易做出错误判断 存在严重多重共线性时,首先是参数估计的置信区间扩大,会使得接受一
17、个本应拒绝的假设的概率增大。此外,在对回归系数的原假设(如3=0)的检验中,由于 ,在存在共线性的情况下会使得参数估计值的方差增大,t的统计量减少,增加了接受偏回归系数为0的假设。4.可能造成可决系数较高,但对各个参数单独的t检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。33/()tV ar 第三节第三节 多重共线性的检验多重共线性的检验 本节基本内容:本节基本内容:简单相关系数检验法简单相关系数检验法 方差扩大(膨胀)因子法方差扩大(膨胀)因子法 直观判断法直观判断法 逐步回归法逐步回归法一、简单相关系数检验法一、简单相关系数检验法 含义:简单相关系数检验法是利用解
18、释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。判断规则:一般而言,如果每两个解释变量的简单相关系数比较高,大于0.8(经验值),则可认为存在着较严重的多重共线性。注意:较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。特别是在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共线性的准确判断。(换句话说就是如果解释变量之间相关系数很高那么模型存在多重共线性问题,但如果模型存在多重共线性问题不能得出变量相关系数非常高这个结论。)二、方差扩大(膨胀)因子法二、方差扩大(膨胀)因子法 统计上可以证明,解释
19、变量的参数估计式的方差可表示为:其中的是变量的方差扩大因子,其中其中是多个解释变量辅助回归的可决系数。21VIF=1-jjR222221Var()=VIF1-jjjjjxRxVIFjjXjXj2jR经验规则经验规则方差膨胀因子越大,表明解释变量之间的多重共性越严重。反过来,方差膨胀因子越接近于1,多重共线性越弱。经验表明,方差膨胀因子10时,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。三、直观判断法三、直观判断法 1.当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化,回归方程可能存在严重的多重共线性。2.从定性分析
20、认为,一些重要的解释变量的回归系数的标准误差较大,在回归方程中没有通过显著性检验时,可初步判断可能存在严重的多重共线性。3.有些解释变量的回归系数所带正负号与定性分析结果违背时,很可能存在多重共线性。4.解释变量的相关矩阵中,自变量之间的相关系数较大时,可能会存在多重共线性问题。四、逐步回归检测法四、逐步回归检测法 逐步回归的基本思想逐步回归的基本思想 将变量逐个的引入模型,每引入一个解释变量后,都要进行检验,并对已经选入的解释变量逐个进行t 检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。以确保每次引入新的变量之前回归方程中只包含显著的变量。在逐步回归中,高度相
21、关的解释变量,在引入时会被剔除。因而也是一种检测多重共线性的有效方法。第四节第四节 多重共线性的补救措多重共线性的补救措施施 本节基本内容本节基本内容:修正多重共线性的经验方法修正多重共线性的经验方法 逐步回归法逐步回归法一、修正多重共线性的经验方法一、修正多重共线性的经验方法 1.剔除变量法把方差扩大因子最大者所对应的自变量首先剔除再重新建立回归方程,直至回归方程中不再存在严重的多重共线性。注意:若剔除了重要变量,可能引起模型的设定误差。2.增大样本容量如果样本容量增加,会减小回归参数的方差,标准误差也同样会减小。因此尽可能地收集足够多的样本数据可以改进模型参数的估计。问题:增加样本数据在实
22、际计量分析中常面临许多困难。3.变换模型形式一般而言,差分后变量之间的相关性要比差分前弱得多,所以差分后的模型可能降低出现共线性的可能性,此时可直接估计差分方程。问题:差分会丢失一些信息,差分模型的误差项可能存在序列相关,可能会违背经典线性回归模型的相关假设,在具体运用时要慎重。4.利用非样本先验信息 通过经济理论分析能够得到某些参数之间的关系,可以将这种关系作为约束条件,将此约束条件和样本信息结合起来进行约束最小二乘估计。例如,考虑一下模型:12233iiiiYXXu321223312ii2323=0.2=0.2,iiiiiiiYXXuXuXXX如果根据长期经验分析可以认为,这样,我们可以将
23、其转化为一下形式:其中,。如果估计出则也估计出了。5.横截面数据与时序数据并用首先利用横截面数据估计出部分参数,再利用时序数据估计出另外的部分参数,最后得到整个方程参数的估计(例子)。注意:这里包含着假设,即参数的横截面估计和从纯粹时间序列分析中得到的估计是一样的。ttt12323lnlntttPIut假设研究中国家庭轿车需求,并收集到了关于家庭轿车的销售数据(Y)平均价格(P)、和消费者收入(I)的时间序列数据。依据研究目的设定模型为:lnY目的是要估计价格弹性和收入弹性。在时间序列分析中,价格和收入一般都具有高度共线性的趋势。托宾提出了解决该问题的一种方法,即如果拥有关于消费者定点追踪的横
24、截面数据,如城镇或农村居33123t,ln=lnlntttPuYIt民住户调查数据,就可能可靠地估计收入弹性。令收入弹性的横截面估计为就可以将前述时间序列回归写成:Y其中,Y。这样就可以得到价格弹性的估计值。6.变量变换变量变换的主要方法:(1)计算相对指标。如由总量指标改为人均指标或结构相对数(比重)等。(2)将名义数据转换为实际数据。如将名义数据剔除价格影响后引入模型建模。(3)将小类指标合并成大类指标。如在引例中,将工业增加值、建筑业增加值合并成第二产业增加值。变量数据的变换有时可得到较好的结果,但无法保证一定可以得到很好的结果。二、逐步回归法二、逐步回归法(1)用被解释变量对每一个所考
25、虑的解释变量做简单回归。(2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。若新变量的引入改进了和检验,且回归参数的t检验在统计上也是显著的,则在模型中保留该变量。F2R若新变量的引入未能改进 和 检验,且对其他回归参数估计值的t 检验也未带来什么影响,则认为该变量是多余变量。若新变量的引入未能改进 和 检验,且显著地影响了其他回归参数估计值的数值或符号,同时本身的回归参数也通不过t 检验,说明出现了严重的多重共线性。2RFF2R 第五节第五节 案例分析案例分析一、研究的目的要求提出研究的问题为了规划中国未来国内旅游产业的发展,需要
26、定量地分析影响中国国内旅游市场发展的主要因素。二、模型设定及其估计 影响因素分析与确定影响因素主要有国内旅游人数 ,城镇居民人均旅游支出 ,农村居民人均旅游支出 ,并以公路里程次 和铁路里程 作为相关基础设施的代表。理论模型的设定其中:第t年全国国内旅游收入23456123456tttttttYXXXXXu2X3XtY4X5X6X年份国内旅游收入Y(亿元)国内旅游人数X2(万人次)城镇居民人均旅游花费X3(元)农村居民人均旅游花费X4(元)公路里程 X5(万km)铁路里程X6(万km)19941023.552400414.754.9111.785.9019951375.762900464.06
27、1.5115.705.9719961638.463900534.170.5118.586.4919972112.764400599.8145.7122.646.6019982391.269450607.0197.0127.856.6419992831.971900614.8249.5135.176.7420003175.574400678.6226.6140.276.8720013522.478400708.3212.7169.807.0120023878.487800739.7209.1176.527.1920033442.387000684.9200.0180.987.3020044710
28、.7110200731.8210.2187.077.4420055285.9121200737.1227.6193.057.5420066229.74139400766.4221.9345.707.7120077770.62161000906.9222.5358.377.80数据的收集与处理1994年年2007年中国旅游收入及相关数据年中国旅游收入及相关数据 该模型,可决系数很高,F检验值593.4168,明显显著。但是当时、不仅 、系数的t检验不显著,而且 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。6X6X0.05OLS OLS 估计的结果估计的结果9956.09973.02
29、2RR31.2)614()(025.02/tknt5X6X05.0计算各解释变量的相关系数计算各解释变量的相关系数 表明各解释变量间确实存在严重的多重共线性表明各解释变量间确实存在严重的多重共线性X2X3X4X5X6X21.0000000.8671920.5660240.9455390.891303X30.8671921.0000000.8117260.8051290.956903X40.5660240.8117261.0000000.4876690.790144X50.9455390.8051290.4876691.0000000.812921X60.8913030.9569030.7901
30、440.8129211.000000三、消除多重共线性三、消除多重共线性采用逐步回归法检验和解决多重供线性问题。分别作Y 对X2、X3、X4、X5、X6的一元回归 的大小排序为:的大小排序为:X2、X3、X6、X5、X4。以X2为基础,顺次加入其他变量逐步回归,过程从略(见教材)2R2R2X3X4X5X6X2R变量参数估计值0.058814.022519.610322.59573025.062t 统计量18.24889.30903.27108.70849.13920.96520.87840.47140.86340.87440.96230.86820.42730.85200.8639 最后消除多
31、重共线性的结果 =-3136.713+0.0435+3.6660+2.1786t=(-10.5998)(16.0418)(3.8314)(1.9744)=0.9961=0.9949F=841.4324DW=1.1763这说明,在其他因素不变的情况下,当国内旅游人数每增加1万人次,城镇居民人均旅游花费和农村居民人均旅游花费分别增加1元时,国内旅游收入将分别平均增加0.0435亿元、3.666亿元和2.1786亿元。四、回归结果的解释与分析四、回归结果的解释与分析tYtY2R2R2tX3tX4tX2X3X4X第四章第四章 小结小结1.多重共线性是指各个解释变量之间有准确或近似准确的线性关系。2.多
32、重共线性的后果:如果各个解释变量之间有完全的共线性,则它们的回归系数是不确定的,并且它们的方差会无穷大。如果共线性是高度的但不是完全共线,回归系数可估计,但有较大的标准误差。回归系数不能准确地估计。3.诊断共线性的经验方法:(1)表现为可决系数异常高而回归系数的t检验不显著。(2)变量之间的相关系数。多个解释变量时,相关系数较高大于0.8,很可能会出现多重共线性。(3)用解释变量间辅助回归的可决系数判断。4.降低多重共线性的经验方法:(1)利用外部或先验信息;(2)横截面与时间序列数据并用;(3)剔除高度共线性的变量(如逐步回归);(4)数据转换;(5)获取补充数据或新数据;(6)选择有偏估计量(如岭回归)。经验方法的效果取决于数据的性质和共线性的严重程度。第第 四四 章章 结结 束束 了!了!