1、计量经济学异方差计量经济学异方差基本假定违背基本假定违背:不满足基本假定的情况。主要 包括:(1)随机误差项序列存在异方差异方差性;(2)随机误差项序列存在序列相关序列相关性;(3)解释变量之间存在多重共线多重共线性;(4)解释变量是随机变量且与随机误差项相关 (随机解释变量随机解释变量);此外:(5)模型设定有偏误(6)解释变量的方差不随样本容量的增而收敛 计量经济检验:计量经济检验:对模型基本假定的检验对模型基本假定的检验 4.1 异方差性异方差性一、异方差的一、异方差的概念概念二、异方差的类型二、异方差的类型三、实际经济问题中的异方差性三、实际经济问题中的异方差性四、异方差性的后果四、异
2、方差性的后果五、异方差性的检验五、异方差性的检验六、异方差的修正六、异方差的修正七、案例七、案例对于模型ikikiiiiXXXY2210如果出现Varii()2即对于不同的样本点对于不同的样本点,随机误差项的方差不再随机误差项的方差不再是常数是常数,而互不相同而互不相同,则认为出现了则认为出现了异方差性异方差性(Heteroskedasticity)。一、异方差的概念一、异方差的概念 二、异方差的类型二、异方差的类型 同方差同方差性假定性假定:i2=常数 f(Xi)异方差异方差时:时:i2=f(Xi)异方差一般可归结为异方差一般可归结为三种类型三种类型:(1)单调递增型:i2随X的增大而增大
3、(2)单调递减型:i2随X的增大而减小 (3)复 杂 型:i2与X的变化呈复杂形式 三、实际经济问题中的异方差性三、实际经济问题中的异方差性 例例4.1.1:截面资料下研究居民家庭的储蓄行为 Yi=0+1Xi+iYi:第i个家庭的储蓄额 Xi:第i个家庭的可支配收入 高收入家庭:储蓄的差异较大 低收入家庭:储蓄则更有规律性,差异较小 i的方差呈现单调递增型变化的方差呈现单调递增型变化 例例4.1.2,以绝对收入假设为理论假设、以截面数据为样本建立居民消费函数:Ci=0+1Yi+I将居民按照收入等距离分成n组,取组平均数为样本观测值。一般情况下,居民收入服从正态分布一般情况下,居民收入服从正态分
4、布:中等收入组人数多,两端收入组人数少。而人数多的组平均数的误差小,人数少的组平均数的误差大。所以所以样本观测值的观测误差观测误差随着解释变量观测值的不同而不同,往往引起异方差性。例例4.1.3,以某一行业的企业为样本建立企业生产函数模型 Yi=Ai1 Ki2 Li3ei 被解释变量:产出量Y 解释变量:资本K、劳动L、技术A,那么:每个企业所处的外部环境外部环境对产出量的影响被包含在随机误差项中。每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。四、异方差性的后果四、异方差性的后果 计量
5、经济学模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:1 1、参数估计量非有效、参数估计量非有效 OLS估计量仍然具有仍然具有无偏性与一致性无偏性与一致性,但不具有不具有有效性有效性 因为在有效性证明中利用了 E()=2I 而且,在大样本情况下,尽管参数估计量具有一致性一致性,但仍然不具有渐近有效性渐近有效性。直观解释:有效性要求我们对随机扰动项的波动及它们的之间的关系,必须有着清晰的认识,但但一般一般OLS在估计时是假设我们已对随机扰动项有在估计时是假设我们已对随机扰动项有了清晰的认识了清晰的认识,这个假设的认识就是:随机扰动项间是不相关的,而且波动规律是完全一样的。
6、2 2、变量的显著性检验失去意义、变量的显著性检验失去意义220:(1)iiiTSSTR仪器22与序列相关一样,仪器的有效性与 是否较准确的估计了 有着密切的联系.但一般的OLS法是在没有充分认识扰动项变化规律情况下进行的估计,因而准确度会大打折扣.22,.其他检验 只要是用到了的估计均会使检验的 仪器 失效 五、异方差性的检验五、异方差性的检验 检验思路:检验思路:由于异方差性异方差性就是相对于不同的解释变量观测值,随机误差项具有不同的方差。那么:检验异方差性,也就是检验随机误差项的检验异方差性,也就是检验随机误差项的方差与解释变量观测值之间的相关性及其相方差与解释变量观测值之间的相关性及其
7、相关的关的“形式形式”。问题在于用什么来表示随机误差项的方差问题在于用什么来表示随机误差项的方差 一般的处理方法:一般的处理方法:首先采用 OLS 法估计模型,以求得随机误差项的估计量(注意,该估计量是不严格的),我们称之为“近近似估计量似估计量”,用ei表示。于是有VarEeiii()()22()eyyiiils0几种异方差的检验方法:几种异方差的检验方法:1 1、图示法、图示法(1)用)用X-Y的散点图进行判断的散点图进行判断 看是否存在明显的散点扩大散点扩大、缩小缩小或复杂型复杂型趋势趋势(即不在一个固定的带型域中)(2 2)X X-ei2的的散散点点图图进进行行判判断断看是否形成一斜率
8、为零的直线ei2 ei2 X X 同方差 递增异方差ei2 ei2 X X 递减异方差 复杂型异方差2 2、帕克、帕克(Park)检验与戈里瑟检验与戈里瑟(Gleiser)检验检验 基本思想基本思想:尝试建立方程:ijiiXfe)(2或ijiiXfe)(|选择关于变量X的不同的函数形式,对方程进行估计并进行显著性检验,如果存在某一种函数形式,使得方程显著成立,则说明原模型存在异方差性。如:帕克检验常用的函数形式:ieXXfjiji2)(或ijiiXelnln)ln(22 若若 在统计上是显著的,表明存在异方差性在统计上是显著的,表明存在异方差性。3 3、戈德菲尔德、戈德菲尔德-匡特匡特(Gol
9、dfeld-Quandt)(Goldfeld-Quandt)检验检验 G-Q检验以F检验为基础,适用于样本容量较大、异方差递增或递减的情况。G-QG-Q检验的思想检验的思想:先将样本一分为二,对子样和子样分别作回归,然后利用两个子样的残差平方和之比构造“仪器”进行异方差检验。由于该统计量服从F分布,因此假如存在递增的异方差,则F远大于1;反之就会等于1(同方差)、或小于1(递减方差)。G-Q G-Q检验的步骤:检验的步骤:将n对样本观察值(Xi,Yi)按观察值Xi的大小排队将序列中间的c=n/4个观察值除去,并将剩下的观察值划分为较小与较大的相同的两个子样本,每个子样样本容量均为(n-c)/2
10、对每个子样分别进行OLS回归,并计算各自的残差平方和 在同方差性假定下,构造如下满足F分布的统计量)12,12()12()12(2122kcnkcnFkcnekcneFii 给定显著性水平,确定临界值F(v1,v2),若F F(v1,v2),则拒绝同方差性假设,表明存在异方差存在异方差。当然,还可根据两个残差平方和对应的子样的顺序判断是递增型异方差还是递减异型方差。3 3、怀特(、怀特(White)检验)检验 怀特检验不需要排序,且适合任何形式的异方差 怀特检验的基本思想与步骤怀特检验的基本思想与步骤(以二元为例):iiiiXXY22110然后做如下辅助回归iiiiiiiiXXXXXXe215
11、224213221102 可以证明,在同方差假设下:(*)R2为(*)的可决系数,h为(*)式解释变量的个数,表示渐近服从某分布。注意:注意:辅助回归仍是检验与解释变量可能的组合的显著性,因此,辅助回归方程中还可引入解释变量的更高次方。如果存在异方差性,则表明确与解释变量的某种组合有显著的相关性,这时往往显示出有较高的可决系数以及某一参数的t检验值较大。当然,在多元回归中,由于辅助回归方程中可能有太多解释变量,从而使自由度减少,有时可去掉交叉项。六、异方差的修正异方差的修正基本思想:在获得关于随机扰动项的变动,及其它们之间相互关系的更多信息条件下,通过一定的数学变换,将这个随机扰动项转化成满足
12、经典假设的同方差的情形。基本方法有二:一是在知道随机扰动项相对波动大小的情况下,直接对每个样本的随机扰动项进行加权,从而使它们的波动幅度一样;二是在知道了随机扰动项的波动,及各个随机扰动项之间相关性的条件下,利用正定或半正定矩阵经过线性变换,可以化成单位矩阵的逻辑,将随机扰动项转化成满足经典假设条件。模型检验出存在异方差性,可用加权最小二乘加权最小二乘法法(Weighted Least Squares,WLS)进行估计。加权最小二乘法的基本思想:加权最小二乘法的基本思想:加权最小二乘法加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用OLS估计其参数。21102)(k
13、kiiiiXXYWeW 在采用OLS方法时:对较小的残差平方ei2赋予较大的权数,对较大的残差平方ei2赋予较小的权数。例如例如,如果对一多元模型,经检验知:222)()()(jiiiiXfEVar ijiijijiijiXXfXXfXfYXf22110)(1)(1)(1)(1 ijikijikXfXXf)(1)(1 新模型中,存在 222)()(1)(1()(1(ijiijiijiEXfXfEXfVar即满足同方差性,可用OLS法估计。一般情况下一般情况下:对于模型 Y=X+存在 W2)()(0)(ECovEW wwwn12即存在异方差性异方差性。W是一对称正定矩阵,存在一可逆矩阵D使得 W
14、=DD 用D-1左乘 Y=X+两边,得到一个新的模型:DXDYD111*XY该模型具有同方差性。因为 1211211111)()()(DDDDDDDDDD*EEEI2*1*)(YXXXYWXXWXYDDXXDDX11111111)()(这就是原模型 Y=X+的加权最小二乘估计量加权最小二乘估计量,是无偏、有效的估计量。这里权矩阵为D-1,它来自于原模型残差项 的方差-协方差矩阵2W。如何得到如何得到2W?从前面的推导过程看,它来自于原模型残差项 的方差-协方差矩阵。因此 仍对原模型进行OLS估计,得到随机误差项的近似估计量i,以此构成权矩阵的估计量,即2212neeW 这时可直接以|/1,|,
15、|/1|,|/1211neeediagD作为权矩阵。注意:注意:在实际操作中人们通常采用如下的经验方法:不对原模型进行异方差性检验,而是直接不对原模型进行异方差性检验,而是直接选择加权最小二乘法,尤其是采用截面数据选择加权最小二乘法,尤其是采用截面数据作样本时。作样本时。如果确实存在异方差,则被有效地消除了;如果不存在异方差性,则加权最小二乘法等价于普通最小二乘法七、案例七、案例-中国农村居民人均消费函数中国农村居民人均消费函数 例例4.1.4 中国农村居民人均消费支出主要由人均纯收入来决定。农村人均纯收入包括(1)从事农业经营的收入,(2)包括从事其他产业的经营性收入(3)工资性收入、(4)
16、财产收入(4)转移支付收入。考察从事农业经营的收入从事农业经营的收入(X1 1)和其他收入其他收入(X2 2)对中国农村居民消费支出农村居民消费支出(Y)增长的影响:22110lnlnlnXXY表表 4.1.1 中中国国 2001年年各各地地区区农农村村居居民民家家庭庭人人均均纯纯收收入入与与消消费费支支出出相相关关数数据据(单单位位:元元)地区 人均消费 支出 Y 从事农业经营 的收入 1X 其他收入 2X 地区 人均消费 支出 Y 从事农业经营 的收入 1X 其他收入 2X 北 京 3552.1 579.1 4446.4 湖 北 2703.36 1242.9 2526.9 天 津 2050
17、.9 1314.6 2633.1 湖 南 1550.62 1068.8 875.6 河 北 1429.8 928.8 1674.8 广 东 1357.43 1386.7 839.8 山 西 1221.6 609.8 1346.2 广 西 1475.16 883.2 1088.0 内蒙古 1554.6 1492.8 480.5 海 南 1497.52 919.3 1067.7 辽 宁 1786.3 1254.3 1303.6 重 庆 1098.39 764.0 647.8 吉 林 1661.7 1634.6 547.6 四 川 1336.25 889.4 644.3 黑龙江 1604.5 168
18、4.1 596.2 贵 州 1123.71 589.6 814.4 上 海 4753.2 652.5 5218.4 云 南 1331.03 614.8 876.0 江 苏 2374.7 1177.6 2607.2 西 藏 1127.37 621.6 887.0 浙 江 3479.2 985.8 3596.6 陕 西 1330.45 803.8 753.5 安 徽 1412.4 1013.1 1006.9 甘 肃 1388.79 859.6 963.4 福 建 2503.1 1053.0 2327.7 青 海 1350.23 1300.1 410.3 江 西 1720.0 1027.8 1203
19、.8 宁 夏 2703.36 1242.9 2526.9 山 东 1905.0 1293.0 1511.6 新 疆 1550.62 1068.8 875.6 河 南 1375.6 1083.8 1014.1 普通最小二乘法的估计结果:21ln5084.0ln3166.0655.1lnXXY (1.87)(3.02)(10.04)2R=0.7831 2R=0.7676 DW=1.89 F=50.53 RSS=0.8232 异方差检验 进一步的统计检验进一步的统计检验(1)G-Q检验检验 将原始数据按X2排成升序,去掉中间的7个数据,得两个容量为12的子样本。对两个子样本分别作OLS回归,求各自的
20、残差平方和RSS1和RSS2:子样本1:21ln119.0ln343.0061.4lnXXY (3.18)(4.13)(0.94)R2=0.7068,RSS1=0.0648子样本2:21ln776.0ln138.0791.0lnXXY (0.43)(0.73)(6.53)R2=0.8339,RSS2=0.2729计算计算F F统计量:统计量:F=RSS2/RSS1=0.2792/0.0648=4.31 查表查表 给定=5%,查得临界值 F0.05(9,9)=2.97判断判断 F F0.05(9,9)否定两组子样方差相同的假设,从而该总体随机项存在递增异方差性存在递增异方差性。(2 2)怀特检验
21、)怀特检验 作辅助回归:2222112)(ln026.0ln055.0)(ln015.0ln102.017.0XXXXe (-0.04)(0.10)(0.21)(-0.12)(1.47)21lnln043.0XX (-1.11)R2=0.4638似乎没有哪个参数的t检验是显著的。但 n R2=31*0.4638=14.38=5%下,临界值 20.05(5)=11.07,拒绝拒绝同方差性同方差性 去掉交叉项后的辅助回归结果 2222112)(ln039.0ln539.0)(ln042.0ln570.0842.3XXXXe (1.36)(-0.64)(064)(-2.76)(2.90)R2=0.4
22、374X2项与X2的平方项的参数的t检验是显著的,且 n R2=31 0.4374=13.56 =5%下,临界值 20.05(4)=9.49 拒绝拒绝同方差同方差的原假设的原假设 原模型的加权最小二乘回归原模型的加权最小二乘回归 对原模型进行OLS估计,得到随机误差项的近似估计量i,以此构成权矩阵2W的估计量;再以1/|i|为权重进行WLS估计,得 21ln527.0ln319.0497.1lnXXY (5.12)(5.94)(28.94)2R=0.9999 2R=0.9999 DW=2.49 F=924432 RSS=0.0706 各项统计检验指标全面改善各项统计检验指标全面改善4.3 多重
23、共线性多重共线性Multi-CollinearityMulti-Collinearity 一、多重共线性的概念一、多重共线性的概念 对于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n 如果某两个或多个解释变量之间出现了相如果某两个或多个解释变量之间出现了相关性,则称为关性,则称为多重共线性多重共线性(Multicollinearity)。如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其中:ci不全为0,则称为解释变量间存在则称为解释变量间存在完全共线完全共线性性(perfect multicollinearity)。如果存在 c1X1i+c2X2i+ckX
24、ki+vi=0 i=1,2,n 其中ci不全为0,vi为随机误差项,则称为 近似共线近似共线性性(approximate multicollinearity)或交互相关交互相关(intercorrelated)。矩阵时的数学附录 注意:注意:完全共线性的情况并不多见,一般出现完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线的是在一定程度上的共线性,即近似共线性。性。二、实际经济问题中的多重共线性二、实际经济问题中的多重共线性 一般地,产生多重共线性的主要原因有以下三个方面:(1 1)经济变量相关的共同趋势)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济变量
25、(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。(2 2)滞后变量的引入)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入,前期收入)显然,两期收入间有较强的线性相关性。(3)样本资料的限制样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。一般经验一般经验:时间序列数据时间序列数据样本:简单线性模型,往往存在多重共线性。截面数据截面数据样本:问题不那么严重,但多重共线性仍然是存在的
26、。二.多重共线性的后果1.数据的微小变化可能导致参数估计值的大幅波动2.尽管系数具有联合显著性,而且回归的R2相当高,但系数显著性水平会很低3.系数有何能出现“错误”的符号或不合理的大小4.不会影响参数估计的无偏与一致性,但会影响有效性。特别注意:特别注意:P90,第,第6题。题。为何会出现上述现象呢?220:(1)iiiTSSTR仪器还是要求助于下述仪器:回想一下,这个仪器是用于什么目的的?它的各个组成“零件”各表示什么意思?22221120112211111(),(),(1)nniiijiijjiiiiiiiikkVARSSTXXeSSTRnkRiXXXXXXui表示第 个解释变量与其它解
27、释变量的相关系数,即X这一模型的拟合优度值.这个“仪器”各变量含义:也就是说:如果解释变量Xi与其他变量相关,那么会扩大它的方差,从而减少估计的准确度。为什么?如果解释变量Xi与其他变量相关,那么就会减小T统计值。为什么?存在多重共线性时存在多重共线性时参数估计值的方差与标准差变大参数估计值的方差与标准差变大容易使通过样本计算的容易使通过样本计算的t值小于临界值,值小于临界值,误导作出参数为误导作出参数为0的推断的推断思考:从这个“仪器”(统计量)来看,我们通过作哪些工作,可以减少线性相关带来的影响?图示我们可以做如下工作:想办法使模型更精确。即使得被解释变量更多的很解释,或说使2的估计值更小
28、(为何?)。想办法使解释变量的变异性更大。或说使得解释变量包含更多的信息,以供我们利用。考虑:如果我们仅想使得参数估计更准确些,应作哪些工作?经验总结经验总结:通常情况下,多重共线性并不是一个严重的问题,因为它不会影响估计参数的无偏性与一致性,而只会影响参数的无效性。若某一关注参数T统计值大于2,不必注意是否存在多重共线性问题。只有当多重共线性问题的存在,明显的低估了估计参数的显著性的时候,才需对多重共线性加以注意。即,当出现T统计值绝对值小于2,且这种小于2是由于多重共线性引起的时,才需注意这个问题。相关数学附录三.观察是否存在多重共线性的指标多重共线性使参数估计值的方差增大重共线性使参数估
29、计值的方差增大,1/(1-r2)为方差膨胀因子方差膨胀因子(Variance Inflation Factor,VIF)例表例表 方差膨胀因子表方差膨胀因子表相关系数平方00.50.80.90.950.960.970.980.990.999方差膨胀因子12510202533501001000此表有何特点?随相关系数平方增大,方差膨胀因子如何变化?多重共线性检验的任务多重共线性检验的任务是:(1)检验多重共线性是否存在;)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之)估计多重共线性的范围,即判断哪些变量之间存在共线性。间存在共线性。多重共线性表现为解释变量之间具有相关关系
30、,所以用于多重共线性的检验方法主要是统计方法用于多重共线性的检验方法主要是统计方法:如判定系数检验法判定系数检验法、逐步回归检验法逐步回归检验法等。四、多重共线性的检验四、多重共线性的检验 1 1、检验多重共线性是否存在、检验多重共线性是否存在 (1)(1)对两个解释变量的模型,采用对两个解释变量的模型,采用简单相关系数法简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。(2)(2)对多个解释变量的模型,对多个解释变量的模型,采用综合统计检验法采用综合统计检验法 若 在OLS法下:R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线性作用显
31、著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。2 2、判明存在多重共线性的范围、判明存在多重共线性的范围 如果存在多重共线性,需进一步确定究竟由哪些变量引起。(1)判定系数检验法判定系数检验法 使模型中每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度。如果某一种回归 Xji=1X1i+2X2i+LXLi的判定系数判定系数较大,说明Xj与其他X间存在共线性共线性。数学附录 (2)逐步回归法逐步回归法 以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化决定新引入的变量是否独立。如果拟合优度变化显著如果拟合优度变
32、化显著,则说明新引入的变量是一个独立解释变量;如果拟合优度变化很不显著如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。找出引起多重共线性的解释变量,将它排除出去。以逐步回归法逐步回归法得到最广泛的应用。注意:注意:这时,剩余解释变量参数的经济含义和数值都这时,剩余解释变量参数的经济含义和数值都发生了变化。发生了变化。如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。四、克服多重共线性的方法四、克服多重共线性的方法 1 1、第一类方法:排除引起共线性的变量、第一类方法:排除引起共线性的变量 2 2、第二类方法:差分法、第二类方法:差分法
33、时间序列数据、线性模型:将原模型变换为差分模型:Yi=1 X1i+2 X2i+k Xki+i可以有效地消除原模型中的多重共线性。一般讲,增量之间的线性关系远比总量一般讲,增量之间的线性关系远比总量之间的线性关系弱得多之间的线性关系弱得多。例例如如:表表 4.3.2 中国中国 GDP 与居民消费与居民消费 C 的总量与增量数据的总量与增量数据(亿元)(亿元)年份CYC/YCYC/Y19781759.13605.60.48819792005.44074.00.492246.3468.40.52619802317.14551.30.509311.7477.30.65319812604.14901.4
34、0.531287.0350.10.82019822867.95489.20.522263.8587.80.44919833182.56076.30.524314.6587.10.53619843674.57164.40.513492.01088.10.45219854589.08792.10.522914.51627.70.56219865175.010132.80.511586.01340.70.43719875961.211784.70.506786.21651.90.47619887633.114704.00.5191671.92919.30.57319898523.516466.00.
35、518890.41762.00.50519909113.218319.50.497589.71853.50.318199110315.921280.40.4851202.72960.90.406199212459.825863.70.4822143.94583.30.468199315682.434500.70.4553222.68637.00.373199420809.846690.70.4465127.412190.00.421199526944.558510.50.4616134.711819.80.519199632152.368330.40.4715207.89819.90.5301
36、99734854.674894.20.4652702.36563.80.412199836921.179003.30.4672066.54109.10.503199939334.482673.10.4762413.33669.80.658200042911.989112.50.4823577.56439.40.556 由表中的比值可以直观地看到,增量的增量的线性关系弱于总量之间的线性关系线性关系弱于总量之间的线性关系。进一步分析:进一步分析:Y与C(-1)之间的判定系数为0.9988,Y与C(-1)之间的判定系数为0.9567 3、第三类方法:减小参数估计量的方差、第三类方法:减小参数估计量的
37、方差 多重共线性多重共线性的主要后果后果是参数估计量具有较大的方差,所以 采取适当方法减小参数估计量的方差采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。例如:增加样本容量增加样本容量,可使参数估计量的方可使参数估计量的方差减小差减小。岭回归法岭回归法(Ridge Regression)此种方法虽可有效减少参数的方差,但缺陷是用一个有偏的参数估计量,代替了原来的无偏估计量,因而一般认为是不可取的。主成份法主成份法此种方法存在的问题是,估计出来的参数难以从经济学角度解释。经验方法:现在大家一般都是这样处理,即在发现多重共线性时,要么直接去掉相关变
38、量,要么差分。六、案例六、案例中国粮食生产函数中国粮食生产函数 根据理论和经验分析,影响粮食生产(Y)的主要因素有:农业化肥施用量(X1);粮食播种面积(X2)成灾面积(X3);农业机械总动力(X4);农业劳动力(X5)已知中国粮食生产的相关数据,建立中国粮食生产函数:Y=0+1 X1+2 X2+3 X3+4 X4+4 X5+表表 4.3.3 中国粮食生产与相关投入资料中国粮食生产与相关投入资料年份粮食产量Y(万吨)农业化肥施用量1X(万公斤)粮食播种面积2X(千公顷)受灾面积3X(公顷)农业机械总动力4X(万千瓦)农业劳动力5X(万人)1983387281659.811404716209.3
39、1802231645.11984407311739.811288415264.01949731685.01985379111775.810884522705.32091330351.51986391511930.611093323656.02295030467.01987402081999.311126820392.72483630870.01988394082141.511012323944.72657531455.71989407552357.111220524448.72806732440.51990446242590.311346617819.32870833330.419914352
40、92806.111231427814.02938934186.31992442642930.211056025894.73030834037.01993456493151.911050923133.03181733258.21994445103317.910954431383.03380232690.31995466623593.711006022267.03611832334.51996504543827.911254821233.03854732260.41997494173980.711291230309.04201632434.91998512304083.711378725181.0
41、4520832626.41999508394124.311316126731.04899632911.82000462184146.410846334374.05257432797.5 1 1、用、用OLS法估计上述模型法估计上述模型:R2接近于1;给定=5%,得F临界值 F0.05(5,12)=3.11 F=638.4 15.19,故认上述粮食生产的总体线性关系显著成立。但X4、X5 的参数未通过t检验,且符号不正确,故解释变量间可能存在多重共线性解释变量间可能存在多重共线性。54321028.0098.0166.0421.0213.644.12816XXXXXY (-0.91)(8.39)
42、(3.32)(-2.81)(-1.45)(-0.14)2 2、检验简单相关系数、检验简单相关系数 发现:发现:X1与X4间存在高度相关性。列出X1,X2,X3,X4,X5的相关系数矩阵:X1X2X3X4X5X11.000.010.640.960.55X20.011.00-0.45-0.040.18X30.64-0.451.000.690.36X40.96-0.040.691.000.45X50.550.180.360.451.00 3 3、找出最简单的回归形式、找出最简单的回归形式 可见,应选可见,应选第第1 1个式子个式子为初始的回归模型。为初始的回归模型。分别作Y与X1,X2,X4,X5间
43、的回归:1576.464.30867XY (25.58)(11.49)R2=0.8919 F=132.1 DW=1.562699.018.33821XY (-0.49)(1.14)R2=0.075 F=1.30 DW=0.124380.00.31919XY (17.45)(6.68)R2=0.7527 F=48.7 DW=1.115240.219.28259XY (-1.04)(2.66)R2=0.3064 F=7.07 DW=0.36 4 4、逐步回归、逐步回归 将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。CX1X2X3X4X52RDWY=f(X1)308684.230.885
44、21.56 t 值25.5811.49Y=f(X1,X2)-438714.650.670.95582.01t 值-3.0218.475.16Y=f(X1,X2,X3)-119785.260.41-0.190.97521.53t 值0.8519.63.35-3.57Y=f(X1,X2,X3,X4)-130566.170.42-0.17-0.090.97751.80t 值-0.979.613.57-3.09-1.55Y=f(X1,X3,X4,X5)-126905.220.40-0.200.070.97981.55t 值-0.8717.853.02-3.470.37 回归方程以回归方程以Y=f(Y=
45、f(X1,X2,X3)为最优:为最优:5 5、结论、结论32119.041.026.511978XXXY 在矩阵表示的线性回归模型 Y=X+中,完全共线性完全共线性指:指:秩秩(X)k+1,即knnnkkXXXXXXXXXX212221212111111中,至少有一列向量可由其他列向量(不包括第一列)线性表出。如:X2=X1,则X2对Y的作用可由X1代替。二、多重共线性的后果二、多重共线性的后果 1 1、完全共线性下参数估计量不存在、完全共线性下参数估计量不存在如果存在如果存在完全共线性完全共线性,则,则(XX)-1不存在,无法得不存在,无法得到参数的估计量。到参数的估计量。XY的OLS估计量
46、为:YXXX1)(例:例:对离差形式的二元回归模型2211xxy如果两个解释变量完全相关,如x2=x1,则121)(xy这时,只能确定综合参数1+2的估计值:2 2、近似共线性下、近似共线性下OLS估计量非有效估计量非有效 近似共线性下,可以得到OLS参数估计量,但参数估计量方差方差的表达式为 由于|XX|0,引起(XX)-1主对角线元素较大,使参数估计值的方差增大,OLS参数估计量非有参数估计量非有效。效。12)()(XXCov仍以二元线性模型 y=1x1+2x2+为例:2221221212221222122211121)(1/)()()var(iiiiiiiiiixxxxxxxxxxXX2
47、21211rxi2221221)(iiiixxxx恰为X1与X2的线性相关系数的平方r2由于 r2 1,故 1/(1-r2)1具体可进一步对上述回归方程作具体可进一步对上述回归方程作F检验:检验:式中:Rj2为第j个解释变量对其他解释变量的回归方程的决定系数,若存在较强的共线性,则Rj2较大且接近于1,这时(1-Rj2)较小,从而Fj的值较大。因此,给定显著性水平,计算F值,并与相应的临界值比较,来判定是否存在相关性。构造如下F统计量)1,2()1/()1()2/(2.2.knkFknRkRFjjj 在模型中排除某一个解释变量Xj,估计模型;如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。另一等价的检验另一等价的检验是: