1、第八章第八章 特殊解释变量(特殊解释变量(1)一、一、随机解释变量问题随机解释变量问题二、实际经济问题中的随机解释变量问题二、实际经济问题中的随机解释变量问题 三、随机解释变量的后果三、随机解释变量的后果四、工具变量法四、工具变量法五、案例五、案例 基本假设:解释变量X1,X2,Xk是确定性变量。如果存在一个或多个随机变量作为解释变量,则称原模型出现随机解释变量问题随机解释变量问题。假设X2为随机解释变量。对于随机解释变量问题,分三种不同情况:一、随机解释变量问题一、随机解释变量问题对于模型 ikikiiiXXYY22110 1.随机解释变量与随机误差项独立随机解释变量与随机误差项独立(Ind
2、ependence)0)()()()(22,2ExExEXCov 2.随机解释变量与随机误差项同期无关随机解释变量与随机误差项同期无关(contemporaneously uncorrelated),但异期相关。,但异期相关。0)()(2,2iiiixEXCov0)()(2,2siisiixEXCov0s 3.随机解释变量与随机误差项同期相关随机解释变量与随机误差项同期相关(contemporaneously correlated)。0)()(2,2iiiixEXCov二、实际经济问题中的随机解释变量问题二、实际经济问题中的随机解释变量问题 在实际经济问题中,经济变量往往都具有随机性。但是在单
3、方程计量经济学模型中,凡是外生变量都被认为是确定性的。于是于是随机解释变量问题随机解释变量问题主要主要表现于:表现于:用滞用滞后被解释变量作为模型的解释变量的情况后被解释变量作为模型的解释变量的情况。例如:例如:(1 1)耐用品存量调整模型:)耐用品存量调整模型:耐用品的存量Qt由前一个时期的存量Qt-1和当期收入It共同决定:Qt=0+1It+2Qt-1+t t=1,T这是一个滞后被解释变量作为解释变量的模型。但是,如果模型不存在随机误差项的序列相关性,那么随机解释变量Qt-1只与t-1相关,与t不相关,属于上述的第2种情况。(2)合理预期的消费函数模型)合理预期的消费函数模型 合理预期理论
4、合理预期理论认为消费Ct是由对收入的预期Yte所决定的:tettYC10 预期收入Yte与实际收入Y间存如下关系的假设 ettetYYY1)1(容易推出tetttYYC1110)1(ttttCY)()1(101101110)1()1(ttttCYCt-1是一随机解释变量,且与(t-t-1)高度相关(Why?)。属于上述第3种情况。计量经济学模型一旦出现随机解释变量,且与随机扰动项相关的话,如果仍采用OLS法估计模型参数,不同性质的随机解释变量会产生不同的后果。下面以一元线性回归模型为例进行说明 三、随机解释变量的后果三、随机解释变量的后果 随机解释变量与随机误差项相关图随机解释变量与随机误差项
5、相关图 (a)正相关(b)负相关 拟合的样本回归拟合的样本回归线可能低估截距项,线可能低估截距项,而高估斜率项。而高估斜率项。拟合的样本回归线拟合的样本回归线高估截距项,而低高估截距项,而低估斜率项。估斜率项。对一元线性回归模型:tttXY10 OLS估计量为2121ttttttxxxyx 1、如果、如果X与与 相互独立,得到的参数估计相互独立,得到的参数估计量仍然是无偏、一致估计量。量仍然是无偏、一致估计量。已经得到证明 随机解释变量X与随机项 的关系不同,参数OLS估计量的统计性质也会不同。2 2、如果如果X与与 同期不相关,异期相关,得到的同期不相关,异期相关,得到的参数估计量有偏、但却
6、是一致的。参数估计量有偏、但却是一致的。kt的分母中包含不同期的X;由异期相关性知:kt与 t相关,因此,)()()(1211tttttkExxEE11)(E但是0)(),()lim()lim(1211121limttttnttntttnXVarXCovxPxPxxP 3 3、如果、如果X与与 同期相关,得到的参数估计量同期相关,得到的参数估计量有偏、且非一致。有偏、且非一致。注意:注意:如果模型中带有滞后被解释变量作为解释变量,则当该滞后被解释变量与随机误差项同期相关时,OLS估计量是有偏的、且是非一致的。即使同期无关,其OLS估计量也是有偏的,因为此时肯定出现异期相关。2的证明中已得到 模
7、型中出现随机解释变量且与随机误差项相关时,OLS估计量是有偏的。如果随机解释变量与随机误差项异期相关,则可以通过增大样本容量的办法来得到一致的估计量;但如果是同期相关,即使增大样本容量也无济于事。这时,最常用的估计方法是工具变量法工具变量法(Instrument variables)。四、工具变量法四、工具变量法 1 1、工具变量的选取、工具变量的选取 工具变量工具变量:在模型估计过程中被作为工具使用,以替代模型中与随机误差项相关的随机解释变量。选择为工具变量的变量必须满足以下条件选择为工具变量的变量必须满足以下条件:(1)与所替代的随机解释变量高度相关;)与所替代的随机解释变量高度相关;(2
8、)与随机误差项不相关;)与随机误差项不相关;(3)与模型中其它解释变量不相关,以避)与模型中其它解释变量不相关,以避免出现多重共线性。免出现多重共线性。2 2、工具变量的应用、工具变量的应用 以一元回归模型的离差形式为例说明如下:以一元回归模型的离差形式为例说明如下:iiixy1用OLS估计模型,相当于用xi去乘模型两边、对i求和、再略去xii项后得到正规方程正规方程:21iiixyx21iiixyx(*)解得 然而,如果Xi与i相关,即使在大样本下,也不存在(xii)/n0,则在大样本下也不成立,OLS估计量不具有一致性不具有一致性。21iiixyx由于Cov(Xi,i)=E(Xii)=0,
9、意味着大样本下 (xii)/n0 表明大样本下大样本下21iiixyx成立,成立,即即OLS估计量估计量具有一致性。具有一致性。如果选择Z为X的工具变量工具变量,那么在上述估计过程可改为:iiiiiizxzyz1利用E(zii)=0,在大样本下可得到:iiiixzyz1关于0的估计,仍用XY10完成。这种求模型参数估计量的方法称为工具变量法工具变量法(instrumental variable method),相应的估计量称为工具变量法估计量工具变量法估计量(instrumental variable(IV)estimator)。对于矩阵形式矩阵形式:Y=X+采用工具变量法(假设X2与随机项相
10、关,用工具变量Z替代)得到的正规方程组正规方程组为:XZYZ参数估计量为:YZXZ1)(knkknnXXXZZZXXX212111211111Z其中称为工具变量矩阵工具变量矩阵3 3、工具变量法估计量是一致估计量、工具变量法估计量是一致估计量 一元回归中,工具变量法估计量为如果工具变量Z选取恰当,即有 iiiiiiiiixzzxzxz111)(两边取概率极限得:iiniinxzPzPP1111limlim)lim(0),cov(1limiiiiZznP0),cov(1limiiiiXZxznP因此:11)lim(P 1 1、在小样本下,工具变量法估计量仍是有偏的、在小样本下,工具变量法估计量仍
11、是有偏的。注意:注意:0)()1()1(iiiiiiiizExzEzxzE 2 2、工具变量并没有替代模型中的解释变量、工具变量并没有替代模型中的解释变量,只,只是在估计过程中作为是在估计过程中作为“工具工具”被使用。被使用。上述工具变量法估计过程可等价地分解成下面的两步OLS回归:第一步第一步,用OLS法进行X关于工具变量Z的回归:iiZX10iiXY10 容易验证仍有:iiiixzyz1 因此,工具变量法仍是工具变量法仍是Y Y对对X X的回归,而不是的回归,而不是对对Z Z的回归的回归。3、如果模型中有两个以上的随机解释变量与随如果模型中有两个以上的随机解释变量与随机误差项相关,就必须找
12、到两个以上的工具变量机误差项相关,就必须找到两个以上的工具变量。但是,一旦工具变量选定,它们在估计过程被使但是,一旦工具变量选定,它们在估计过程被使用的次序不影响估计结果用的次序不影响估计结果(Why?)。4 4、OLSOLS可以看作工具变量法的一种特殊情况。可以看作工具变量法的一种特殊情况。5 5、如果、如果1 1个随机解释变量可以找到多个互相个随机解释变量可以找到多个互相独立的工具变量,人们希望充分利用这些工具变独立的工具变量,人们希望充分利用这些工具变量的信息,就形成了量的信息,就形成了广义矩方法广义矩方法(Generalized Method of Moments,GMM)。在在GMM
13、中,矩条件大于待估参数的数量,于中,矩条件大于待估参数的数量,于是如何求解成为它的核心问题。是如何求解成为它的核心问题。工具变量法是工具变量法是GMM的一个特例。的一个特例。6 6、要找到与随机扰动项不相关而又与随机解释、要找到与随机扰动项不相关而又与随机解释变量相关的工具变量并不是一件很容易的事变量相关的工具变量并不是一件很容易的事 可以用可以用Xt-1作为原解释变量作为原解释变量Xt的工具变量。的工具变量。五、案例五、案例中国居民人均消费函数中国居民人均消费函数 例例4.4.1 在例2.5.1的中国居民人均消费函数中国居民人均消费函数的估计中,采用OLS估计了下面的模型:GDPPCONSP
14、10 由于:居民人均消费支出(CONSP)与人均国内生产总值(GDPP)相互影响,因此,容易判断GDPP与同期相关(往往是正相关),OLS估计量有偏并且是非一致的(低估截距项而高估计斜率项)。OLS估计结果:(13.51)(53.47)R2=0.9927 F=2859.23 DW=0.5503 SSR=23240.7 如果用GDPPt-1为工具变量,可得如下工具变量法估计结果:(14.84)(56.04)R2=0.9937 F=3140.58 DW=0.6691 SSR=18366.5 GMM是近是近20年计量经济学理论方法发展的重年计量经济学理论方法发展的重要方向之一。要方向之一。IV是是G
15、MM的一个特例。的一个特例。如果如果1个随机解释变量可以找到多个互相独立的个随机解释变量可以找到多个互相独立的工具变量,人们希望充分利用这些工具变量的信工具变量,人们希望充分利用这些工具变量的信息,就形成了息,就形成了广义矩方法(广义矩方法(GMM)。在。在GMM中,中,矩条件大于待估参数的数量,于是如何求解成为矩条件大于待估参数的数量,于是如何求解成为它的核心问题。它的核心问题。8.3 8.3 滞后变量模型滞后变量模型 一、滞后变量模型一、滞后变量模型 二、分布滞后模型的参数估计二、分布滞后模型的参数估计 三、自回归模型的参数估计三、自回归模型的参数估计四、格兰杰因果关系检验四、格兰杰因果关
16、系检验 在经济运行过程中,广泛存在时间滞后效应。某些经济变量不仅受到同期各种因素的影响,而且也受到过去某些时期的各种因素甚至自身的过去值的影响。通常把这种过去时期的,具有滞后作用的变量通常把这种过去时期的,具有滞后作用的变量叫做叫做滞后变量滞后变量(Lagged Variable),含有滞后变量的模型称为滞后变量模型滞后变量模型。滞后变量模型考虑了时间因素的作用,使静态分析的问题有可能成为动态分析。含有滞后解释变含有滞后解释变量的模型,又称量的模型,又称动态模型动态模型(Dynamical Model)。一、滞后变量模型一、滞后变量模型1、滞后效应与与产生滞后效应的原因、滞后效应与与产生滞后效
17、应的原因 因变量受到自身或另一解释变量的前几因变量受到自身或另一解释变量的前几期值影响的现象称为期值影响的现象称为滞后效应。滞后效应。表示前几期值的变量称为表示前几期值的变量称为滞后变量滞后变量。如:如:消费函数消费函数 通常认为,本期的消费除了受本期的收入影响之外,还受前1期,或前2期收入的影响:Ct=0+1Yt+2Yt-1+3Yt-2+tYt-1,Yt-2为滞后变量滞后变量。产生滞后效应的原因产生滞后效应的原因 1、心理因素、心理因素:人们的心理定势,行为方式滞后于经济形势的变化,如中彩票的人不可能很快改变其生活方式。2、技术原因、技术原因:如当年的产出在某种程度上依赖于过去若干期内投资形
18、成的固定资产。3、制度原因、制度原因:如定期存款到期才能提取,造成了它对社会购买力的影响具有滞后性。2、滞后变量模型、滞后变量模型 以滞后变量作为解释变量,就得到滞后变量模滞后变量模型型。它的一般形式为:q,s:滞后时间间隔 自回归分布滞后模型自回归分布滞后模型(autoregressive distributed lag model,ADL):既含有Y对自身滞后变量的回归,还包括着X分布在不同时期的滞后变量 有限自回归分布滞后模型:有限自回归分布滞后模型:滞后期长度有限 无限自回归分布滞后模型:无限自回归分布滞后模型:滞后期无限,tststtqtqtttXXXYYYY11022110 (1)
19、分布滞后模型)分布滞后模型(distributed-lag model)分布滞后模型:分布滞后模型:模型中没有滞后被解释变量,仅有解释变量X的当期值及其若干期的滞后值:titisitXY0 0:短期短期(short-run)或即期乘数即期乘数(impact multiplier),表示本期X变化一单位对Y平均值的影响程度。i(i=1,2,s):动态乘数动态乘数或延迟系数延迟系数,表示各滞后期X的变动对Y平均值影响的大小。如果各期的X值保持不变,则X与Y间的长期或均衡关系即为sii0称为长期长期(long-run)或均衡乘数均衡乘数(total distributed-lag multiplie
20、r),表示X变动一个单位,由于滞后效应而形成的对Y平均值总影响的大小。XYEsii)()(0 2 2、自回归模型、自回归模型(autoregressive model)而 ttttYXY1210称为一阶自回归模型(一阶自回归模型(first-order autoregressive model)。自回归模型自回归模型:模型中的解释变量仅包含X的当期值与被解释变量Y的一个或多个滞后值tqiitittYXY110二、分布滞后模型的参数估计二、分布滞后模型的参数估计 无限期的分布滞后模型无限期的分布滞后模型,由于样本观测值的有,由于样本观测值的有限性,使得无法直接对其进行估计。限性,使得无法直接对其
21、进行估计。有限期的分布滞后模型有限期的分布滞后模型,OLSOLS会遇到如下问题:会遇到如下问题:1、没有先验准则确定滞后期长度;2、如果滞后期较长,将缺乏足够的自由度进行估计和检验;3、同名变量滞后值之间可能存在高度线性相关,即模型存在高度的多重共线性。1、分布滞后模型估计的困难、分布滞后模型估计的困难 2 2、分布滞后模型的修正估计方法、分布滞后模型的修正估计方法 人们提出了一系列的修正估计方法,但并不很完善。各种方法的各种方法的基本思想大致相同基本思想大致相同:都是通过对各通过对各滞后变量加权,组成线性合成变量而有目的地减滞后变量加权,组成线性合成变量而有目的地减少滞后变量的数目,以缓解多
22、重共线性,保证自少滞后变量的数目,以缓解多重共线性,保证自由度。由度。(1)经验加权法经验加权法 根据实际问题的特点、实际经验给各滞后变量指定权数,滞后变量按权数线性组合,构成新的变量。权数据的类型有:递减型递减型:即认为权数是递减的权数是递减的,X的近期值对Y的影响较远期值大。如消费函数中,收入的近期值对消费的影响作用显然大于远期值的影响。例如:滞后期为滞后期为 3的一组权数可取值如下:1/2,1/4,1/6,1/8则新的线性组合变量为:321181614121tttttXXXXW 即认为权数是相等的权数是相等的,X的逐期滞后值对值Y的影响相同。如滞后期为3,指定相等权数为1/41/4,则新
23、的线性组合变量为:矩型矩型:321241414141tttttXXXXW 权数先递增后递减权数先递增后递减呈倒“V”型。例如:例如:在一个较长建设周期的投资中,历年投资X为产出Y的影响,往往在周期期中投资对本期产出贡献最大。如滞后期为4,权数可取为 1/6,1/4,1/2,1/3,1/5则新变量为 倒倒V V型型432135131214161ttttttXXXXXW例例5.2.1 5.2.1 对一个分布滞后模型:ttttttXXXXY33221100给定递减权数:1/2,1/4,1/6,1/8 令 321181614121tttttXXXXW原模型变为:tttWY110该模型可用OLS法估计。
24、假如参数估计结果为=0.501=0.8则原模型的估计结果为:3213211.0133.02.04.05.088.068.048.028.05.0tttttttttXXXXXXXXY 经验权数法经验权数法的优点优点是:简单易行 缺点缺点是:设置权数的随意性较大 通常的做法通常的做法是:多选几组权数,分别估计出几个模型,然后根据常用的统计检验(方检验,检验,t检验,-检验),从中选择最佳估计式。(2)阿尔蒙()阿尔蒙(lmon)多项式法)多项式法 主要思想:主要思想:针对有限滞后期模型,通过阿尔蒙针对有限滞后期模型,通过阿尔蒙变换,定义新变量,以减少解释变量个数,然后变换,定义新变量,以减少解释变
25、量个数,然后用用OLSOLS法估计参数。法估计参数。主要步骤为:主要步骤为:第一步,阿尔蒙变换第一步,阿尔蒙变换 对于分布滞后模型 titisitXY0 假定其回归系数i可用一个关于滞后期i的适当阶数的多项式来表示,即:mkkkii1)1(i=0,1,s 其中,ms-1。阿尔蒙变换要求先验地确定适当阶数k,例如取k=2,得 22121)1()1()1(iiikkki(*)将(*)代入分布滞后模型 titkkksitXiY210)1(tsitsiitXiXi022201)1()1(titisitXY0得定义新变量 siittXiW01)1(siittXiW022)1(将原模型转换为:ttttWW
26、Y2211第二步,模型的第二步,模型的OLS估计估计 对变换后的模型进行OLS估计,得再计算出:21,s,21求出滞后分布模型参数的估计值:22121)1()1()1(iiikkki 由于m+1s,可以认为原模型存在的自由度不足和多重共线性问题已得到改善。需注意的是需注意的是,在实际估计中,阿尔蒙多项式的阶数m一般取2或3,不超过4,否则达不到减少变量个数的目的。例例5.2.2 表5.2.1给出了中国电力基本建设投资电力基本建设投资X与发电量发电量Y的相关资料,拟建立一多项式分布滞后模型来考察两者的关系。表表5.2.1 中国电力工业基本建设投资与发电量中国电力工业基本建设投资与发电量 年度 基
27、本建设投资X(亿元)发电量(亿千瓦时)年度 基本建设投资X(亿元)发电量(亿千瓦时)1975 30.65 1958 1986 161.6 4495 1976 39.98 2031 1987 210.88 4973 1977 34.72 2234 1988 249.73 5452 1978 50.91 2566 1989 267.85 5848 1979 50.99 2820 1990 334.55 6212 1980 48.14 3006 1991 377.75 6775 1981 40.14 3093 1992 489.69 7539 1982 46.23 3277 1993 675.13
28、8395 1983 57.46 3514 1994 1033.42 9218 1984 76.99 3770 1995 1124.15 10070 1985 107.86 4107 由于无法预见知电力行业基本建设投资对发电量影响的时滞期,需取不同的滞后期试算。ttttWWWY210271.0101.0061.35.3319 (13.62)(1.86)(0.15)(-0.67)求得的分布滞后模型参数估计值为 0=0.323,1=1.777,2=2.690,3=3.061,4=2.891,5=2.180,6=0.927 经过试算发现,在2阶阿尔蒙多项式变换下,滞后期数取到第6期,估计结果的经济意义
29、比较合理。2阶阿尔蒙多项式估计结果如下:为了比较,下面给出直接对滞后6期的模型进行OLS估计的结果:最后得到分布滞后模型估计式为:321061.3690.2777.1323.05.3319tttttXXXXY (13.62)(0.19)(2.14)(1.88)(1.86)654927.0180.2891.2tttXXX (1.96)(1.10)(0.24)32171.414.1543.11424.89.3361tttttXXXXY (12.43)(1.80)(-1.89)(1.21)(0.36)65442.2594.2670.14tttXXX (-0.93)(1.09)(-1.12)2R=0.
30、9770 F=42.54 DW=1.03 (3)科伊克()科伊克(Koyck)方法)方法 科伊克方法是将无限分布滞后模型转换为自回科伊克方法是将无限分布滞后模型转换为自回归模型,然后进行估计归模型,然后进行估计。对于无限分布滞后模型:tiititXY0科伊克变换假设科伊克变换假设i随滞后期i按几何级数衰减:ii0 其中,0F(m,n-k),则拒绝原假设,认为X X是是Y Y的格兰杰原因的格兰杰原因。注意:注意:格兰杰因果关系检验格兰杰因果关系检验对于滞后期长度的选择有时很敏感。不同的滞后期可能会得到完全不同的检验结果。因此,一般而言一般而言,常进行不同滞后期长度的检验,以检验模型中随机误差项不
31、存在序列相关的滞后期长度来选取滞后期。例例5.2.4 检验19782000年间中国当年价GDP与居民消费CONS的因果关系。表表 5.2.3 中国中国 GDP 与消费支出(亿元)与消费支出(亿元)年份 人均居民消费 CONSP 人均GDP GDPP 年份 人均居民消费 CONSP 人均GDP GDPP 1978 1759.1 3605.6 1990 9113.2 18319.5 1979 2005.4 4074.0 1991 10315.9 21280.4 1980 2317.1 4551.3 1992 12459.8 25863.7 1981 2604.1 4901.4 1993 15682
32、.4 34500.7 1982 2867.9 5489.2 1994 20809.8 46690.7 1983 3182.5 6076.3 1995 26944.5 58510.5 1984 3674.5 7164.4 1996 32152.3 68330.4 1985 4589 8792.1 1997 34854.6 74894.2 1986 5175 10132.8 1998 36921.1 79003.3 1987 5961.2 11784.7 1999 39334.4 82673.1 1988 7633.1 14704.0 2000 42911.9 89112.5 1989 8523.
33、5 16466.0 取两阶滞后,Eviews给出的估计结果为:Pairwise Granger Causality Tests Sample:1978 2000 Lags:2 Null Hypothesis:Obs F-Statistic Probability GDP does not Granger Cause CONS 21 4.29749 0.03208 CONS does not Granger Cause GDP 1.82325 0.19350 判断:=5%,临界值F0.05(2,17)=3.59拒绝“GDP不是CONS的格兰杰原因”的假设,不拒绝“CONS不是GDP的格兰杰原因”
34、的假设。因此,从2阶滞后的情况看,GDP的增长是居民消费增长的原因,而不是相反。但在2阶滞后时,检验的模型存在1阶自相关性。表表 5.2.4 格兰杰因果关系检验格兰杰因果关系检验 滞后长度 格兰杰因果性 F 值 P 值 LM 值 AIC 值 结论 2 GDPCONS 4.297 0.032 0.009 16.08 拒绝 CONSGDP 1.823 0.194 0.008 17.86 不拒绝 3 GDPCONS 10.219 0.001 0.010 15.14 拒绝 CONSGDP 4.096 0.691 0.191 17.14 不拒绝 4 GDPCONS 19.643 10E-04 0.110
35、 14.70 拒绝 CONSGDP 5.247 0.015 0.027 16.42 拒绝 5 GDPCONS 10.321 0.004 0.464 14.72 拒绝 CONSGDP 5.085 0.028 0.874 16.30 拒绝 6 GDPCONS 4.705 0.078 0.022 14.99 不拒绝 CONSGDP 7.773 0.034 1.000 16.05 拒绝 随着滞后阶数的增加,拒绝“GDP是居民消费CONS的原因”的概率变大,而拒绝“居民消费CONS是GDP的原因”的概率变小。如果同时考虑检验模型的序列相关性以及赤池信息准则,发现:滞后滞后4阶或阶或5阶的检验模型不具有阶
36、的检验模型不具有1阶自相关性,而且也拥有较小的阶自相关性,而且也拥有较小的AIC值值,这时判判断结果断结果是:GDP与与CONS有双向的格兰杰因果关系,有双向的格兰杰因果关系,即相互影响即相互影响。分析:分析:8.4 模型设定偏误问题模型设定偏误问题 一、模型设定偏误的类型一、模型设定偏误的类型 二、模型设定偏误的后果二、模型设定偏误的后果 三、模型设定偏误的检验三、模型设定偏误的检验 一、模型设定偏误的类型一、模型设定偏误的类型 模型设定偏误主要有两大类:(1)关于解释变量选取的偏误关于解释变量选取的偏误,主要包括漏漏选相关变量选相关变量和多选无关变量多选无关变量,(2)关于模型函数形式选取
37、的偏误关于模型函数形式选取的偏误。1、相关变量的遗漏、相关变量的遗漏 (omitting relevant variables)例如例如,如果“正确”的模型为22110XXY而我们将模型设定为 vXY110即设定模型时漏掉了一个相关的解释变量。这类错误称为遗漏相关变量遗漏相关变量。动态设定偏误动态设定偏误(dynamic mis-specification):遗漏相关变量表现为对Y或X滞后项的遗漏。2、无关变量的误选、无关变量的误选 (including irrevelant variables)例如例如,如果 Y=0+1X1+2X2+仍为“真”,但我们将模型设定为 Y=0+1X1+2X2+3
38、X3+即设定模型时,多选了一个无关解释变量。3、错误的函数形式、错误的函数形式 (wrong functional form)例如,如果“真实”的回归函数为 eXAXY2121但却将模型设定为 vXXY22110二、模型设定偏误的后果二、模型设定偏误的后果 当模型设定出现偏误时,模型估计结果也会与“实际”有偏差。这种偏差的性质与程度与模偏差的性质与程度与模型设定偏误的类型密切相关型设定偏误的类型密切相关。1、遗漏相关变量偏误遗漏相关变量偏误 采用遗漏相关变量的模型进行估计而带来的偏误称为遗漏相关变量偏误遗漏相关变量偏误(omitting relevant variable bias)。设正确的
39、模型为 Y=0+1X1+2X2+却对 Y=0+1X1+v进行回归,得2111iiixyx将正确模型 Y=0+1X1+2X2+的离差形式 iiiixxy2211代入2111iiixyx得21121212121221112111)()(iiiiiiiiiiiiiixxxxxxxxxxyx(1)如果漏掉的X2与X1相关,则上式中的第二项在小样本下求期望与大样本下求概率极限都不会为零,从而使得OLSOLS估估计量在小样本下有偏,在大样本下非一致计量在小样本下有偏,在大样本下非一致。(2)如果X2与X1不相关,则1的估计满足无偏性与一致性;但这时0的估计却是有偏的。由 Y=0+1X1+v 得2121)(
40、ixVar由 Y=0+1X1+2X2+得)1()()(22122212221222121xxiiiiiirxxxxxxVar如果X2与X1相关,显然有)()(11VarVar如果X2与X1不相关,也有)()(11VarVarWhy?2、包含无关变量偏误、包含无关变量偏误 采用包含无关解释变量的模型进行估计带来的偏误,称为包含无关变量偏误包含无关变量偏误(including irrelevant variable bias)。设 Y=0+1X1+v (*)为正确模型,但却估计了 Y=0+1X1+2X2+(*)如果2=0,则(*)与(*)相同,因此,可将(*)式视为以2=0为约束的(*)式的特殊形
41、式。由于所有的经典假设都满足,因此对 Y=0+1X1+2X2+(*)式进行OLS估计,可得到无偏且一致的估计量。但是,但是,OLS估计量却不具有最小方差性。估计量却不具有最小方差性。Y=0+1X1+v 中X1的方差:2121)(ixVarY=0+1X1+2X2+中X1的方差:)1()(2212121xxirxVar 当X1与X2完全线性无关时:)()(11VarVar 否则:)()(11VarVar注意:注意:3、错误函数形式的偏误、错误函数形式的偏误 当选取了错误函数形式并对其进行估计时,带来的偏误称错误函数形式偏误错误函数形式偏误(wrong functional form bias)。容
42、易判断,这种偏误是全方位的偏误是全方位的。例如,如果“真实”的回归函数为eXAXY2121vXXY22110却估计线性式 显然,两者的参数具有完全不同的经济含义,且估计结果一般也是不相同的。三、模型设定偏误的检验三、模型设定偏误的检验 1、检验是否含有无关变量、检验是否含有无关变量 可用可用t 检验与检验与F检验完成。检验完成。检验的基本思想检验的基本思想:如果模型中误选了无关变量,则其系数的真值应为零。因此,只须对无关变量系数的显著性进行检验。t t检验检验:检验某1个变量是否应包括在模型中;F F检验检验:检验若干个变量是否应同时包括在模型中 2、检验是否有相关变量的遗漏或函数、检验是否有
43、相关变量的遗漏或函数形式设定偏误形式设定偏误 (1)残差图示法)残差图示法 残差序列变化图残差序列变化图(a)趋势变化)趋势变化:模型设定时可能遗漏了一随着时间的推移而持续上升的变量(b)循环变化:)循环变化:模型设定时可能遗漏了一随着时间的推移而呈现循环变化的变量 模型函数形式设定偏误时残差序列呈现正负模型函数形式设定偏误时残差序列呈现正负交替变化交替变化 图示:图示:一元回归模型中,真实模型呈幂函数形式,但却选取了线性函数进行回归。(2)一般性设定偏误检验)一般性设定偏误检验 但更准确更常用的判定方法是拉姆齐(Ramsey)于1969年提出的所谓RESET 检验检验(regression
44、error specification test)。基本思想:基本思想:如果事先知道遗漏了哪个变量,只需将此变量引入模型,估计并检验其参数是否显著不为零即可;问题是不知道遗漏了哪个变量,需寻找一个替代变量Z,来进行上述检验。RESET检验中,采用所设定模型中被解释变量Y的估计值的若干次幂来充当该“替代”变量。例如例如,先估计 Y=0+1X1+v 得 110XY3221110YYXY 再根据第三章第五节介绍的增加解释变量的增加解释变量的F F检检验验来判断是否增加这些“替代”变量。若仅增加一个“替代”变量,也可通过t t检验检验来判断。例如,例如,在一元回归中,假设真实的函数形式是非线性的,用泰
45、勒定理将其近似地表示为多项式:RESET检验也可用来检验函数形式设定偏误的检验也可用来检验函数形式设定偏误的问题。问题。313212110XXXY因此,如果设定了线性模型,就意味着遗漏了相关变量X12、X13,等等。因此,在一元回归中,可通过检验(*)式中的各高次幂参数的显著性来判断是否将非线性模型误设成了线性模型。(*)对多元回归多元回归,非线性函数可能是关于若干个或全部解释变量的非线性,这时可按遗漏变量的按遗漏变量的程序进行检验程序进行检验。例如,例如,估计 Y=0+1X1+2X2+但却怀疑真实的函数形式是非线性的。322122110YYXXY 这时,只需以估计出的的若干次幂为“替代”变量
46、,进行类似于如下模型的估计再判断各“替代”变量的参数是否显著地不为零即可。例例5.3.1:在4.3商品进口的例中,估计了中国商品进口M与GDP的关系,并发现具有强烈的一阶自相关性。然而,由于仅用GDP来解释商品进口的变化,明显地遗漏了诸如商品进口价格、汇率等其他影响因素。因此,序列相关性的主要原因可能就是建模时遗漏了重要的相关变量造成的。下面进行RESET检验。用原回归模型估计出商品进口序列 ttGDPM020.091.152 R2=0.9484 (-0.085)(8.274)(-6.457)(6.692)R2=0.9842320759.80028.0072.0860.3tttMEMGDPM)
47、1(/()1(/)(222qknRqRRFURU5.22)424/()984.01(2/)948.0984.0(在=5%下,查得临界值F0.05(2,20)=3.49判断:拒绝原模型与引入新变量的模型可决系数无显著差异的假设,表明原模型确实存在遗漏相关变量的设定偏误。*(3)同期相关性的豪斯蔓()同期相关性的豪斯蔓(Hausman)检验检验 由于在遗漏相关变量的情况下,往往导致解释变量与随机扰动项出现同期相关性,从而使得OLS估计量有偏且非一致。因此,对模型遗漏相关变量的检验可以用模型是否出现解释变量与随机扰动项同期相关性的检验来替代。这就是豪斯蔓检验(豪斯蔓检验(1978)的主要)的主要思想
48、。思想。当解释变量与随机扰动项同期相关时,通过工具变量法可得到参数的一致估计量。而当解释变量与随机扰动项同期无关时,OLS估计量就可得到参数的一致估计量。因此,只须检验只须检验IVIV估计量与估计量与OLSOLS估计量是否有估计量是否有显著差异来检验解释变量与随机扰动项是否同期显著差异来检验解释变量与随机扰动项是否同期无关。无关。对一元线性回归模型 Y=0+1X+所检验的假设是 H0:X与无同期相关。设一元样本回归模型为 iiieXY10以Z为工具变量,则IV估计量为:iiiixzyziiiiiiiiixzezxzexz11)(*)(*)式表明,IV估计量与OLS估计量无差异当且仅当ziei=
49、0,即工具变量与OLS估计的残差项无关。检验时,求Y关于X与Z的OLS回归式:iiiZXY10 在实际检验中,豪斯蔓检验主要针对多元回归进行,而且也不是直接对工具变量回归,而是对以各工具变量为自变量、分别以各解释变量为因变量进行回归。如对二元回归模型 iiiiXXY22110iiiiiXXXXY221122110 通过增加解释变量的增加解释变量的F F检验检验,检验联合假设:H0:1=2=0。拒绝原假设,就意味着(*)式中的解释变量与随机扰动项相关。(*)(4)线性模型与双对数线性模型的选择)线性模型与双对数线性模型的选择 无法通过判定系数的大小来辅助决策无法通过判定系数的大小来辅助决策,因为
50、在两类模型中被解释变量是不同的。为了在两类模型中比较,可用Box-Cox变换:第一步第一步,计算Y的样本几何均值。)ln1exp()(/121innYnYYYY 第二步第二步,用得到的样本几何均值去除原被解释变量Y,得到被解释变量的新序列Y*。YYYii/*第三步第三步,用Y*替代Y,分别估计双对数线性模型与线性模型。并通过比较它们的残差平方和是否有显著差异来进行判断。)ln(2112RSSRSSn其中,RSS1与RSS2分别为对应的较大的残差平方和与较小的残差平方和,n为样本容量。可以证明:可以证明:该统计量在两个回归的残差平方和无差异的假设下服从自由度为1 的2分布。因此,拒绝原假设时,就