1、5.3 模型设定偏误问题模型设定偏误问题 一、模型设定偏误的类型一、模型设定偏误的类型 二、模型设定偏误的后果二、模型设定偏误的后果 三、模型设定偏误的检验三、模型设定偏误的检验 一、模型设定偏误的类型一、模型设定偏误的类型 模型设定偏误主要有两大类: (1)关于解释变量选取的偏误关于解释变量选取的偏误,主要包括漏漏 选相关变量选相关变量和多选无关变量多选无关变量, (2)关于模型函数形式选取的偏误关于模型函数形式选取的偏误。 1、相关变量的遗漏、相关变量的遗漏 (omitting relevant variables) 例如例如,如果“正确”的模型为 22110 XXY 而我们将模型设定为
2、vXY 110 即设定模型时漏掉了一个相关的解释变量。 这类错误称为遗漏相关变量遗漏相关变量。 动态设定偏误动态设定偏误(dynamic mis-specification):遗 漏相关变量表现为对Y或X滞后项的遗漏 。 2、无关变量的误选、无关变量的误选 (including irrevelant variables) 例如例如,如果 Y=0+1X1+2X2+ 仍为“真”,但我们将模型设定为 Y=0+ 1X1+ 2X2+ 3X3 + 即设定模型时,多选了一个无关解释变量。 3、错误的函数形式、错误的函数形式 (wrong functional form) 例如,如果“真实”的回归函数为 eX
3、AXY 21 21 但却将模型设定为 vXXY 22110 二、模型设定偏误的后果二、模型设定偏误的后果 当模型设定出现偏误时,模型估计结果也会与 “实际”有偏差。这种偏差的性质与程度与模偏差的性质与程度与模 型设定偏误的类型密切相关型设定偏误的类型密切相关。 1、遗漏相关变量偏误遗漏相关变量偏误 采用遗漏相关变量的模型进行估计而带来的 偏误称为遗漏相关变量偏误遗漏相关变量偏误(omitting relevant variable bias)。 设正确的模型为 Y=0+1X1+2X2+ 却对 Y=0+ 1X1+v 进行回归,得 2 1 1 1 i ii x yx 将正确模型 Y=0+1X1+2
4、X2+ 的离差形式 iiii xxy 2211 代入 2 1 1 1 i ii x yx 得 2 1 1 2 1 21 21 2 1 22111 2 1 1 1 )( )( i ii i ii i iiii i ii x x x xx x xxx x yx (1)如果漏掉的X2与X1相关,则上式中的第二项在小样本下 求期望与大样本下求概率极限都不会为零,从而使得OLSOLS估估 计量在小样本下有偏,在大样本下非一致计量在小样本下有偏,在大样本下非一致。 (2)如果X2与X1不相关,则1的估计满足无偏性 与一致性;但这时0的估计却是有偏的。 由 Y=0+ 1X1+v 得 2 1 2 1) ( i
5、 x Var 由 Y=0+1X1+2X2+ 得 )1 ()( ) ( 22 1 2 2 21 2 2 2 1 2 2 2 1 21x xiiiii i rxxxxx x Var 如果X2与X1相关,显然有) ()( 11 VarVar 如果X2与X1不相关,也有) ()( 11 VarVar Why? 2、包含无关变量偏误、包含无关变量偏误 采用包含无关解释变量的模型进行估计带来的 偏误,称为包含无关变量偏误包含无关变量偏误(including irrelevant variable bias)。 设 Y=0+ 1X1+v (*) 为正确模型,但却估计了 Y=0+1X1+2X2+ (*) 如果
6、2=0,则(*)与(*)相同,因此,可将(*) 式视为以2=0为约束的(*)式的特殊形式。 由于所有的经典假设都满足,因此对 Y=0+1X1+2X2+ (*) 式进行OLS估计,可得到无偏且一致的估计量。 但是,但是,OLS估计量却不具有最小方差性。估计量却不具有最小方差性。 Y=0+ 1X1+v 中X1的方差: 2 1 2 1) ( i x Var Y=0+1X1+2X2+ 中X1的方差: )1 ( ) ( 22 1 2 1 21x xi rx Var 当X1与X2完全线性无关时: ) ()( 11 VarVar 否则: )() ( 11 VarVar 注意:注意: 3、错误函数形式的偏误、
7、错误函数形式的偏误 当选取了错误函数形式并对其进行估计时, 带来的偏误称错误函数形式偏误错误函数形式偏误(wrong functional form bias)。 容易判断,这种偏误是全方位的偏误是全方位的。 例如,如果“真实”的回归函数为 eXAXY 21 21 vXXY 22110 却估计线性式 显然,两者的参数具有完全不同的经济含义, 且估计结果一般也是不相同的。 三、模型设定偏误的检验三、模型设定偏误的检验 1、检验是否含有无关变量、检验是否含有无关变量 可用可用t 检验与检验与F检验完成。检验完成。 检验的基本思想检验的基本思想: :如果模型中误选了无关变量, 则其系数的真值应为零。
8、因此,只须对无关变量 系数的显著性进行检验。 t t检验检验:检验某1个变量是否应包括在模型中; F F检验检验:检验若干个变量是否应同时包括在模 型中 2、检验是否有相关变量的遗漏或函数、检验是否有相关变量的遗漏或函数 形式设定偏误形式设定偏误 (1)残差图示法)残差图示法 残差序列变化图残差序列变化图 (a)趋势变化)趋势变化 : 模型设定时可能遗 漏了一随着时间的 推移而持续上升的 变量 (b)循环变化:)循环变化: 模型设定时可能遗 漏了一随着时间的 推移而呈现循环变 化的变量 模型函数形式设定偏误时残差序列呈现正负模型函数形式设定偏误时残差序列呈现正负 交替变化交替变化 图示:图示:
9、一元回归模型中,真实模型呈幂函数形 式,但却选取了线性函数进行回归。 (2)一般性设定偏误检验)一般性设定偏误检验 但更准确更常用的判定方法是拉姆齐(Ramsey) 于1969年提出的所谓RESET 检验检验(regression error specification test)。 基本思想:基本思想: 如果事先知道遗漏了哪个变量,只需将此变量 引入模型,估计并检验其参数是否显著不为零即 可; 问题是不知道遗漏了哪个变量,需寻找一个替 代变量Z,来进行上述检验。 RESET检验中,采用所设定模型中被解释变量 Y的估计值的若干次幂来充当该“替代”变量。 例如例如,先估计 Y=0+ 1X1+v
10、得 110 XY 3 2 2 1110 YYXY 再根据第三章第五节介绍的增加解释变量的增加解释变量的F F检检 验验来判断是否增加这些“替代”变量。 若仅增加一个“替代”变量,也可通过t t检验检验来 判断。 例如,例如,在一元回归中,假设真实的函数形式是 非线性的,用泰勒定理将其近似地表示为多项式: RESET检验也可用来检验函数形式设定偏误的检验也可用来检验函数形式设定偏误的 问题。问题。 3 13 2 12110 XXXY 因此,如果设定了线性模型,就意味着遗漏了 相关变量X12、 X13 ,等等。 因此,在一元回归中,可通过检验(*)式中的 各高次幂参数的显著性来判断是否将非线性模
11、型误设成了线性模型。 (*) 对多元回归多元回归,非线性函数可能是关于若干个 或全部解释变量的非线性,这时可按遗漏变量的按遗漏变量的 程序进行检验程序进行检验。 例如,例如,估计 Y=0+1X1+2X2+ 但却怀疑真实的函数形式是非线性的。 3 2 2 122110 YYXXY 这时,只需以估计出的的若干次幂为“替代” 变量,进行类似于如下模型的估计 再判断各“替代”变量的参数是否显著地不为零 即可。 例例5.3.1:在4.3商品进口的例中,估计了中国 商品进口M与GDP的关系,并发现具有强烈的一 阶自相关性。 然而,由于仅用GDP来解释商品进口的变化, 明显地遗漏了诸如商品进口价格、汇率等其
12、他影 响因素。因此,序列相关性的主要原因可能就是 建模时遗漏了重要的相关变量造成的。 下面进行RESET检验。 用原回归模型估计出商品进口序列 tt GDPM020. 091.152 R2=0.9484 (-0.085) (8.274) (-6.457) (6.692) R2=0.9842 32 0759. 8 0028. 0072. 0860. 3 ttt MEMGDPM )1(/()1 ( / )( 2 22 qknR qRR F U RU 5 .22 )424/()984. 01 ( 2/ )948. 0984. 0( 在=5%下,查得临界值F0.05(2, 20)=3.49 判断:拒绝
13、原模型与引入新变量的模型可决系数 无显著差异的假设,表明原模型确实存在遗漏相 关变量的设定偏误。 *(3)同期相关性的豪斯蔓()同期相关性的豪斯蔓(Hausman) 检验检验 由于在遗漏相关变量的情况下,往往导致解 释变量与随机扰动项出现同期相关性,从而使得 OLS估计量有偏且非一致。 因此,对模型遗漏相关变量的检验可以用模 型是否出现解释变量与随机扰动项同期相关性的 检验来替代。这就是豪斯蔓检验(豪斯蔓检验(1978)的主要)的主要 思想。思想。 当解释变量与随机扰动项同期相关时,通过工 具变量法可得到参数的一致估计量。 而当解释变量与随机扰动项同期无关时, OLS 估计量就可得到参数的一致
14、估计量。 因此,只须检验只须检验IVIV估计量与估计量与OLSOLS估计量是否有估计量是否有 显著差异来检验解释变量与随机扰动项是否同期显著差异来检验解释变量与随机扰动项是否同期 无关。无关。 对一元线性回归模型 Y=0+1X+ 所检验的假设是 H0:X与无同期相关。 设一元样本回归模型为 iii eXY 10 以Z为工具变量,则IV估计量为: ii ii xz yz ii ii ii iii xz ez xz exz 1 1 ) ( (*) (*)式表明,IV估计量与OLS估计量无差异当且 仅当ziei=0,即工具变量与OLS估计的残差项无 关。 检验时,求Y关于X与Z的OLS回归式: ii
15、i ZXY 10 在实际检验中,豪斯蔓检验主要针对多元 回归进行,而且也不是直接对工具变量回归, 而是对以各工具变量为自变量、分别以各解释 变量为因变量进行回归。 如对二元回归模型 iiii XXY 22110 iiiii XXXXY 221122110 通过增加解释变量的增加解释变量的F F检验检验,检验联合假设: H0:1=2=0 。 拒绝原假设,就意味着(*)式中的解释变量 与随机扰动项相关。 (*) (4)线性模型与双对数线性模型的选择)线性模型与双对数线性模型的选择 无法通过判定系数的大小来辅助决策无法通过判定系数的大小来辅助决策,因为 在两类模型中被解释变量是不同的。 为了在两类模
16、型中比较,可用Box-Cox变换: 第一步第一步,计算Y的样本几何均值。 )ln 1 exp()( /1 21i n n Y n YYYY 第二步第二步,用得到的样本几何均值去除原被解 释变量Y,得到被解释变量的新序列Y*。 YYY ii / * 第三步第三步,用Y*替代Y,分别估计双对数线性 模型与线性模型。并通过比较它们的残差平方和 是否有显著差异来进行判断。 )ln( 2 1 1 2 RSS RSS n 其中,RSS1与RSS2分别为对应的较大的残差平方 和与较小的残差平方和,n为样本容量。 可以证明:可以证明:该统计量在两个回归的残差平方 和无差异的假设下服从自由度为1 的2分布。 因
17、此,拒绝原假设时,就应选择RSS2的模型。 Zarembka(1968)提出的检验统计量为: 例例5.3.2 在4.3中国商品进口的例中, 采用线性模型: R2=0.948; 采用双对数线性模型: R2=0.973, 但不能就此简单地判断双对数线性模型优于线 性模型。下面进行Box-Cox变换。 计算原商品进口样本的几何平均值为: 12.583)ln(exp( 1 tn MM 计算出新的商品进口序列: MMM tt . / * 以Mt*替代Mt,分别进行双对数线性模型与线 性模型的回归,得: tt GDPMln7836. 03565. 1) ln( * RSS1=0.5044 tt GDPM000035. 02622. 0 * RSS2=1.5536 于是, 49.13)1249. 1ln(24 2 1 )ln( 2 1 1 2 RSS RSS n 在=5%下,查得临界值20.05(1)=3.841 判断:拒绝原假设,表明双对数线性模型确双对数线性模型确 实实“优于优于”线性模型。线性模型。