1、第五章 单位根检验和协整分析 从本章起介绍计量经济学近20年来最新研究成果。如果把第2、3章内容称为经典计量经济学,那么将要介绍的内容则应该称为非经典计量经济学。 从1974年开始计量经济学工作者渐渐意识到当用含有单位根的时间序列建立经典计量经济模型时会出现一些问题,这就是虚假回归。 应该知道通过经济数据了解经济变量的变化规律有时是存在相当大的局限性的,所以在建立模型时,必须依靠经济理论,同时对参数进行假设检验。实际上,有时只依靠经济理论仍然不行。比如处于调整中的经济变量,哪些是它的外生变量,哪些是它的无关变量,单凭经济理论就很难判别清楚。所以当研究经济变量参数变化规律时,常常采用另外一种方法
2、,即统计理论方法,通过设计具有某种特征的能生成数据的随机过程或数据生成系统研究经济问题。下面常常用到数据生成系统这个概念。 主要讲授内容第一节第一节 单整性单整性 第二节第二节 单整过程的统计特征单整过程的统计特征 第三节第三节 虚假回归虚假回归 第四节第四节 DFDF分布分布第五节第五节 DFDF临界值临界值第六节第六节 进一步讨论进一步讨论第七节第七节 单位根检验单位根检验 第八节第八节 协整理论与误差修正模型协整理论与误差修正模型附录:现代计量经济模型协整理论浅说附录:现代计量经济模型协整理论浅说本章建议课后阅读论文第一节第一节 单整性单整性 单整性:若一个随机过程 xt 必须经过 d
3、次差分之后才能变换成一个平稳的可逆的 ARMA 过程,则称 xt 具有 d 阶单整性。用 xt I(d) 表示。 对于平稳过程表示为 I(0)。注意:单整过程是指单整阶数大于零的过程。 对于 I(d) 过程 xt (L) (1- L) d xt = (L) ut 因含有 d 个单位根,所以常把时间序列单整阶数的检验称为单位根检验(unit root test) 。 若 xt I(d),yt I(c),则 zt = (a xt + b yt) I (maxd, c). zt = (a xt + b yt) = (a xt + b yt) - (a xt -1 + b yt - 1) = (a x
4、t + b yt) 当 c d 时,zt只有差分 c 次才能平稳。一般来说,若 xt I (c),yt I (c),则 zt = (a xt + b yt) I (c). 但也有 zt的单整阶数小于 c 的情形。当 zt的单整阶数小于 c 时,则称 xt与 yt存在协整关系。 第二节第二节 单整过程的统计特征单整过程的统计特征 以随机游走过程和平稳的 AR(1)过程作比较, 对于随机游走过程 xt = xt-1 + ut , x0 = 0, ut IN (0, u2) 有 xt = xt-2 + ut-1 + ut = = tiiu1, (具有永久记忆性) E(xt) = E(tiiu1) =
5、 0 Var(xt) = tiiuVar1)( = tu2. (随 T 的增加, 方差变为无穷大) 下面求 xT 和 xT - k的相关系数,k 。 Cov(xT, xT-k) = E(xT xT-k) = E(Tiiu1kTiiu1) = E(kTiiu12) = (T - k) u2 k = )()(),(kTTkTTxVarxVarxxCov= 222)()(uuukTTkT= TkT = Tk /1 对于 AR(1) 过程 yt = 1 yt-1 + ut , 1 2) I(0) 与 I(0) 0.045 I(1) 与 I(1) 0.77 I(2) 与 I(2) 0.95 样本容量与虚
6、假回归的关系(回归变量均为 I(1)变量) 随样本容量变化, 拒绝 1 = 0 的概率, 即 P(t(1) 2 ) 见图 5.3。 0501001502000.30.40.50.60.70.80.9样本容量 图 5.3 虚假回归的直观解释 因为上述数据生成系统是真实的,所以对于回归模型 yt = 0 + 1xt + wt , 应有1 = 0,即 yt与 xt不相关,则模型变为 yt = 0 + wt 已知 yt I(1), wt I(0),所以 yt = 0 + wt 两侧的单整阶数出现矛盾。导致1无法表现为零。 第第四四节节 DF分分布布 由于虚假回归问题的存在,在回归模型中应避免直接使用非
7、平稳变量。因此检验变量的平稳性是一个必须解决的问题。在前面介绍用相关图判断时间序列的平稳性。这一章则给出严格的统计检验方法,即单位根检验。 在介绍检验方法之前,先讨论所用统计量的分布。给出三个数据生成过程(d.g.p.) , yt = yt-1 + ut , y0 = 0, ut IID(0, 2) (5.1) yt = + yt-1 + ut , y0 = 0, ut IID(0, 2) (5.2) yt = + t + yt-1 + ut , y0 = 0, ut IID(0, 2) (5.3) 其中 称作位移项(漂移项) , t 称为趋势项。 显然,对于以上三个模型,当 1时,yt 是平
8、稳的,当 = 1时,yt 是非平稳的。 以模型 (5.1) 为例,若 = 0,统计量, )(t= )(s t (T-1) (5.4) 该极限分布为标准正态分布。 若 1,统计量, )(t= )()(s (5.5) 渐近服从标准正态分布。根据中心极限定理,当T 时, T(T- ) N (0, 2 (1- 2 ) ) (5.6) 那么在 = 1 条件下,统计量 )(t服从什么分布呢?当 = 1 时,变量非平稳,上述极限分布退化为零。 首先观察 = 1条件下, 数据生成系统(5.1), (5.2) 和 (5.3)的变化情况。 = 1条件下的(5.1) 式是随机游走过程。 -10-5051020406
9、080100120140160180200y=y(-1)+u12001400160018002000220050100150200250300 图 5.4 由 yt = yt-1+ ut生成的序列 深圳股票综合指数 = 1 条件下的 (5.2) 式是含有随机趋势项的过程。 将(5.2) 式作如下变换则展示的更清楚。 yt = + yt-1 + ut = + ( + yt-2 + ut-1) + ut = = y0 + t + tiiu1= t +tiiu1 (5.7) -20020406080100120100200300400500600700800900 1000y=0.1+y(-1)+u
10、 -100-80-60-40-20020100200300400500600700800900 1000y=-0.1+y(-1)+u 图 5.5a 由 yt = 0.1+ yt-1+ ut生成的序列 图 5.5b 由 yt = - 0.1+ yt-1+ ut生成的序列 这是一个趋势项和一个随机游走过程之和。所以称作随机趋势过程,见图5.5,虽然总趋势向上(下) ,但随机过程围绕总趋势上下漂动。因为对 yt作一次差分后,序列就平稳了, yt = yt - yt-1 = + ut (平稳) 所以也称 yt为差分平稳过程。 下面的随机过程 yt = + t + ut (5.8) 称作确定性趋势过程或
11、趋势平稳过程、 退势平稳过程, 即减去趋势后,为平稳过程。yt - t = + ut。退势平稳过程见图 5.6。 -5051015202520406080100120140160180200y=0.1t+u -50050100150200250100200300400500600700800900 1000y=0.1+0.1t+y(-1)+u 图 5.6 yt = 0.1 t + ut 生成的序列 图 5.7 yt = 0.1+ 0.1t + yt-1+ ut生成的序列 图 5.7 给出的是含有随机趋势和确定性趋势的混合随机过程。 yt = + t + yt-1 + ut = + t + (
12、+ (t-1) + yt-2 + ut-1) + ut = = y0 + t + ( t) t - (1+2 + t ) +tiiu1 = y0 + t + t 2 -2( 1+ t ) t +tiiu1 = ( -2) t +2t 2 +tiiu1 (已设定 y0=0) 含有随机趋势和确定性趋势的混合随机过程实际上是随机游走加上一个时间 t 的 2 次方过程。这种过程在经济问题中非常少见。 实际经济序列的增长趋势常常是指数形式的。 如中国的国民收入和消费见图 5.8。然而无论随机趋势过程还是确定性趋势过程,所设定的趋势都是线性的。这是为什么?原因是原序列取对数后,趋势项常是线性的。例如 yt
13、 = e t 则 Ln yt = t,所以用经济序列建立模型之前应先取对数。对数的中国的国民收入和消费见图 5.9。这样做的另一个好处是有助于消除异方差。对 yt求导数, dy / dt = e t = yt 这是等比例增长关系(与当年 yt等比例) 。经济序列的变化恰恰如此。 05000100001500020000250005560657075808590IPCP7.07.58.08.59.09.510.05560657075808590LNIPLNCP 图 5.8 中国的国民收入和消费 图 5.9 对数的中国国民收入和消费 以数据生成过程 (5.1) 为例。给定 = 1,则 = TttT
14、tttyyy12111 (5.9) 因已知 y0 = 0, = TttTttyy121121 + TttTtttyyu12111 = 1 + TttTtttyyu12111 - 1 = TttTtttyyu12111 (5.10) 检验单位根的 DF 统计量的表达式与通常意义的 t 统计量完全相同。 DF = )(t= )(1s = Tttuys12/121)(1 = TttTtttyyu12111uTttsy12/121)( = TttuTtttysyu12/12111)( (5.11) 当 T 时, DF = )(1s 2/11022)() 1) 1 ()(2/1 (diiWW (5.12
15、) What is this?对于模型 (5.2),DF 统计量的极限分布是 DF = )(1s 2/1210102102)()()() 1 () 1) 1 ()(2/1 (diiWdiiWdiiWWW (5.13) 同理,对于模型 (5.3) 的 DF 统计量的极限分布也是 Wiener 过程的函数。由于这些极限分布无法用解析的方法求解,一般都是用模拟和数值计算的方法进行研究。 = -1 时的 DF 的分布是 = 1 时的 DF 分布的镜像, 所以只研究 = 1 条件下 DF 的分布即可。对于经济问题,很少出现 = -1 的情形。 蒙特卡罗模拟方法得到的DF统计量的分布见图5.10。 -6-
16、4-20240.10.20.30.40.5 第五节第五节 DF 临界值临界值 统计量 DF 服从的是非标准分布, 也不是通常意义下的 t 分布,Diky-Fuller (1976) 对上述三种假设情形模拟计算了 DF 的数值, 下表就是一些模拟的临界值。 无常数项 无趋势项有常数项 无趋势项 有常数项 有趋势项样本容量T=25T=50T=100T=250T=500T= 1% 5% -2.66 -1.95 -2.62 -1.95 -2.60 -1.95 -2.58 -1.95 -2.58 -1.95 -2.58 -1.95 1% 5% -3.75 -3.00 -3.58 -2.93 -3.51
17、-2.89 -3.46 -2.88 -3.44 -2.87 -3.43 -2.86 1% 5% -4.38 -3.6 -4.15 -3.5 -4.04 -3.45 -3.99 -3.43 -3.98 -3.42 -3.96 -3.41DF临界值临界值表表第六节第六节 进一步讨论进一步讨论 以上三个自回归模型对于研究实际经济变量太严格,还应该进一步讨论在AR(p) 模型条件下,随机误差项非白噪声条件下,检验用统计量的分布特征。 (1)对于 AR(p)过程 yt = 1 yt-1 + 2 yt-2 + + p yt-p + u t , (5.14) 当 yt中含有单位根时,可以通过如下模型研究 =
18、 1 条件下,检验用统计量DF 的分布特征。 yt = yt-1 +jtpjjy11+ ut , (5.15) 其中 = pii1, j* = -pjii1, j = 1, 2, , p 1. i 为 (5.14) 式中的自回归系数。为什么可以通过 (5.15) 式进行研究呢? 解释如下。(5.14) 式可以用回归算子表示为 (L) yt = ut (5.16) 若 yt 中含有一个单位根,上式可以表达为 (L)* (1 L ) yt = (L)* yt = u t (5.17) 其中 (L)* 表示从 p 阶自回归算子 (L) 中分离出因子 (1 L ) 后所得的 p 1 阶自回归算子。继续
19、变换上式 jtpjjy10= yt +jtpjjy11= ut 可见对于 yt, (5.17) 式是一个 p 1 阶的自回归模型。 继续变换上式, yt = yt-1 +jtpjjy11+ ut , 当 =1 时,(5.15)式与上式相同。 下面以AR (3) 过程为例,验证关系式 (5.10)。有 yt = 1 yt-1 + 2 yt-2 + 3 yt-3 + ut 上式右侧同时加减 2 yt-1,3 yt-1,3 yt-2 然后合并同类项, yt = 1 yt-1 + 2 yt-1 + 3 yt-1 - 2 yt-1 + 2 yt-2 - 3 yt-1 - 3 yt-2 + 3 yt-2
20、+ 3 yt-3 + ut , = (1 + 2 + 3) yt-1 - 2 yt-1 - 3 yt-1 - 3 yt-2 + ut = (1 + 2 + 3) yt-1 - (2 + 3) yt-1 - 3 yt-2 + ut = yt-1 - 1* yt-1 - 2* yt-2 + ut = yt-1 - 21jjtjy+ ut 其中, = 31ii j* = -31jii, j = 1, 2 . (5.15) 式中相对于 的 DF 统计量的分布与 (5.1) 式中 DF 统计量的分布近似相同。 (5.15) 式中的差分项 yt-j , j = 1,2, , p 1 之所以不会对 DF统计
21、量的分布产生影响是因为当 yt I(1),则全部 yt-j I(0)。yt与 yt-j的交叉积渐进被忽略。 从而使 (5.15) 式中 的 DF统计量的分布与 (5.1) 式中 的 DF统计量渐近相同。 当模型 (5.14) 中含有位移项 和趋势项 t时, 对应 的DF 统计量的分布分别与模型 (5.2) 和模型 (5.3) 中 DF 统计量的分布相同。 (2)现在进一步放宽对 yt的限制。考虑如下 AR(1) 过程 yt = yt-1 + ut , (5.18) 其中允许随机项 ut是一个 ARMA(p, q) 过程,甚至参数 p, q 的值也可未知。则可以用下式研究 和 DF 统计量的分布
22、。 yt = yt-1 + ki 1 yt-i + tv , (5.19) 若 = 1,上式是一个差分的 AR(k) 过程。加入 yt 滞后项的目的是捕捉 (5.18) 式误差项 ut中的自相关。 (ut的自相关项对于模型 (5.18) 来说是移动平均项,所以 yt 滞后项的加入可以捕捉之。 )因为可逆的移动平均过程可以转化为一个无限阶的自回归过程,所以对 ut而言的移动平均项 vt, t = 1, , q 完全可以通过增加 ut 的滞后项而吸收。 进而被足够的 yt-i项所吸收。从而使tv 近似为一个白噪声过程。 Said-Dickey (1984) 证明 (5.19) 式中 的 DF 统计
23、量的分布与 (5.1) 式中 的 DF 统计量的分布类似。 当 (5.19) 式中加入位移项 和趋势项 t时, 的 DF 分布分别与 (5.2) 式和 (5.3) 式中 的 DF 分布类似。 第七节第七节 单位根检验单位根检验 对于时间序列 yt可用如下自回归模型检验单位根。 yt = yt-1 + ut , (5.20) 零假设和备择假设分别是, H0: = 1, ( yt非平稳) H1: 临界值,则接受 H0,yt 非平稳; DF 1 意味着强非平稳, 1 意味着平稳。当接受 1。所以 DF 检验只考虑两种情形。 4. 用模型 (5.20) 检验单位根,从 DF 临界值表查找。 上述 DF
24、 检验还可用另一种形式表达。(5.20) 式两侧同减 yt-1,得 yt = ( -1) yt-1 + ut , (5.23) 令 = - 1,代入上式, yt = yt-1 + ut , (5.24) 与上述零假设和备择假设相对应,用于模型 (5.23) 的零假设和备择假设是 H0: = 0, ( yt非平稳) H1: 临界值,则 yt是非平稳的; 若 DF 临界值,则 yt是平稳的。 这种检验方法是 DF 检验的常用方法。 (便于在计算机上实现) 举例说明以上两种单位根检验方法的 DF 值相同。 用同一组数据 yt 得到的两个回归结果如下(括号内给出的是标准差) , ty = 0.1474
25、 yt-1 , (5.25) (0.1427) s.e. = 0.87, DW = 1.93 ty = - 0.8526 yt-1 + ut , (5.26) (0.1427) s.e. = 0.87, DW = 1.93 对应 (5.25) 式,因零假设是 = 1,所以统计量的计算方法是 DF = 1427. 011474. 0= -5.97 , 对应 (5.26) 式,因零假设是 = 0,所以统计量的计算方法是 DF = 1427. 008526. 0= -5.97 , 两种计算方法的结果相同。因为 -5.97 -1.95 (临界值) ,所以拒绝 H0,认为 yt 是平稳的。 注意: 1.
26、(5.23) 式中 yt 和 yt-1的下标分别为 t 和 t-1,计算时不要用错! 2. 在实际检验中, 若 H0不能被拒绝, 说明 yt是非平稳序列 (起码为一阶非平稳序列) 。接下来应该继续检验 yt 的平稳性。即 2 yt = yt-1 + ut , (5.27) 直至结论为平稳为止。从而获知 yt 为几阶单整序列。 3. 当模型中含有位移项 和趋势项 t, yt = + yt-1 + ut (5.28) yt = + t + yt-1 + ut (5.29) 检验用临界值应分别从第三、四栏中查找。 4. (5.24) 式的残差序列 tu 不能存在自相关。如存在自相关,说明 yt不是一
27、个 AR(1) 过程,则不能使用 DF 检验。 以上方法只适用于AR(1) 过程的单位根检验。 当时间序列为AR(p) 形式,或者由以上形式检验得到的残差序列存在自相关时,应采用如下形式检验单位根。 yt = yt-1 + ki 1 yt-i + tv , (5.30) 因为上式中含有 yt的滞后项,所以对于 = 0( yt非平稳)的检验称为增项 DF 检验或 ADF 检验。模型 (5.15) 研究的就是这种条件下的DF 分布。 注意: 1. (5.30) 式中 yt 滞后项个数 k 的选择准则是 ? k 尽量小,以保持更大的自由度;? 充分大以消除 tv 内的自相关。 2. 前面已经证明,上
28、式中检验单位根的统计量近似服从标准的DF 分布,所以检验可以从 DF 临界值中查找。 3. 当 (5.30) 式中含有位移项 和趋势项 t 时,相应ADF 检验用临界值应分别从 D F 临界值表中的第三、四栏查找。 4. 因为实际经济时间序列一般不会是一个 AR(1) 过程,所以最常用的单位根检验方法是 ADF 检验(增项 DF 检验) 。 实际中并不知道被检验序列的 d.g.p. 属于哪一种形式,(5.1)、(5.2) 还是 (5.3) 式。怎样选择单位根检验式呢?先采用 (5.3) 式。因为(5.3) 式对应的 DF 统计量的检验功效最高。(5.2) 式次之。当趋势项无显著性时,再换用(5
29、.2) 式和(5.1) 式。 怎样做单位根检验? 从工作文件 (Work File) 中打开序列数据 (Series) 窗口。 点击View键,选Unit root test 功能。这时会打开一个窗口。其中有四项选择。 (1)ADF检验还是PP 检验(缺省状态是ADF检验) 。 (2)检验对象是水平序列(Level) ,还是其一阶差分序列(1st difference) ,二阶差分序列(2nd difference)?缺省状态是水平序列。 (3) 检验式中应包括的附加项。 有三种选择, “漂移项” (Intercept) ,“趋势项和漂移项” (Trend and Intercept) , “
30、无附加项” (None) 。缺省状态是加漂移项。 (4)检验式中因变量的滞后差分项的个数(显示的数字随样本容量的不同而不同) 。 第八节第八节 协整理论与误差修正模型协整理论与误差修正模型一、协整协整注意:注意:1.检验变量之间的协整关系,在建立计量经济模型时是非常重要的; 2.从协整理论出发,在建立消费函数模型时,就不会选择居民储蓄余额作为居民消费的解释变量。 二、误差修正模型二、误差修正模型三、案例分析:三、案例分析:中国居民消费模型中国居民消费模型3.lnGt的单整检验 采取同样的步骤,检验得到国内生产总值经过对数化后的序列是一阶单整。4.方程的初步设定 按照“从一般到简单的思想”,最初
31、设定的方程是一个一5.方程的估计与简化方程的估计与简化 采用最小二乘估计,剔除不显著的变量,得:附录附录 现代计量经济学协整理论浅说现代计量经济学协整理论浅说1.单位根检验和误差修正模型单位根检验和误差修正模型:原理及应用原理及应用 南京审计学院学报南京审计学院学报 2019年年03期期 2.中国保险业发展的影响因素及地区差异分析中国保险业发展的影响因素及地区差异分析 数量经济技术经济研究数量经济技术经济研究 2019年年07期期 3.人民币利率对汇率影响的实证研究人民币利率对汇率影响的实证研究:1981-2019 财经论丛财经论丛 2019年年05期期4.江苏省居民消费水平与江苏省居民消费水
32、平与GDP的协整研究的协整研究市场周刊市场周刊.研究版研究版 2019年年09期期 5.美中贸易收支与人民币汇率关系美中贸易收支与人民币汇率关系:实证分析实证分析当代财经当代财经 2019年年01期期 Wiener过程 简介:1.定义:设W(t),- t0。则称W(t),- t 为维纳(Wiener)过程,也称布朗运动过程。 2 =1时称为标准Wiener过程。2.独立、平稳增量过程: 设x(t),t T是独立增量过程,若对任意st,随机变量x(t)-x(s)的分布仅依赖于t-s,则称x(t),t T是平稳独立增量过程。3.独立增量过程: 设x(t),t T是随机过程,若对任意的正整数n和t1t2tn T,随机过程x(t2)-x(t1),x(t3)-x(t2) , ,x(tn)-x(tn-1)是相互独立的,则称x(t),t T是独立增量过程,又称可加过程。