1、第第6 6章章 自相关性自相关性 学习目标学习目标 知识目标知识目标:掌握自相关的基本概念,自相关掌握自相关的基本概念,自相关出现的原因,自相关产生的严重后果,诊断出现的原因,自相关产生的严重后果,诊断自相关存在的方法和修正的方法。自相关存在的方法和修正的方法。技能目标技能目标:通过本章的学习,运用计量软件通过本章的学习,运用计量软件处理自相关的问题。处理自相关的问题。能力目标能力目标:通过本章的学习,具备检验自相通过本章的学习,具备检验自相关问题的能力,以及分析自相关产生的主要关问题的能力,以及分析自相关产生的主要原因和修正自相关的能力。原因和修正自相关的能力。 6.1 自相关性的基本知识自
2、相关性的基本知识 6.2 自相关性产生的原因与后果自相关性产生的原因与后果 6.3 自相关性的检验自相关性的检验 6.4 自相关性的解决方法自相关性的解决方法 6.5 自相关系数的估计自相关系数的估计 6.6 案例分析案例分析 第第6章章 自相关性自相关性t检验和检验和F检验一定就可靠吗检验一定就可靠吗? ?研究居民储蓄存款研究居民储蓄存款Y与居民收入与居民收入X的关系:的关系: 用普通最小二乘法估计其参数,结果为用普通最小二乘法估计其参数,结果为 检验结果:回归系数的标准误差非常小,检验结果:回归系数的标准误差非常小,t统计量较大,说明居统计量较大,说明居民收入民收入X对居民储蓄存款对居民储
3、蓄存款Y的影响非常显著。同时可决系数也非的影响非常显著。同时可决系数也非常高,常高,F统计量为统计量为4122.531,也表明模型异常的显著。,也表明模型异常的显著。 但此估计结果可能是虚假的,但此估计结果可能是虚假的,t统计量和统计量和F统计量都被虚假统计量都被虚假地夸大,因此所得结果是不可信的。为什么地夸大,因此所得结果是不可信的。为什么?tttuXY 10 531.41229966. 0)2069.64()9343.14()0055. 0()8690. 1(3524. 09123.272 FRTXYtt6.1 自相关性的基本知识自相关性的基本知识 如果对于不同的样本点,随机干扰项之间不再
4、如果对于不同的样本点,随机干扰项之间不再是不相关的,而是存在某种相关性,则认为出现是不相关的,而是存在某种相关性,则认为出现了了自自相关性相关性。随机干扰项互不相关的基本假设表现为随机干扰项互不相关的基本假设表现为 Cov(ui , uj)=0 i j, i, j=1,2, ,nikikiiiuXXXY 22110对于模型对于模型ni, 2 , 1 或或0)(),Cov( jijiuuEuu在其他假设仍成立的条件下,自相关即意味着在其他假设仍成立的条件下,自相关即意味着 2112)()()()Cov( uuEuuEuuEunnI22 2112 nn 称为称为一阶自相关一阶自相关(autocor
5、relation)其中其中 被称为被称为自协方差系数自协方差系数或或一阶自相关系数一阶自相关系数 如果仅存在如果仅存在 自相关自相关往往可写成如下形式往往可写成如下形式: ui= ui-1+ i -1 1 由于自相关性经常出现在以时间序列为样本由于自相关性经常出现在以时间序列为样本的模型中,因此,本节将用下标的模型中,因此,本节将用下标t代表代表i。 是满足以下经典假定的随机干扰项:是满足以下经典假定的随机干扰项:i0)(iE2)(Vari0),(Covsii)0( s0)(1iiuuE1, 2 , 1ni6.2 自相关性产生的原因与后果自相关性产生的原因与后果6.2.1 自相关产生的主要原因
6、自相关产生的主要原因6.2.2 自相关性产生的后果自相关性产生的后果(1) 经济系统的惯性经济系统的惯性 自相关现象大多出现在时间序列数据中,而经自相关现象大多出现在时间序列数据中,而经济系统的经济行为都具有时间上的惯性。济系统的经济行为都具有时间上的惯性。 例如,例如,GDP、价格、就业等经济数据,都有、价格、就业等经济数据,都有随经济系统的周期而波动。又如,在经济高涨时期,随经济系统的周期而波动。又如,在经济高涨时期,较高的经济增长率会持续一段时间,而在经济衰退较高的经济增长率会持续一段时间,而在经济衰退期,较高的失业率也会持续一段时间,这种情况下期,较高的失业率也会持续一段时间,这种情况
7、下经济数据很可能表现为自相关。经济数据很可能表现为自相关。 6.2.1 自相关产生的主要原因自相关产生的主要原因(2) 模型设定的偏误模型设定的偏误 模型数学形式设定不当模型数学形式设定不当;模型丢失了重要的解释变量。模型丢失了重要的解释变量。 例如,模型为:例如,模型为: ,随机,随机干扰项无自相关,但在模型设定中作了下述回归,干扰项无自相关,但在模型设定中作了下述回归, ,式中,式中 , 随随 系统变化,这种模型设定的偏误导致随机系统变化,这种模型设定的偏误导致随机干扰项干扰项 出现自相关。因此,模型中遗漏重要的出现自相关。因此,模型中遗漏重要的解释变量,会造成随机干扰项的自相关。解释变量
8、,会造成随机干扰项的自相关。 ttttuXXY 212110 tttXY 110tttuX 212 t 21tXt (3) ) 数据处理造成自相关数据处理造成自相关 在实际研究中,有些数据是由已知数据经处在实际研究中,有些数据是由已知数据经处理得到的,因此,新生成的数据与原数据间有了理得到的,因此,新生成的数据与原数据间有了内在联系,表现出自相关。内在联系,表现出自相关。 例如:季度数据来自月度数据的简单平均,例如:季度数据来自月度数据的简单平均,这种平滑处理减弱了月度数据的波动性,而使得这种平滑处理减弱了月度数据的波动性,而使得生成数据表现出自相关。生成数据表现出自相关。6.2.2 自相关性
9、产生的后果自相关性产生的后果(1)所得到的参数估计量虽是无偏的,但却非有效所得到的参数估计量虽是无偏的,但却非有效 考虑具有一阶自回归形式的随机干扰项模型考虑具有一阶自回归形式的随机干扰项模型 其中,其中, 用普通最小二乘用普通最小二乘法可得法可得 由于由于 所以所以 tttuXY tttuu 1 222)(ttttttttttXuXXuXXXYX 0)( tuE 2)()(tttXuEXE 关于估计量关于估计量 的方差,有:的方差,有: )(Var)(Var2 tttXuX ),(Cov)(122ststtuuX ),(Cov)(1)(Var1222ssttsttttuuXXXuX 由于自相
10、关的存在,由于自相关的存在, ,所以这时,所以这时 的方差已不同于经典假设之下的的方差已不同于经典假设之下的 方差。因此,方差。因此,若不考虑自相关性,仍用普通最小二乘法估计若不考虑自相关性,仍用普通最小二乘法估计 的方差,则可能会导致不小的的方差,则可能会导致不小的偏误偏误。 0),(Cov stuu (2) 参数的显著性检验失去意义参数的显著性检验失去意义 由于估计量由于估计量 的方差已不同于经典假设之下的方差已不同于经典假设之下 的方差,所以由的方差,所以由 估计量和其方差估计量所构造的估计量和其方差估计量所构造的 检验统计量和检验统计量和 检验统计量将不能给出有效的结检验统计量将不能给
11、出有效的结论,所用的论,所用的 检验和检验和 检验一般来说是检验一般来说是不可靠不可靠的。的。 tFFt(3)模型的预测失效模型的预测失效 区间预测与参数估计量的方差有关,在方差区间预测与参数估计量的方差有关,在方差有偏误的情况下,使得预测估计不准确,预测精有偏误的情况下,使得预测估计不准确,预测精度降低。度降低。 所以,当模型出现序列相关性时,它所以,当模型出现序列相关性时,它的预测功能失效。的预测功能失效。6.3 自相关性的检验自相关性的检验 然后,通过分析这些然后,通过分析这些“近似估计量近似估计量”之间的之间的相关性,以判断随机干扰项是否具有自相关性。相关性,以判断随机干扰项是否具有自
12、相关性。 自相关性自相关性检验方法有多种,但基本思路相同:检验方法有多种,但基本思路相同:首先采用普通最小二乘法估计模型,以求得随机干扰首先采用普通最小二乘法估计模型,以求得随机干扰项的项的“近似估计量近似估计量”,用,用 表示:表示: teOLStttYYe)( 6.3.1 图示法图示法利用残差项利用残差项 的变化图形来判断随机干扰项的自的变化图形来判断随机干扰项的自相关性。相关性。 te6.3.2 杜宾杜宾- -瓦森瓦森(Durbin-Watson)检验法)检验法 DW检验是杜宾和瓦森于检验是杜宾和瓦森于1951年提出的一种检年提出的一种检验自相关的方法,该方法的假定条件是:验自相关的方法
13、,该方法的假定条件是:(1 1)解释变量)解释变量 非随机;非随机;(2)随机干扰项)随机干扰项 为一阶自回归形式:为一阶自回归形式: (3)回归模型中不应含有滞后应变量作为解释变)回归模型中不应含有滞后应变量作为解释变量,即不应出现下列形式:量,即不应出现下列形式:(4)样本容量应充分大()样本容量应充分大( )。)。Xtutttuu 1ttktkttuYXXY 1110 15 T DW检验步骤检验步骤:(1)计算计算DW值值(2)给定给定 ,由,由n和和k的大小查的大小查DW分布表,得临界分布表,得临界值值 和和(3)比较、判断比较、判断udld 若若 0DW dL 存在正自相关存在正自相
14、关 dLDWdu 不能确定不能确定 du DW4-du 无自相关无自相关 4-du DW4-dL 不能确定不能确定 4-dLDW4 存在负自相关存在负自相关 0 2正正相相关关无自相关无自相关负负相相关关ldld 4udud 4 当当DW值在值在2左右时,模型不存在一阶自相关。左右时,模型不存在一阶自相关。 证明:证明:展开展开DW统计量:统计量: TttTtTtTttttteeeee1222212122DW当样本容量充分大条件下有当样本容量充分大条件下有 TttTttTtteee1222122如果存在如果存在完全一阶正相关完全一阶正相关,即,即 =1,则,则 DW= 0 完全一阶负相关完全一
15、阶负相关,即,即 = -1, 则则 DW=4 完全不相关完全不相关, 即即 =0,则,则 DW=2nttntttnttnttteeeeee22211221 为一阶自回归模型为一阶自回归模型 i=i-1+ i 的参数估计。的参数估计。)1(21222DW2212122122121 TttTtttTttTtTtttteeeeeee这里这里6.3.3 拉格朗日乘数(拉格朗日乘数(Lagrange multiplier)检验)检验 拉格朗日乘数检验克服了拉格朗日乘数检验克服了DW检验的缺陷,适检验的缺陷,适合于高阶序列相关以及模型中存在滞后被解释变量合于高阶序列相关以及模型中存在滞后被解释变量的情形。
16、的情形。 它是由布劳殊(它是由布劳殊(Breusch)与戈弗雷()与戈弗雷(Godfrey)于于1978年提出的,也被称为年提出的,也被称为BG检验检验。 对于模型对于模型如果怀疑随机扰动项存在如果怀疑随机扰动项存在p阶自相关阶自相关: ikikiiiuXXXY 22110tptptttuuuu 2211BG检验可用来检验如下受约束回归方程检验可用来检验如下受约束回归方程 约束条件为:约束条件为: :约束条件约束条件 为真为真时,大样本下时,大样本下其中,其中,n为样本容量,为样本容量, 为如下辅助回归的可决系数:为如下辅助回归的可决系数: 给定给定 ,查临界值,查临界值 2(p),与,与LM
17、值比较,做出判断,值比较,做出判断,实际检验中,可从实际检验中,可从1阶、阶、2阶、阶、逐次向更高阶检验。逐次向更高阶检验。 021 p 0H0H2RtptptktkttuuXXY 11110)(LM22pnR tptptktktteeXXe 111106.3.4 回归检验法回归检验法 以te为被解释变量, 以各种可能的相关量, 诸如以1te、2te、2te等为解释变量,建立各种方程: tttee1tttteee2211 如果存在某一种函数形式,使得方程显著成如果存在某一种函数形式,使得方程显著成立,则说明原模型存在序列相关性。立,则说明原模型存在序列相关性。 回归检验法回归检验法的的优点优点
18、是:是:(1)能够确定自相能够确定自相关的形式,(关的形式,(2)适用于任何类型自相关性问题)适用于任何类型自相关性问题的检验。的检验。6.4 自自相关性相关性的解决方法的解决方法 如果模型的随机干扰项存在自相关,首先应如果模型的随机干扰项存在自相关,首先应分析产生自相关的原因。分析产生自相关的原因。 一种方法是利用回归估计的残差一种方法是利用回归估计的残差 对解释对解释变量的较高次幂进行回归,然后对新的残差作变量的较高次幂进行回归,然后对新的残差作DW检验,如果此时自相关消失,则说明模型的检验,如果此时自相关消失,则说明模型的数学形式不妥。数学形式不妥。te 如果自相关是由错误地设定模型的数
19、学形式如果自相关是由错误地设定模型的数学形式所致,那么就应当修改模型的数学形式。所致,那么就应当修改模型的数学形式。怎样查明自相关是由模型数学形式不妥造成的?怎样查明自相关是由模型数学形式不妥造成的? 一种方法是利用回归估计的残差一种方法是利用回归估计的残差 对那些对那些可能影响被解释变量但又未被列入模型的解释变可能影响被解释变量但又未被列入模型的解释变量作回归,并作显著性检验,从而确定该解释变量作回归,并作显著性检验,从而确定该解释变量的重要性。量的重要性。te 如果自相关由模型中省略了重要解释变量造如果自相关由模型中省略了重要解释变量造成的,那么解决办法就是找出略去的解释变量,成的,那么解
20、决办法就是找出略去的解释变量,把它作为重要解释变量列入模型。把它作为重要解释变量列入模型。怎样查明自相关是由略去重要解释变量引起的?怎样查明自相关是由略去重要解释变量引起的? 只要当以上两种引起自相关的原因都消除后,只要当以上两种引起自相关的原因都消除后,才能认为随机干扰项才能认为随机干扰项 “ “真正真正”存在自相关。在存在自相关。在这种情况下,解决办法是对回归估计方程进行变这种情况下,解决办法是对回归估计方程进行变换,然后利用普通最小二乘法回归估计参数,这换,然后利用普通最小二乘法回归估计参数,这种估计方法称作种估计方法称作广义最小二乘法广义最小二乘法。tu广义最小二乘法广义最小二乘法tk
21、tktttuXXXY 22110), 2 , 1(Tt 设原回归模型是设原回归模型是(6.4.1) 其中其中 具有一阶自回归形式:具有一阶自回归形式:tutttuu 1把上式代入(把上式代入(6.4.1)式得)式得ttktktttuXXXY 122110 (6.4.2) 求模型(求模型(6.4.1)的)的 期关系式,并在两侧同乘期关系式,并在两侧同乘 1 t 1112211101 tktktttuXXXY 用(用(6.4.2)式与上式相减,得)式与上式相减,得 tktktkttttXXXXYY )()()1 (11111011* tttYYY 1* jtjtjtXXX 令令)1(0*0 (6.
22、4.3)(6.4.2) ttktktttuXXXY 1221101112211101 tktktttuXXXY 则模型(则模型(6.4.3)表示如下)表示如下 tktktttXXXY *22*11*0*), 3 , 2(Tt (6.4.7) tktktttXXXY *22*11*0*), 3 , 2(Tt (6.4.7) 上式中的随机干扰项是非自相关的,满足经典上式中的随机干扰项是非自相关的,满足经典假设条件,所以可对模型(假设条件,所以可对模型(6.4.7)应用最小二乘法)应用最小二乘法估计回归参数,所得估计量具有估计回归参数,所得估计量具有最佳线性无偏性最佳线性无偏性。 (1)就是原模型就
23、是原模型 中的中的 。而。而 k ,1tktktttXXXY *22*11*0*中的中的tktktttuXXXY 22110k ,1)1(*00 用用OLS法估计法估计 tktktttXXXY *22*11*0*得到的得到的 称作原模型中相应回归系数称作原模型中相应回归系数 k , )1(1*0 的广义最小二乘估计量。的广义最小二乘估计量。注意:注意:(2)成成T-1。为避免这种损失,。为避免这种损失,K.R.Kadiyala(1968)提出对提出对 与与 的第一个观测值分别如下定义的第一个观测值分别如下定义 ), 2 , 1(kjXjt 这种变换损失了一个观测值,样本容量由这种变换损失了一个
24、观测值,样本容量由T变变 tY21*11 YY21*11 jjXX于是对模型于是对模型 , tktktttXXXY *22*11*0*样本容量仍然为样本容量仍然为T 。tktktkttttXXXXYY )()()1 (1111101 (3)当随机干扰项当随机干扰项 的自相关具有高阶自回归的自相关具有高阶自回归形式时,仍可用与上述相类似的方法进行广义差分形式时,仍可用与上述相类似的方法进行广义差分变换。比如变换。比如 具有二阶自回归形式具有二阶自回归形式:tu则变换过程应首先求出方程则变换过程应首先求出方程6.4.1的的t-1期与期与t-2期的两期的两个关系式,然后利用与上述相类似的变换方法建立
25、广个关系式,然后利用与上述相类似的变换方法建立广义差分模型。义差分模型。ttttuuu 2211tu (4)当用广义差分变量回归的结果中仍存在自)当用广义差分变量回归的结果中仍存在自相关时,可以对广义差分变量继续进行广义差分,相关时,可以对广义差分变量继续进行广义差分,直至回归模型中不存在自相关为止。直至回归模型中不存在自相关为止。6.5 自相关系数的估计自相关系数的估计 1、用用 DW统计量的值计算统计量的值计算21DW 2、杜宾(杜宾(DurbinDurbin)两步法)两步法 3、科克伦科克伦奥克特奥克特(Cochrane-Orcutt)(Cochrane-Orcutt)迭代法迭代法应用软
26、件中的广义差分法应用软件中的广义差分法 在在Eview/TSP软件包下,广义差分采用了科克伦软件包下,广义差分采用了科克伦-奥科特(奥科特(Cochrane-Orcutt)迭代法估计)迭代法估计 。 在解释变量中引入在解释变量中引入AR(1)(1)、AR(2)(2)、,即可得即可得到参数和到参数和1、2、的估计值。的估计值。 其中其中AR( (m) )表示随机误差项的表示随机误差项的m阶自回归。在阶自回归。在估计过程中自动完成了估计过程中自动完成了1、2、的迭代。的迭代。6.6 案例分析案例分析 6.6.1 研究目的研究目的 2006年中国农村人口占年中国农村人口占56.10,而消费总量却,而
27、消费总量却只占只占39.4%,农村居民的收入和消费是一个值得研,农村居民的收入和消费是一个值得研究的问题。消费模型是研究居民消费行为的常用工究的问题。消费模型是研究居民消费行为的常用工具。通过中国农村居民消费模型的分析可判断农村具。通过中国农村居民消费模型的分析可判断农村居民的边际消费倾向,这是宏观经济分析的重要参居民的边际消费倾向,这是宏观经济分析的重要参数。同时,农村居民消费模型也能用于农村居民消数。同时,农村居民消费模型也能用于农村居民消费水平的预测。费水平的预测。 6.6.2 模型设定模型设定 影响居民消费的因素很多,但由于受各种条影响居民消费的因素很多,但由于受各种条件的限制,通常只
28、引入居民收入一个变量做解释件的限制,通常只引入居民收入一个变量做解释变量,即消费模型设定为变量,即消费模型设定为tttuXY 10 式中,式中, 为农村居民人均消费支出,为农村居民人均消费支出, 为农村为农村人均居民纯收入,人均居民纯收入, 为随机干扰项。为随机干扰项。tYtXtu中国农村居民中国农村居民1985年年-2006年的人均收入与消费年的人均收入与消费数据数据 (见教材)。见教材)。6.6.3 参数估计参数估计 为了消除价格变动因素对农村居民收入和消为了消除价格变动因素对农村居民收入和消费支出的影响,不宜直接采用现价人均纯收入和费支出的影响,不宜直接采用现价人均纯收入和现价人均消费支
29、的数据,而需要用经消费价格指现价人均消费支的数据,而需要用经消费价格指数进行调整后的数进行调整后的1985年可比价格计算的人均纯收年可比价格计算的人均纯收入和人均消费支出的数据作回归分析。入和人均消费支出的数据作回归分析。 则消费模型则消费模型 ttXY6785. 01630.67 (6.6.1) )1262.15( ES)0238. 0()4401. 4( t)5245.28(9760. 02 R6443.813 F50918. 0DW 22 df6.6.4 自相关性的检验自相关性的检验(1)图示法)图示法 残差的序列图是循环型的,残差的序列图是循环型的, 不是频繁改变符不是频繁改变符号,而
30、是连续几个正值后再连续几个负值,表明存号,而是连续几个正值后再连续几个负值,表明存在正相关。在正相关。 te(2) DW检验检验 ,显著性,显著性 ,解释变量的,解释变量的个数为个数为1,统计量,统计量 ,表明存在表明存在正自相关正自相关。 50918. 0DW 05. 0 24. 1DW50918. 00 ld(3)BG检验检验可得可得 ,相伴概率为,相伴概率为 ,因此只要取显著性水平,因此只要取显著性水平 ,就可以拒绝,就可以拒绝无自相关的原假设,即随机干扰项存在自相关。无自相关的原假设,即随机干扰项存在自相关。又又 的回归系数都显著不为的回归系数都显著不为0,表明存在,表明存在一阶自一阶
31、自相关相关。 3178.125599. 0222 TR0021. 00021. 0 1 te(1) 广义差分法广义差分法 由由OLS估计得到估计得到DW=0.50918,根据根据 可得可得 。利用命令利用命令:Genr X1=X-0.74541X(-1),Genr Y1=Y-0.74541Y(-1)分别对分别对X和和Y作广义差分。作广义差分。 2/DW1 74541. 0 6.6.5 自相关的修正自相关的修正 ,和以前的和以前的 比起来有很大比起来有很大提高提高,但给定显著性水平但给定显著性水平 , ,这表明随机干扰项仍然存在自相关。,这表明随机干扰项仍然存在自相关。2201. 1DW 509
32、18. 0DW 05. 0 24. 12201. 1DW ld (2)科克伦)科克伦奥克特(迭代法)奥克特(迭代法) 命令命令:LS Y C X AR(1) ,则可得结果如,则可得结果如图图6.6 : ,说明拟合优度很高,在显著性,说明拟合优度很高,在显著性 ,统计量,统计量 表明无法判断是否存在自相关。表明无法判断是否存在自相关。 988984. 02 R05. 0 42. 1385764. 1DW22. 1 uldd再用命令:再用命令:LS Y C X AR(1) AR(2)。 可得结果如可得结果如图图6.7 : 可见可见 ,说明拟合优度很高,在显著性,说明拟合优度很高,在显著性 , ,解
33、释变量的个数为,解释变量的个数为1,得,得 , 。因为。因为 ,根据判定区,根据判定区 域知,表明随机扰动项的自相关已经被消除。域知,表明随机扰动项的自相关已经被消除。990274. 02 R05. 0 20 T20. 1 ld41. 1 uduudd 41301. 2DW由此,我们得到最终的中国农村居民消费模型为由此,我们得到最终的中国农村居民消费模型为 由两次迭代结果可知由两次迭代结果可知由图由图6.6可知可知 ,而,而 ,所以,所以1.385764DW 2/DW1 3072. 0 7246.52152236.3607300.01ttXY7300. 07246.52 由(由(6.6.2)的中国农村居民消费模型可知)的中国农村居民消费模型可知,中国,中国农村居民的边际消费倾向为农村居民的边际消费倾向为0.73,即中国农民每,即中国农民每增加收入增加收入1元,将增加消费支出元,将增加消费支出0.73元。元。(6.6.2)