第7章-面板数据模型分析课件.ppt_163文库

资源描述

1、面板数据模型的分析面板数据模型的分析第一节面板数据模型简介第二节固定效应模型及其估计方法第三节随机效应模型及其估计方法第四节模型设定的检验第五节面板数据模型应用实例第一节第一节面板数据模型简介面板数据模型简介一、面板数据和模型概述一、面板数据和模型概述时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据；截面数据是变量在截面空间上的数据。面板数据（panel data）也称时间序列截面数据（time series and cross section data）或混合数据（pool data）。面板数据是同时在时间和截面空间上取得的二维数据。简单地讲，面板

2、数据因同时含有时间序列数据和截面数据，所以其统计性质既带有时间序列的性质，又包含一定的横截面特点。因而，以往采用的计量模型和估计方法就需要有所调整。例1 表1 中展示的数据就是一个面板数据的例子。表表 1 华华东东地地区区各各省省市市 GDP 历历史史数数据据单位：亿元 1995 1996 1997 1998 1999 上海 2462.57 2902.20 3360.21 3688.20 4034.96 江苏 5155.25 6004.21 6680.34 7199.95 7697.82 浙江 3524.79 4146.06 4638.24 4987.50 5364.89 安徽 2003.6

3、6 2339.25 2669.95 2805.45 2908.59 福建 2191.27 2583.83 3000.36 3286.56 3550.24 江西 1244.04 1517.26 1715.18 1851.98 1962.98 山东 4996.87 5960.42 6650.02 7162.20 7662.10 数据来源：中国统计年鉴1996-2000。其他类似的例子还有：历次人口普查中有关不同年龄段的受教育状况；同行业不同公司在不同时间节点上的产值等。这里，不同的年龄段和公司代表不同的截面，而不同时间节点数据反映了数据的时间序列性。研究和分析面板数据的模型被称为面板数据模型（pa

4、nel data model）。它的变量取值都带有时间序列和横截面的两重性。一般的线性模型只单独处理横截面数据或时间序列数据，而不能同时分析和对比它们。面板数据模型，相对于一般的线性回归模型，其长处在于它既考虑到了横截面数据存在的共性，又能分析模型中横截面因素的个体特殊效应。当然，我们也可以将横截面数据简单地堆积起来用回归模型来处理，但这样做就丧失了分析个体特殊效应的机会。面板数据通常分为两类面板数据通常分为两类：由个体调查数据得到的面板数据通常被称为微观面板（micro panels）。微观面板数据的特点是个体数N 较大（通常是几百或几千个），而时期数T 较短（最少是2 年，最长不超过10

5、年或20 年）。由一段时期内不同国家的数据得到的面板数据通常被称为宏观面板（macro panels）。这类数据一般具有适度规模的个体N（从7 到100 或200 不等，如七国集团，OECD，欧盟，发达国家或发展中国家），时期数T 一般在20 年到60 年之间。对于宏观面板，当时间序列较长时需要考虑数据的非平稳问题，如单位根、结构突变以及协整等；而微观面板不需要处理非平稳问题，特别是每个家庭或个体的时期数T 较短时。面板数据的优点（）可以控制个体异质性可以克服未观测到的异质性（unobserved heterogeneity）这种遗漏变量问题。这个异质性是指在面板数据样本期间内取值恒定的某些

6、遗漏变量。（2）面板数据模型容易避免多重共线性问题面板数据具有更多的信息；面板数据具有更大的变异；面板数据的变量间更弱的共线性；面板数据模型具有更大的自由度以及更高的效率。（3）与纯横截面数据或时间序列数据相比，面板数据模型允许构建并检验更复杂的行为模型。二、一般面板数据模型介绍用面板数据建立的模型通常有3种。即混合估计模型、固定效应模型和随机效应模型。混合（pool）估计模型。如果从时间上看，不同个体之间不存在显著性差异；从截面上看，不同截面之间也不存在显著性差异，那么就可以直接把面板数据混合在一起用普通最小二乘法（OLS）估计参数。二、一般面板数据模型介绍二、一般面板数据模型介绍符号

7、介绍：ity因变量在横截面 i 和时间 t 上的数值；jitx第 j 个解释变量在横截面 i 和时间 t 上的数值；假设：有 K 个解释变量，即Kj,2,1；有 N 个横截面，即Ni,2,1；时间指标Tt,2,1。记第 i 个横截面的数据为 iTiiiyyyy21；KiTiTiTKiiiKiiiixxxxxxxxxX212221212111；iTiii 21 其中对应的i 是横截面 i 和时间 t 时随机误差项。再记 Nyyyy21；NXXXX21；N 21；K 21 这样，y 是一个1TN的向量；X 是一个KTN的矩阵；而是一个1TN的向量。针对这样的数据，有以下以矩阵形式表达的面板数据模型

8、：Xy （1）方程（1）代表一个最基本的面板数据模型。基于对系数和随机误差项的不同假设，从这个基本模型可以衍生出各种不同的面板数据模型。最简单的模型就是忽略数据中每个横截面个体所可能有的特殊效应，如假设),0(2 iid，而简单地将模型视为横截面数据堆积的模型。几点说明未观测到的异质性可能不会随着样本的变化而变化，也可能随着样本的变化而发生随机的变化。不同截距的数据生成过程就是这未观测到的差别不随样本而变化的数据生成过程。误差成份（error components）数据生成过程就是这未观测到的差别随样本而随机变化的数据生成过程。在不同截距的数据生成过程中，各自不同的截距都是参数。误差成份模型

9、有两种情况，一是随机的个体效应与解释变量无关，一种是随机的个体效应与解释变量相关。所谓双因素效应模型，就是在模型中既考虑了不可观测非时变的（个体）异质效应，又考虑了不可观测时变（个体）同质效应的模型。类似地，双因素效应模型也有固定效应和随机效应之分，如果设定个体效应i 和时间效应t 是确定的，就是双因素固定效应模型；如果设定个体效应i 和时间效应t 是随机的，就是双因素随机效应模型。在实际应用时，模型的正确设定必须进行相关的统计检验。第二节第二节固定效应模型及其估计方法固定效应模型及其估计方法进一步定义：iiidddDN00000021 id为1TN向量，是一个虚拟变量（dummy vari

10、able）。模型可以再写为：xDy 其中 D 是一个有虚拟变量组成的矩阵。因此固定效应模型也被称为最小二乘虚拟变量模型（least squares dummy variable(LSDV)model），或简单称为虚拟变量模型。第二步，估计参数。由于已经得到了的估计值，所以的估计就变得比较简单。)()(1wXYDDD 其实就是用自变量和解释变量的个体均值和w 按下列模型计算出的误差项：wiiiXy 估计量w 和的方差估计：122)(XPXsDw iiXXTswi 22 其中2s是对误差项方差的估计量：KNNTxysitwitiit22)(注注意意：在对误差项方差的估计量中，分母（NT-N-K）

11、反映了整个模型的自由度。有了这些方差的估计量，就可以用传统的 t-统计量对估计系数的显著性进行检验。同时，还可以运用下列 F-统计量对jiji,的原假设进行检验：)/()1()1/()(),1(222KNNTRNRRKNNTNFURU 其中2UR代表无约束回归模型2R，而2RR为有约束回归模型的2R，约束条件即为原假设。第三节第三节随机效应模型及其估计方法随机效应模型及其估计方法一一、随随机机效效应应模模型型的的形形式式类似固定效应模型，随机效应模型也假定：itiit 但与固定效应模型不同的是，随机效应模型假定i 与it 同为随机变量随机效应模型可以表达如下：iiiiiXy （18）其中

12、iy和i 均为1T向量；iX是KT 矩阵；i 是一个随机变量，代表个体的随机效应。由于模型的误差项为二种随机误差之和，所以也称该模型为误差构成模型（error component model）。还假定：(1)i 和itx不相关；(2)0)()(iitEE ；(3)tjiEjit,0)(;(4)stjiEjsit或,0)(;(5)jiEji,0)(6)tiEit,),(22 ;(7)iEi),(22 。给定这些假设，随机效应面板数据模型也可同样写为：y=X+其中 )(iIn，的向量形式与以前相同。是Kronecker乘法符号。例2 Kronecker乘法：121212200iiiI 例3 前面的

13、矩阵D也可用Kronecker乘法表示：1TNiID 在这些假设的情况下，简单OLS 估计量仍然是无偏和一致的，但不是有效的。因为：i iIVarTi22)(（19）NNNTIi iIIVar22)(（20）同一个个体、不同时间节点上的随机误差项之间存在一定的相关性，而 OLS 没有利用方差矩阵中含有的这些信息，因而不再是最有效的估计量。因此有必要采用GLS。二二、随随机机效效应应模模型型的的估估计计 1.2 和2 已知时直接采用GLS 定义下列符号：TTNTTTTNiiTIiiiiIP1)(1 （21）PIQNT （22）在以上这些符号的意义下，可以算出-1的计算公式：)(1221PQ （2

14、3）其中2222 T 对的估计直接采用 GLS 方法：yXXXGLS111)(（26）或 NiiiNiiiGLSyXXX11111 （27）上述两式是等同的，它们还等同于：在方程（18）两边乘以-1/2，再进行 OLS 估计，即 iiiiiXy 2/12/12/1 （28）另外，在前面七个假定下，GLS 的协方差矩阵为：11)()(XXVarGLS （29）注：GLS 是无偏和有效估计量。2.2 和2 未知时采用可行的广义最小二乘（FGLS）方法如果没有2 和2 的信息，就必须要首先运用数据对它们进行估计。因为我们的目的是得到的一致估计值，然后进行 FGLS，所以需要对2 和2 的一致估计。

15、在这种情况下，GLS 估计量是一致的和渐进有效的（asymptotically efficient）。一致估计量要求：当样本量趋近无穷大时，估计量同时趋近真实值。在面板数据模型中这就要求N和T分别趋向无穷大，这有时有问题，如例1中，N是固定的，华东六省一市是不能改变的，因此当样本的N和T都比较小时，可以直接采用固定效应模型。第四节第四节模型设定的检验模型设定的检验一、协方差分析检验二、固定效应和随机效应的检验三、面板单位根和协整检验模型模型(1)常用的有如下三种情形：常用的有如下三种情形：对于情形对于情形1，在横截面上无个体影响、无结构变化，则，在横截面上无个体影响、无结构变化，则普通最小

16、二乘法估计给出了普通最小二乘法估计给出了和和的一致有效估计。相当于的一致有效估计。相当于将多个时期的截面数据放在一起作为样本数据。将多个时期的截面数据放在一起作为样本数据。对于情形对于情形2，称为变截距模型，在横截面上个体影响不，称为变截距模型，在横截面上个体影响不同，个体影响表现为模型中被忽略的反映个体差异的变量的同，个体影响表现为模型中被忽略的反映个体差异的变量的影响，又分为固定影响和随机影响两种情况。影响，又分为固定影响和随机影响两种情况。对于情形对于情形3，称为变系数模型，除了存在个体影响外，称为变系数模型，除了存在个体影响外，在横截面上还存在变化的经济结构，因而结构参数在不同横在

17、横截面上还存在变化的经济结构，因而结构参数在不同横截面上是不同的。截面上是不同的。jiji,jiji,jiji,经常使用的检验是协方差分析检验，主要检验如下两经常使用的检验是协方差分析检验，主要检验如下两个假设：个假设：H1：H2：可见如果接受假设可见如果接受假设 H2 则可以认为样本数据符合情形则可以认为样本数据符合情形1，即模型为即模型为，无需进行进一步的检验。，无需进行进一步的检验。如果拒绝假设如果拒绝假设H2，则需检验假设则需检验假设H1。如果接受如果接受H1，则则认为样本数据符合情形认为样本数据符合情形2，即模型为，即模型为，反之拒绝，反之拒绝H1，则认为样本数据符合情形，则认为样本

18、数据符合情形3，即模型为，即模型为。N21N21N21 下面介绍假设检验的下面介绍假设检验的 F 统计量的计算方法。首先计算情统计量的计算方法。首先计算情形形3()的残差平方和，记为的残差平方和，记为 S1 1；情形情形2()的残差平方和记为的残差平方和记为 S2 2；情形情形1()的残差平方和的残差平方和记为记为 S3 3。计算计算 F2 统计量统计量 (10.2.7)在假设在假设 H2 下检验统计量下检验统计量 F2 服从相应自由度下的服从相应自由度下的F分布。分布。若计算所得到的统计量若计算所得到的统计量 F2 的值不小于给定置信度下的相应临的值不小于给定置信度下的相应临界值，则拒绝假设

19、界值，则拒绝假设 H2，继续检验假设，继续检验假设 H1。反之，接受。反之，接受 H2则则认为样本数据符合模型情形认为样本数据符合模型情形1，即，即。)1(),1)(1()1()1)(1/()(1132kTNkNFkNNTSkNSSF 在假设在假设H1下检验统计量下检验统计量F1也服从相应自由度下的也服从相应自由度下的F分布，分布，即即 (10.2.8)若计算所得到的统计量若计算所得到的统计量F1的值不小于给定置信度下的相的值不小于给定置信度下的相应临界值，则拒绝假设应临界值，则拒绝假设H1。如果接受如果接受H1，则认为样本数据符合情形则认为样本数据符合情形2，即模型为，即模型为，反之拒绝，反

20、之拒绝H1，则认为样本数据符合情形，则认为样本数据符合情形3，即模，即模型为型为。)1(,)1()1()1/()(1121kTNkNFkNNTSkNSSF Hausman（1978）等学者认为应该总是把个体影响处理）等学者认为应该总是把个体影响处理为随机的，即随机影响模型优于固定影响模型，其主要原因为随机的，即随机影响模型优于固定影响模型，其主要原因为：固定影响模型将个体影响设定为跨截面变化的常数使得为：固定影响模型将个体影响设定为跨截面变化的常数使得分析过于简单，并且从实践的角度看，在估计固定影响模型分析过于简单，并且从实践的角度看，在估计固定影响模型时将损失较多的自由度，特别是对时将损失较

21、多的自由度，特别是对“宽而短宽而短”的面板数据。的面板数据。但相对于固定影响模型，随机影响模型也存在明显的不足：但相对于固定影响模型，随机影响模型也存在明显的不足：在随机影响模型中是假设随机变化的个体影响与模型中的解在随机影响模型中是假设随机变化的个体影响与模型中的解释变量不相关，而在实际建模过程中这一假设很有可能由于释变量不相关，而在实际建模过程中这一假设很有可能由于模型中省略了一些变量而不满足，从而导致估计结果出现不模型中省略了一些变量而不满足，从而导致估计结果出现不一致性。一致性。注注意意：这里的与前面提到的有所不同，这里表示的两种估计量协方差矩阵之差（Hausman 的一个基本结论

22、就是有效估计量和其与非有效估计量之差（即：)(GLSw ）的协方差等于 0，所以GLSwGLSw varvar)var(），即：GLSw varvar （36）Hausman 统计量即 Wald 统计量渐进服从自由度为 K 的2 分布：)(2KWd （37）几点说明原假设成立时，则随机效应比固定效应更有效。如果正确的模型是第一个或第二个误差成份数据生成过程，那么Hausman检验能很好地将二者区别开来。但存在一种可能，解释变量中存在测量误差，这时固定效应和随机效应估计量都是不一致的，但二者导致的偏误有所不同。通常固定效应估计量的测量误差偏误会更大。这时要谨慎对待检验结果。此时工具变量估计量是

23、更好的选择。在不存在一个好的工具变量情况下，使用随机效应估计量好于固定效应估计量。小结面板数据是我们有机会避免一种特殊的遗漏变量偏误，如果对同一个个体，被遗漏变量在不同时期保持不变，面板数据集的时间维度就可以控制这种未观测到的异质性。个体误差成份与解释变量不相关的误差成份DGP的有效估计量，就是成为随机效应估计量的一个可行GLS估计量。它在对观测赋予权重时很好地解释了个人干扰之间的相关性。如果个体误差成份与解释变量相关，那么随机效应就不是一致估计量，此时固定效应再次成为有效的估计量。到底是设定一个不同截距的DGP还是设定一个误差成份的DGP，主要取决于抽样背景。建立一个研究建立一个研究10家

24、企业投资需求状况的家企业投资需求状况的Panel Data模型：模型：t=1,2,20其中：企业标识数字从其中：企业标识数字从1 10，分别对应通用汽车（，分别对应通用汽车（GM）、）、克莱斯勒（克莱斯勒（CH）、通用电气（）、通用电气（GE）、西屋（）、西屋（WE）和美国）和美国钢铁（钢铁（US）等。被解释变量）等。被解释变量It 分别是分别是10家企业的总投资。家企业的总投资。解释变量为解释变量为Mt 分别是分别是10家企业前一年企业市场价值（反映家企业前一年企业市场价值（反映企业的预期利润）；企业的预期利润）；Kt 分别是分别是10家企业前一年末工厂存货家企业前一年末工厂存货及设备价值（

25、反映企业必要重置投资期望值）。及设备价值（反映企业必要重置投资期望值）。tttituKMI21Stata例子 webuse grunfeld xtset company year xtdes xtline invest混合回归：reg invest mvalue kstock固定效应：xtreg invest mvalue kstock,fe随机效应：xtreg invest mvalue kstock,re xtreg invest mvalue kstock,fe est store fixed xtreg invest mvalue kstock,re est store random hausman fixed random本题接受原假设，即应该用随机效应。双向固定效应模型固定效应模型：Yit=ai+XitB+it 双向固定效应模型：Yit=ai+ft+XitB+it 实际上添加了t-1个时间虚拟变量。主要反应随着时间变化的一些特征。tab year,gen(yr)edit drop yr1 xtreg invest mvalue kstock yr*,fe 大部分时间虚拟变量显著，说明随着时间的变动，invest有不断变动的趋势。

展开阅读全文