1、第十六章第十六章综列数据方法及其应用16.1综列数据简介 1.跨越时间的两种横截面数据集 独立混合横截面:是在不同时点(经常但并不一定是不同的年份)从一个大总体里进行随机抽样的结果。从统计学的观点看,这些数据集有一个重要的特点:它们都是由独立抽取的观测值构成的。综列数据(panel data)集:是指同一截面单元集上的重复观察值(repeated observations on the same set of cross-section units)一个独立混合横截面(independently pooled cross section)和单一个随机样本的差异在于,在不同时点上对总体进行抽样很
2、可能导致观测点(即观测结果)不是同分布(identically distributed)的情形。综列数据集虽然兼有横截面和时间序列的因次,但在一些重要方面却不同于独立混合横截面。如我们要在不同时间跟踪(或试图跟踪)相同的一些个人、家庭、厂家、城市、省份或别的什么单元,例如,在一个时点上,从某总体中随机地收集了一些人的个人工资、工作小时、学历和其他因素的一个综列数据集,那么,在以后的若干个时点上,要对同样的这些人反复采访,以便得到同样一群人在不同年份里的工资、工作小时、学历等数据。现在综列数据正越来越多的被经济研究所使用。一些著名的综列数据组有:(1)动态收入综列研究(动态收入综列研究(PSID
3、)。由密歇根大学的社会研究所于1968年开始主持,研究所每年收集大约5000个家庭的各种社会经济和人口统计变量。(2)收入和参与项目调查(收入和参与项目调查(SIPP)。这个类似PSID的调查由商业部人口普查局主持,每年将对被访问者就其经济状况进行四次调查。还有许多其他的调查被不同的政府机构所采用。2.2.综列数据类型综列数据类型 平衡综列数据平衡综列数据(balanced panel):对N个横截面单元(个人、厂商、城市等等)的每一个都有同样的T期数据。非平衡综列数据非平衡综列数据(unbalanced panel):如果各个综列单元的观测次数不相同时,我们就称之为非平衡综列非平衡综列。3.
4、3.综列数据的综列数据的优势优势 既然综列数据与一定时期内的个人、企业、州、国家等有关,那么这些单元中一定存在着差异性。通过时间序列和横截面数据的混合,综列数据提供“更加有价值的数据,变量之间增加了多变性和减少了共线性,并且提高了自由度和有效性。”通过对重复横截面数据的研究,综列数据更适用于变变化中的动态化中的动态的研究。综列数据能够更好的检测和度量单纯使用横截面数据或时间序列数据所无法观测到的影响。综列数据能够使我们对更加复杂的行为模型进行研究。通过使数据适用于数千个单元,综列数据能够将偏差降到最低,而这种偏差可能是由于我们将个人或企业情况加总到更大的集合体中所产生的。)2(;)1(;212
5、1212121222121211121nnniTiiikiTiTiTkiiikiiiiiTiiiuuuuxxxXyyyyuuuuxxxxxxxxxXyyyy)3(uXy 4.4.综列数据模型综列数据模型yit=截面单元i在时间t的因变量的值;i=1,n;t=1,Txjit=单元i在时间t的第j个解释变量的值;假设:有k个解释变量,即j=1,k;有n个横截面,即i=1,n;时间指标t=1,T记第i个横截面的数据为式中y为nT维,x为nTk维,u为nT维。5.5.综列数据:一个解释性的例子综列数据:一个解释性的例子 格伦费尔德(Y.Grunfeld)投资理论:企业的实际价值(X2)和实际资本存量(
6、X3)是如何决定实际总投资(Y)。横截面单元:四个公司,即通用电气(GE)、通用汽车(GM)、美国钢铁(US)以及威斯汀豪斯电气公司。时间区间:20年,19351954年。样本总数:80。一个先验的结论是Y与X2和X3正相关。20,2,1;4,3,2,1)5(33221tiuXXYitititit 假设X是非随机的,而且误差项遵从经典假设,即uN(0,2)(1)所有系数都不随时间和个体而变化所有系数都不随时间和个体而变化 最简单的方法(也可能是自然的方法)就是不考虑和时间的混合数据,只是对通常的OLS回归进行估计。即将每个公司的20次观测值逐一堆置,于是模型(5)中的每个变量总共可以得到80次
7、观测值。OLS结果如下:se=(29.6124)(0.0137)(0.0493)t=(2.1376)(8.0188)(6.1545)(6)R2=0.7565 D-W=0.2187 n=80 df=77323034.01101.03041.63XXY(2)斜率系数不变而截距随个体而变化:固定效斜率系数不变而截距随个体而变化:固定效应或最小二乘虚拟变量(应或最小二乘虚拟变量(LSDV)回归模型)回归模型 将每个公司或每个横截面单元的个体性考虑进来的一种方法是,假定截距随每个公司变化但斜率系数仍然不变。为了看到这一点,我们将模型(5)写成:注意到我们将下标i加到了截距项上,这就表明四个公司的截距是不
8、同的。这种差异可能是由于每个公司的特性所引起的,比如管理者风格或管理者哲学。模型(7)就是为人熟知的固定效应固定效应(回归)模型(FEMFEM)。)7(33221itititiituXXY 虚拟变量方法(7)式可以写成:其中,如果观测值属于GM,则D2i=1,否则为0;如果观测值属于US,则D3i=1,否则为0;如果观测值属于威斯汀豪斯,则D4i=1,否则为0。由于我们用的是四个公司,因此只需用3个虚拟变量。换言之,1代表GE的截距,而2、3、4以及级差截距系数就能够说明GM、US和威斯汀豪斯的截距相对于GE的截距有多大的不同。模型(模型(8 8)称为最小二乘虚拟变量()称为最小二乘虚拟变量(
9、LSDVLSDV)模型)模型。)8(33224433221itititiiiituXXDDDY (3)斜率系数不变而截距随个体和时间而变化斜率系数不变而截距随个体和时间而变化 为了考虑这种可能性,我们将(6)和(10)合并,如下所示:)11(53.36353322192104321itititWESTUSGMituXXDUMDUMDUMDDDYiii (4)所有系数随个体而变化所有系数随个体而变化 这里,我们假定所有个体单元或横截面单元的截距和斜率系数是不同的。也就是说,GE、GM、US和WEST的投资函数都不相同。我们可以容易的将LSDV模型扩展来考虑这种情形。表示级差斜率系数,正如2、3和
10、4表示级差截距。如果一个或多个系数具有统计显著性,这就是告诉我们一个或多个斜率系数与基准组不同。例如2和1具有统计显著性,在这种情况下,(2+1)就给出了通用汽车的X2的斜率系数值。这表明对于GM,X2的斜率系数与通用电气这个比较公司是有差异的。若所有的级差截距和所有的级差斜率系数都具有统计显著性,我们就可以得出这样一个结论,即通用汽车、美国钢铁和威斯汀豪斯的投资函数都是有别于通用电气的。如果事实确实如此,那么估计混合回归模型(6)就几乎没有意义了。)12()()()()()()(34624533423332222133224433221ititiitiitiitiitiitiititiiii
11、tuXDXDXDXDXDXDXXDDDY 变量变量系数系数标准误标准误t 值值p 值值截距截距-9.956376.3518-0.13040.8966D2i-139.5104109.2808-1.27660.2061D3i-40.1217129.2343-0.31040.7572D4i9.375993.11720.10060.9201X2i0.09020.04242.18440.0324X3i0.15160.06252.42500.0180D2iX2i0.09260.04242.18440.0324D2iX3i0.21980.06823.21900.0020D3iX2i0.14480.06462
12、.24090.0283D3iX3i0.25700.12042.13330.0365D4iX2i0.02650.11140.23840.8122D4iX3i-0.06000.3785-0.15840.8745R2=0.9511 d=1.0896结论:Y与X2和X3显著相关。但是,几个级差斜率系数具有统计显著性。例如对于GE,X2的斜率系数为0.0902,而GM则为0.1828(0.0902+0.0926)。有趣的是,没有一个级差截距在统计上是显著的。16.2.随机效应模型及其估计方法 综列数据随机效应模型REM(random effects model)有如下结构:itiitiitjiiiiit
13、itititkkititukjTtaxiXyuXuxxy ,2 ,1 ;,2 ,1 ,0),(Cov110或ECM的一般假设如下:E(i)=E(it)=0;E(i it)=0;E(i J)=0,ij,E(it js)=0(ij,ts)E(,)=2InTstuuisit),/(),(Corr222 )(Var)(Var22itia uXy 堆迭模型22222222222222)(i iIuuETii 000000)(uuEIn其中,I是一个T 1的单位向量。堆迭模型中所有误差项的方差矩阵为 给定上述假定,可写出各个横截面单元的干扰项的误差协方差其中,=E(uiui,)是TT维矩阵。表示克罗内克(
14、Kronecker)积是一个待估的未知量。其中22222/1)1(1 Ti iTIT 1.1.直接采用直接采用GLS 已知时和22 a)()()(11111111niniiiiiGLSGLSyXXXyXXX 或GLSOLSuXyuXiXyiiiiiiiii的,就得到再进行,得到两边乘以对方程 2/12/12/12/1 uXy 投资理论(Grunfeld,1958)的随机效应模型(REM),有如下形式:4,3,2,120,2,1;4,3,2,11133221itixxyiiitititiit itiitititititutiuxxy 其中,20,2,1;4,3,2,133221表:投资函数的RE
15、M估计结果 变量系数标准误t统计量p-值截距-73.035383.9495-0.86990.3870X20.10760.01686.40160.0000X30.34570.016813.02350.0000随机效应:GM-169.9282GM-9.5078USS165.5613Westinghouse13.87475R2=0.9323(GLS)2.采用FGLS 对方程两边在时间上求平均得到未知时和22 aititituXy)()(iitiitiitiiiiXXyyXy TknXyknnTXXyyiiiaitiitiit22222)1()()()()(有了的2和 2无偏估计,就可得到未知数和未知
16、矩阵-1/2的估计)1(122/1222i iTITT )()()(11111111niniiiiiFGLSFGLSyXXXyXXX 或则可得参数的FGLS估计16.3.两时期固定效应模型及其估计方法 综列数据提供的另一方法,是把影响因变量的观测不到的因素分为两类:一类是恒常不变的,另一类则随时间而变。令i表示横截面单元,t表示时期,我们可将观测到的单一个解释变量的模型写成 其中:Xit的下标i表示个人、厂商、城市等等,而下标t表示时期。变量(d2)t是当t=1时等于零而当t=2时等于1的一个虚拟变量,它不随i而变。因此,t=1的截距是0,而t=2的截距离是0+0。i称为非观测效应非观测效应(
17、unobserved effect):它概括了影响着的全部观测不到的、在时间上恒定的因素,即意味着尽管不同的个体具有不同的截距系数,但每个个体的截距不随时间而变化。在应用研究中也常常把i当做一种固定效应固定效应(fixed effect),意味着在时间上是固定的。误差it常被称为特异性误差特异性误差(idiosyncratic error)或时变(time-varying)误差,它代表因时间而变且影响着的那些非观测因素。)13(2,1)2(100taXdYitiittit 即对横截面第i个观测值,把两年的方程分别写为从第一个方程减去第二个,得到 非观测效应不再出现于上式:它已被“差分掉”了,而
18、且上式中的截距实际上是截距从t=1到t=2的变化。我们将方程(17)称之为一阶差分方程一阶差分方程(first-differenced equation)。)t(aXY)t(aX)(Yiiiiiiii1 2 11101221002)17()()(1012121012iiiiiiiiiXYXXYY 或16.4.多于两期的综列数据分析中的固定效应模型多于两期的综列数据分析中的固定效应模型 假定有N个个人且每人有T=3个时期的数据,一般的固定效应模型是:3,2,13211321tXXddYitikitkitttit 因此,观测的总次数是3N。式(21)除截距外,还包含了两(T-1)个时期的虚拟变量,
19、如同平常那样,基期是t=1。第2时期的截距是1+2,如此类推。我们主要感兴趣的是1,2,k。式(21)对每个i估计一个截矩的方法,是连同诸解释变量在一起,给每一个时期安排一个虚拟变量(也须还给每一个横截面观测(单元)安排有虚拟变量)。(21)(1)差分法差分法 对(21)式进行估计式时,如果非观测效应与任一解释变量相关,则对这3年数据使用混OLS将导致偏误且非一致估计值。此时可考虑用差分法。如果i与Xitj相关,则Xitj将与复合误差uit=i+it相关。我们可以取相邻期的差分把i去掉。对于T=3的情形,3,2)3()2(1132tXXddYititkkitttit 3,2,13211321t
20、XXddYitikitkitttit (21)如果该方程满足经典线性模型假定,则混合OLS将给出无偏估计量,并且t和F统计量可用于假设检验。为使OLS是一致的,要求对所有的j和t=2和3,it都与Xitj不相关。it03t1it1kitkitit03t4tTt1it1kitkitY(d3)XX,t 2,3Y(d3)(d4)(dT)XX t 2,3,.,T (23)(3)固定效应估计法固定效应估计法 固定效应变换(固定效应变换(fixed effects transformation)考虑仅有一个解释变量的模型:对每个i,Ttxyitiitit,2 ,1 ,1 现在对每个i求方程在时间上的平均,
21、便得到TtitiiiiiyTyxy111其中 如此等等。因i在时间上固定不变,故它兼出现在(24)和(25)中。如果对每个i将(25)从(24)减去,我们便获致 TtxyTtxxyyitititiitiitiit,2 ,1 ,2 ,1),()(11 或(24)(25)(26)其中,是y的除去时间均值后的数据(time-demeaned data)。固定效应变换又称组内变换(within transformation)。多个解释变量的模型:对每个i的一般除去时间平均后的方程是 我们用混合OLS来估计它。此时自由度不是df=NT k,而是 N(T 1)k iitityyy Ttxyititit,2 ,1 ,1 Ttxxxyitiitkkititit,2 ,1 ,2211 Ttxxxyititkkititit,2,12211 15.5 模型设定的检验1.拉格朗值检验法H0:2=0(或者检验COV(i t is)=0(ts))H1:202.霍斯曼检验H0:随机效应与解释变量不相关 H1:随机效应与解释变量相关)1(1)()1(22222 itititituuTnTLM)()()()(21kWFEREREFEFERE