1、第五章第五章 经典单方程计量经济学经典单方程计量经济学模型:专门问题模型:专门问题 5.1 虚拟变量虚拟变量 5.2 滞后变量滞后变量 5.3 设定误差设定误差 5.4 建模理论建模理论5.1 虚拟变量模型虚拟变量模型 一、虚拟变量的基本含义一、虚拟变量的基本含义 二、虚拟变量的引入二、虚拟变量的引入 三、虚拟变量的设置原则三、虚拟变量的设置原则一、虚拟变量的基本含义一、虚拟变量的基本含义 许多经济变量是可以定量度量可以定量度量的,如:如:商品需求量、价格、收入、产量等 但也有一些影响经济变量的因素无法定量度量无法定量度量,如:如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某
2、些产品(如冷饮)销售的影响等等。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”,这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量虚拟变量(dummy variables),记为D。例如例如,反映文程度的虚拟变量可取为,反映文程度的虚拟变量可取为:1,本科学历 D=0,非本科学历 一般地,在虚拟变量的设置中:基础类型、肯定类型取值为基础类型、肯定类型取值为1;比较类型,否定类型取值为比较类型,否定类型取值为0。概念:概念:同时含有一般解释变量与虚拟变量的模型称为虚拟同时含有一般解释变量与虚拟变量的
3、模型称为虚拟变量模型或者方差分析变量模型或者方差分析(analysis-of variance:ANOVA)模型模型。一个以性别为虚拟变量考察企业职工薪金的模型:iiiiDXY210其中:Yi为企业职工的薪金,Xi为工龄,Di=1,若是男性,Di=0,若是女性。二、虚拟变量的引入二、虚拟变量的引入 虚拟变量做为解释变量引入模型有两种基本方式:加法方式加法方式和乘法方式乘法方式。iiiiXDXYE10)0,|(企业男职工的平均薪金为:企业男职工的平均薪金为:iiiiXDXYE120)()1,|(上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。在该模型中,如果仍假定E(i)=0,则 企业女
4、职工的平均薪金为:企业女职工的平均薪金为:1 1、加法方式、加法方式几何意义:几何意义:假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对教龄的变化率是一样的,但两者的平均薪金水平相差2。可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。年薪 Y 男职工 女职工 工龄 X02 又例又例:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。教育水平考虑三个层次:高中以下,高中,大学及其以上 011D 其他高中 012D 其他大学及其以上模型可设定如下:iiiDDXY231210 这时需要引入两个虚拟变量:在E(i
5、)=0 的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:高中以下:iiiXDDXYE1021)0,0,|(高中:iiiXDDXYE12021)()0,1,|(大学及其以上:iiiXDDXYE13021)()1,0,|(假定32,其几何意义:大学教育 保健 高中教育 支出 低于中学教育 收入 还可将多个虚拟变量引入模型中以考察多种还可将多个虚拟变量引入模型中以考察多种“定定性性”因素的影响。因素的影响。如如在上述职工薪金的例中,再引入代表学历的虚拟变量D2:iiiDDXY231210012D本科及以上学历本科以下学历职工薪金的回归模型可设计为:女职工本科以下学历的平均薪金
6、:iiiXDDXYE13021)()1,0,|(女职工本科以上学历的平均薪金:iiiXDDXYE132021)()1,1,|(iiiXDDXYE1021)0,0,|(iiiXDDXYE12021)()0,1,|(于是,不同性别、不同学历职工的平均薪金分别为:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:2 2、乘法方式、乘法方式 加法方式引入虚拟变量,考察:截距的不同截距的不同,许多情况下:往往是斜率就有变化,或斜率、截或斜率、截距同时发生变化距同时发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来斜率的变化可通过以乘法的方式引入虚拟变量来测度测度。例例:根据消费理论,消费水平
7、C主要取决于收入水平Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。tttttXDXC210 这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察消费倾向的变化。假定E(i)=0,上述模型所表示的函数可化为:正常年份:ttttXDXCE)()1,|(210 反常年份:ttttXDXCE10)0,|(如,设01tD反常年份正常年份消费模型可建立如下:当截距与斜率发生变化时,则需要同时引入加当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量法与乘法形式的虚拟变量。
8、例例5.1.1,考察1990年前后的中国居民的总储蓄-收入关系是否已发生变化。表5.1.1中给出了中国19792019年以城乡储蓄存款余额代表的居民储蓄以及以GNP代表的居民收入的数据。表表 5.1.1 19792001 年中国居民储蓄与收入数据年中国居民储蓄与收入数据(亿元)(亿元)90年前储蓄GNP90年后储蓄GNP19792814038.21991910721662.51980399.54517.8199211545.426651.91981523.74860.3199314762.434560.51982675.45301.8199421518.846670.01983892.5595
9、7.4199529662.357494.919841214.77206.7199638520.866850.519851622.68989.1199746279.873142.719862237.610201.4199853407.576967.219873073.311954.5199959621.880579.419883801.514922.3200064332.488228.119895146.916917.8200173762.494346.419907034.218598.4 以Y为储蓄,X为收入,可令:1990年前:Yi=1+2Xi+1i i=1,2,n1 1990年后:Yi=1
10、+2Xi+2i i=1,2,n2 则有可能出现下述四种情况中的一种:(1)1=1,且2=2,即两个回归相同,称为重合回重合回归归(Coincident Regressions);(2)11,但2=2,即两个回归的差异仅在其截距,称为平行回归平行回归(Parallel Regressions);(3)1=1,但22,即两个回归的差异仅在其斜率,称为汇合回归汇合回归(Concurrent Regressions);(4)11,且22,即两个回归完全不同,称为相相异回归异回归(Dissimilar Regressions)。可以运用邹氏结构变化的检验邹氏结构变化的检验。这一问题也可通过引入乘法形式的
11、虚拟变量来解决。将n1与n2次观察值合并,并用以估计以下回归:iiiiiiXDDXY)(4310Di为引入的虚拟变量:01iD于是有:iiiiXXDYE10),0|(iiiiXXDYE)()(),1|(4130可分别表示1990年后期与前期的储蓄函数。年后年前9090 在统计检验中,如果4=0的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。具体的回归结果为:具体的回归结果为:(-6.11)(22.89)(4.33)(-2.55)由3与4的t检验可知:参数显著地不等于0,强烈示出两个时期的回归是相异的,储蓄函数分别为:储蓄函数分别为:1990年前:1990年后:iiiiiXDDXY4765.0
12、3.138028881.0154522R=0.9836iiXY4116.07.1649iiXY8881.015452 3 3、临界指标的虚拟变量的引入、临界指标的虚拟变量的引入 在经济发生转折时期,可通过建立临界指标的虚拟变量模型来反映。例如,例如,进口消费品数量Y主要取决于国民收入X的多少,中国在改革开放前后,Y对X的回归关系明显不同。这时,可以t*=1979年为转折期,以1979年的国民收入Xt*为临界值,设如下虚拟变量:01tD*tttt则进口消费品的回归模型可建立如下:则进口消费品的回归模型可建立如下:ttttttDXXXY)(*210 OLS法得到该模型的回归方程为法得到该模型的回归
13、方程为则两时期进口消费品函数分别为:tttttDXXXY)(*210当tt*=1979年,ttXY10当tt*=1979年,titXXY)()(21*20三、虚拟变量的设置原则三、虚拟变量的设置原则 虚拟变量的个数须按以下原则确定:虚拟变量的个数须按以下原则确定:每一定性变量所需的虚拟变量个数要比该定性变每一定性变量所需的虚拟变量个数要比该定性变量的类别数少量的类别数少1,即如果定性变量有,即如果定性变量有m个类别,只在个类别,只在模型中引入模型中引入m-1个虚拟变量。个虚拟变量。例例。已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引
14、入三个虚拟变量即可:011tD其他春季012tD其他夏季013tD其他秋季则冷饮销售量的模型为:在上述模型中,若再引入第四个虚拟变量ttttktkttDDDXXY332211110014tD其他冬季则冷饮销售模型变量为:tttttktkttDDDDXXY44332211110其矩阵形式为:D)(X,Y 如果只取六个观测值,其中春季与夏季取了如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:两次,秋、冬各取到一次观测值,则式中的:显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。这就是所谓的这就是所谓的“虚拟变量陷井虚拟变量陷
15、井”,应避免。000110010110001010010010100011)(616515414313212111kkkkkkXXXXXXXXXXXXDX,k1043215.2 5.2 滞后变量模型滞后变量模型 一、滞后变量模型一、滞后变量模型 二、分布滞后模型的参数估计二、分布滞后模型的参数估计 三、自回归模型的参数估计三、自回归模型的参数估计四、格兰杰因果关系检验四、格兰杰因果关系检验 在经济运行过程中,广泛存在时间滞后效应。某些经济变量不仅受到同期各种因素的影响,而且也受到过去某些时期的各种因素甚至自身的过去值的影响。通常把这种过去时期的,具有滞后作用的变量通常把这种过去时期的,具有滞后
16、作用的变量叫做叫做滞后变量滞后变量(Lagged Variable),含有滞后变量的模型称为滞后变量模型滞后变量模型。滞后变量模型考虑了时间因素的作用,使静态分析的问题有可能成为动态分析。含有滞后解释变含有滞后解释变量的模型,又称量的模型,又称动态模型动态模型(Dynamical Model)。一、滞后变量模型一、滞后变量模型1、滞后效应与与产生滞后效应的原因、滞后效应与与产生滞后效应的原因 因变量受到自身或另一解释变量的前几因变量受到自身或另一解释变量的前几期值影响的现象称为期值影响的现象称为滞后效应。滞后效应。表示前几期值的变量称为表示前几期值的变量称为滞后变量滞后变量。如:如:消费函数消
17、费函数 通常认为,本期的消费除了受本期的收入影响之外,还受前1期,或前2期收入的影响:Ct=0+1Yt+2Yt-1+3Yt-2+tYt-1,Yt-2为滞后变量滞后变量。产生滞后效应的原因产生滞后效应的原因 1、心理因素、心理因素:人们的心理定势,行为方式滞后于经济形势的变化,如中彩票的人不可能很快改变其生活方式。2、技术原因、技术原因:如当年的产出在某种程度上依赖于过去若干期内投资形成的固定资产。3、制度原因、制度原因:如定期存款到期才能提取,造成了它对社会购买力的影响具有滞后性。2、滞后变量模型、滞后变量模型 以滞后变量作为解释变量,就得到滞后变量模滞后变量模型型。它的一般形式为:q,s:滞
18、后时间间隔 自回归分布滞后模型自回归分布滞后模型(autoregressive distributed lag model,ADL):既含有Y对自身滞后变量的回归,还包括着X分布在不同时期的滞后变量 有限自回归分布滞后模型:有限自回归分布滞后模型:滞后期长度有限 无限自回归分布滞后模型:无限自回归分布滞后模型:滞后期无限,tststtqtqtttXXXYYYY11022110 (1)分布滞后模型)分布滞后模型(distributed-lag model)分布滞后模型:分布滞后模型:模型中没有滞后被解释变量,仅有解释变量X的当期值及其若干期的滞后值:titisitXY0 0:短期短期(short
19、-run)或即期乘数即期乘数(impact multiplier),表示本期X变化一单位对Y平均值的影响程度。i(i=1,2,s):动态乘数动态乘数或延迟系数延迟系数,表示各滞后期X的变动对Y平均值影响的大小。如果各期的X值保持不变,则X与Y间的长期或均衡关系即为sii0称为长期长期(long-run)或均衡乘数均衡乘数(total distributed-lag multiplier),表示X变动一个单位,由于滞后效应而形成的对Y平均值总影响的大小。XYEsii)()(0 2 2、自回归模型、自回归模型(autoregressive model)而 ttttYXY1210称为一阶自回归模型(
20、一阶自回归模型(first-order autoregressive model)。自回归模型自回归模型:模型中的解释变量仅包含X的当期值与被解释变量Y的一个或多个滞后值tqiitittYXY110二、分布滞后模型的参数估计二、分布滞后模型的参数估计 无限期的分布滞后模型无限期的分布滞后模型,由于样本观测值的有,由于样本观测值的有限性,使得无法直接对其进行估计。限性,使得无法直接对其进行估计。有限期的分布滞后模型有限期的分布滞后模型,OLSOLS会遇到如下问题:会遇到如下问题:1、没有先验准则确定滞后期长度;2、如果滞后期较长,将缺乏足够的自由度进行估计和检验;3、同名变量滞后值之间可能存在高
21、度线性相关,即模型存在高度的多重共线性。1、分布滞后模型估计的困难、分布滞后模型估计的困难 2 2、分布滞后模型的修正估计方法、分布滞后模型的修正估计方法 人们提出了一系列的修正估计方法,但并不很完善。各种方法的各种方法的基本思想大致相同基本思想大致相同:都是通过对各通过对各滞后变量加权,组成线性合成变量而有目的地减滞后变量加权,组成线性合成变量而有目的地减少滞后变量的数目,以缓解多重共线性,保证自少滞后变量的数目,以缓解多重共线性,保证自由度。由度。(1)经验加权法经验加权法 根据实际问题的特点、实际经验给各滞后变量指定权数,滞后变量按权数线性组合,构成新的变量。权数据的类型有:递减型递减型
22、:即认为权数是递减的权数是递减的,X的近期值对Y的影响较远期值大。如消费函数中,收入的近期值对消费的影响作用显然大于远期值的影响。例如:滞后期为滞后期为 3的一组权数可取值如下:1/2,1/4,1/6,1/8则新的线性组合变量为:321181614121tttttXXXXW 即认为权数是相等的权数是相等的,X的逐期滞后值对值Y的影响相同。如滞后期为3,指定相等权数为1/41/4,则新的线性组合变量为:矩型矩型:321241414141tttttXXXXW 权数先递增后递减权数先递增后递减呈倒“V”型。例如:例如:在一个较长建设周期的投资中,历年投资X为产出Y的影响,往往在周期期中投资对本期产出
23、贡献最大。如滞后期为4,权数可取为 1/6,1/4,1/2,1/3,1/5则新变量为 倒倒V V型型432135131214161ttttttXXXXXW例例5.2.1 5.2.1 对一个分布滞后模型:ttttttXXXXY33221100给定递减权数:1/2,1/4,1/6,1/8 令 321181614121tttttXXXXW原模型变为:tttWY110该模型可用OLS法估计。假如参数估计结果为=0.501=0.8则原模型的估计结果为:3213211.0133.02.04.05.088.068.048.028.05.0tttttttttXXXXXXXXY 经验权数法经验权数法的优点优点是
24、:简单易行 缺点缺点是:设置权数的随意性较大 通常的做法通常的做法是:多选几组权数,分别估计出几个模型,然后根据常用的统计检验(方检验,检验,t检验,-检验),从中选择最佳估计式。(2)阿尔蒙()阿尔蒙(lmon)多项式法)多项式法 主要思想:主要思想:针对有限滞后期模型,通过阿尔蒙针对有限滞后期模型,通过阿尔蒙变换,定义新变量,以减少解释变量个数,然后变换,定义新变量,以减少解释变量个数,然后用用OLSOLS法估计参数。法估计参数。主要步骤为:主要步骤为:第一步,阿尔蒙变换第一步,阿尔蒙变换 对于分布滞后模型 titisitXY0 假定其回归系数i可用一个关于滞后期i的适当阶数的多项式来表示
25、,即:mkkkii1)1(i=0,1,s 其中,ms-1。阿尔蒙变换要求先验地确定适当阶数k,例如取k=2,得 22121)1()1()1(iiikkki(*)将(*)代入分布滞后模型 titkkksitXiY210)1(tsitsiitXiXi022201)1()1(titisitXY0得定义新变量 siittXiW01)1(siittXiW022)1(将原模型转换为:ttttWWY2211第二步,模型的第二步,模型的OLS估计估计 对变换后的模型进行OLS估计,得再计算出:21,s,21求出滞后分布模型参数的估计值:22121)1()1()1(iiikkki 由于m+1s,可以认为原模型存
26、在的自由度不足和多重共线性问题已得到改善。需注意的是需注意的是,在实际估计中,阿尔蒙多项式的阶数m一般取2或3,不超过4,否则达不到减少变量个数的目的。例例5.2.2 表5.2.1给出了中国电力基本建设投资电力基本建设投资X与发电量发电量Y的相关资料,拟建立一多项式分布滞后模型来考察两者的关系。表表5.2.1 中国电力工业基本建设投资与发电量中国电力工业基本建设投资与发电量 年度 基本建设投资X(亿元)发电量(亿千瓦时)年度 基本建设投资X(亿元)发电量(亿千瓦时)1975 30.65 1958 1986 161.6 4495 1976 39.98 2031 1987 210.88 4973
27、1977 34.72 2234 1988 249.73 5452 1978 50.91 2566 1989 267.85 5848 1979 50.99 2820 1990 334.55 6212 1980 48.14 3006 1991 377.75 6775 1981 40.14 3093 1992 489.69 7539 1982 46.23 3277 1993 675.13 8395 1983 57.46 3514 1994 1033.42 9218 1984 76.99 3770 1995 1124.15 10070 1985 107.86 4107 由于无法预见知电力行业基本建设投
28、资对发电量影响的时滞期,需取不同的滞后期试算。ttttWWWY210271.0101.0061.35.3319 (13.62)(1.86)(0.15)(-0.67)求得的分布滞后模型参数估计值为 0=0.323,1=1.777,2=2.690,3=3.061,4=2.891,5=2.180,6=0.927 经过试算发现,在2阶阿尔蒙多项式变换下,滞后期数取到第6期,估计结果的经济意义比较合理。2阶阿尔蒙多项式估计结果如下:为了比较,下面给出直接对滞后6期的模型进行OLS估计的结果:最后得到分布滞后模型估计式为:321061.3690.2777.1323.05.3319tttttXXXXY (1
29、3.62)(0.19)(2.14)(1.88)(1.86)654927.0180.2891.2tttXXX (1.96)(1.10)(0.24)32171.414.1543.11424.89.3361tttttXXXXY (12.43)(1.80)(-1.89)(1.21)(0.36)65442.2594.2670.14tttXXX (-0.93)(1.09)(-1.12)2R=0.9770 F=42.54 DW=1.03 (3)科伊克()科伊克(Koyck)方法)方法 科伊克方法是将无限分布滞后模型转换为自回科伊克方法是将无限分布滞后模型转换为自回归模型,然后进行估计归模型,然后进行估计。对
30、于无限分布滞后模型:tiititXY0科伊克变换假设科伊克变换假设i随滞后期i按几何级数衰减:ii0 其中,0F(m,n-k),则拒绝原假设,认为X X是是Y Y的格兰杰原因的格兰杰原因。注意:注意:格兰杰因果关系检验格兰杰因果关系检验对于滞后期长度的选择有时很敏感。不同的滞后期可能会得到完全不同的检验结果。因此,一般而言一般而言,常进行不同滞后期长度的检验,以检验模型中随机误差项不存在序列相关的滞后期长度来选取滞后期。例例5.2.4 检验19782000年间中国当年价GDP与居民消费CONS的因果关系。表表 5.2.3 中国中国 GDP 与消费支出(亿元)与消费支出(亿元)年份 人均居民消费
31、 CONSP 人均GDP GDPP 年份 人均居民消费 CONSP 人均GDP GDPP 1978 1759.1 3605.6 1990 9113.2 18319.5 1979 2005.4 4074.0 1991 10315.9 21280.4 1980 2317.1 4551.3 1992 12459.8 25863.7 1981 2604.1 4901.4 1993 15682.4 34500.7 1982 2867.9 5489.2 1994 20809.8 46690.7 1983 3182.5 6076.3 1995 26944.5 58510.5 1984 3674.5 7164
32、.4 1996 32152.3 68330.4 1985 4589 8792.1 1997 34854.6 74894.2 1986 5175 10132.8 1998 36921.1 79003.3 1987 5961.2 11784.7 1999 39334.4 82673.1 1988 7633.1 14704.0 2000 42911.9 89112.5 1989 8523.5 16466.0 取两阶滞后,Eviews给出的估计结果为:Pairwise Granger Causality Tests Sample:1978 2000 Lags:2 Null Hypothesis:Obs
33、 F-Statistic Probability GDP does not Granger Cause CONS 21 4.29749 0.03208 CONS does not Granger Cause GDP 1.82325 0.19350 判断:=5%,临界值F0.05(2,17)=3.59拒绝“GDP不是CONS的格兰杰原因”的假设,不拒绝“CONS不是GDP的格兰杰原因”的假设。因此,从2阶滞后的情况看,GDP的增长是居民消费增长的原因,而不是相反。但在2阶滞后时,检验的模型存在1阶自相关性。表表 5.2.4 格兰杰因果关系检验格兰杰因果关系检验 滞后长度 格兰杰因果性 F 值 P
34、 值 LM 值 AIC 值 结论 2 GDPCONS 4.297 0.032 0.009 16.08 拒绝 CONSGDP 1.823 0.194 0.008 17.86 不拒绝 3 GDPCONS 10.219 0.001 0.010 15.14 拒绝 CONSGDP 4.096 0.691 0.191 17.14 不拒绝 4 GDPCONS 19.643 10E-04 0.110 14.70 拒绝 CONSGDP 5.247 0.015 0.027 16.42 拒绝 5 GDPCONS 10.321 0.004 0.464 14.72 拒绝 CONSGDP 5.085 0.028 0.874 16.30 拒绝 6 GDPCONS 4.705 0.078 0.022 14.99 不拒绝 CONSGDP 7.773 0.034 1.000 16.05 拒绝 随着滞后阶数的增加,拒绝“GDP是居民消费CONS的原因”的概率变大,而拒绝“居民消费CONS是GDP的原因”的概率变小。如果同时考虑检验模型的序列相关性以及赤池信息准则,发现:滞后滞后4阶或阶或5阶的检验模型不具有阶的检验模型不具有1阶自相关性,而且也拥有较小的阶自相关性,而且也拥有较小的AIC值值,这时判判断结果断结果是:GDP与与CONS有双向的格兰杰因果关系,有双向的格兰杰因果关系,即相互影响即相互影响。分析:分析: