1、1 第九章第九章虚 拟 变 量115.1虚拟变量的性质虚拟变量的性质:变量假定为变量假定为“1”和和“0”变量通常表明二分化:变量通常表明二分化:“存在存在”或或“不存在不存在”,“是是”或或“不是不是”,等等.变量表明了变量表明了“性质性质”或或“属性属性”,例如例如“男性男性”或或“女性女性”,“黒黒”或或“白白”,“城市城市”或非城市或非城市”“以前以前”或或“以后以后”“北北”或或“南南”,“东东”或或“西西”.obs男男Dummy女女Dummy薪水薪水(K)教龄教龄11023120119.5131024240121251025360122371026.5480123.14901255
2、1010285111029.561201266130127.57141031.571501296161022517011921810182190121.75200118.522110214221020.542301171240117.51251021.25分离出的男性样本男性样本:obsStarting salary,YYears of teaching,X2123132425253726.54102851129.561431.57162251821.75212142220.542521.25obsStaring salary,YYears of teaching,X2219.51421262
3、23823.149255122661327.571529617192191822018.52231712417.51女性样本:分离出的女性样本101520253035012345678男回归线(男)薪水YX 教龄Y=1+2 X (男)回归线(女)女Y=1+2X(女)两个独立的模型:Ym=1+2 Xm+umYf=1+2 Xf+uf(男)(女)假定*2=2,斜率相同但截距不同.第一个模型:Yi=1+*1 Di+2 Xi+uiYi=1+*1 Di+2 Xi+*2 DiXi+uiYi=年收入Xi=教龄Di=1 如果是男性 =0 否则(女性)控制变量假定*2 2,斜率与截距都不同.第二个模型:薪水YX
4、教龄Y=1+2X(女)Y=1+2 X (男)012345678男男女女回归线(男)回归线(女)152025303510Y=”1+”2 X (全部)两个独立的模型:Ym=1+2 Xm+umYf=1+2 Xf+uf(男)(女)D1+D2=1D1=1-D2m a lefem a lea n n u a lS a la ryy ea rs o ftea ch in go b sD 2D 1YX1012 312101 9.513012 424102 125012 536102 237012 6.548102 3.149102 551 0012 851 1012 9.561 2102 661 3102 7
5、.571 4013 1.571 5102 961 6012 251 7101 921 8011 821 9102 1.752 0101 8.522 1012 142 2012 0.542 3101 712 4101 7.512 5012 1.25每个虚拟每个虚拟变量可区变量可区分两个类分两个类别别,但把两但把两个虚拟变个虚拟变量求和后量求和后 就无法区就无法区分男性或分男性或女性女性谨慎使用虚拟变量谨慎使用虚拟变量 (虚拟变量陷阱虚拟变量陷阱)假如在一个模型中引入两个虚拟变量,例如Yi=1+*1 D1i+*1 D2i+2 Xi+ui这里D1i=1 假如是女性 =0 否则这里D2i=1 假如是男
6、性 =0 否则因为D1 和D2 之间的完全共线性,这个模之间的完全共线性,这个模型不可估计型不可估计D1=1-D2or D2=1-D1或 D1+D2=1 (完全共线性)在一个模型中使用两个虚拟变量来区分一个二分变量就会落入“完全多重共线性的陷阱完全多重共线性的陷阱”一般规则:为了避免完全的多重共线性如果变量有“m m”个类别,则引入“m-1m-1”个虚拟变量.1D1 D2 D3 D4 D5 Dm-1年龄110203040m类别类别虚拟变量虚拟变量=定性变量定性变量度量两组估计结果:男:=Yi=(1+*1 D2i)+2Xi D2i=1 女:=Yi=1+2Xi D2i=0 对两组考虑不同的截距:M
7、odel:Yi=1+*1 D2i+2Xi+ui D2i=1 假如是男性 =0否则,(女性)当一个类别被赋予零值,这个类别被称为标准类(基底类)为了检验两组有什么不同为了检验两组有什么不同比较:Yi=1+2Xi Yi=(1+*1 D)+2 Xi如果 t统计量是显著的 则说明截距是不同的.=相同的 意味着两类的X和Y有相同的关系检查检查 t t统计量统计量2H0 :*1=0H1:*1 0 或H1:*1 0T检验是恰当的检验比较临界的 tc(/2,n-k)值 和估计的 t*值如果t*tc =拒绝H0:*1=0Y=1+*1Di+2 Xi +*2DiXi 检验 T统计量=这个部分这个部分用来检验用来检验
8、截距的不同截距的不同这个部分用来检验这个部分用来检验斜率的不同斜率的不同检验T统计量=例子(男性和女性)例子(男性和女性):女性女性男性男性两个回归结果的斜率与截距都不同两个回归结果的斜率与截距都不同.但是它们在统计上真的但是它们在统计上真的不同吗不同吗?除非检验除非检验F F*值,否则我们不可能从这两个回归中得值,否则我们不可能从这两个回归中得到回答到回答设置两个虚拟变量的例子设置两个虚拟变量的例子:表表15.1+15.5Yi=(1+”1D1)+2 Xi =(19.937-1.2810)+1.561XD1:女性女性=1其他其他=0D2:男性男性=1其他其他=0=(16.656+1.2810)
9、+1.561XYi=(1+*1 D2)+2 Xi Yi=1+2Xi =17.095+1.608Xi 全部样本全部样本D1:女女=1男:Y=1+2Xi =18.689+1.373 Xm女:Y=(1+1D1)+(2+2D1)Xi =16.255+1.677 Xf如果如果D2:男男=1女:Y=1+2 Xi =16.255+1.677 X男:Y=(1+1 D2)+(2+2D2)X=18.689+1.373 X1Y=15.2对一个定量变量和一个多分定性变量的回归(Health care)=1+1 D2+1 D3+2Income+u(Y)(X)D2=1 如果是高中 =0 其他D3=1 如果是大学 =0 其
10、他健康状况收入低于高中教育Y=1+2 X1高中教育Y=(1+1 D2)+2X D2=11D3=1大学教育Y=(1+1”D3)+2 X1D2=1 高中 =0 其它D3=1 大学 =0 其它=obsYXD2D3=16.000000 40.000000.0000001.00000023.900000 31.000001.0000000.00000031.800000 18.000000.0000000.00000041.900000 19.000000.0000000.00000057.200000 47.000000.0000001.00000063.300000 27.000001.000000
11、0.00000073.100000 26.000001.0000000.00000081.700000 17.000000.0000000.00000096.400000 43.000000.0000001.000000107.900000 49.000000.0000001.000000111.500000 15.000000.0000000.000000123.100000 25.000001.0000000.000000133.600000 29.000001.0000000.000000142.000000 20.000000.0000000.000000156.200000 41.0
12、00000.0000001.000000=低于高中:Yi=-1.2859+0.1722 XiYi=(-1.2859-0.068 )+0.1722 Xi=-1.3539+0.1722 X高中:如果如果 D D2 2 的的 t t值是统计值是统计上显著的上显著的Yi=(-1.2859+0.447 )+0.1722 Xi=-0.8389+0.1722 Xi大学:如果如果 D2 D2 的的 t t值是值是统计上显著的统计上显著的=-1.2859+0.1722 X=-1.2859+0.1722 X假如假如 t t检验是统计上检验是统计上不显著的不显著的不同组的估计结果不同组的估计结果:15.3对一个定量
13、变量和两个以上的虚拟或定性变量的回归(续)对一个定量变量和两个以上的虚拟或定性变量的回归(续)(Y)Salary=1+1D1+”1 D2+2X+uor Y=1+1D1+”1D2+2X+2D1*X+”2D2*X+uD1=1 如果是男的 =0 其它性别D2=1 如果是白人 =0 其它种族(1)非白人女教师薪水的均值:Y=1+2X 此时 D1=0,D2=0(2)非白人男教师薪水的均值:Y=(1+1 D1)+(2+2D1)X 此时 D1=1,D2=0(3)白人女教师薪水的均值:Y=(1+1 D2)+2 X+”2D2X 此时 D1=0,D2=1(4)白人男教师薪水的均值:Y=(1+1 D1+”1D2)+
14、(2+2D1+”2D2)X 此时 D1=1,D2=1D=1 如果1970-1981 =0 其它 (1982-1995)1.重合回归:Y=1+2 X+1D+2D*XH0:1=0 and 2=02.平行回归:Y=1+2 X+1 D+2D*XH0:1=04.相异回归:Y=1+2 X+1D+2D*XH0:1 0 and 2 03.汇合回归:Y=1+2 X+1 D+2D*XH0:2=0 15.4(利用虚拟变量利用虚拟变量)检验模型的结构稳定性检验模型的结构稳定性(1970-1981):Yt=A1+A2 Xt+u1t(1982-1995:Yt=B1+B2 Xt+u2t YXA1=B11A2=B2重合回归Y
15、XA1 1A2 平行回归A1 B1,A2=B2B21B1YXA0=B01B1汇合回归A11A0=B0,A1 B1YXA0 1A1 相异回归A0 B0,A1 B1B01B1汇合回归模型例:我们怎样才能检验一辆新车与一辆旧车在汽油消耗上不同这一假设呢?让我们假定在开始时新车和旧车没有区别.汽油消耗量汽油消耗量里程数Y X0新车 Y=1+2 X旧车 Y=1+2XY=1+(2+2)X估计的关系为估计的关系为 :旧车:Yi=1+(2+2D)Xi 这里 D=1 新车:Yi=1+2 Xi=Yi=1+2 Xi=或如果2 0,意味着车的斜率是不同的.让 2=2+2 D 这里D=1如果时旧车 =0 其它现在在模型
16、中:Yi=1+(2+2 D)Xi+ui =1+2 Xi+2 D*Xi+ui =1+2 Xi+2 Zi+ui 对 2使用t检验比较tc(,N-3)和t*H0:2=0H1:2 0如果t*tc(,N-3)=拒绝H0或(2 0)检验是否 2=0,12i2Y=+X +Z检查t值Y=1 +2 Xi +2 ZiobsYiXiDi(Di Xi)=Zi121010000225011011103340150115043051201120(2)基于虚拟变量的结构稳定性检验估计的模型是:1974年第一季以后Y=1+2 X 现在基本模型为Yt=1+1 D+2 Xt+2 D Xt+utYt=1+1 D+2 Xt+2 X*
17、t+ut=检查t*2.0 1974:1195019951974年第一季以前Y=(1+1D)+(2+2D)X*H0:没有结果性变化H1:有对于不受约束的模型:RSSu=RSS1+RSS2=4.69+3.29 =7.98F*=(RSSR-RSSu)/kRSSu/(T-2k)=(17.15-7.98)/27.98/(30-4)=14.9F*Fc =拒绝拒绝 H0Fc 0.01,k,T-2k=Fc 0.01 =5.530.050.05,2,26=3.37F F检验的程序检验的程序:对失业率劳动力使用率的邹检验Dependent Var.ConstantCAPtR2FRSSn_样本期:60-89unem
18、plt30.0-0.2930.761 93.6 17.1530(12.1)(9.7)RSSR样本期:60-73unemplt19.64-0.1750.5919.7 4.6914(5.9)(4.4)RSS1样本期:74-89unemplt30.63-0.2960.871 102.1 3.2916(13.1)(10.1)RSS2注:括号里是t值失业率-劳动力使用率样本期:1960-1989Dt=11974 到1980 =01974年以前unempl=19.6+11.0 Dt-0.175 CAPt-0.121(Dt*CAPt)(6.7)(2.7)(5.0)(2.5)R2=0.88 SEE=0.554
19、 F=72.2 n=30_1974-19801974-1980的样本期估计为的样本期估计为:unempl=(19.6+11.0)-(0.175+0.121)CAP =30.6-0.296 CAP1960-19731960-1973的样本期估计为的样本期估计为:unempl=19.6-0.175 CAP使用虚拟变量来识别结构性变化使用虚拟变量来识别结构性变化D=1 如果 t 74 =0 否则观察到的数据YearUtCAPt Dt Dt*CAPt604.205.70 0 061 0 062 0 063 0 0 .68 0 069 0 070 0 071 0 072 0 073 0 074 175
20、176 177 1 .1 .1 .189 110.511.210.511.2Ut=1+2 CAPt +1Dt+2 Dt*CAPtGENR DUMMY=1 (样本期1970-1980)GENR DUMMY=0 (样本期1981-1991)=obsSAVINGSINCOMEDUMMY D*INCOME=197057.50000831.00001.000000831.0000197165.40000893.50001.000000893.5000197259.70000980.50001.000000980.5000197386.100001098.7001.0000001098.700197493
21、.400001205.7001.0000001205.7001975100.30001307.3001.0000001307.300197693.000001446.3001.0000001446.300197787.900001601.3001.000000 1601.3001978107.80001807.9001.0000001807.9001979123.30002033.1001.0000002033.1001980153.80002265.4001.0000002265.4001981191.80002534.7000.0000000.0000001982199.50002690.
22、9000.0000000.0000001983168.70002862.5000.0000000.0000001984222.00003154.6000.0000000.0000001985189.30003379.8000.0000000.0000001986187.50003590.4000.0000000.0000001987142.00003802.0000.0000000.0000001988155.70004075.9000.0000000.0000001989175.60004664.2000.0000000.0000001990175.60004664.2000.0000000
23、.0000001991199.60004828.3000.0000000.000000=Savings=1+2 Income+1D+2D*Income+uD=1 1970-1980 =0 1981-1991对1970 1980进行估计时:D=1Savings=(1+1)+(2+2)Income 1对1981-1991进行估计时:D=0Savings=1+2 Income2虚拟回归结果:1970-1991:Savings=217.81-203.19 D-0.010 Income+0.066 D*Income(7.96)(-6.19)(-1.39)(4.63)70-80:Savings=(217.
24、81-203.19)+(-0.010+0.066)Income=14.62 +0.056 Income81-91:Savings=217.81-0.010 Income1970-1991:Savings=57.63+0.031 Income(3.86)(5.95)1970-1980:Savings=14.61+0.056 Income(1.40)(7.93)1981-1991:Savings=217.81+0.010 Income(6.16)(-1.08)Savings=-1.250+0.091 Dummy+0.125 Income(-3.42)(0.506)(7.04)LS/应变量时SAVI
25、NGSDate:03/02/99 Time:22:23样本期:1946 1963观测数:18=Variable Coefficient Std.Error t-Statistic.Prob.=C-1.2509570.364879-3.4284190.0037 DUMMY 0.0918570.181244 0.5068160.6197 INCOME -0.125655 0.017837-7.044517 0.0000=R-squared 0.919909 Mean dependent var 0.773333Adjusted R-squared 0.909230 S.D.dependent va
26、r 0.642806S.E.of likelihood 0.193665 Akaike info criterion -3.132238Sum squared resid 0.562593 Schwarz criterion -2.983843 Log likelihood 5.649250 F-statistic 86.14326Durbin-Watson stat 0.976197 Prob(F-statistic)0.000000=仅考虑截距的不同仅考虑截距的不同LS/应变量是SAVINGSDate:03/02/99 Time:22:23样本期:1946 1963观测数:18=Varia
27、ble Coefficient Std.Error t-Statistic.Prob.=C-1.7501720.331888-5.2733770.0001 DUMMY 1.483923 0.470362 3.1548520.0070 INCOME 0.150450 0.016286 9.238172 0.0000 DINCOME -0.103422 0.033260-3.1094710.0077=R-squared 0.952626 Mean dependent var 0.773333Adjusted R-squared 0.942475 S.D.dependent var 0.642806
28、S.E.of likelihood 0.154173 Akaike info criterion -3.546228Sum squared resid 0.332771 Schwarz criterion -3.348367 Log likelihood 10.37516 F-statistic 93.84109Durbin-Watson stat 1.468099 Prob(F-statistic)0.000000=是否截距和斜率有变化是否截距和斜率有变化?1946-1954:=-0.2662+0.047 Income D1=11955-1963:=-1.750+0.150 Income D
29、1=0Savings=-1.750+1.483 D+0.150 Income-0.103(Income*D)(-5.273)(3.154)(9.238)(-3.109)15.5 两个定性变量的交互作用效应两个定性变量的交互作用效应花费(Y)=1+1 D1+”1 D2+2 收入(X)+uD1=1 如果是女性 =0其它性别D2=1如果大学毕业 =0 否则教育花费(Y)=1+1D1+”1D2+”1D1*D2+2 收入(X)+u交互作用效应交互作用效应:1=作为一名女性的级差效应”1=作为一名大学毕业生的级差效应”1=作为一名女大学毕业生的级差效应 15.6.虚拟变量在季节分析中的作用虚拟变量在季节分
30、析中的作用 例:估计季节效应:E=1+2 T+uE:用电量T:温度为了获得季节因子E=1+1D1+”1D2+1 D3+2T+u这里D1=1 如果是冬季 0 否则D2=1如果是春季 0否则D3=1如果是夏季 0否则春天夏天秋天冬天Q1Q2Q3Q41E=(1+”1)+2T(夏)1TEE=1+2T (秋)E=(1+”1)+2 T(春)1E=(1+1)+2 T(冬)1四个季节得到不同的结果:秋 E=1+2 T 春 E=(1+”1)+2 T 冬 E=(1+1)+2 T 夏 E=(1+”1)+2 T 估计季节效应:(.)考虑不同季节的斜率*2=2+2D1+2 D2+2 D3因此,完整的一般表达式是:E=1
31、+1D1+”1D2+”1D3+2T+2 D1 T+”2D2 T +”2D3 T+uZ1Z2Z3比较四季的结果:秋 E=1+2 T 春 E=(1+”1)+(2+”1)T 冬 E=(1+1)+(2+2)T 夏 E=(1+”1)+(2+”2)T 1TEE=1+2T (秋)E=(1+1)+(2+2)T(冬)1E=(1+”1)+(2+”2)T(春)11E=(1+”1)+(2+”2)T(夏)D1=1第一季 =0 否则D2=1第二季 =0 否则D3=1第三季 =0 否则季节效应第四季作为基底第四季作为基底1.设定季节虚拟变量设定季节虚拟变量dummy=1如果是第一季如果是第一季 =0 否则否则ETD1D2D
32、3D41970:11000:20100:30010:400011971:11000:20100:30010:400011972:11000:20100:30010:400011973:11000:20100:30010:40001季节季节虚拟虚拟变量变量的情的情形又形又如何呢?如何呢?15.7半对数回归中虚拟变量的解释半对数回归中虚拟变量的解释ln Y=1+2 X+1 D(薪水)(教龄)D1=1 男性 =0 否则ln Y=2.9298+0.0546 X2+0.1341 D t=(481.5)(48.3)(27.2)R2=0.995 DW=2.51计算0.1341 的反对数=1.1435这意味着男教师的薪水比女教师告14.35男教师薪水的估计:ln Y=(2.9298+0.1341)+0.0546 Xln Y=3.0639+0.0546 X