1、第六章第六章 虚拟变量回归虚拟变量回归 一、虚拟变量的性质 二、虚拟变量的引入 三、虚拟变量的设置原则 1 一、虚拟变量(一、虚拟变量(dummy variables)的性质的性质 2 可以定量度量可以定量度量的经济变量【如:如:商品需求量、价格、 收入、产量等】 无法定量度量的无法定量度量的影响经济变量的因素【如:如:职业、 性别对收入的影响,战争、自然灾害对GDP的影响, 季节对某些产品(如冷饮)销售的影响等】 为了在模型中能够反映这些因素的影响,需要将它们“量化”, 方法是:建立“人工变量” ,赋值“0、1” 只取“0”或“1”的人工变量, 通常称为虚拟变量虚拟变量,记为D 二、例题P1
2、40:食品支出;性别、税后收入 011 +.(64) iit YD D1= 1,男性 0,女性 01+it Y 0it Y D1= 0,男性 1,女性 01+it Y 0it Y 作回归,解读经济含义,进行检验。作回归,解读经济含义,进行检验。 系数的解释与基准类的确定有关。系数的解释与基准类的确定有关。问题问题1、关于基准类别的设置。、关于基准类别的设置。 问题问题2、关于虚拟变量个数的设定问题。、关于虚拟变量个数的设定问题。 虚拟变量陷阱虚拟变量陷阱。P136 0113 +.(68) iiit YDX 011231 +*+ .(6 23) iiiiit YDXDX 011 +.(64) i
3、it YD 解读每一个模型中每一个系数的意义。 变量的显著性检验的意义。 模型选择的讨论。 5 二、交互作用的虚拟变量。 011223 + .(6 18) iiiit YBBDB DB X 系数的含义: 1、基准类别是男性、白种人; 2、B1:在D2与X为常量时,女性与男性的差异; 3、 B2:在D1与X为常量时,非白种人与白种人的差异; 例题P141:工资;受教育年限、性别、种族 6 011223 + .(6 18) iiiit YBBDB DB X 问题:不同种族间的性别差异是否一样? 011223124 *+ (6 20) iiiiiit YBBDBDBDDB X 20113 (0) i
4、ii E Y DBB DB X 201123 (1) iii E Y DBB DBB X 20113 (0) iii E Y DBB DB X 2013124 (1)() iii E Y DBBB DBB X 交互作用的虚拟变量interaction dummy 差别斜率系数 三、例题P145:储蓄;收入、某年发生了严重事件 D1事件前为0、事件后为1 011231 +*+ .(6 27) iiiiit YDXDX 102 (0) ii E Y DX 20123 (1)()() ii E Y DX 一致回归、平行回归、并发回归、相异回归 8 四、虚拟变量在季节分析中的应用。 例题P148:冰箱
5、销售量;季节(第一季度为基准) 0112233 + .(6 29) iiiit YDDD 对比:调整前的折线图;调整后的折线图 季节调整(去季节因素): 1、回归后取残差;2、将残差加上Y的均值 9 10 例如例如,反映文程度的虚拟变量可取为,反映文程度的虚拟变量可取为: 1, 本科学历 D= 0, 非本科学历 11 例如例如,反映性别的虚拟变量可取为,反映性别的虚拟变量可取为: 1, 男性 D= 0, 女性 iiii DXY 210 其中:Yi为企业职工的薪金,Xi为工龄, Di=1,若是男性,Di=0,若是女性。 12 一个以性别为虚拟变量考察企业职工薪金的模型: 021 (),=1 ii
6、t YXD当时 01 = iit YX,当D 0时 02 :0H 的含义是男女的起点工资无差异。 虚拟变量系数的解释与基准类有关。 例如例如,反映三种人群:老年人、中青年,反映三种人群:老年人、中青年 人、儿童的虚拟变量可取为人、儿童的虚拟变量可取为: 1, 儿童 D1= 0, 非儿童 13 1, 中青年人 D2= 0, 非中青年人 例如例如,反映三种文化程度:大学及以上、,反映三种文化程度:大学及以上、 中小学、文盲的虚拟变量可取为中小学、文盲的虚拟变量可取为: 1, 文盲 D1= 0, 非文盲 14 1, 中小学 D2= 0, 非中小学 其中:Yi为企业职工的薪金,Xi为参加工作的时间。
7、15 一个以文化程度为虚拟变量考察社会成员收入水平 的模型: 01122333 + iiiiit YDDDX 二、虚拟变量的设置原则二、虚拟变量的设置原则 虚拟变量的个数须按以下原则确定:虚拟变量的个数须按以下原则确定: 每一定性变量所需的虚拟变量个数要比该每一定性变量所需的虚拟变量个数要比该 定性变量的类别数少定性变量的类别数少1,即如果有,即如果有m个定性变个定性变 量,只在模型中引入量,只在模型中引入m-1个虚拟变量。个虚拟变量。 16 二、虚拟变量的设置原则二、虚拟变量的设置原则 例例。若已知职工工资Y除受工龄的影响外,还 受性别的影响,按原则引入一个虚拟变量即可, 引入两个虚拟变量:
8、 0 1 1t D 0 1 2t D 17 男性 男性 女性 女性 iii DDXY 231210 12 1DD “虚拟变量陷井虚拟变量陷井”完全共线性 二、虚拟变量的设置原则二、虚拟变量的设置原则 例例。已知冷饮的销售量Y除受k种定量变量Xk 的影响外,还受春、夏、秋、冬四季变化的影 响,要考察该四季的影响,只需引入三个虚拟 变量即可: 0 1 1t D 其他 春季 0 1 2t D 其他 夏季 0 1 3t D 其他 秋季 18 则冷饮销售量的模型为: 在上述模型中,若再引入第四个虚拟变量 ttttktktt DDDXXY 332211110 0 1 4t D 其他 冬季 则冷饮销售模型变
9、量为: tttttktktt DDDDXXY 44332211110 其矩阵形式为: D)(X,Y 19 如果只取六个观测值,其中春季与夏季取了如果只取六个观测值,其中春季与夏季取了 两次,秋、冬各取到一次观测值,则式中的:两次,秋、冬各取到一次观测值,则式中的: 显然,(X,D)中的第1列可表示成后4列的线性组合, 从而(X,D)不满秩,参数无法唯一求出。 这就是所谓的这就是所谓的“虚拟变量陷井虚拟变量陷井”,应避免。 00011 00101 10001 01001 00101 00011 )( 616 515 414 313 212 111 k k k k k k XX XX XX XX
10、XX XX DX, k 1 0 4 3 2 1 20 21 三、虚拟变量的引入三、虚拟变量的引入 1、解释变量中含有虚拟变量、解释变量中含有虚拟变量 2、被解释变量是虚拟变量:线性概率模型、被解释变量是虚拟变量:线性概率模型 同时含有一般解释变量与虚拟变量的模型称为协方差同时含有一般解释变量与虚拟变量的模型称为协方差 分析分析(ANCOVA)模型模型。 仅含有虚拟变量的模型称为虚拟变量模型或者方差分仅含有虚拟变量的模型称为虚拟变量模型或者方差分 析析(ANOVA)模型模型。 0112233 + iiiit YDDD 01122333 + iiiiit YDDDX 加法方式加法方式 (1 1)
11、包含一个定量变量、一个两分定性变量的回归包含一个定量变量、一个两分定性变量的回归 22 iiii DXY 210 (2 2)包含一个定量变量、一个多分定性变量的回归)包含一个定量变量、一个多分定性变量的回归 iii DDXY 231210 (3 3)包含一个定量变量、多个定性变量的回归)包含一个定量变量、多个定性变量的回归 01122334 + iiiiii YDDDX YX:工资水平, :工龄 :=D 性别(男 1,女 0) :D1,D2 教育程度分3类 :3:DD1,D2 教育程度分3类;性别 (4 4)交互效应)交互效应P142P142 (一)解释变量中虚拟变量的引入(一)解释变量中虚拟
12、变量的引入 乘法方式乘法方式 012131 *+ iiiiit YXDDX 虚拟变量做为解释变量引入模型有两种基本方式: 加法方式加法方式和乘法方式乘法方式。 iiii XDXYE 10 )0,|( 企业男职工的平均薪金为:企业男职工的平均薪金为: iiii XDXYE 120 )() 1,|( 上述企业职工薪金模型中性别虚拟变量的引入采 取了加法方式。 1 1、加法方式、加法方式 23 iiii DXY 210 企业女职工的平均薪金为:企业女职工的平均薪金为: (一)解释变量中虚拟变量的引入(一)解释变量中虚拟变量的引入 几何意义:几何意义: 假定20,则两个函数有相同的斜率,但有不同 的截
13、距。意即,男女职工平均薪金对工龄的变化 率是一样的,但两者的平均薪金水平相差2。 可以通过传统的回归检验,对2的统计显著性进行 检验,以判断企业男女职工的平均薪金水平是否 有显著差异。 年薪 Y 男职工 女职工 工龄 X 0 2 24 例题6-1:男女食品支出和税后收入的关系。P134 (6-4)被解释变量:食品支出; 解释变量:性别 (6-9)被解释变量:食品支出; 解释变量:税后收入、性别 25 (6-23) 被解释变量:食品支出; 解释变量:税后收入、性别、税后收入*性别 26 1、分别写出(6-4)、(6-9)的估计方程。 2、进一步写出男性、女性的估计方程。 3、根据估计结果,解释偏
14、回归系数含义。 例题6-1 011 +.(64) iit YD D1= 1,男性 0,女性 01+it Y 0it Y D1= 0,男性 1,女性 01+it Y 0it Y 作回归,解读经济含义,进行检验。作回归,解读经济含义,进行检验。 系数的解释与基准类的确定有关系数的解释与基准类的确定有关 。 问题问题1、关于基准类别的、关于基准类别的 设置。设置。 问题问题2、关于虚拟变量个数的、关于虚拟变量个数的 设定问题。设定问题。 虚拟变量陷阱。虚拟变量陷阱。 0113 +.(68) iiit YDX 011231 +*+ .(6 23) iiiiit YDXDX 011 +.(64) iit
15、 YD 解读每一个模型中系数的意义。 Dependent Variable: Y Variable CoefficientStd. Errort-StatisticProb. C3176.833233.044613.631870.0000 SEX-503.1667329.5749-1.5267140.1578 R-squared0.189026 (6-4)被解释变量:食品支出;解释变量:性别 Dependent Variable: Y Variable CoefficientStd. Errort-StatisticProb. C2673.667233.044611.472770.0000 S
16、EX2503.1667329.57491.5267140.1578 R-squared0.189026 性别赋值:男性=1,女性=0; 性别赋值:男性=0,女性=1; 29 Dependent Variable: Y Variable CoefficientStd. Errort-StatisticProb. C1506.244188.00968.0115290.0000 INCOME0.0589820.0061179.6417450.0000 SEX-228.9868107.0582-2.1388990.0611 R-squared0.928418 (6-9)被解释变量:食品支出; 解释变量
17、:税后收入、性别 30 例例2:在横截面数据基础上,考虑个人保健支出对 个人收入和教育水平的回归。 教育水平考虑三个层次:高中以下, 高中, 大学及其以上 0 1 1 D 其他 高中 0 1 2 D 其他 大学及其以上 模型可设定如下: iii DDXY 231210 这时需要引入两个虚拟变量: 31 在E(i)=0 的初始假定下,高中以下、高中、大学 及其以上教育水平下个人保健支出的函数: 高中以下: iii XDDXYE 1021 )0, 0,|( 高中:iii XDDXYE 12021 )()0, 1,|( 大学及其以上: iii XDDXYE 13021 )() 1, 0,|( 假定3
18、2,其几何意义: 大学教育 保健 高中教育 支出 低于中学教育 收入 32 可将多个虚拟变量引入模型中以考察多种可将多个虚拟变量引入模型中以考察多种“定性定性” 因素的影响。因素的影响。 例4:如如在上述职工薪金的例中,再引入代表学历 的虚拟变量D2: iii DDXY 231210 0 1 2 D 本科及以上学历 本科以下学历 职工薪金的回归模型可设计为: 33 男性 女性 1 1 0 D 女职工本科以下学历的平均薪金: iii XDDXYE 13021 )() 1, 0,|( 女职工本科以上学历的平均薪金: iii XDDXYE 132021 )() 1, 1,|( iii XDDXYE
19、1021 )0, 0,|( iii XDDXYE 12021 )()0, 1,|( 于是,不同性别、不同学历职工的平均薪金分别为: 男职工本科以下学历的平均薪金: 男职工本科以上学历的平均薪金: 34 2 2、乘法方式、乘法方式 加法方式引入虚拟变量,考察:截距的不同截距的不同, 许多情况下:往往是斜率就有变化,或斜率、截或斜率、截 距同时发生变化距同时发生变化。 斜率的变化可通过以乘法的方式引入虚拟变量来斜率的变化可通过以乘法的方式引入虚拟变量来 测度测度。 35 36 例例5:根据消费理论,消费水平C主要取决于收入 水平Y,但在一个较长的时期,人们的消费倾向会发 生变化,尤其是在自然灾害、
20、战争等反常年份,消 费倾向往往出现变化。这种消费倾向的变化可通过 在收入的系数中引入虚拟变量来考察。 ttttt XDXC 210 这里,虚拟变量D以与X相乘的方式引入了模型中, 从而可用来考察消费倾向的变化。 假定E(i)= 0,上述模型所表示的函数可化为: 正常年份: tttt XDXCE)() 1,|( 210 反常年份: tttt XDXCE 10 )0,|( 如,设 0 1 t D 反常年份 正常年份 消费模型可建立如下: 37 当截距与斜率发生变化时,则需要同时引入加当截距与斜率发生变化时,则需要同时引入加 法与乘法形式的虚拟变量法与乘法形式的虚拟变量。 例例5.1.1,考察199
21、0年前后的中国居民的总储蓄-收 入关系是否已发生变化。 表5.1.1中给出了中国19792001年以城乡储蓄存 款余额代表的居民储蓄以及以GNP代表的居民收入 的数据。 38 表表 5.1.1 19792001 年中国居民储蓄与收入数据年中国居民储蓄与收入数据(亿元)(亿元) 90年前储蓄 GNP 90年后储蓄 GNP 19792814038.21991910721662.5 1980399.54517.8199211545.426651.9 1981523.74860.3199314762.434560.5 1982675.45301.8199421518.846670.0 1983892.
22、55957.4199529662.357494.9 19841214.77206.7199638520.866850.5 19851622.68989.1199746279.873142.7 19862237.610201.4199853407.576967.2 19873073.311954.5199959621.880579.4 19883801.514922.3200064332.488228.1 19895146.916917.8200173762.494346.4 19907034.218598.4 39 以Y为储蓄,X为收入,可令: 1990年前: Yi=1+2Xi+1i i=1,
23、2,n1 1990年后: Yi=1+2Xi+2i i=1,2,n2 则有可能出现下述四种情况中的一种: (1) 1=1 ,且2=2 ,即两个回归相同,称为重合回重合回 归归(Coincident Regressions); (2) 11 ,但2=2 ,即两个回归的差异仅在其截距, 称为平行回归平行回归(Parallel Regressions); (3) 1=1 ,但22 ,即两个回归的差异仅在其斜率, 称为汇合回归汇合回归(Concurrent Regressions); (4) 11,且22 ,即两个回归完全不同,称为相相 异回归异回归(Dissimilar Regressions)。 4
24、0 将n1与n2次观察值合并,并用以估计以下回归: iiiiii XDDXY)( 4310 Di为引入的虚拟变量: 0 1 i D 于是有: iiii XXDYE 10 ), 0|( iiii XXDYE)()(), 1|( 4130 可分别表示1990年后期与前期的储蓄函数。 年后 年前 90 90 41 在统计检验中,如果4=0的假设被拒绝,则说 明两个时期中储蓄函数的斜率不同。 具体的回归结果为:具体的回归结果为: (-6.11) (22.89) (4.33) (-2.55) 由3与4的t检验可知:参数显著地不等于0,强 烈示出两个时期的回归是相异的, 储蓄函数分别为:储蓄函数分别为:
25、1990年前: 1990年后: iiiii XDDXY4765. 03 .138028881. 015452 2 R =0.9836 ii XY4116. 07 .1649 ii XY8881. 015452 42 例题6-1:男女食品支出和税后收入的关系。 (6-4)被解释变量:食品支出; 解释变量:性别 (6-9)被解释变量:食品支出; 解释变量:税后收入、性别 43 (6-23) 被解释变量:食品支出; 解释变量:税后收入、性别、税后收入*性别 44 1、写出(6-23)的估计方程。 2、进一步写出男性、女性的估计方程。 3、解释偏回归系数含义。 45 Dependent Variabl
26、e: Y Variable CoefficientStd. Errort-StatisticProb. C1432.577248.47825.7654040.0004 INCOME0.0615830.0083497.3760910.0001 SEX-67.89322350.7645-0.1935580.8513 XD-0.0062940.012988-0.4845950.6410 R-squared0.930459 (6-24) 46 (二)被解释变量是虚拟变量:线性概率模型(二)被解释变量是虚拟变量:线性概率模型 01iit YX 1. 0. YX 表示申请到了房贷 表示年家庭收入 表示没有申请到房贷 斜率系数解释为X单位变动引起的Y=1概率的变动。 注意事项和处理P150 作业 6.16.7;6.10;6.11;6.16.其中6.16.3在 书上完成,其余在作业本上完成。 47