第八章-虚拟变量课件.ppt

上传人(卖家):晟晟文业 文档编号:4958334 上传时间:2023-01-28 格式:PPT 页数:40 大小:888KB
下载 相关 举报
第八章-虚拟变量课件.ppt_第1页
第1页 / 共40页
第八章-虚拟变量课件.ppt_第2页
第2页 / 共40页
第八章-虚拟变量课件.ppt_第3页
第3页 / 共40页
第八章-虚拟变量课件.ppt_第4页
第4页 / 共40页
第八章-虚拟变量课件.ppt_第5页
第5页 / 共40页
点击查看更多>>
资源描述

1、Company Logo2主要内容主要内容v一、为什么引入虚拟变量一、为什么引入虚拟变量v二、用虚拟变量测量截距变动二、用虚拟变量测量截距变动v三、测量斜率变动三、测量斜率变动v四、分段线性回归四、分段线性回归Company Logo3一、为什么引入虚拟变量一、为什么引入虚拟变量v1.定量解释变量定量解释变量 诸如前几章介绍的,可以在取值范围内连续取值的诸如前几章介绍的,可以在取值范围内连续取值的解释变量,称作解释变量,称作定量解释变量定量解释变量。如:人均收入,农产。如:人均收入,农产品收购量,等。品收购量,等。v2.定性变量定性变量 如性别、民族、国籍、战争、自然灾害和政治体制如性别、民族

2、、国籍、战争、自然灾害和政治体制等,只表示某种特征的等,只表示某种特征的存在存在与与不存在不存在,称作,称作定性变量定性变量。Company Logo4一、为什么引入虚拟变量一、为什么引入虚拟变量 建立回归模型的过程中,被解释变量不仅受定量解建立回归模型的过程中,被解释变量不仅受定量解释变量影响,有时还受一些诸如如性别、民族、国籍、释变量影响,有时还受一些诸如如性别、民族、国籍、战争、自然灾害和政治体制等定性变量的影响。战争、自然灾害和政治体制等定性变量的影响。因此,当这些定性变量对被解释变量产生影响时,因此,当这些定性变量对被解释变量产生影响时,当然也应该包括在回归模型中。当然也应该包括在回

3、归模型中。Company Logo5一、为什么引入虚拟变量一、为什么引入虚拟变量v3.如何将定性变量引入模型如何将定性变量引入模型 由于定性变量通常表示的是某种特征或属性是否存由于定性变量通常表示的是某种特征或属性是否存在,如男性、女性,城市户口、非城市户口等,所以在,如男性、女性,城市户口、非城市户口等,所以量化方法可采用取值为量化方法可采用取值为0或或1。可以用可以用1表示该属性存在,表示该属性存在,0表示该属性不存在表示该属性不存在(也也可相反可相反)。Company Logo6一、为什么引入虚拟变量一、为什么引入虚拟变量v4.虚拟变量虚拟变量 上述这种取值为上述这种取值为0或或1的变量

4、称作虚拟变量,用的变量称作虚拟变量,用D(Dummy)表示。虚拟变量应用于模型中,对其回)表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。归系数的估计与检验方法与定量变量相同。当一个定性变量含有当一个定性变量含有m个类别时,应向模型引入个类别时,应向模型引入 m-1个虚拟变量。个虚拟变量。Company Logo7一、为什么引入虚拟变量一、为什么引入虚拟变量 比如比如“性别性别”含男性与女性两个类别,所以当含男性与女性两个类别,所以当“性性别别”作解释变量时,应向模型引入一个虚拟变量。取作解释变量时,应向模型引入一个虚拟变量。取值方式是:值方式是:01D(男性)(男性)

5、(女性)(女性)01D(女性)(女性)(男性)(男性)或或Company Logo8一、为什么引入虚拟变量一、为什么引入虚拟变量 再例如,定性变量再例如,定性变量“学历学历”还有四个类别,即大学还有四个类别,即大学学历、中学学历、小学学历和无学历。当学历、中学学历、小学学历和无学历。当“学历学历”作作解释变量时,应向模型引入(解释变量时,应向模型引入(4-1)三个虚拟变量,)三个虚拟变量,一种取值方式是:一种取值方式是:011D(大学学历)(大学学历)(非大学学历)(非大学学历)013D(小学学历)(小学学历)(非小学学历)(非小学学历)012D(中学学历)(中学学历)(非中学学历)(非中学学

6、历)Company Logo9一、为什么引入虚拟变量一、为什么引入虚拟变量v5.虚拟变量注意事项虚拟变量注意事项(1)当定性变量含有当定性变量含有m个类个类别时,模型不能引入别时,模型不能引入m个个虚拟变量。否则在虚拟变虚拟变量。否则在虚拟变量间会产生完全多重共线量间会产生完全多重共线性,无法估计回归参数。性,无法估计回归参数。例如:一年四季,取例如:一年四季,取m=4个虚拟变量。个虚拟变量。截距项对应的单位向量截距项对应的单位向量等于等于D1+D2+D3+D4。即出。即出现完全多重共线性。现完全多重共线性。t0D1 D2 D3 D41995.1110001995.2101001995.310

7、0101995.4100011996.1110001996.2101001996.3100101996.4100011997.11 Company Logo10一、为什么引入虚拟变量一、为什么引入虚拟变量(2)把虚拟变量取值为)把虚拟变量取值为0所对应的类别称作基础类别。所对应的类别称作基础类别。例如:按上面对例如:按上面对“学历学历”的赋值方法,的赋值方法,“无学历无学历”为为基础类别。基础类别。(3)当定性变量含有)当定性变量含有m个类别时,不能把虚拟变量的个类别时,不能把虚拟变量的值设成如下形式:值设成如下形式:110mD(第一个类别)(第一个类别)(第二个类别)(第二个类别)(第(第m

8、个类别)个类别)这种赋值法在一这种赋值法在一般情形下与虚拟变般情形下与虚拟变量赋值是完全不同量赋值是完全不同的两回事。的两回事。Company Logo11一、为什么引入虚拟变量一、为什么引入虚拟变量(4)回归模型可以只用虚拟变量作解释变量,也可以)回归模型可以只用虚拟变量作解释变量,也可以用定量变量和虚拟变量一起作解释变量。用定量变量和虚拟变量一起作解释变量。Company Logo12二、用虚拟变量测量截距变动二、用虚拟变量测量截距变动v下面给出的模型都属于测量截距变动的模型。下面给出的模型都属于测量截距变动的模型。iiiiiuDXYuDY21010以上面第二个模型为例,以上面第二个模型为

9、例,D=1、0时,回归函数分别是时,回归函数分别是iiiiXYEXYE10120)()()((D=1)(D=0)由此可见,向模型引入虚拟变量,其数学意义就是由此可见,向模型引入虚拟变量,其数学意义就是回归函数截距项发生变化。回归函数截距项发生变化。对虚拟变量的系数作显著性检验,就是判别两条回对虚拟变量的系数作显著性检验,就是判别两条回归直线的截距项是否存在显著性差异。归直线的截距项是否存在显著性差异。Company Logo13二、用虚拟变量测量截距变动二、用虚拟变量测量截距变动v例例8.3 随机调查美国旧金山地区随机调查美国旧金山地区20个家庭的储蓄情况,个家庭的储蓄情况,拟建立年储蓄额拟建

10、立年储蓄额Yi(千美元千美元)对年收入对年收入Xi(千美元千美元)的回归的回归模型。模型。0.00.51.01.52.02.53.03.551015202530354045XY上部的上部的6个样本个样本点,都是自己有点,都是自己有房的家庭。房的家庭。下部的下部的14个样本个样本点,都是租房住点,都是租房住的家庭。的家庭。这两类家庭所对应的样本这两类家庭所对应的样本观测点各自都表现出明显观测点各自都表现出明显的不同的线性关系。的不同的线性关系。Company Logo14二、用虚拟变量测量截距变动二、用虚拟变量测量截距变动 为研究不同住房状况家庭的储蓄情况,引入定性变量为研究不同住房状况家庭的储

11、蓄情况,引入定性变量“住房状况住房状况”,用,用D表示。表示。虚拟变量虚拟变量D定义如下:定义如下:建立回归模型:建立回归模型:01D(有房户)(有房户)(租房户)(租房户)iiiuDXY210Y年储蓄额年储蓄额Y(千美元千美元)X年收入年收入(千美元千美元)D住房状况住房状况Company Logo15二、用虚拟变量测量截距变动二、用虚拟变量测量截距变动因为因为D不能作为不能作为Eviews的用户变量名,的用户变量名,所以虚拟变量的名称所以虚拟变量的名称取取D1。Company Logo16二、用虚拟变量测量截距变动二、用虚拟变量测量截距变动27.2,99.0)0.11()9.16()2.5

12、(8273.00675.03204.02DWRDXYii 由于虚拟变量由于虚拟变量D的回归系数显著地的回归系数显著地不为零,说明对住不为零,说明对住房状况不同的两类房状况不同的两类家庭来说,回归函家庭来说,回归函数截距项确实明显数截距项确实明显不同。不同。(因为(因为D不能作为不能作为Eviews的用户变量名,的用户变量名,所以取所以取D1)Company Logo17二、用虚拟变量测量截距变动二、用虚拟变量测量截距变动 当模型不引入虚拟变量当模型不引入虚拟变量“住房状况住房状况”时,得回归方程时,得回归方程如下如下:85.1,88.0)6.11()5.3(0963.05667.02DWRXY

13、ii 比较上述两个回归方程的统计检验指标,说明该比较上述两个回归方程的统计检验指标,说明该回归模型引入虚拟变量非常必要。回归模型引入虚拟变量非常必要。Company Logo18二、用虚拟变量测量截距变动二、用虚拟变量测量截距变动 引入虚拟变量后,不同住房状况的居民的储蓄明显具引入虚拟变量后,不同住房状况的居民的储蓄明显具有不同的截距:有不同的截距:iiXY0675.05069.0(1)D=1时,即对于有房户时,即对于有房户(2)D=0时,即对于租房户时,即对于租房户iiXYCompany Logo19二、用虚拟变量测量截距变动二、用虚拟变量测量截距变动v例例8.4 季节影响季节影响 “季节季

14、节”是在研究经济问题中常常遇到的定性因素。是在研究经济问题中常常遇到的定性因素。比如,酒、肉的销量在冬季要超过其他季节,而饮料比如,酒、肉的销量在冬季要超过其他季节,而饮料的销量又以夏季为最大。当建立这类问题的计量模型的销量又以夏季为最大。当建立这类问题的计量模型时,就要考虑把时,就要考虑把“季节季节”因素引入模型。因素引入模型。由于一年有四个季节,所以这是一个含有四个类别由于一年有四个季节,所以这是一个含有四个类别的定性变量。应该向模型引入的定性变量。应该向模型引入3个虚拟变量。个虚拟变量。Company Logo20二、用虚拟变量测量截距变动二、用虚拟变量测量截距变动 研究,研究,1982

15、年第年第1季度至季度至1988年第年第4季度全国按季节市季度全国按季节市场用煤销售量,时间序列图如下场用煤销售量,时间序列图如下2500300035004000450050005500051015202530TYCompany Logo21二、用虚拟变量测量截距变动二、用虚拟变量测量截距变动 从上图看出,煤销售量随季节不同呈明显的周期性从上图看出,煤销售量随季节不同呈明显的周期性变化。给出三个虚拟变量,设:变化。给出三个虚拟变量,设:011D(第四季度)(第四季度)(其他季度)(其他季度)013D(第二季度)(第二季度)(其他季度)(其他季度)012D(第三季度)(第三季度)(其他季度)(其他

16、季度)这里是以第一季度为基础类别,这里是以第一季度为基础类别,也可以选其他季度为基础类别。也可以选其他季度为基础类别。设模型为:设模型为:ttuDDDtYCompany Logo22二、用虚拟变量测量截距变动二、用虚拟变量测量截距变动 1982年第年第1季度取季度取t=1,估计模型参数,估计模型参数4.100,2.1,95.0)83.0()96.1()43.13()81.10()04.26(00.8584.20109.138800.4920.24312321FDWRDDDtYt给定显著性水平给定显著性水平=0.05,D2、D3的的系数没有显著性,系数没有显著性,说明第二、三季度说明第二、三季度

17、可以归并入基础类可以归并入基础类别第一季度。别第一季度。Company Logo23二、用虚拟变量测量截距变动二、用虚拟变量测量截距变动 现在考虑只加入一个虚拟变量现在考虑只加入一个虚拟变量D1,把季节因素分为第,把季节因素分为第四季度和第一、二、三季度两类。四季度和第一、二、三季度两类。011D(第四季度)(第四季度)(其他季度)(其他季度)9.184,4.1,94.0)79.14()63.10()03.32(91.129073.4986.251521FDWRDtYt这里第一、二、三季度为基础类这里第一、二、三季度为基础类Company Logo24二、用虚拟变量测量截距变动二、用虚拟变量测

18、量截距变动tYt73.4986.25152500300035004000450050005500051015202530TY第四季度用煤量:第四季度用煤量:tYt73.4977.3806第一、二、三季度用第一、二、三季度用煤量:煤量:Company Logo25三、测量斜率变动三、测量斜率变动v用虚拟变量还可以考察回归函数的斜率是否发生变化,用虚拟变量还可以考察回归函数的斜率是否发生变化,来分析不同来分析不同“类型类型”的不同斜率。的不同斜率。v方法是在模型中加入定量变量与虚拟变量的乘积项:方法是在模型中加入定量变量与虚拟变量的乘积项:设模型如下设模型如下 按按2、3是否为零,回归函数可有如下

19、四种形式:是否为零,回归函数可有如下四种形式:iiiiiiuDXDXY)(3210)0()(3210iiXYE)0,0()()()(323120iiXYE)0,0()()(32310iiXYE)0,0()()(32120iiXYECompany Logo26三、测量斜率变动三、测量斜率变动0204060801000204060XY0102030405060700204060TY截距、斜率同时发生变化的两种情形:截距、斜率同时发生变化的两种情形:Company Logo27三、测量斜率变动三、测量斜率变动v例例2:利用中国进出口贸易总额数据(:利用中国进出口贸易总额数据(1950-1984)。)

20、。试检验改革前后该时间序列的斜率是否发生变化。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量定义虚拟变量D如下:如下:)19841979(,1)19781950(,0D024681012141950195519601965197019751980TRADE 从图中观察到,改革从图中观察到,改革开放前后的散点斜率确开放前后的散点斜率确实不同,所以可以用虚实不同,所以可以用虚拟变量进行测度。拟变量进行测度。1978年年Company Logo28三、测量斜率变动三、测量斜率变动模型的数学形式:模型的数学形式:以时间以时间time为解释变量,进出口贸易总额用为解释变量,进出口贸易总额用tr

21、ade表示:表示:Eviews先中生成解释变量先中生成解释变量time和虚拟变量和虚拟变量D的乘积:的乘积:genr timeD=time*D1 (因为(因为D不能作为不能作为Eviews的用户变量名,所以取的用户变量名,所以取D1)utimeDDCompany Logo29三、测量斜率变动三、测量斜率变动Company Logo30三、测量斜率变动三、测量斜率变动)6.9()4.8()2.6()35.1(2559.18809.350746.02818.0timeDDtimetrade还有虚拟变量的两项都是显著的,所以还有虚拟变量的两项都是显著的,所以)19841979,1(,3305.159

22、91.33)19781950,0(,0746.02818.0DtimeDtime上式说明,改革前后无论截距和斜率都发生了变化。上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量(斜率)扩大了进出口贸易总额的年平均增长量(斜率)扩大了17倍。倍。Company Logo31四、分段线性回归四、分段线性回归v当在模型中使用虚拟变量时,回归函数就不再是连续当在模型中使用虚拟变量时,回归函数就不再是连续的了,分段线性回归可以既使用虚拟变量描述出模型的了,分段线性回归可以既使用虚拟变量描述出模型结构变化,又可以使回归函数保持连续,其中每一段结构变化,又可以使回归函数保持连续,其中

23、每一段都是线性的。都是线性的。Company Logo32四、分段线性回归四、分段线性回归v考虑下面的模型考虑下面的模型 其中其中Xb1表示结构发生变化的表示结构发生变化的t=b1时刻的时刻的Xt的值。的值。tbtttuDXXXY11210)()(,1)1(,0111TtbbtD当当D1=0时,时,ttXYE10)(当当D1=1时,时,tbtXXYE)()()(21120其中其中Xt=Xb1时,两个式子相等。时,两个式子相等。尽管两个子时段回归函数不同,但是在结构发生突变尽管两个子时段回归函数不同,但是在结构发生突变的那一刻,两个子时段回归函数是连续的。的那一刻,两个子时段回归函数是连续的。C

24、ompany Logo33四、分段线性回归四、分段线性回归v如果回归函数在两个时刻如果回归函数在两个时刻t=b1,b2,(,(b1b2)发生结)发生结构变化时,定义两个虚拟变量如下:构变化时,定义两个虚拟变量如下:其中其中t=1,2,3,T,相应的分段线性回归模型为:相应的分段线性回归模型为:)(,1)1(,0111TtbbtD)(,1)1(,0222TtbbtDtbtbtttuDXXDXXXY22311210)()(Company Logo34四、分段线性回归四、分段线性回归 三个直线段的回归函数分别是:三个直线段的回归函数分别是:)(,)(,)(TtbXXXbtbXXbtXYEtbbtbt

25、t2321231202121120110)()()()(1,)(Company Logo35四、分段线性回归四、分段线性回归v例例8.6 中国货币流通量。对数的中国货币流通序列中国货币流通量。对数的中国货币流通序列LMt 通过对通过对LMt序列的分析,可知:序列的分析,可知:(1)从建国初期)从建国初期1961(三年经济困难时期开始年)(三年经济困难时期开始年)年的年的LMt增加速度比较快;增加速度比较快;(2)19621978年由于处于经济困难和文化大革命时年由于处于经济困难和文化大革命时期,期,LMt增速明显减缓;增速明显减缓;(3)1978年改革开放以后,进入社会主义市场经济年改革开放以

26、后,进入社会主义市场经济时期,时期,LMt增速是建国以来最快的一个时期。增速是建国以来最快的一个时期。使用虚拟变量进行分析。使用虚拟变量进行分析。Company Logo36四、分段线性回归四、分段线性回归345678910556065707580859095LM定义两个虚拟变量:定义两个虚拟变量:)479(,1)91(,01ttD)4726(,1)261(,02ttDCompany Logo37四、分段线性回归四、分段线性回归895.3192,9658.0,9955.0)92.23()44.5()83.11()80.43()27(1620.0)10(0694.01187.03288.3221

27、FDWRDtDttMLt均显著均显著Company Logo38四、分段线性回归四、分段线性回归 上述分段式在上述分段式在1961年年(t=10)和和1978年年(t=27)是连续的。是连续的。折点的总坐标分别为折点的总坐标分别为4.5158和和5.3539。1978年改革开放以后的年改革开放以后的LMt的年增长系数(斜率)最高的年增长系数(斜率)最高;1961年次之,年次之,1962年年1978年期间再次之。年期间再次之。)4726(,2084.02329.0)2610(,0485.00092.4)91(,1366.02631.3ttttttMLCompany Logo39四、分段线性回归四、分段线性回归345678910556065707580859095LMLMFLM观测值序列观测值序列(LM)与拟合值)与拟合值序列(序列(LMF)曲)曲线图。线图。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第八章-虚拟变量课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|