ImageVerifierCode 换一换
格式:PPTX , 页数:49 ,大小:968.36KB ,
文档编号:4503510      下载积分:25 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-4503510.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(晟晟文业)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(模型设定和虚拟变量专题之虚拟变量课件.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

模型设定和虚拟变量专题之虚拟变量课件.pptx

1、1第五讲第五讲 模型设定和虚拟变量专题模型设定和虚拟变量专题 之之 虚拟变量虚拟变量 y=b0+b1x1+b2x2+.bkxk+u 2前言前言n前面有关多元回归模型的因变量和自变量都具有定量的 含义,如小时工资率、受教育年数,大学平均成绩、企业销售水平等等。在经验分析中,每个变量的大小都传递了有用的信息,n然而,经验分析还常常碰到定性的问题,如,一个人的性别、种族、企业所属行业以及城市所处的地理位置等等,当考虑这些因素作为变量时,则必须采用虚拟变量设置。前言前言n其中,如果我们把上述定性变量作为自变量,就是本章要讲的虚拟变量设置,并估计的问题。n如果我们把上述定性变量作为因变量,则为线性概率模

2、型,这些在微观计量经济学中用的比较多,教材也阐述一些,但是本章不讲解该部分的内容,因为如果讲清楚需要很足够时间,如果提到当讲不清楚,不如不讲,等后面以后再学之。3问题问题n定性问题经常以二值信息形式出现:一个人是男还是女,结婚与否,一个人有还没有一台电脑等等。该问题可通过定义一个二值变量(binary variable)或一个0-1变量来刻画,此变量即为虚拟变量(dummy variable)n那么如何引入虚拟变量呢?4举例:一个虚拟变量设置举例:一个虚拟变量设置n设置原理如下:n n虚拟变量的取值n n虚拟变量的作用:n举例,举例,如类别变量n性别变量5该因素不起作用 0某种因素起作用 1d

3、设置方式设置方式n两种设置方式:n(1)n保留常数项和其中一个虚拟变量n(2)6iiiiuddy2211iiiudy22112)0|(iidyE212)1|(iidyE举例举例:多虚拟变量:多虚拟变量n举例:举例:季节变量有四个状态7其他季节春天 0 11 id其他季节夏天 0 12id其他季节秋天 0 13id其他季节冬天 0 14idiiiiiudddy4433221虚拟变量系数分析虚拟变量系数分析n通过例子的形式介绍虚拟变量系数的含义:n例子:例子:n n虚拟变量 n ,那么在其他条件相同的情况下,女人总体上挣的钱要比男人少。8001wagefemaleeducubb0(1,)(0,)E

4、 wage femaleeducE wage femaleeduc009Example of 0 0 xy0b0y=(b0+0)+b1xy=b0+b1xslope=b1d=0d=1100122wagemalefemaleeducubbbb122wagemalefemaleeducubbb1,femalemalemalefemale由于模型同时引入和将产生完全共线性,产生所谓的虚拟变量陷阱。2Rbb12将总截距去掉,将每一组的虚拟变量包括进来,男人的截距是,女人的截距是,因为没有总截距,所以不存在虚拟变量陷阱。但检验截距的差值更困难,而且对于不含截距项的回归计算方法没有一致同意的方法。11例例7

5、.1 是否存在性别歧视是否存在性别歧视0.025exp1.570.5720.141(0.72)(0.049)(0.021)(0.26)(1.810.012)wagefemaleereductenure2526,0.364nR7.10(0.21)(0.30)2.51wagefemale2526,0.116nR均值比较检验是否存在性别歧视?注意t值检验,同时,通常的对一个常数和一个虚拟变量进行简单回归时,是比较两组均值的直接方法,要通常的t统计量生效,我们还必须假定同方差性,这就意味着,对男人和女人而言,工资的总体方程式相同的。12例例7.2 拥有计算机拥有计算机 与大学与大学GPA0012col

6、GPAPChsGPAACTubbb1.260.4470.008(0.33)(0.057)(0.0940.157)colGPAPChsGPAACT(0.0105)2141,0.219nR0.157/0.572.75PCt13例例7.3 培训津贴对培训小时数的影响培训津贴对培训小时数的影响loglog46.670.986.07143.413.5426.255.539.88hrsempgrantsalesemploy24.7105,0.237grantnRt问题的关键是:定性变量所度量的影响是否为因果性?办法之一是,尽可能控制与虚拟变量及因变量相关的因素。14当因变量为当因变量为log(y)时对虚拟

7、变量系数的解释时对虚拟变量系数的解释n当自变量中有一个或多个虚拟变量时,因变量以对数形式出现,虚拟变量的系数具有一种百百分比分比解释。在保持其他因素不变的情况下,一套殖民地建筑风格的住房的卖价预计高出约5.4%。15当y有较大比例变化时,如何更准确估计y变化的百分比?loglog0.297 1exp0.29710.257FMFMMwagewagewagewagewage 这表明,一个女人的工资比一个与他相当的男人的工资大致低25.7%。161022100122000220220220logloglogloglogloglog1exp1yyyxyyyyxyyyyxyyxyyxybbbbb 17多

8、元分类的虚拟变量多元分类的虚拟变量n在应用研究中,我们需要使用多个虚拟变量。在控制性别的基础上,研究婚姻状态的影响;在区域研究中,往往区分东、中、西部;在省级面板数据中,甚至会引入n-1个地区虚拟变量。虚拟变量可以描述包含序数的信息:信用等级18例7.6 工资方程估计一个工资对如下四组都不同的模型:已婚男人、已婚女人、单身男人、单身女人。首先选择基组:单身男人,对剩下的每一组定义一个虚拟变量,并称之为marrmal,marrfem,和singfem。因此,三个虚拟变量的估计量度量的都是与因此,三个虚拟变量的估计量度量的都是与单身男人相比,工资的比例差异。单身男人相比,工资的比例差异。19n如果

9、要比较特定两组之间工资的差异,可以重新设定基组进行回归分析。例如,为检验单身女人和已婚女人之间的估计差异是否显著,以已婚女人组作为基组重新估计得到:n在方程中包括虚拟变量来象征不同组的一般原则:如果回归模型有g组或g类不同的截距,在模型中则包含g-1个虚拟变量和一个1截距。0.088/0.0521.69singfemt20通过虚拟变量来包含序数信息通过虚拟变量来包含序数信息n序数变量序数变量:穆迪或标准普尔对地方政府债券的质量进行了级别评定,假设等级范围从零到四,零为最低的信用等级,四位最高的信用等级,记为CR。然而,很难有意义地解释CR变化一个单位对MBR的影响。01MBRCRbb其他因素2

10、11122CR1CR1CR0CR2CR1CR0可以考虑如下模型,其中,如果,则,否则;如果,则,否则;如此等等。即以等于零的信用等级作为基组,得到如下方程:011223344MBRCRCRCRCRb 其他因素MBR1,2,3,4jjj系数含义可解释为:保持其他因素不变,信用等级为级的城市和信用等级为的城市之间在上的差异其零级。中,。问题:两种估计方法中,哪种方法更优?22例例7.7 相貌吸引力对工资的影响相貌吸引力对工资的影响n在劳动力市场中,除了存在性别歧视之外,还可能存在相貌、身高等歧视。如果将样本相貌分为三类:一般水平、低于一般水平、高于一般水平,并以一般水平组作为基组,分别对男人、女人

11、估计方程得:23tt0.5如何解释两方程中相貌因素对工资的作用:对于男人组,那些相貌低于平均水平的人,在其他方面相同的情况下,预计比相貌处于平均水平的男人约少挣16.4%,且统计量为-3.57,表明这个影响在统计上是显著异于零的;类似地,相貌高于平均水平的男人预计要多挣约1.6%,尽管这种影响在统计上并不显著()。女人组的情况如何?通过这两个回归方程,你得到什么启示?24例例7.8 法学院排名对起薪的影响法学院排名对起薪的影响10,11 25,26 40,41 60,61100,1100toprrrr定义虚拟变量并让这些变量在排名落在相应的区间时取值。以排名在名以后的法学院为基组,所估计的方程

12、是:257.13RR0.9050.8367.137.13P0.055rank 将式中的调整平方与把排名作为一个单独变量得到的调整平方比较,前者是,后者是。所以,式增加了回归的灵活性。另外,式中所有其他变量都变得不显著了,联合显著性检验给出 值为;当以其原有形式被包括在模型中时,联合显著性检验的P值在小数点后四位数都是零。26涉及虚拟变量的交互作用涉及虚拟变量的交互作用u虚拟变量之间的交互作用 例7.6根据婚姻状况和性别定义了四个类别,在模型中引入三个虚拟变量,以单身男性为基组研究了不同类别之间的工资差异。除此之外,还有什么方法?27n此外,我们还可以在female和married分别出现的模型

13、中,增加一个female和married的交互项,同样可以进行组别工资差异比较。341 模型的基组是?2 已婚男性组的截距是?已婚女性组的截距是?未婚女性组的截距是?0.321.单身男性,截距为0.2130.321+=0.534-0.110+0.213-0.3010.321=0.123-0.1100.321=0.21128例例7.9 计算机使用对工资的影响计算机使用对工资的影响 341 模型的基组是?2 相对于基组,工作中使用计算机(但在家里不使用)者估计回报差值是?相对于基组,在家里使用(但在工作中不使用)计算机者估计回报差值是?相对于基组,在工作中和家里都使用计算机者估计回报差值是?本模型

14、以在家里和工作中都不使用计算机者为基组17.7%exp 0.177-1=19.4%约等于;更精确的估计值是7%exp 0.07-1=7.25%约等于;更精确的估计值是26.4%exp 0.264-1=30.2%约等于;更精确的估计值是29容许出现不同的斜率容许出现不同的斜率n虚拟变量之间的交互项反映的是截距之间的差异,斜率并未发生变化。含义是:样本回归曲线是平行的。n虚拟变量与非虚拟变量之间也有交互作用,使得出现不同的斜率不同的斜率。0101010,1,femalefemalebbbb男性组截距是,受教育的斜率是;女性组的截距是,受教育的斜率是。3031n我们关心的两个假设:男性和女性受教育的

15、回报是相同的。受教育水平相同的男性和女性的平均工资相同。01H0:01H000:,32例例7.10 对数小时工资方程对数小时工资方程 12femaletedu,expertenure方程中男性与女性的教育回报分别是多少?统计显著性如何?方程中及其交互项系数 统计量分别为1.64、0.42,可以由此断定没有统计显著的证据拒绝女人在相同的和时得到较低的回报吗?3 如何解决可能存在的多重共线性问题?33 1 男性的教育回报约为8.2%;女性的教育回报是0.082-0.0056=0.0764(7.64%).2t0femalefemale edufemaleedu 和之间存在多重共线性,导致参数估计值标

16、准误增大,统计量显著性下降。实际上,的参数值衡量的是当时男性与女性的工资差异,但样本中没有一个人具有甚至是接近于零年的受教育水平。312.5female edu-12.5female edufemale可以考虑在样本的平均受教育水平()上估计性别工资差异,即以取代重新进行回归。这只会改变的系数及其标准误。34检验不同组之间回归函数上的差别检验不同组之间回归函数上的差别n现在,我们考察的虚拟假设是:两个总体或两组具有同一个回归函数;对立假设是,各组间有一个或多个斜率是不同的。如何检验这一虚拟假设?3520.352femaleR估计去掉和所有交互项后的受约束模型,222/0.4060.352/48

17、1 0.406/3667 11/1urrurRRqFRnk36GPA如何解释男女运动员的差异?female如果只看变量,结论是:保持其他因素不变,女性的GPA将比男性少约0.353.但这只是假设sat,hsperc,tothrs都等于零时所得到的估计差异,这种情况并不是很有意义。1100,100.00055 100.00012 500.461sathsperc在和tothrs=50时,女性与男性之间的差异为-0.353+0.00075 110037一般的检验方法:邹至庄统计量一般的检验方法:邹至庄统计量k在含有 个解释变量和一个截距项的一般模型中,假设有两组,称为g=1和g=2。我们想检验这两

18、组的截距和所有的斜率都相同。2SSR1不受约束模型除了截距项和变量本身外,还有一组虚拟变量和交互项,其自由度为n-2 k+1。不受约束模型的残差平方和可通过两个分离的回归得到。令SSR、表示第一组、第二组估计所得到的残差平方和,SSR为受约束模型的残差平方和(将两组混合并估计一个方程所得到)。1212/1/1SSRSSRSSRkFSSRSSRnkChow statistic38邹至庄检验的步骤:邹至庄检验的步骤:n确立回归的一般模型,明确受约束模型和不受约束模型的自由度。(约束个数:k+1)n分别将两组进行回归得到SSR1和SSR2。n将两组数据混合并重新估计模型得到受约束模型的残差平方和SS

19、R.n运用公式计算邹统计量,检验显著性水平。39邹检验有何局限性?F邹检验的虚拟假设要求各组之间一般的 检验可以灵活的检验任意的虚拟假设。例如,容许组间的截距不同来检验斜率的差别,甚至可以检验个别变不量存在任何差异。的斜率差异。407.5 二值因变量:线性概率模型二值因变量:线性概率模型*n迄今为止,我们讨论的因变量均具有定量的含义。如果用多元回归解释一个定性事件,需引入二值因变量,即y只取0和1两个值。例如,y表示一个成年人是否受过高中教育,或一个大学生在给定年份是否用过非法毒品等。jb如何解释的含义?411MLR.3E u|x,0,kx假定零条件均值假定成立,即则01 122E|kky x

20、xxxbbbb|(1yE y xyy当 为二值变量时,“成功”的概率P y=1|x即的概率)等于 的期望值总是成立的。则:01 122P1|kkyxxxxbbbb响应概率 p x=P1|LPMjjyxxbj它说明成功的概率是 的一个线性函数。所以这种带有二值因变量的多元线性回归模型有被称为线性概率模型()。度量了在保持其他因素不变时,x的变化导致成功概率的变化:1|jjP yxxb42参与劳动市场概率的影响因素如何解释各参数的经济含义?4350,exp5,30,61,60nwifeinceragekidsltkidsge1744 1LPMxxy线性概率模型的缺点:预测值是概率,必须介于01之间

21、,但代入自变量的值进行预测可能得到小于0或大于1的预测值。但这些异常的预测值往往只是当的时候才会出现,只有极个别的样本取这些极端值,甚至没有样本取这样的极端值。2 当 是二值变量,其以 为条件的取极端值方差为:01 1,.kkvar y|x=p x1-p xp xxxbbb其中,如果成功的概率与任何一个自变量相关,则线性概率模型存在异方差性,违背了高斯-马尔科夫同方差性假定。45线性概率模型常常应用于对自样本均变量取值在值附近。OLSF异方差性不会影响估计量的无偏性,但对通常的t和统计量的正确性至关重要,针对这种异方差性修正标准误。467.6 对政策分析和项目评价的进一步讨论对政策分析和项目评

22、价的进一步讨论 内生性问题内生性问题n在社会科学研究中,对照组和处理组并不是随机指定的,因此可能遭遇变量内生性问题。如果一个企业是否得到培训津贴与一些影响工人生产力的观测不到的因素有关,则会产生什么问题?47关于种族歧视的检验:贷款许可中的歧视问题批准贷款取决于许多其他因素,包括收入、财富、信用等级和偿还贷款的一般能力等,如果这些因在系统差异各种族间存在着,就必须加以控制。48自选择(自选择(self-selection)问题)问题n个人自己选择加入某种行为或项目的事实:参与并不是随机决定的。1|1|0E u particE u particparticb简单回如果,则意味着总体误差与自变量有关,解释变量存在内生性,关于 的估计量产生偏误。分析通过控制与相关的因素如果能搜集到相关数据的话 在某种程度上缓解自选归多元回归择问题。49

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|