1、多元离散选择模型多元离散选择模型p胡胡 枫枫p北京科技大学经济管理学院北京科技大学经济管理学院p二一一年十月二一一年十月1.本讲内容本讲内容p多元离散选择模型多元离散选择模型p定序选择模型定序选择模型2.p一、多元离散选择模型3.问题:农村异地转移劳动力的迁移目的地问题:农村异地转移劳动力的迁移目的地p被解释变量:被解释变量:迁移目的地,即小城镇、县级市、地级市、迁移目的地,即小城镇、县级市、地级市、省级城市和超大城市,依次取值省级城市和超大城市,依次取值1、2、3、4、5。p解释变量:解释变量:个人特征、家庭特征和目前所在地属性个人特征、家庭特征和目前所在地属性。连续连续变量变量包括受教育程
2、度、家庭规模、家庭内其他劳动力人数、包括受教育程度、家庭规模、家庭内其他劳动力人数、家庭负担、原有收入、现有收入,目前所在地属性中的所家庭负担、原有收入、现有收入,目前所在地属性中的所在地农村人口、国内生产总值、城乡居民储蓄余额、粮食在地农村人口、国内生产总值、城乡居民储蓄余额、粮食产量、中学生在校人数、小学生在校人数等。产量、中学生在校人数、小学生在校人数等。离散变量离散变量包包括性别、婚姻状况、收入稳定与否,目前所在地所属级别括性别、婚姻状况、收入稳定与否,目前所在地所属级别与家乡所在地所属级别等。与家乡所在地所属级别等。与上次讲的有何不同?与上次讲的有何不同?4.Multinomial
3、Logistic ModelpMultinomial logistic regression involves nominal response variables more than two categories pMultinomial logit models are multi-equation modelsnA response variable with j+1 categories will generate j equationsnEach of these j equations is a binary logistic regression comparing a grou
4、p with the reference group nMultinomial logistic regression simultaneously estimates the j logits5.多元离散选择多元离散选择Logit模型模型p如果决策者如果决策者i在(在(J+1)项可供选择方案中选择了第)项可供选择方案中选择了第j项,那项,那么其效用模型为:么其效用模型为:ijijijijijUVXP UUkJkjijik(),0 1 2 P yjeeijJ()XXijij0如果(J+1)个随机误差项互不相关,并且服从类极值分布()exp()ijijFe选择j的概率6.多元离散选择多元离散选择
5、Logit模型模型Prob,Prob,Prob,ijijikijijikikikijijikPUUkjVVkjVVkj ikeikFe|VVijijikeijijkjPeikikeikfeeVVijijikikikeeijijkjPeeed7.多元离散选择多元离散选择Logit模型模型P yjeeijJjj()XXii0X中未包含备选方案所具有的中未包含备选方案所具有的属性变量,而参数向量属性变量,而参数向量B对不对不同的选择方案(即不同的方程)同的选择方案(即不同的方程)是不同的。是不同的。P yjeeikJjk()XXii11P yeikJk()0111Xi令令B0=0,j=1,2,J8.
6、Multinomial Logistic ModelpTherefore,we can obtain the following probabilities relative to the reference group:pThe coefficients,represent the log odds of being in the target groups relative to the reference group()(0)jiiP yjeP yiX9.lnln()LdP yjijijJin01参数估计参数估计10.Ex1.Binary Logistic Model ResultpDe
7、pendent variable:honcomp11.Stata Output12.Multinomial Logistic Model ResultpDependent variable:prog13.Stata Output14.例例2 2 农村异地转移劳动力的迁移目标研究农村异地转移劳动力的迁移目标研究p被解释变量:被解释变量:迁移目标,即小城镇、县级市、地级市、省迁移目标,即小城镇、县级市、地级市、省级城市和超大城市,依次取值级城市和超大城市,依次取值1、2、3、4、5。p解释变量:解释变量:个人特征和目前所在地属性个人特征和目前所在地属性。连续变量连续变量包括受包括受教育程度、家庭规
8、模、家庭内其他劳动力人数、家庭负担、教育程度、家庭规模、家庭内其他劳动力人数、家庭负担、原有收入、现有收入,目前所在地属性中的所在地农村人原有收入、现有收入,目前所在地属性中的所在地农村人口、国内生产总值、城乡居民储蓄余额、粮食产量、中学口、国内生产总值、城乡居民储蓄余额、粮食产量、中学生在校人数、小学生在校人数等。生在校人数、小学生在校人数等。离散变量离散变量包括性别、婚包括性别、婚姻状况、收入稳定与否,目前所在地所属级别与家乡所在姻状况、收入稳定与否,目前所在地所属级别与家乡所在地所属级别等。地所属级别等。p虽然作为被解释变量的城市规模本身是有序的,但是对于虽然作为被解释变量的城市规模本身
9、是有序的,但是对于农村劳动力来说,选择进入哪一个级别的城市,本身是无农村劳动力来说,选择进入哪一个级别的城市,本身是无序的,因此对于城市化迁移目标构造序的,因此对于城市化迁移目标构造多元名义多元名义logit离散选离散选择模型择模型。15.p调查样本:有效样本调查样本:有效样本303份。份。p用统计软件进行估计与分析(用统计软件进行估计与分析(SAS、Stata、SPSS均可)。均可)。p首先将定义的全部变量放进模型中进行估计,并首先将定义的全部变量放进模型中进行估计,并通通过比较各个变量的过比较各个变量的P值来考虑具体剔除哪些变量以值来考虑具体剔除哪些变量以及对哪些变量考虑将其交互影响的效应
10、放进模型中及对哪些变量考虑将其交互影响的效应放进模型中去去。p小城镇、县级市、地级市、省级城市和超大城市依小城镇、县级市、地级市、省级城市和超大城市依次取值次取值1、2、3、4、5。16.p最终模型的估计结果(部分)最终模型的估计结果(部分)*代表的是90的显著性水平,*代表的是95的显著性水平,*代表的是99的显著性水平。变量变量 模型序号模型序号 系数估计系数估计 标准差标准差 P 值值 1 1.2137 1.4518 0.4032 2*2.7685 1.0998 0.0118 3*2.3962 0.9351 0.0104 常数项 4*3.6742 1.0665 0.0006 1*-0.2
11、475 0.1050 0.0184 2*-0.2800 0.0727 0.0001 3*-0.1136 0.0660 0.0852 教育程度 4-0.0856 0.0696 0.2184 1-0.1299 0.1084 0.2310 2*-0.0943 0.0552 0.0877 3-0.0337 0.0452 0.4556 家庭情况 4*-0.1578 0.0586 0.0071 17.教育程度、家庭情况及现有收入对迁移目标的影响教育程度、家庭情况及现有收入对迁移目标的影响:Log(小城镇/超大城市)Log(县级市/超大城市)Log(地级市/超大城市)Log(省级市/超大城市)18.p从教育
12、程度来看从教育程度来看,所有系数都是负值,教育程度越高的农,所有系数都是负值,教育程度越高的农村劳动力越愿意进入规模较大的城市;从显著性水平来看,村劳动力越愿意进入规模较大的城市;从显著性水平来看,相对于超大城市来说,县级市被选择的可能性最小,其次相对于超大城市来说,县级市被选择的可能性最小,其次是小城镇,然后是地级城市,而教育程度相似的农村劳动是小城镇,然后是地级城市,而教育程度相似的农村劳动力在省级城市与超大城市之间的选择没有明显的差异力在省级城市与超大城市之间的选择没有明显的差异p从家庭情况来看从家庭情况来看,所有系数都是负值,也就是说家庭情况,所有系数都是负值,也就是说家庭情况越好的农
13、村劳动力越愿意进入规模较大的城市;从显著性越好的农村劳动力越愿意进入规模较大的城市;从显著性水平来看,相对于超大城市来说,省级城市最不容易被选水平来看,相对于超大城市来说,省级城市最不容易被选中,其次是县级市,而小城镇与地级市之间没有明显区别中,其次是县级市,而小城镇与地级市之间没有明显区别p从现有收入来看从现有收入来看,所有系数都是负值,也就是说目前收入,所有系数都是负值,也就是说目前收入越高的农村劳动力越愿意进入规模较大的城市;再从显著越高的农村劳动力越愿意进入规模较大的城市;再从显著性水平来看,所有系数都是显著的,这说明相对于任何级性水平来看,所有系数都是显著的,这说明相对于任何级别的城
14、市而言,农村劳动力都更倾向于超大城市别的城市而言,农村劳动力都更倾向于超大城市结果解释结果解释19.Other Models for Nominal OutcomespConditional LogitnAttributes of choices can be used as predictorsnExample:way of transportation(car,bus,bike)time,wealth,and agepNested LogitnTreats a set of choices as a hierarchynIIA assumption can be relaxednExamp
15、le:migration current(permanent,or temporary),or return?20.p一是研究选择某种方案的概率与决策者的特征变量之间的一是研究选择某种方案的概率与决策者的特征变量之间的关系;关系;p二是研究选择某种方案的概率与决策者的特征变量以及方二是研究选择某种方案的概率与决策者的特征变量以及方案的特征变量之间的关系;案的特征变量之间的关系;p三是考虑到不同方案之间的相关性的情况。三是考虑到不同方案之间的相关性的情况。Multinomial Logit Model多项式多项式Logit模型模型名义名义Logit模型模型Conditional Logit Mo
16、del 条件条件Logit模型模型 Nested Logit模型模型嵌套模型嵌套模型 Three Types of Multiple Response Models21.p二、定序选择模型22.1 1、问题的提出、问题的提出p作为被解释变量的(作为被解释变量的(J+1)个选择结果本身是)个选择结果本身是排序的,排序的,J优于(优于(J1),),2优于优于1,1优于优于0。p决策者选择不同的方案所得到的效用也是排决策者选择不同的方案所得到的效用也是排序的。序的。p一般多元离散选择模型中的效用关系不再适一般多元离散选择模型中的效用关系不再适用。用。23.ExamplepA study looks
17、at factors that influence the decision of whether to apply to graduate school.College juniors are asked if they are unlikely,somewhat likely,or very likely to apply to graduate school.Hence,our outcome variable has three categories.Data on parental educational status,whether the undergraduate instit
18、ution is public or private,and current GPA is also collected.24.2 2、效用关系、效用关系p选择不同方案的效用关系:选择不同方案的效用关系:yyyuuyuJuyJ001021121如果如果如果如果*25.3 3、模型、模型为了保证所有的概率都是正的,必须有为了保证所有的概率都是正的,必须有:y*XP yP yuP yuuP yJuJ()()()()()()()()()()01211211XXXXXX假定服从正态分布,并且标准化为服从期望为0、方差为1的正态分布。那么可以得到选择各个方案的概率 为正态分布的概率函数0121uuuJM
19、L estimation26.Ex3.CeilphonepObjective:nConsumer preference for different ceilphonepData SourcenThe EDP students from GSMnA total of 1451 observations27.Variables28.Linear Regression?07score=+W7+One common/convenient way,but29.A Latent Variable Model112233441score=ZccZccZccZccZ如果2如果3如果4如果5如果30.The O
20、rdinal Regression Model07=+W7+Z07077scoreW7W7W7kkkkPkP zcPcPcF7scoreW7kPkF31.Two Popular Models7scoreW7kPk 77expW7score1expW7kkPk32.Another Formulation17scoreW7kPk7logitscoreW7kPk33.The Log Likelihood1771747W7=1scoreW7W7W71 51W7=5ikikikiikPkfkk 如果如果如果5score0711,W7inIkkiikLf50711log,scorelogW7nikiikL
21、Ikf34.The Z-TestjjjT 0,1 0,7varjjjjjjNj 35.Likelihood Ratio Test0070707,2maxlog,0max log,LL 0070707,2 maxlog,02max log,LL We have seen this before!36.Ordered Probit Model10111213234567scoreW1=MotorolaW1=NokiaW1=SamsumW2W3W4W5W6W7PkIII37.SPSS Results38.SPSS Results39.STATA Results40.Ex4.Parents Long-Distance Migration,Remittances,and Educational Performance of Left-Behind ChildrenContribution41.Literature review42.Data43.Empirical Model44.Empirical Model45.Results46.Results47.Results48.Conclusions49.