1、3.6 3.6 含有虚拟变量的多元线性回归含有虚拟变量的多元线性回归模型模型 一、含有虚拟变量的模型一、含有虚拟变量的模型一、虚拟变量的引入一、虚拟变量的引入二、虚拟变量的设置原则二、虚拟变量的设置原则 一、含有虚拟变量的模型一、含有虚拟变量的模型1 1、虚拟变量、虚拟变量(dummy variables)许多经济变量是许多经济变量是可以定量度量可以定量度量。一些影响经济变量的因素是一些影响经济变量的因素是无法定量度量。无法定量度量。为了在模型中能够反映这些因素的影响,并提高为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们模型的精度,需要将它们“量化量化”。这种这种“量化量化”
2、通常是通过引入通常是通过引入“虚拟变量虚拟变量”来完来完成的。根据这些因素的属性类型,成的。根据这些因素的属性类型,构造只取构造只取“0”或或“1”的人工变量的人工变量,通常称为,通常称为虚拟变量虚拟变量,记为,记为D。虚拟变量只作为解释变量。虚拟变量只作为解释变量。一般地,在虚拟变量的设置中:一般地,在虚拟变量的设置中:基础类型、肯定类型取值为基础类型、肯定类型取值为1;比较类型,否定类型取值为比较类型,否定类型取值为0。例如,反映文程度的虚拟变量可取为例如,反映文程度的虚拟变量可取为:D=1,本科学历,本科学历 D=0,非本科学历,非本科学历 虚拟变量能否取虚拟变量能否取1 1、0 0以外
3、的数值?以外的数值?2 2、虚拟变量模型、虚拟变量模型 同时含有一般解释变量与虚拟变量的模型称为同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(虚拟变量模型或者方差分析(analysis-of variance:ANOVA)模型。)模型。例如,一个以性别为虚拟变量考察企业职工薪金的模型:iiiiDXY210其中:Yi为企业职工的薪金;Xi为工龄;Di=1,若是男性,Di=0,若是女性。二、虚拟变量的引入二、虚拟变量的引入1 1、加法方式、加法方式 虚拟变量作为解释变量引入模型有两种基本方虚拟变量作为解释变量引入模型有两种基本方式:式:加法方式加法方式和和乘法方式乘法方式。上述
4、企业职工薪金模型中性别虚拟变量的引入上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。采取了加法方式。在该模型中,如果仍假定在该模型中,如果仍假定E(i)=0,则企业男、女职,则企业男、女职工的平均薪金为:工的平均薪金为:iiiiXDXYE10)0,|(iiiiXDXYE120)()1,|(假定假定 20,则两个函数有相同的斜率,但有不同的截距。,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差两者的平均薪金水平相差 2。可以通过对可以通过对 2的统计显著性进行检验,以判断企业男
5、女的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。职工的平均薪金水平是否有显著差异。年薪Y 男职工 女职工 工龄X02 将上例中的性别换成教育水平,教育水平考虑将上例中的性别换成教育水平,教育水平考虑三个层次:高中以下、高中、大学及其以上。三个层次:高中以下、高中、大学及其以上。011D 其他高中 012D 其他大学及其以上iiiDDXY231210iiiXDDXYE1021)0,0,|(iiiXDDXYE12021)()0,1,|(iiiXDDXYE13021)()1,0,|(高中以下高中大学及以上 在上例中同时引入性别和教育水平:在上例中同时引入性别和教育水平:女男0
6、11D大学以下大学及以上012DiiiDDXY231210女职工本科以下学历的平均薪金:女职工本科以下学历的平均薪金:iiiXDDXYE13021)()1,0,|(女职工本科以上学历的平均薪金:女职工本科以上学历的平均薪金:iiiXDDXYE132021)()1,1,|(iiiXDDXYE1021)0,0,|(iiiXDDXYE12021)()0,1,|(男职工本科以下学历的平均薪金:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:男职工本科以上学历的平均薪金:2 2、乘法方式、乘法方式 加法方式引入虚拟变量,考察:截距的不同。加法方式引入虚拟变量,考察:截距的不同。许多情况下,斜
7、率发生变化,或斜率、截距同时许多情况下,斜率发生变化,或斜率、截距同时发生变化。发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来斜率的变化可通过以乘法的方式引入虚拟变量来测度测度。例如,例如,根据消费理论,收入决定消费。但是,根据消费理论,收入决定消费。但是,农村居民和城镇居民的边际消费倾向往往是不农村居民和城镇居民的边际消费倾向往往是不同的。这种消费倾向的不同可通过在消费函数同的。这种消费倾向的不同可通过在消费函数中引入虚拟变量来考察。中引入虚拟变量来考察。城镇居民农村居民01iDiiiiiXDXC210iiiiXDXCE)()1,|(210iiiiXDXCE10)0,|(农村居民:城镇
8、居民:3 3、同时引入加法与乘法形式的虚拟变量、同时引入加法与乘法形式的虚拟变量 当截距与斜率发生变化时,则需要同时引入加当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。法与乘法形式的虚拟变量。对于一元模型,有两组样本,则有可能出现下述四种情况中的一种:1=1,且2=2,即两个回归相同,称为重合回重合回归归(Coincident Regressions);11,但2=2,即两个回归的差异仅在其截距,称为平行回归平行回归(Parallel Regressions);1=1,但22,即两个回归的差异仅在其斜率,称为汇合回归汇合回归(Concurrent Regressions);1
9、1,且22,即两个回归完全不同,称为相异相异回归回归(Dissimilar Regressions)。4 4、例题、例题 判断中国农村居民与城镇居民的消费行为是否判断中国农村居民与城镇居民的消费行为是否有显著差异。有显著差异。被解释变量:居民家庭人均生活消费支出被解释变量:居民家庭人均生活消费支出Y 解释变量:居民家庭人均工资收入解释变量:居民家庭人均工资收入X1、其他收入、其他收入X2 样本:样本:2013年年31个地区农村居民与城镇居民人均数个地区农村居民与城镇居民人均数据据 虚拟变量虚拟变量Di:农村居民取值农村居民取值1,城镇居民取值,城镇居民取值0 由变量显著性检验得到:在由变量显著
10、性检验得到:在10%的显著性水平下,的显著性水平下,Di和和DiXi1是显著的,而是显著的,而DiXi2不显著。因此:不显著。因此:2013年农村居民的平均消费支出要比城镇居民少年农村居民的平均消费支出要比城镇居民少1573.9元;元;在其他条件不变的情况下,农村居民与城镇居民的工在其他条件不变的情况下,农村居民与城镇居民的工资收入都增加资收入都增加100元时,农村居民要比城镇居民多支出元时,农村居民要比城镇居民多支出19元用于生活消费;元用于生活消费;农村居民与城镇居民在其他收入方面有相同的增加量农村居民与城镇居民在其他收入方面有相同的增加量时,两者增加的消费支出没有显著差异。时,两者增加的
11、消费支出没有显著差异。iiiiiiiiiXDXXDXDY)()(22221111002211006.0602.0190.0486.01573.91.2599iiiiiiiiXDXXDXDY总体回归模型样本回归函数三、虚拟变量的设置原则三、虚拟变量的设置原则 每一每一定性变量定性变量(qualitative variable)所需的虚所需的虚拟变量个数要比该定性变量的拟变量个数要比该定性变量的状态类别数状态类别数(categories)少少1。即如果有。即如果有m种状态,只在模种状态,只在模型中引入型中引入m-1个虚拟变量。个虚拟变量。例如,季节定性变量有春、夏、秋、冬例如,季节定性变量有春、夏
12、、秋、冬4种状种状态,只需要设置态,只需要设置3个虚变量:个虚变量:其它秋季其它夏季其它春季010101321DDD 如果设置第如果设置第4个虚变量,则出现个虚变量,则出现“虚拟变量陷井虚拟变量陷井”(Dummy Variable Trap)。为什么?)。为什么?例如:包含季节变量的正确模型:例如:包含季节变量的正确模型:ttttktkttDDDXXY332211110tttttktkttDDDDXXY44332211110D)(X,Y0001110001010010010100011),(616414313212111kkkkkXXXXXXXXXXDX解释变解释变量完全量完全共线性共线性错误
13、模型 如果在服装需求函数模型中必须包含如果在服装需求函数模型中必须包含3个定性个定性变量:季节(变量:季节(4种状态)、性别(种状态)、性别(2种状态)、种状态)、职业(职业(5种状态),种状态),应该设置多少虚变量?应该设置多少虚变量?模型含常数项模型含常数项 模型不含常数项模型不含常数项讨论:定序定性变量可否按照状态赋值?讨论:定序定性变量可否按照状态赋值?例如:表示居民对某种服务的满意程度,分例如:表示居民对某种服务的满意程度,分5种状态:种状态:非常不满意、一般不满意、无所谓、一般满意、非常非常不满意、一般不满意、无所谓、一般满意、非常满意。在模型中按照状态分别赋值满意。在模型中按照状
14、态分别赋值0、1、2、3、4或或者者2、1、0、1、2。被经常采用,尤其在管理学、社会学研究领域。被经常采用,尤其在管理学、社会学研究领域。正确的方法:正确的方法:设置多个虚拟变量,理论上正确,带来自由度损失。设置多个虚拟变量,理论上正确,带来自由度损失。以定性变量为研究对象,构造多元排序离散选择模型,然后以定性变量为研究对象,构造多元排序离散选择模型,然后以模型结果对定性变量的各种状态赋值。但需要更多的信息以模型结果对定性变量的各种状态赋值。但需要更多的信息支持。支持。赋值的方法等于是对虚变量方法中的各个虚变量的参赋值的方法等于是对虚变量方法中的各个虚变量的参数施加了约束,而这种约束经常被检验为错误的。数施加了约束,而这种约束经常被检验为错误的。