1、经济类核心课程计量经济学PowerPoint Presentation by Lu Shiguang 2012 All Right Reserved,Hunan Institute of Engineering第三章 多元(复)回归分析教师:卢时光1.复回归分析:估计问题1.1 三变量模型:符号和假设将双变量的总体回归模型(PRF)推广,就得到了三变量的总体回归模型。其中,Y是应变量,X2和X3是解释变量,u是随机干扰项,i是指第i次观测值(当数据为实践序列时,下标t表示第t次观测)。系数1和2被称为偏回归系数。我们继续在经典线性回归模型(CLRM)框架下,这样我们对模型做出如下假设:iiii
2、uXXY33221其中(6)是说X2与X3之间没有精确的线性关系,专业上称为无共线性无共线性或无多重共线性无多重共线性。无共线性是说没有一个解释变量可以写成其余解释变量的线性组合。如果不存在一组不全为零的数2和3,使得:如果是这关系存在,我们就说,X2与X3的共线的共线的或线性相关线性相关。令一方面,如果这一关系仅当2=3=0时存在,则X2与X3线性独立线性独立。性变量之间无精确的共线确地设定无设定偏误:模型被正:变量之间都有零协方差与每一个同方差性:无序列相关:对于每一个有零均值:XXuXuXuujiuuiXXuEuiiiiiijiiiii)6()5(0),cov(),cov()4()var
3、()3(,0),cov()2(,0),|()1(3223203322iiXX(a)图表示X2和X3不存在线性关系。(b)图中,区域Y的3和4区域的变异是由于X2引起的,而Y的4和5区域的变异是由于X3引起的,但是区域4是X2和X3共有的,我们无法精确地区别开来,这样区域4代表了共线性。无共线性就要求像(a)图那样,解释变量没有重叠区域。1.2 对复回归方程的解释对式子两边求条件期望:这样,式子给出以变量X2和X3的固定值为条件的Y的条件均值或期望值。如同双变量回归分析,复回归分析是以多个解释变量的固定值为条件的回归分析,并且我们所获取的,是变量X值固定时的Y的平均值或Y的平均响应。iiiiiX
4、XXXYE3322132),|(1.3 偏回归系数的含义偏回归系数的含义如下:2度量者在保持X3不变的情况下,X2每变化1单位,Y的均值E(Y|X2,X3)的变换。换句话说,2给出保持X3不变时Y的均值E(Y|X2,X3)对X2的斜率。类似的,3度量者在保持X2不变的情况下,X3每变化1单位,Y的均值E(Y|X2,X3)的变换。如何理解保持不变?假定Y代表产出,X2和X3分布代表劳动和资本投入。再假定X2和X3都是生产必须的,且它们用于生产的投入比例可以变换。当劳动投入增加一个单位带来的产出的增加(劳动的边际产量)。在这里有一个前提,就是劳动增加的同时,资本投入的数量保持不变,否则我们无法区分
5、在增加的Y中,那些是由于劳动X2的增加带来的,那些是由于资本X3增加带来的。只有想办法使得资本X3投入保持不变,才能衡量劳动X2投入对产出增长的真实贡献。1.4 偏回归系数的OLS估计先写出样本回归函数(SRF):OLS方法是要选择未知参数的值,使得残差平方和尽可能的小,用符号表示为:对未知数求微分,并令表达式为零,得到下述正则方程:iiiiuXXY332212332212)(miniiiiXXYu23332231332322221233221iiiiiiiiiiiiXXXXXYXXXXXYXXY按照用小写字母表示对样本离差的惯例,解正则方程得:2和3最小二乘估计量的性质:(1)可以从方程2和
6、方程3中通过x2和x3的对调得到另外一个,所有它们本质上是对称的;(2)两个方程的分母完全相同;(3)三变量情形是双变量的自然推广。232232232222332322322323232233221)()()()()()()()(iiiiiiiiiiiiiiiiiiiiiixxxxxxxyxxyxxxxxxxyxxyXXY得到偏回归系数的OLS估计量,既可以推出这些估计量的方差和标准误。我们计算标准误有两个目的:建立置信区间和检验统计假设。下列公式不加证明的给出,相关推导过程请参阅文献。)(sexxxxxxXXxXxXniiiiiiii1123223223232222323221var)()(
7、21)var()(serxXXrxxxxxiiiiii2222322222322322322232var)()1()var(32)()()var(的样本相关系数,则和为仿照前章,我们能够证明2的一个无偏估计量是(注意:这里的自由度是(n-3),因为我们在估计残差之前必须要估计参数1、2和3,所以消耗了3个自由度。))(serxxxxxxiiiiii23223232322322322223var)()1()var()()()var(等价地:iiiiiiixyxyyunu3322222231.5 OLS估计量的性质1.三变量回归线(面)通过均值 。(为什么?)2.估计的Yi的均值等于真实Yi的均值
8、。证明:32,XXY和YYxxxnxnYYnxxYXXXXYXXXXYXXYiiiiiiiiiiiiiii 0)()()(32332233223332223322332233221(为什么?)以样本大小两边对样本值求和并除3.4.残差 与Y,X2和X3均不相关,于是有 5.根据式子:随着X2和X3的相关系数r23增大,的方差也在增大,在r23=1时,完全共线性,这些方差变得无限大。直观地看,随着r23的增大,要知道2和3的真值越来越难。而X的样本值变化越大(x越大),则方差越小,从而能够更精确的估计2和3。0 iuiu 0032iiiiiiYuXuXu)1()var(2232222rxi)1(
9、)var(2232323rxi32 和1.6 复判定系数R2在三变量模型中,我们想知道Y的变异由X2和X3联合解释的比例,提供这一信息的数量被称为复相关系数,记为R2。233222233222332222233222222222,0,2,iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiyxyxyTSSRSSRRxyxyyRSSxyxyyyyxyxyyuuyuyuyuyyuyy定义:按照整理得带入平方后求和式中各项均可以从样本数据中计算得出,因此R2也很容易得到。R2是一个落在0和1之间的数。如果是1,则所拟合的回归线100%的解释了Y的变异;如果是0,则模型不解释任何Y的
10、变异。R2越靠近1,说明模型的“拟合”越好。1.7 校正的R2R2有一个重要的性质,即它是出现在模型中的解释变量个数的非减函数。随着解释变量个数的增加,R2必然增大而不会减少。回忆R2的定义:这里,与模型中X的变量没有关系。但是RSS即 与模型中的X个数有关。随着X的个数增加,模型的 很可能减小(至少不会变大),随之,R2变大。22211iiyuTSSESSTSSRSSR22)(YYyii2iu2iu那么,怎样解决这个问题呢?我们必须考虑到模型中X变量的个数,那么:也就是说,分子分母均除以其自由度(df),这样我们就消除了由于解释变量增加而带来的R2变大的问题,被称为校正的R2(adjuste
11、d R2)。在计算中要先计算均值,故损失一个自由度,自由度为(n-1),的自由度中的k,是指包括截距项在内的模型中的参数的个数。在三变量模型中,的自由度是(n-3)。)1/()/(1222nyknuRii2R22)(YYyii2iu2iu2.复回归分析:推断问题2.1 再一次正态性假设如果我们的唯一目的是对回归模型的参数作点估计,则普通最小二乘法(OLS)将足够使用,并不需要对干扰项ui的概率分布作任何假设,但我们的目的还要对其进行估计和推断,我们还需要假定ui服从某个概率分布。我们曾经假设ui遵循均值为零、方差为常数的正态分布。有了正态分布的假设,我们发现,偏回归系数的OLS估计量是最优线性
12、无偏估计(BLUE),此外,估计量 本身也是正态分布,其均值等于 ,而方差 遵循自由度为n-3的2分布,并且三个OLS估计量均独立于 而分布,在标准误的计算中,由它的无偏估计 替代时,我们有:均服从自由度为n-3的t分布。132,和132,和22/)3(n2)(111set22)(222set)(333set注意,自由度为n-3是因为我们在计算 和 之前,我们必须先要估计三个回归系数,从而给残差平方和(RSS)的计算加上了三个约束。于是,t分布可用于建立关于真实总体偏回归系数的置信区域并检验统计假设。同理2分布可用于检验关于真实 的假设。一个例子:美国个人消费与个人可支配收入的关系假设我们要研
13、究在过去几年中美国个人消费支出的行为,用了下述简单模型:其中 Y:个人消费支出(PCE)X2:个人可支配收入(PDI)X3:以年计的时间 在用到时间序列数据的回归分析中,我们通常引进一个时间或趋势变量。2iu22iiXXXXYE3322132),|(对上述回归方程结果解释如下:如果把X2和X3固定在零处,则个人消费支出的均值估计为531.6亿美元;偏回归系数0.7266是说,保持其他变量(X3)不变,个人收入每增加1美元,平均消费支出增加约73美分。同理,若X2不变,平均个人消费支出估计每年约增加27亿美元。R2值为0.9988,表明两个解释变量解释了1956-1970年间美国个人消费支出的变
14、异约99.9%。校正的R2值则表明考虑了自由度的作用后,X2和X3仍解释Y的变异的99.8%。我们根据表8.1中的数据,估计回归线如下:2.2 复回归中的假设检验:总评一旦我们走出简单的双变量线性回归模型的范围,假设检验就会以多种有趣的形式出现,诸如:1.检验关于个别偏回归系数的假设。2.检验所估计的复回归模型的总显著性,也就是要判别是否全部偏回归系数同时为零。3.检验两个或多个系数是否相等。4.检验偏回归系数是否满足某种约束条件。5.检验所估计的回归模型在时间上或在不同横截面单元上的稳定性。6.检验回归模型的函数形式。因为在经验分析中常常出现这些类型的一种或多种检验,我们将分节讨论每一种类型
15、的检验。2.3 检验关于个别偏回归系数的假设如果假设 成立,我们可以用t检验统计量对任一偏回归系数进行检验。我们设:虚拟假设的意思是:保持X3不变,个人可支配收入对个人消费支出无(线性)影响。为了检验这个虚拟假设,我们利用t检验。如果计算的t值超过了选定显著水平的临界t值,就可以拒绝假设;否则,就不拒绝它。如果取=0.05,对于12个自由度有t/2=2.179(双尾检验)。由于计算的t值14.9060远远超过临界t值2.179,故我们拒绝原假设,在统计上是显著的,或显著地异于零。),0(2Nui0:0:2120HH9060.140487.07266.0t2从图解上来展示这一情形。我们曾在前面看
16、到假设检验和置信区间估计之间存在密切关系:2的95%置信区间是:具体的数值是:)()(22/2222/2setset8327.06205.00487.0179.27266.00487.0179.27266.022也就是说,2以95%的置信系数落在0.6205与0.8327之间。这样,如果选取了样本容量为15的100个样本,构造100个这样的置信区间,则我们预测其中95个包含着真实的2值。由于虚拟假设2=0下,计算的t统计变量的值14.9060没有落在这个区间内,从而我们拒绝虚假假设H0。事实上,我们注意:各个回归系数的p值都异常的低,表明每个回归系数都在一个比5%或1%低得多的显著水平上,是统
17、计上显著的。2.4 检验样本回归的总显著性上面我们讨论的仅仅是对个别的系数的显著性进行检验,下面我们考虑虚拟假设,H0:2=3=0,是关于2和3联合地或者同时地等于零的一个联合假设。对象这样的一个假设检验称之为对回归的总显著性检验。我们在上面的讨论中逐一地检验了偏回归系数的个别显著性,为什么还有对样本回归进行总显著性检验?事实上,上述单个检验我们只能够保证每个偏回归系数单独地来看,在统计上显著的不为零,但是我们无法保证他们联合起来共同的不为零。用统计的话说:“检验一个个假设,不等于联合地检验同样的这些假设。其直观上的理由是,在对几个假设的联合检验中,任一单一假设都受其他假设所含信息的影响。”那
18、么,我们如何联合检验虚拟假设H0:2=3=0?检验复回归的总显著性的方差分析法:F检验回忆等式:按照方差分析(ANOVA)程序,列出方差分析表:)()()(233222残差平方和解释平方和总平方和RSSESSTSSuxyxyyiiiiii我们可以证明,在ui的正态分布的假设下,构造一个F变量:服从自由度为2和(n-3)的F分布。上述F有什么用?我们进一步可以证明,若 则:若2=3=0,便能证明:也就是说,如果虚拟假设成立,上面两个式子都给出了真实方差的估计。因为,如果虚拟假设成立,说明Y与X2和X3的关系微不足道,Y的变异唯一的来源是ui所代表的随机因素。因而,如果虚拟假设不成立,X2和X3确
19、实影响了Y,则上述两个式子之间就不能画上等号。dfRSSdfESSnuxyxyFiiiii/)3/(2/)(23322),0(2Nui222)()3(EnuEi233222)(iiiixyxyE从而,F变量的值为偏回归系数同时为零的假设提供了一种假设检验。如果从上式中计算出来的F值大于给定显著性水平的F表中的临界值,我们就拒绝H0;否则就不拒绝它。另一种方法是如果所测的F的p值足够低,可以拒绝H0。如果取5%的显著性水平,F的临界值为3.89,显然所计算出的F值是显著的,从而我们拒绝H0:2=3=0。(如果虚拟假设成立,得到一个大于5129的F值的概率小于5%。)8781.51284308.6
20、5502.32982FF检验方法的一般性描述:顺便提及,大多数回归软件在方差分析表中,都给出了在虚拟假设i=0下的F值。R2和F之间的一个重要关系式刚才我们给出了一般化的F统计量,对F进行恒等变形。这里我们用到了定义R2=ESS/TSS。当R2越大,F值也就越大。如果R2=1,则F值为无限大。因此,F检验既是所估计回归的总显著性检验,也是R2的一个显著性检验。利用R2和F之间的关系,重新设计方差分析表(ANOVA):)/()1()1/(11/1/11)/()1/(F)/()1/(2222,1knRkRRRkknTSSESSTSSESSkknESSTSSESSkknknRSSkESSFFknRS
21、SkESSFknk变量可以变形如下:上述利用R2来表示F检验的好处是计算上的简便:只有知道R2就可以计算F值。2.5 检验两个回归系数是否相等在经典假设下,可以证明:服从自由度为(n-4)的t分布。而标准误则可以从下述我们熟悉的公式中得到:0:0:43431434304433221)或()或(我们要检验假设:假如在复回归中HHuXXXYiiiii4434343)()(ntset)(),cov(2)var()var()(434343se检验方法的步骤:1.估计 。2.大多数计算机软件包都提供所估计参数的方差和协方差。从而计算分母中的标准误。3.计算t值。4.如果计算出来的t值超过给定自由度的指定
22、显著性水平上的临界值,则拒绝虚拟假设;否则不拒绝虚拟假设。此外如果计算出来的t统计量的p值合理地低,也同样可以拒绝虚拟假设。43和),cov(2)var()(var43434343tt统计量,故构造因虚拟假设2.6 受约束的最小二乘法:检验线性等式约束条件考虑柯布-道格拉斯生产函数:(1)t检验法1ln,ln,ln,lnlnlnlnln32332203210321132则:若假设规模报酬不变,则:令:边同取对数:原式化成线性方程,两iiiiiiiiiuiiiuXXYKXLXQYuKLQeKLQi),cov(2)var()(var1)()()()(323232323232sett统计量:构造计算
23、t统计量的值,如果超过在选定显著性水平上的临界值,则拒绝不变规模报酬假设;否则不拒绝它。(2)F检验法由虚拟假设可知:因此,利用两等式之一,便可以消去方程中的一个系数,然后估计所得到的方程。其中Q/L产出与劳动比率,K/L资本与劳动比率,都具有重要的经济意义。322311或iiiiiiiiiiiiiiiiiiiiiuLKLQuXXXYuXXXuXXuXXY)ln()ln()()()1(3023302233203323033220留意方程是如何进行变换的。这种估计方程保证了两个投入要素的系数之和为1,因此所描述的方程被称为受约束的最小二乘(RLS)。下面构造F统计量进行检验:令:于是:观测次数数
24、:无约束回归中参数个)中是:线性约束个数(本例:受约束回归的:无约束回归的nkmuuRUR1RSS RSS22)/(/)()/(/)(222knumuuknRSSmRSSRSSFURURRURURR2.7 用复回归做预测在双变量回归模型中,我们可以(1)做均值预测,即预测总回归曲线上的点,以及(2)做个值预测,即给定X=X0预测Y的个值。复回归的估计结果也可以用于相同的目的,并且预测过程也不过是双变量模型的一个推广,只不过用于估计预测值的方差或标准误的公式更为复杂而已。回到本章的例子中:若给定1971年的数据:X2=567(10亿美元),X3=16,则:9297.508167363.25677266.01603.531997Y