1、第二讲 简单回归模型Simple Regression Model一、基本概念一、基本概念二、普通最小二乘法(二、普通最小二乘法(OLS)三、几个问题三、几个问题四、四、OLS估计量的性质估计量的性质第1页,共56页。回归的涵义回归的涵义 一个基本假定一个基本假定 总体回归函数总体回归函数一、基本概念一、基本概念第2页,共56页。回归的涵义回归的涵义o 最初的涵义:最初的涵义:回归(回归(regress)一词最早由英国生理学家高尔顿(一词最早由英国生理学家高尔顿(Galton)提出,用以指给定父母的身高后,儿女的身高有回复到人口)提出,用以指给定父母的身高后,儿女的身高有回复到人口总体平均身高
2、的趋势,即总体平均身高的趋势,即“回归到中等回归到中等”(regression to mediocrity)o 回归分析:在其他条件不变的情况下,考察一个变量对另一个回归分析:在其他条件不变的情况下,考察一个变量对另一个变量的影响。变量的影响。3第3页,共56页。回归的涵义回归的涵义X自变量自变量Independent variable解释变量解释变量Explanatory variable控制变量控制变量Control variable预测元预测元Predictor回归元回归元RegressorY因变量因变量Dependent variable被解释变量被解释变量Explained vari
3、able响应变量响应变量Response variable预测子预测子Predictand回归子回归子RegressandXYu 10,那那么么若若o 回归分析中的变量和参数回归分析中的变量和参数扰动项扰动项:误差项:误差项系数(斜率)系数(斜率):斜率参数:斜率参数系数(常数项)系数(常数项):截距参数:截距参数/uuXY/1010 4第4页,共56页。回归的涵义回归的涵义o 例子例子o简单回归分析(即只有一个解释变量)难以做到控制其他条件不变,简单回归分析(即只有一个解释变量)难以做到控制其他条件不变,但可以为我们学习多元回归分析(即两个及两个以上解释变量)奠定但可以为我们学习多元回归分析
4、(即两个及两个以上解释变量)奠定基础基础X价格价格教育教育教育教育Y需求量需求量收入收入总产出总产出其他其他条件条件收入收入其他商品价格其他商品价格个人偏好个人偏好工作经验工作经验个人能力个人能力家庭背景家庭背景物质资本投入物质资本投入劳动力投入劳动力投入技术技术5第5页,共56页。一个基本假定一个基本假定零条件均值假定(零条件均值假定(zero conditional mean assumption)o 如何保证其他条件不变?简单地,如果如何保证其他条件不变?简单地,如果X和和u是独立的,即是独立的,即X的变的变化不会对化不会对u造成影响,那么造成影响,那么 1 1就可以度量其他条件不变的情
5、况下就可以度量其他条件不变的情况下X对对Y的影响。在计量分析中,采用一个更弱一些的技术性假定的影响。在计量分析中,采用一个更弱一些的技术性假定零零条件均值假定条件均值假定o零条件均值假定的关键是假定零条件均值假定的关键是假定u的均值独立性,如果均值独立性成的均值独立性,如果均值独立性成立,那么立,那么u的条件均值必然等于零的条件均值必然等于零0)|(30)(2)()|(110 XuEuEuEXuEXuuXY、综综合合上上述述两两条条,有有:、可可以以通通过过标标准准化化令令即即,的的均均值值独独立立于于,假假定定、对对于于 6第6页,共56页。一个基本假定一个基本假定三个假定三个假定n u与与
6、X独立独立n u的均值独立于的均值独立于X(均值独立性)(均值独立性)n u与与X不相关不相关1.1是比是比2和和3更强的假定,而更强的假定,而2是比是比3更强的假定。对于回归分析,假更强的假定。对于回归分析,假定定2是必须的,但假定是必须的,但假定1和和3更易于理解更易于理解不不相相关关与与,即即或或意意味味着着事事实实上上,uXuXCorruXCovuEXuE0),(0),()()|(7第7页,共56页。总体回归函数总体回归函数o 总体回归函数(总体回归函数(population regression function,PRF)的的条条件件均均值值的的影影响响改改变变一一个个单单位位对对衡
7、衡量量了了因因此此,改改变变一一个个单单位位时时,当当称称为为非非系系统统性性成成分分。与与其其条条件件均均值值的的偏偏差差,表表示示分分;的的均均值值,称称为为系系统统性性成成取取某某一一确确定定值值时时表表示示总总体体回回归归函函数数为为:在在零零条条件件均均值值假假定定下下,YXXXXYEXYuYXXXXuXEXYE111010101010)()1()|(|)()|(8第8页,共56页。.x1x2总体回归函数总体回归函数E(y|x)=0+1xyf(y)x9第9页,共56页。.y4y1y2y3x1x2x3x4u1u2u3u4xyE(y|x)=0+1x总体回归函数总体回归函数10第10页,共
8、56页。OLS的推导的推导 OLS的推导:另一种方法的推导:另一种方法 OLS的计算步骤的计算步骤 拟合优度拟合优度二、普通最小二乘法(二、普通最小二乘法(OLS)第11页,共56页。OLS的推导的推导n 为了估计出总体回归函数中的参数,需要从总体中抽取一个样本。为了估计出总体回归函数中的参数,需要从总体中抽取一个样本。用用(Xi,Yi):i=1,n 表示从总体中得到的一个样本容量为表示从总体中得到的一个样本容量为n的随的随机样本。有机样本。有:n Yi=0 0+1 1Xi+ui12第12页,共56页。OLS的推导的推导根据零条件均值假定,根据零条件均值假定,Cov(X,u)=E(Xu)E(X
9、)E(u)=E(Xu)=0所以:所以:E(Y 0 0 1 1X)=0 EX(Y 0 0 1 1X)=0 00(1101110110101010 niiiiniiiXYXnXYnX)YXXY 的的样样本本均均值值分分别别为为:和和则则随随机机变变量量的的估估计计量量,和和分分别别为为总总体体参参数数和和令令13第13页,共56页。OLS的推导的推导n 即:即:niiiniiniiiniiiniiiiniiiiXXYYXXXXXYYXXXYYXXYXnXYXY1211111111110110100)(0 有:有:代入:代入:或或14第14页,共56页。OLS的推导的推导n 普通最小二乘(普通最小二
10、乘(ordinary least square,OLS)估计量)估计量 的的普普通通最最小小二二乘乘估估计计量量和和称称为为和和通通过过上上述述方方法法得得到到的的且且有有:,那那么么:如如果果1010101211120 XY XXYYXXXXniiiniinii 15第15页,共56页。OLS的推导的推导000000)()(11)(11111211122 ,则,则负相关,即负相关,即和和如果如果,则,则不相关,即不相关,即和和如果如果,则,则正相关,即正相关,即和和可见,如果可见,如果所以:所以:的样本协方差:的样本协方差:和和的样本方差:的样本方差:XYXYXYXXYiniiXYniiXS
11、YXSYXSYXSSYYXXnSYXXXnSX进一步的分析进一步的分析16第16页,共56页。OLS的推导的推导n 拟合值(拟合值(fitted value)、残差()、残差(residual)和样本回归函数)和样本回归函数(sample regression function,SRF)的值的值时时表示表示的变化量的变化量变化一个单位时变化一个单位时,表示,表示的样本回归函数的样本回归函数为总体回归函数为总体回归函数定义定义时的残差时的残差为为定义定义的拟合值的拟合值时时为为定义定义YXYXXYXX|YEXYXXXYYYuYXXXYiiiiiiiii0)(0110101010 17第17页,共
12、56页。.y4y1y2y3x1x2x3x41234xyxy10SRFOLS的推导的推导18第18页,共56页。.y4y1y2y3x1x2x3x4xyxy 10 SRF1OLS的推导的推导SRF2xy10 n 不同的样本得到不同的样本回归函数不同的样本得到不同的样本回归函数19第19页,共56页。OLS的推导:另一种方法的推导:另一种方法o 基本思想:找到参数的合适估计值使得基本思想:找到参数的合适估计值使得Y的拟合值与实际值总体的拟合值与实际值总体而言尽可能地接近,也就是总体而言令残差最小而言尽可能地接近,也就是总体而言令残差最小6362)()(0/0/)()(min1021101210121
13、210 pXYXXYYXXQQXYYYuQiiiniiiniiinii证证明明过过程程见见课课本本一一阶阶条条件件:最最小小,即即:,使使得得残残差差的的平平方方之之和和和和找找到到 20第20页,共56页。OLS的计算步骤的计算步骤OLS的计算步骤的计算步骤XYXXYYXXXXYYXXYYXXYXiiiiiiii 10212)()()()()()(第第五五步步:第第四四步步:和和第第三三步步:计计算算和和第第二二步步:计计算算和和第第一一步步:计计算算21第21页,共56页。OLS的计算步骤的计算步骤例题例题2_1(课本(课本p31:例:例2.3)salary:CEO的薪水的薪水roe:公司
14、的股本回报率:公司的股本回报率o OLS估计:估计:方法一:用方法一:用excel方法二:用方法二:用stata(先请看(先请看“课程相关材料课程相关材料”中中“stata基本操作基本操作”)o结果:结果:roe.salary50118191963 22第22页,共56页。拟合优度拟合优度o 为了衡量根据为了衡量根据OLS估计得出的样本回归函数对真实数据的拟估计得出的样本回归函数对真实数据的拟合程度,引入合程度,引入拟合优度(拟合优度(goodness of fitness)的概念的概念 niiniiniiniiuYYYYpYYYY12121212)()(37)():可可以以证证明明(课课本本
15、的的样样本本总总变变异异。即即在在样样本本中中的的离离散散程程度度,衡衡量量用用23第23页,共56页。拟合优度拟合优度o图解图解XiSRFYiABC iYYABuBCYYACYYiii 残残差差部部分分:被被解解释释部部分分:总总体体变变异异:24第24页,共56页。拟合优度拟合优度v 总平方和(总平方和(total sum of squares,SST):):衡量衡量Y的样本总变异的样本总变异v 解释平方和(解释平方和(explained sum of squares,SSE):):Y的样本总变异能够被的样本总变异能够被解释变量解释的部分解释变量解释的部分v 残差平方和(残差平方和(res
16、idual sum of squares,SSR):):Y的样本总变异不的样本总变异不能被解释变量解释的部分,也称为剩余平方和能被解释变量解释的部分,也称为剩余平方和SSRSSESSTuSSRYYSSEYYSSTniiniinii 有有:121212)()(25第25页,共56页。拟合优度拟合优度判定系数(判定系数(coefficient of determination)o注意:判定系数并不是判断模型好坏的主要标准!注意:判定系数并不是判断模型好坏的主要标准!为为样样本本相相关关系系数数因因此此也也称称,此此外外,可可以以证证明明优优度度越越好好。越越大大,说说明明模模型型的的拟拟合合,易易
17、知知,异异被被模模型型解解释释的的比比例例,表表示示因因变变量量的的样样本本总总变变为为模模型型的的判判定定系系数数,定定义义:RSSSRR:RRRSSTSSRSSTSSERYXXYXY 2222201126第26页,共56页。拟合优度拟合优度判定系数的计算判定系数的计算SSTSSRSSTSSERYYSSTuSSRYYSSEYYuXY2iiiiiiii 1)(,)(,2221001或或第第五五步步:第第四四步步:计计算算第第三三步步:计计算算第第二二步步:计计算算和和第第一一步步:估估算算 27第27页,共56页。拟合优度拟合优度例题例题2_2(课本(课本p38,例,例2.8)salary:薪
18、水薪水roe:股本回报率:股本回报率vR2=0.0132意味着股本回报率可以解释意味着股本回报率可以解释CEO薪水变异的薪水变异的1.3%01320209501.18191.963.Rnroesalary2 ,28第28页,共56页。测量单位测量单位 函数形式函数形式 过原点回归过原点回归三、几个问题三、几个问题第29页,共56页。测量单位测量单位解释变量或解释变量或/和被解释变量的测量单位变化会改变回归结果和被解释变量的测量单位变化会改变回归结果o 例题例题2_3roesalarysalaryroesalarysalaryroesalarysalary1.1850191.9631850196
19、3191%501.18191.963%本本回回报报率率(绝绝对对值值):薪薪水水(千千美美元元),股股)回回报报率率(:薪薪水水(美美元元),股股本本)本本回回报报率率(:薪薪水水(千千美美元元),股股30第30页,共56页。函数形式函数形式o线性模型(线性模型(Linear model):所谓线性,是指对参数是线性的,:所谓线性,是指对参数是线性的,并非指对变量是线性的。并非指对变量是线性的。XYXLnYXYXYeXLnYLnXYLnXLnY:deYcXYbXYXYaX2101010101010100210101)()1(.;.;.101 ;非非线线性性模模型型:倒倒数数模模型型:对对数数模
20、模型型指指数数模模型型:幂幂函函数数模模型型:多多项项式式模模型型:线线性性模模型型:31第31页,共56页。函数形式函数形式o如果对解释变量或被解释变量进行某种形式的函数变换,不会改变模如果对解释变量或被解释变量进行某种形式的函数变换,不会改变模型的参数线性性,但会使得模型的经济意义更为合理。我们讨论三种型的参数线性性,但会使得模型的经济意义更为合理。我们讨论三种常用的函数形式:常用的函数形式:o 对数对数-水平模型(水平模型(log-level)o 对数对数-对数模型(对数模型(log-log)o 水平水平-对数模型(对数模型(level-log)32第32页,共56页。函数形式函数形式对
21、数对数-水平模型(不变增长率模型)水平模型(不变增长率模型)。将将增增加加增增加加一一个个单单位位,那那么么即即如如果果的的相相对对变变化化量量,增增加加一一个个单单位位引引起起的的表表示示可可见见,右右边边左左边边求求偏偏导导:对对样样本本回回归归函函数数:模模型型%100/111111010 YXYXXYYXYYXYLnXXYLnuXLnY:33第33页,共56页。函数形式函数形式o 对数对数-水平模型:工资模型水平模型:工资模型WSSeW10 LnWSSLnW10 34第34页,共56页。函数形式函数形式例题例题2_4:对数:对数-水平模型(课本水平模型(课本p42,例例2.10)%.R
22、neduc.wage)Lneducwage23811860,52608305840(年年,平平均均而而言言工工资资增增加加表表明明受受教教育育年年限限每每增增加加:受受教教育育年年限限:工工资资 35第35页,共56页。函数形式函数形式o 对数对数-对数模型(常弹性模型)对数模型(常弹性模型)。将将增增加加,那那么么增增加加如如果果的的弹弹性性系系数数,与与为为可可见见,右右边边左左边边求求偏偏导导:对对于于样样本本回回归归函函数数:模模型型%1/11111111010 Y%XXYXXYYXXLnXXYYXYLnXLnXYLnuLnXLnY:36第36页,共56页。函数形式函数形式o对数对数-
23、对数模型:需求价格弹性对数模型:需求价格弹性QdP10 PeQd LnQdLnPLnPLnQd10 37第37页,共56页。函数形式函数形式例题例题2_5:对数:对数-对数模型(课本对数模型(课本p42,例例2.11)%257012110209)(25708224)(.CEO%.R,nsalesLn.salaryLnsalessalary2的的薪薪水水增增加加,平平均均而而言言表表明明公公司司销销售售额额每每增增加加:销销售售额额:薪薪水水 38第38页,共56页。函数形式函数形式o 水平水平-对数模型对数模型个单位。个单位。将增加将增加那么平均而言那么平均而言,增加增加表示:如果表示:如果可
24、见,可见,右边右边左边左边求偏导:求偏导:对于对于样本回归函数:样本回归函数:模型模型100/1/11111111010 Y%XXXYXXLnXXYXLnXYuLnXY:39第39页,共56页。函数形式函数形式例题例题2_6:水平:水平-对数模型对数模型亿亿美美元元平平均均而而言言约约增增加加则则,增增加加年年间间美美国国的的货货币币供供给给每每表表明明:与与货货币币供供给给的的数数据据得得到到年年美美国国根根据据85251198719738258401632919871973.GNP%LnM.GNPGNP 40第40页,共56页。过原点回归过原点回归o 在分析经济问题时有时要求被解释变量为在
25、分析经济问题时有时要求被解释变量为0时解释变量也为时解释变量也为0,此,此时需要用到过原点回归(时需要用到过原点回归(regression through the origin)o 实例:实例:可变成本正比于产量可变成本正比于产量永久性消费正比于永久性收入永久性消费正比于永久性收入 通货膨胀率正比于货币供给量通货膨胀率正比于货币供给量o 此时此时1 的的OLS估计量同样由前面给出的公式计算估计量同样由前面给出的公式计算uXY 1 即即:41第41页,共56页。简单回归模型的高斯简单回归模型的高斯-马尔科夫假定马尔科夫假定 OLS估计量的无偏性估计量的无偏性 OLS估计量的方差估计量的方差 OL
26、S估计量的有效性估计量的有效性四、四、OLS估计量的性质估计量的性质第42页,共56页。简单回归模型的高斯简单回归模型的高斯-马尔科夫假定马尔科夫假定o 以上介绍了回归系数的以上介绍了回归系数的OLS点估计,但为了判断点估计的无点估计,但为了判断点估计的无偏性、有效性等性质以及进行假设检验,还需对回归模型做偏性、有效性等性质以及进行假设检验,还需对回归模型做出一些假定出一些假定o 简单回归模型的高斯简单回归模型的高斯-马尔科夫假定马尔科夫假定2XuVarSLRXuESLRXSLRSLRSLRuXY )|(5.0)|(04.3.2.1.10件件方方差差为为常常数数,即即同同方方差差性性:误误差差
27、项项的的条条,即即条条件件均均值值为为零零条条件件均均值值:误误差差项项的的的的样样本本具具有有一一定定的的变变异异:解解释释变变量量样样本本的的变变异异性性的的从从总总体体中中随随机机抽抽样样得得到到样样本本的的随随机机性性:样样本本是是的的型型对对于于参参数数而而言言是是线线性性参参数数的的线线性性性性:回回归归模模对对于于总总体体回回归归函函数数43第43页,共56页。简单回归模型的高斯简单回归模型的高斯-马尔科夫假定马尔科夫假定o 同方差性(同方差性(homoscedasticity):误差项的条件方差相同:误差项的条件方差相同o 异方差性(异方差性(heteroscedasticit
28、y):误差项的条件方差不相同:误差项的条件方差不相同2102102210)|()|()|()|()|()|()|()|(iiiiiiiiiiiiiiiiiiiiXuVarXuXVarXYVarXuVarXuXVarXYVarXuVarXuVaruXY 异异方方差差性性:同同方方差差性性:也也即即:异异方方差差性性:同同方方差差性性:对对于于44第44页,共56页。简单回归模型的高斯简单回归模型的高斯-马尔科夫假定马尔科夫假定同方差性同方差性XY概概率率密密度度X:受教育年限:受教育年限Y:工资:工资45第45页,共56页。简单回归模型的高斯简单回归模型的高斯-马尔科夫假定马尔科夫假定异方差性异
29、方差性XY概概率率密密度度X:受教育年限:受教育年限Y:工资:工资46第46页,共56页。简单回归模型的高斯简单回归模型的高斯-马尔科夫假定马尔科夫假定异方差性异方差性XY概概率率密密度度X:时间:时间Y:打字正确率:打字正确率47第47页,共56页。OLS估计量的无偏性估计量的无偏性OLS估计量的无偏性估计量的无偏性o 证明见课本证明见课本p47-48o 在保证在保证OLS估计量无偏性的四个假定中,零条件均值假定(估计量无偏性的四个假定中,零条件均值假定(SLR.4)可能是最难被满足的,在今后的学习中我们将反复讨)可能是最难被满足的,在今后的学习中我们将反复讨论这个问题。(参看课本论这个问题
30、。(参看课本p48,例,例2.12)o无偏性无法保证无偏性无法保证OLS估计量的离散程度,因此还需要讨论估计量的有估计量的离散程度,因此还需要讨论估计量的有效性效性11001010)(,)(41 EEOLSSLR.的无偏估计量。即:的无偏估计量。即:、分别是分别是、估计量估计量下,下,在假定在假定48第48页,共56页。OLS估计量的方差估计量的方差回归标准误(回归标准误(standard error of the regression)o 证明见课本证明见课本p54为为回回归归标标准准误误称称,无无偏偏估估计计量量为为:的的差差项项方方差差的的假假设设下下,可可以以证证明明误误在在 2222
31、22151 suns.SLRi49第49页,共56页。OLS估计量的方差估计量的方差回归标准误的计算步骤回归标准误的计算步骤 22100121)(iiiiiiiunuXYYYu 第第四四步步:第第三三步步:计计算算第第二二步步:和和第第一一步步:估估算算出出50第50页,共56页。OLS估计量的方差估计量的方差OLS估计量的方差估计和标准差估计估计量的方差估计和标准差估计o在得出回归标准误后,可以证明回归系数的方差估计和标准差估计(在得出回归标准误后,可以证明回归系数的方差估计和标准差估计(即标准误,即标准误,standard error)为(课本)为(课本p52):):22022202212
32、212)()()()()(1)()(1)(0011XXnXSEXXnXVarXXSEXXVariiiiii51第51页,共56页。OLS估计量的方差估计量的方差OLS估计量的标准误的计算步骤估计量的标准误的计算步骤 220221)()()(1)(XXnXSEXXXSEiiii第第四四步步:第第三三步步:计计算算第第二二步步:第第一一步步:估估算算出出52第52页,共56页。OLS估计量的方差估计量的方差例题例题2_7salary:薪水薪水roe:股本回报率:股本回报率5551366)123.11()240.213(501.18191.963.SEroesalary回回归归标标准准误误为为:53
33、第53页,共56页。OLS估计量的有效性估计量的有效性OLS估计量的有效性估计量的有效性o证明见课本证明见课本p108,附录,附录3A.6。,都有,都有和和计量计量,且对于任意的线性估,且对于任意的线性估即:即:)。)。(的最优线性无偏估计量的最优线性无偏估计量、分别是分别是、估计量估计量下,下,在模型假定在模型假定)()()()()(,)(511100101001010 VarVarVarVarEEBLUEOLSSLR.1 54第54页,共56页。OLS估计量的有效性估计量的有效性OLS估计量的性质估计量的性质高斯高斯-马尔科夫定理马尔科夫定理)。)。(的最优线性无偏估计量的最优线性无偏估计量、分别是分别是、估计量估计量下,下,在假定在假定的无偏估计量。的无偏估计量。、分别是分别是、估计量估计量下,下,在假定在假定BLUEOLSSLR.OLSSLR.101010105141 55第55页,共56页。习题习题2.42.9C2.3C2.456第56页,共56页。