1、ppt课件.11ppt课件.22ch2 简单一元回归简单一元回归(1) y = b0 + b1x + uppt课件.33本章大纲本章大纲l简单回归模型的定义l普通最小二乘法的推导lOLS的估计量的统计性质及分布l一元线性回归模型的统计检验l一元线性回归方程的预测l 案例分析l度量单位和函数、过原点回归ppt课件.44ppt课件.55讲义大纲讲义大纲l回归的含义l总体回归函数l样本回归函数lu值的假定l普通最小二乘法的推导ppt课件.66ReferencelJensen,M.C.(1968) The Performance of Mutual Funds in the Period 1945-1
2、968, Journal of Economical 6,389-416l Clare, A.D. and Thomas, S.H.(1995) The Overreaction Hypothesis and the UK Stock Market , Journal of Business Finance and Accounting 22(7), 961-973ppt课件.7 回归的历史含义回归的历史含义l F.加尔顿最先使用“回归(regression)”。l 父母高,子女也高;父母矮,子女也矮。l 给定父母的身高,子女平均身高趋向于“回归”到全体人口的平均身高。ppt课件.8 回归的现
3、代释义回归的现代释义回归分析回归分析用于研究一个变量关于另一个(些)变量的具体依赖关用于研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。系的计算方法和理论。l 商品需求函数:ntunemploymebainflation12)(TRbaTaxbPaQl 生产函数:LKAQlnlnlnlnl 菲利普斯曲线:l 拉弗曲线:ppt课件.9l 等式左边的变量被称为被解释变量(被解释变量(Explained Variable)、因因 变量变量 (Dependent Variable)、)、左边变量、或回归子。l 等式右边的变量被称为解释变量(解释变量(Explanaiory Variab
4、le)或自自 变量(变量(Independent Variable)、)、右边变量、回归元,协变量,或控制变量。 一元回归的现代释义一元回归的现代释义 简单一元回归模型:y y = = b b0 0 + + b b1 1x x + + u ul 等式y y = = b b0 0 + + b b1 1x x + + u u只有一个非常数回归元。我们称之为简单回归模型简单回归模型, 两变量回归模型或双变量回归模型.ppt课件.10 回归分析的目的回归分析的目的l 根据自变量的值,估计因变量的均值。l 检验(基于经济理论的)假设。l 根据样本外自变量的值,预测因变量的均值。ppt课件.11 回归与因
5、果关系回归与因果关系从逻辑上说,从逻辑上说,统计关系式本身不可能意味着任何因果关系。统计关系式本身不可能意味着任何因果关系。“一个统计关系式,不管多强也不管多么有启发性,却永远不能确立因果方面的联系:对因果关系的理念,必须来自统计学以外,最终来自这种或那种理论。” Kendall 和Stuart前面四个例子都是基于经济理论设定的,包括身高和体重的关系。ppt课件.1212二、总体回归函数二、总体回归函数回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。ppt课件.1313m例例2.12.1:一
6、个假想的社区有一个假想的社区有6060户家庭组成,要研究该社区每月家庭户家庭组成,要研究该社区每月家庭消费支出消费支出Y Y与每月家庭可支配收入与每月家庭可支配收入X X的关系。的关系。 即如果知道了家庭的即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。月收入,能否预测该社区家庭的平均月消费支出水平。 为达到此目的,将该为达到此目的,将该1010户家庭划分为组内收入差不多的户家庭划分为组内收入差不多的1010组,组,以分析每一收入组的家庭消费支出。以分析每一收入组的家庭消费支出。 案例:案例:ppt课件.14 XY8010012014016018020022024026055
7、657980102110120135137150607084931071151361371451526574909511012014014015517570809410311613014415216517875859810811813514515717518088113125140160189185115162191户数户数5657665765总支出总支出32546244570767875068510439661211表表2.1.1 某社区家庭每月收入与消费支出统计表某社区家庭每月收入与消费支出统计表ppt课件.15(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(
8、2)但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditional distribution)是已知的, 如: P(Y=55|X=80)=1/5。(3)因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditional mean)或条件期望(conditional expectation): E(Y|X=XE(Y|X=Xi i) )(4)该例中: E(Y | X=80)=651. 1. 分析分析ppt课件.16 描出散点图发现:随着收入的增加,消费描出散点图发现:随着收入的增加,消费“平均地说平均地说”也在增加,且也在增加,且Y
9、的的条件均值均落在一根正斜率的直线上。这条直线称为条件均值均落在一根正斜率的直线上。这条直线称为总体回归线总体回归线。E(Y|Xi) = 0 + 1Xi=17.00+0.6Xippt课件.1717m 在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线总体回归线(population regression line),或更一般地称为总体回归曲线总体回归曲线(population regression curve)。)()|(iiXfXYE 称为(双变量)总体回归函数总体回归函数(population regression function, , PRFPRF)。 l 相应的函数:其中
10、: Y被解释变量; X解释变量; 0,1回归系数(待定系数或待估参数) 2. 2. 总体回归函数总体回归函数ppt课件.18l含义:含义:回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。a. 函数形式:函数形式:可以是线性或非线性的。b. 例2.1中,将居民消费支出看成是其可支配收入的线性函数时: iiXXYE10)|(为一线性函数。线性函数。其中,0,1是未知参数,称为回归系回归系数数(regression coefficients)。18ppt课件.191919m 0 , 1被称为回归系数。 0也被称为常数项或截矩项,或截矩参数。 1代表了回归元x的边际
11、效果,也被成为斜率参数。l术语注解:术语注解:y = 0 + 1 x + uu 为误差项或扰动项,它代表了除了x之外可以影响y的因素。l线性回归的含义:线性回归的含义: y 和x 之间并不一定存在线性关系,但是,只要通过转换可以使y的转换形式和x的转换形式存在相对于参数的线性关系,该模型即称为线性模型线性模型。ppt课件.20l 对于某一个家庭,如何描述可支配收入和消费支出的关系对于某一个家庭,如何描述可支配收入和消费支出的关系? ?某个家庭的消费支出分为两部分:一是某个家庭的消费支出分为两部分:一是E(Y|XE(Y|Xi i)=)= 0 0 + + 1 1 X Xi i ,称为系统成,称为系
12、统成分或分或确定性成分确定性成分;二是;二是u ui i,称为非系统或,称为非系统或随机性成分随机性成分。Yi=E(Y|Xi) + ui = 0 + 1 Xi + ui 总体回归函数的随机设定总体回归函数的随机设定ppt课件.21Yi= 0 + 1 Xi + uiE(Y|Xi) = 0 + 1 Xi, l 随机性总体回归函数随机性总体回归函数l 确定性总体回归函数确定性总体回归函数ppt课件.22l 反映被忽略掉的因素对被解释变量的影响。 或者理论不够完善,或者数据缺失;或者影响轻微。l 模型设定误差l 度量误差l 人类行为内在的随机性 随机误差项随机误差项u的意义:的意义:ppt课件.23l
13、在解释变量中被忽略的因素的影响;l变量观测值的观测误差的影响;l残缺数据;l模型关系的设定误差的影响;l其他随机因素的影响。23 随机误差项主要包括下列因素:随机误差项主要包括下列因素:l 理论的含糊性; l 数据的欠缺; l 节省原则。 产生并设计随机误差项的主要原因:产生并设计随机误差项的主要原因:ppt课件.24 XY8010012014016018020022024026055135137609310711565749511012014017594103144178759810813517588113125189115162191户数户数4226331333总支出总支出25516219
14、2627342370144337501544为研究总体,我们需要抽取一定的样本。 第一个样本第一个样本ppt课件.25样本回归线样本回归线样本均值连线样本均值连线ppt课件.26 XY801001201401601802002202402606579102120135607084931151451527490155801161441521657585118145180140160189185115户数户数2532323343总支出总支出135374253208336255409447654517 第二个样本第二个样本ppt课件.27样本回归线样本回归线样本均值连线样本均值连线ppt课件.28
15、总体回归模型和样本回归模型的比较总体回归模型和样本回归模型的比较ppt课件.29XiYiY1Y2Y3u1u2u3e2e3e1E(Y|Xi) = 0 + 1 XiiiXY10注意:分清几个关系式和表示符号注意:分清几个关系式和表示符号(2)样本(估计的)样本(估计的)回归直线回归直线:(3)总体(真实的)总体(真实的)回归函数回归函数: (4)样本(估计的)样本(估计的)回归函数回归函数: (1)总体(真实的)总体(真实的)回归直线回归直线: iiiuXY10iiX)X|Y(E10iiieXY10iiXY10ui随机误差项随机误差项ei残差项残差项ppt课件.3030mA simple wage
16、 equationwage= wage= 0 0 + + 1 (years of education)(years of education) + + u um 1 : if education increase by one year, how much more wage will one gain.m上述简单工资函数描述了受教育年限和工资之间的关系, 1衡量了多接受一年教育工资可以增加多少。 简单二元回归模型例子简单二元回归模型例子ppt课件.3131l 我们假定总体中误差项u的平均值为零. 该假定是否具有很大的限制性呢?lIf for example, E(u)=5. Then y =
17、 ( y = ( 0+5)+ +5)+ 1 x + (u-5),x + (u-5),therefore, E(u)=E(u-5)=0. 上述推导说明我们总可以通过调整常数项来实现误差项的均值为零, 因此该假定的限制性不大. 关于关于u的假定的假定ppt课件.3232l我们需要对u和 x之间的关系做一个关键假定。理想状况是对x的了解并不增加对u的任何信息。换句话说,我们需要u和 x完全不相关。 条件期望零值假定条件期望零值假定l由于我们已经假定了E(u) = 0,因此有E(u|x) = E(u) = 0。该假定是何含义?l在教育(上述)一例中,假定u 代表内在能力,条件期望零值假定说明不管解释教
18、育的年限如何,该能力的平均值相同。 l 公式(2.6)说明总体回归函数应满足E(y|x) = 0 + 1 x。该函数是x的线性函数,y的分布以它为中心。ppt课件.3333.x1=5x2 =10E(y|x) = 0 + 1xyf(y)给定x时y的条件分布l简单回归模型的定义简单回归模型的定义ppt课件.3434ppt课件.35对于所研究的经济问题,通常总体回归直线对于所研究的经济问题,通常总体回归直线 E(Yi|Xi) = 0 + 1Xi 是观测不到是观测不到的。可以通过收集样本来对总体(真实的)回归直线做出估计。的。可以通过收集样本来对总体(真实的)回归直线做出估计。 样本回归模型:样本回归
19、模型: iiXY10其中:其中: 为为Yi的估计值(拟合值);的估计值(拟合值);iY10,为为 0 , 1 的估计值;的估计值;iiieXY10ei为残差,可视为为残差,可视为ui的估计值。的估计值。或:或:ppt课件.364060801001201401601802004080120160200240280XY如何得到一条能够较好地反映这些点变化规律的直线呢?ppt课件.3737一、回归的基本思想:一、回归的基本思想:从样本去估计总体参数从样本去估计总体参数l 例子:我们用(xi, yi ): i=1, ,n 来表示一个随机样本,样本量为n,并假定每一观测值满足yi = 0 + 1xi +
20、 ui。ppt课件.3838.y4y1y2y3x1x2x3x4u1u2u3u4xyl 总体回归线,样本观察点和相应误差E(y|x) = 0 + 1xppt课件.39l OLSOLS的定义:的定义:最小二乘法(又称最小平方法)最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。该方法是应用最多的参数估计方法之参数估计方法之一一。二、二、普通最小二乘普通最小二乘(Ordinary Least Squares, OLS)的推导的推导ppt课件.40lOLS的原理:
21、构造合适的估计量,使得的原理:构造合适的估计量,使得“残差平方和残差平方和(residual sum of squares,RSS)”最小。(最小。(Q为残差平方和)为残差平方和)Q = niie12niiiYY12)(=niiiXY1210)(则通过则通过Q最小确定这条直线,即确定最小确定这条直线,即确定 ,以,以 为变量,把它们看作为变量,把它们看作是是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。的函数,就变成了一个求极值的问题,可以通过求导数得到。10,10,iiiiiiXYeeXY1010 样本回归模型:样本回归模型: ppt课件.41l则通过则通过Q最小确定这条直线,即确
22、定最小确定这条直线,即确定 ,以,以 为变量,把它们看作为变量,把它们看作是是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。的函数,就变成了一个求极值的问题,可以通过求导数得到。10,10,求求QQ对对 两个待估参数两个待估参数 的偏导数:的偏导数:0Q= ) 1( )(2110niiiXY= 01Q= )( )(2110iniiiXXY= 000iiiXee即即ppt课件.42221)()(iiiiiixyxXXYYXXXY10l 根据以上两个偏导方程得以下正规方程正规方程(Normal equation) :iiXnY10210iiiiXXXY)为离差。()和(的均值,、分别为和
23、其中YYyXXxYXYXiiii,ppt课件.4343l To derive the OLS estimator we need to realize that our main assumption of E(u|x) = E(u) = 0 also implies thatCov(x,u) = E(xu) = 0 Why? Remember from basic probability that Cov(X,Y) = E(XY) E(X)E(Y) 由E(u|x) = E(u) = 0 可得Cov(x,u) = E(xu) = 0。三、三、OLSOLS的矩估计法(的矩估计法(MOM)MOM)
24、ppt课件.4444l We can write our 2 restrictions just in terms of x, y, 0 and 1 , since u = y 0 1x E(y 0 1x) = 0 Ex(y 0 1x) = 0These are called moment restrictions可将u = y 0 1x代入以得上述两个矩条件。l 矩方法是将总体的矩限制应用于样本中。ppt课件.4545 目标是通过选择参数值,使得在样本中矩条件也可以成立。 The sample versions are as follows:0011011101niiiiniiixyxnxy
25、nl 矩方法是将总体的矩限制应用于样本中。ppt课件.4646l根据样本均值的定义以及加总的性质,可将第一个条件写为xyxy1010or, 其中,.1,111niiniixnxynyppt课件.4747niiiniiniiiniiiniiiixxyyxxxxxyyxxxyyx12111111110l 整理,可得:0 that provided121211niiniiniiixxxxyyxxl 斜率为:ppt课件.4848l 矩估计的性质:斜率估计量等于样本中x 和 y 的协方差除以x的方差。若x 和 y 正相关则斜率为正,反之为负。其结果与普通最小二乘估计法一致;ppt课件.4949讲义总结讲义总结l 介绍简单线性回归模型l 介绍通过随机样本的数据运用普通最小二乘法估计斜率和截距的参数值ppt课件.50此课件下载可自行编辑修改,供参考!感谢您的支持,我们努力做得更好!