1、1 第一节第一节 回归分析与回归函数回归分析与回归函数 一、相关分析与回归分析一、相关分析与回归分析 (对统计学的回顾)(对统计学的回顾)1 1、经济变量之间的相互关系、经济变量之间的相互关系 性质上可能有三种情况性质上可能有三种情况:确定性的函数关系确定性的函数关系 Y=f(X)可用数学方法计算可用数学方法计算 不确定的统计关系不确定的统计关系相关关系相关关系 Y=f(X)+(为随机变量为随机变量)可用统计方法分析可用统计方法分析 没有关系没有关系 不用分析不用分析 相关关系的描述相关关系的描述 最直观的描述方式最直观的描述方式坐标图(散布图、散点图)坐标图(散布图、散点图)2函数关系函数关
2、系相关关系相关关系(线性线性)没有关系没有关系相关关系相关关系(非线性非线性)2、相关关系33 相关关系的类型类型 从涉及的变量数量看从涉及的变量数量看 简单相关简单相关 多重相关(复相关)多重相关(复相关)从变量相关关系的表现形式看从变量相关关系的表现形式看 线性相关线性相关散布图接近一条直线散布图接近一条直线 非线性相关非线性相关散布图接近一条曲线散布图接近一条曲线 从变量相关关系变化的方向看从变量相关关系变化的方向看 正相关正相关变量同方向变化,同增同减变量同方向变化,同增同减 负相关负相关变量反方向变化,一增一减变量反方向变化,一增一减 不相关不相关4 3、相关程度的度量相关系数 如果
3、如果 和和 总体的全部数据总体的全部数据都已知,都已知,和和 的方差和的方差和协方差也已知,则协方差也已知,则 X和和Y的的总体线性相关系数总体线性相关系数:其中:其中:-X 的方差的方差 -Y的方差的方差 -X和和Y的协方差的协方差特点:特点:总体相关系数只反映总体两个变量总体相关系数只反映总体两个变量 和和 的线性相关程度的线性相关程度对于特定的总体来说,对于特定的总体来说,和和 的数值是既定的,总体相关系的数值是既定的,总体相关系数数 是客观存在的特定数值。是客观存在的特定数值。总体的两个变量总体的两个变量 和和 的全部数值通常不可能直接观测,所的全部数值通常不可能直接观测,所以总体相关
4、系数一般是未知的。以总体相关系数一般是未知的。(,)()()Cov X YVar X Var Y(,)Cov X Y()Var X()Var YXXXXYYYYYX5如果只知道如果只知道 X 和和 Y 的样本观测值,则的样本观测值,则X和和Y的的样本线性样本线性相关系数为:相关系数为:其中:其中:和和 分别是变量分别是变量X和和Y的样本观测值,的样本观测值,和和 分别是变量分别是变量 X 和和Y 样本值的平均值样本值的平均值注意注意:是随抽样而变动的随机变量。是随抽样而变动的随机变量。iY_X_Y_22()()()()iiXYiiXX YYrXXYYiXXYrX和和Y的的样本线性相关系数样本线
5、性相关系数:相关系数较为简单相关系数较为简单,也可以在一定程度上测定变量也可以在一定程度上测定变量间的数量关系间的数量关系,但是对于具体研究变量间的数量规律但是对于具体研究变量间的数量规律性还有局限性。性还有局限性。X X和和Y Y 都是相互对称的随机变量,都是相互对称的随机变量,线性相关系数只反映变量间的线性相关程度,不线性相关系数只反映变量间的线性相关程度,不能说明非线性相关关系能说明非线性相关关系 样本相关系数是总体相关系数的样本估计值,由样本相关系数是总体相关系数的样本估计值,由于抽样波动,样本相关系数是随抽样而变动的随机变量,于抽样波动,样本相关系数是随抽样而变动的随机变量,其统计显
6、著性还有待检验其统计显著性还有待检验 6XYYXrr对相关系数的正确理解和使用对相关系数的正确理解和使用74 4、回归分析、回归分析回归的古典意义古典意义:高尔顿遗传学的回归概念高尔顿遗传学的回归概念 (父母身高与子女身高的关系父母身高与子女身高的关系)子女的身高有向人的平均身高子女的身高有向人的平均身高 回归回归 的趋势的趋势回归的现代意义现代意义:一个被解释变量对若干个一个被解释变量对若干个解释变量依存关系的研究解释变量依存关系的研究回归的目的目的(实质实质):由解释变量去估计被解释变由解释变量去估计被解释变量的平均值量的平均值8被解释变量被解释变量Y Y的的条件分布和条件概率条件分布和条
7、件概率:当解释变量当解释变量X X取某固定值时(条件),取某固定值时(条件),Y Y 的值不确定,的值不确定,Y Y的不同取值会形成一定的分布,这是的不同取值会形成一定的分布,这是 Y Y 的的条件分布条件分布。X X取某固定值时,取某固定值时,Y Y 取不同值的概率称为取不同值的概率称为条件概率条件概率。被解释变量被解释变量 Y Y 的的条件期望条件期望:对于对于 X X 的每一个取值,的每一个取值,对对 Y Y 所形成的分布确所形成的分布确 定其期望或均值,称定其期望或均值,称 为为 Y Y 的的条件期望或条件均条件期望或条件均 值,值,用用 表示。表示。注意注意:Y:Y的条件期望是随的条
8、件期望是随X X的变动而变动的的变动而变动的 iX)(iXYE)(iXYEYX明确几个概念明确几个概念(为深刻理解“回归”)9回归线回归线:对于每一个:对于每一个X的取值的取值 ,都有,都有Y的条件期望的条件期望 与之对应,代表与之对应,代表Y的条件期望的点的轨迹形成的条件期望的点的轨迹形成的直线或曲线称为回归线。的直线或曲线称为回归线。回归函数回归函数:被解释变量:被解释变量Y的条件期望的条件期望 随随解释变量解释变量X的变化而有规律的变化而有规律的变化,如果把的变化,如果把Y的条件期的条件期望表现为望表现为 X 的某种函数的某种函数 ,这个函数称为回归函数。这个函数称为回归函数。回归函数分
9、为:总体回归函数和样本回归函数回归函数分为:总体回归函数和样本回归函数 iXX YiX()iE Y X()iE Y X()iE Y XE()()iiY Xf X10每每 月月 家家 庭庭 可可 支支 配配 收收 入入 X3000350040004500500055006000650070007500181920272269230426462917306833834107426718472118236424352819302834883797431348001907221224242467293431663689410944575004每每2055224824732726302833213755
10、426146185241月月2195231325232828313135273899454647575408家家224524812581294632443690392047574972庭庭230725412675297634083829425347715172消消24092686271631503496399344414872费费270228173174352241744673支支281229363349367743504764出出2954338437764474Y Y302535143919313636584119332737472098241427303047336336793995431
11、246284944()iE Y X举例举例:假如已知由假如已知由100100个家庭构成的总体的数据个家庭构成的总体的数据 (单位单位:元元)二、总体回归函数二、总体回归函数(PRF)11消费支出的条件期望与收入关系的图形消费支出的条件期望与收入关系的图形对于本例的总体,家庭消费支出的条件期望对于本例的总体,家庭消费支出的条件期望与家庭收入与家庭收入 基本是线性关系基本是线性关系,可以把家庭消费支可以把家庭消费支出的条件均值表示为家庭收入的线性函数:出的条件均值表示为家庭收入的线性函数:iiXXYE)()(iXYE)(iXYEiXiX12 1.1.总体回归函数的概念总体回归函数的概念 前提:前提
12、:假如已知假如已知所研究的经济现象的总体的被解释变量所研究的经济现象的总体的被解释变量Y和解释变量和解释变量X的每个观测值的每个观测值(通常这是不可能的!)(通常这是不可能的!),那,那么,可以计算出总体被解释变量么,可以计算出总体被解释变量Y的条件期望的条件期望 ,并将其表现为解释变量并将其表现为解释变量X的某种函数的某种函数 这个函数称为这个函数称为总体回归函数(总体回归函数(PRF)本质本质:总体回归函数实际上表现的是特定总体中被解释变总体回归函数实际上表现的是特定总体中被解释变量随解释变量的变动而变动的某种规律性。量随解释变量的变动而变动的某种规律性。计量经济学的根本目的是要探寻变量间
13、数量关系的规律计量经济学的根本目的是要探寻变量间数量关系的规律,也也就要努力去寻求总体回归函数就要努力去寻求总体回归函数。)()(iiXfXYE)(iXYE13 iuiXXY)(iXYEiY条件期望条件期望表现形式表现形式例如例如Y的条件期望的条件期望 是解是解 释变量释变量X的线性函数,可表示为:的线性函数,可表示为:个别值个别值表现形式表现形式(随机设定形式)(随机设定形式)对于一定的对于一定的 ,Y的各个别值的各个别值 并不一定等于条件期望,而并不一定等于条件期望,而是分布在是分布在 的周围,若令各个的周围,若令各个 与条件期望与条件期望 的的偏差为偏差为 ,显然,显然 是个随机变量是个
14、随机变量 则有则有 iYiYiX)(iXYE12()()iiiiE Y Xf XX)(iXYE)(iXYEiuiuiiiiiiXYXYEYu21)(12iiiYXu2.2.总体回归函数的表现形式总体回归函数的表现形式PRF作为总体运行的客观规律,总体回归函数是客观存在作为总体运行的客观规律,总体回归函数是客观存在的,但在实际的经济研究中总体回归函数通常是的,但在实际的经济研究中总体回归函数通常是未知未知的,的,只能根据经济理论和实践经验去只能根据经济理论和实践经验去设定设定。计量经济学研究中计量经济学研究中“计量计量”的根本目的就是要寻求总体的根本目的就是要寻求总体回归函数。回归函数。我们所设
15、定的计量模型实际就是在设定总体回归函我们所设定的计量模型实际就是在设定总体回归函数的具体形式。数的具体形式。总体回归函数中总体回归函数中 Y Y 与与 X X 的关系可以是的关系可以是线性线性的,也可的,也可以是以是非线性非线性的。的。143.3.如何理解总体回归函数如何理解总体回归函数15注意:注意:在计量经济学中,线性回归模型主要指在计量经济学中,线性回归模型主要指就参数而言就参数而言是是“线线性性”的的,因为只要对参数而言是线性的因为只要对参数而言是线性的,都可以用类似的方法去估都可以用类似的方法去估计其参数,都可以归于线性回归。计其参数,都可以归于线性回归。iiiXXYE21)(12(
16、)lniiiE Y XXiiiXXYE21)(“线性线性”的判断的判断概念概念 在总体回归函数中,各个在总体回归函数中,各个 的值与其条件期望的值与其条件期望 的偏差的偏差 有很重有很重要的意义。若只有要的意义。若只有 的影响的影响,与与 不应有偏差。若偏不应有偏差。若偏差差 存在,说明还有其他影响因素。存在,说明还有其他影响因素。实际代表了排除在模型以外的所有因素对实际代表了排除在模型以外的所有因素对 Y 的影响。的影响。性质性质 是其期望为是其期望为 0 有一定分布的随机变量有一定分布的随机变量重要性:重要性:随机扰动项的性质决定着计量经济分析结随机扰动项的性质决定着计量经济分析结 果的性
17、质和计量经济方法的选择果的性质和计量经济方法的选择16iuiuiY)(iiXYEiuiXXY()iE Y XiYiuiY)(iiXYEXiu 三、随机扰动项三、随机扰动项 是是未知未知影响因素影响因素的代表的代表(理论的模糊性理论的模糊性)是是无法取得数据无法取得数据的已知影响因素的代表的已知影响因素的代表(数据欠缺数据欠缺)是是众多细小影响因素众多细小影响因素的综合代表的综合代表(非系统性影响非系统性影响)模型可能存在模型可能存在设定误差设定误差(变量、函数形式的设定)变量、函数形式的设定)模型中变量可能存在模型中变量可能存在观测误差观测误差(变量数据不符合实际变量数据不符合实际)变量可能有
18、内在变量可能有内在随机性随机性(人类经济行为的内在随机性人类经济行为的内在随机性)17iu引入随机扰动项引入随机扰动项 的原因的原因样本回归线:样本回归线:对于对于X的一定值,取得的一定值,取得Y的样本观测值,可计算其条件均值,的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹,称为样本回归线。样本观测值条件均值的轨迹,称为样本回归线。样本回归函数:样本回归函数:如果把被解释变量如果把被解释变量Y的样本条件均值的样本条件均值 表示为解释变量表示为解释变量X的某种函数,的某种函数,这个函数称为样本回归函数(这个函数称为样本回归函数(SRF)18XYiYiYiXSRF四、样本回归函数四、样本
19、回归函数(SRF)19 样本回归函数如果为线性函数,可表示为样本回归函数如果为线性函数,可表示为 其中:其中:是与是与 相对应的相对应的 Y 的样本条件均值的样本条件均值 和和 分别是样本回归函数的参数分别是样本回归函数的参数 个别值(实际值)形式:个别值(实际值)形式:被解释变量被解释变量Y的实际观测值的实际观测值 不完全等于样本条件均值不完全等于样本条件均值 ,二者之差用二者之差用 表示,表示,称为称为剩余项剩余项或或残差项残差项:则则 或或 12iiYXiY12iYieiiieYY12iiiYXeiXie样本回归函数的函数形式样本回归函数的函数形式iY条件均值形式:条件均值形式:样本回归
20、线随抽样波动而变化样本回归线随抽样波动而变化:每次抽样都能获得一个样本,就可以拟合一条样本回每次抽样都能获得一个样本,就可以拟合一条样本回归线,归线,(SRF不唯一不唯一)样本回归函数的函数形式样本回归函数的函数形式应与设定的总体回归函数的应与设定的总体回归函数的函数形式一致。函数形式一致。样本回归线只是样本条件均值的轨迹,还不是总体样本回归线只是样本条件均值的轨迹,还不是总体回归线,它至多只是未知的总体回归线的近似表现。回归线,它至多只是未知的总体回归线的近似表现。20样本回归函数样本回归函数的特点的特点SRF1SRF2 YX A X 21iYYiYiY()iiE Y XieiuiXPRFS
21、RF样本回归函数与总体回归函数的关系样本回归函数与总体回归函数的关系 如果能够通过某种方式获得如果能够通过某种方式获得 和和 的数值,显然的数值,显然:和和 是对总体回归函数参数是对总体回归函数参数 和和 的估计的估计 是对总体条件期望是对总体条件期望 的估计的估计 在概念上类似总体回归函数中的在概念上类似总体回归函数中的 ,可视,可视 为对为对 的估计。的估计。22对比:对比:总体回归函数总体回归函数 样本回归函数样本回归函数12iYieiuiu12()iiE Y X1212()iiiE Y XX12iiiYXu12iiYX12iiiYXe对样本回归的理解对样本回归的理解23 目的:计量经济
22、分析的目标是寻求总体回归函数计量经济分析的目标是寻求总体回归函数。即用样本即用样本回归函数回归函数SRF去估计总体回归函数去估计总体回归函数PRF。由于样本对总体总是存在代表性误差,由于样本对总体总是存在代表性误差,SRF 总会总会过高或过低估计过高或过低估计PRF。要解决的问题:要解决的问题:寻求一种规则和方法,使其得到的寻求一种规则和方法,使其得到的SRF的参数的参数 和和 尽可能尽可能“接近接近”总体回归函数中的参数总体回归函数中的参数 和和 的真实值。这样的的真实值。这样的“规则和方法规则和方法”有多种,如矩估计、有多种,如矩估计、极大似然估计、最小二乘估计等。其中最常用的是最小极大似然估计、最小二乘估计等。其中最常用的是最小二乘法。二乘法。11212回归分析的目的回归分析的目的