1、1计量经济学未来我国旅游需求将快速增长,根据中国政府所制定的未来我国旅游需求将快速增长,根据中国政府所制定的远景目标,到远景目标,到20202020年,中国入境旅游人数将达到年,中国入境旅游人数将达到2.12.1亿人亿人次;国际旅游外汇收入次;国际旅游外汇收入580580亿美元,国内旅游收入亿美元,国内旅游收入25002500亿亿美元。到美元。到20202020年,中国旅游业总收入将超过年,中国旅游业总收入将超过30003000亿美元,亿美元,相当于国内生产总值的相当于国内生产总值的8%8%至至11%11%。(来源:(来源:2008年中国旅行社发展研究咨询报告年中国旅行社发展研究咨询报告)(参
2、考现状:第一产业占(参考现状:第一产业占GDP的的15%,建筑业占,建筑业占GDP 的的7%)什么决定性因素能使中国什么决定性因素能使中国旅游业总收入超过旅游业总收入超过30003000亿美元亿美元?旅游业的发展与这种决定性因素的数量关系究竟是什么?旅游业的发展与这种决定性因素的数量关系究竟是什么?怎样具体测定旅游业发展与这种决定性因素的数量关系怎样具体测定旅游业发展与这种决定性因素的数量关系?2需要研究经济变量之间数量关系的方法需要研究经济变量之间数量关系的方法为了不使问题复杂化为了不使问题复杂化,我们先在某些标准的我们先在某些标准的(古典的古典的)假定条件下,用最简单的模型,对最简单的变量
3、间数假定条件下,用最简单的模型,对最简单的变量间数量关系加以讨论量关系加以讨论显然,对旅游起决定性影响作用的是显然,对旅游起决定性影响作用的是“中国居民的收中国居民的收入水平入水平”以及以及“入境旅游人数入境旅游人数”等因素。等因素。“旅游业总收入旅游业总收入”(Y Y)与)与“居民平均收入居民平均收入”(X1X1)或)或者者“入境旅游人数入境旅游人数”(X2X2)有怎样的数量关系呢?)有怎样的数量关系呢?能否用某种线性或非线性关系式能否用某种线性或非线性关系式 Y=f(X)Y=f(X)去表现这去表现这 种数量关系呢种数量关系呢?具体该具体该怎样去表现和计量呢怎样去表现和计量呢?4 第一节第一
4、节 回归分析与回归函数回归分析与回归函数 一、相关分析与回归分析一、相关分析与回归分析 (对统计学的回顾)(对统计学的回顾)1 1、经济变量之间的相互关系、经济变量之间的相互关系 性质上可能有三种情况性质上可能有三种情况:确定性的函数关系确定性的函数关系 Y=f(X)可用数学方法计算可用数学方法计算 不确定的统计关系不确定的统计关系相关关系相关关系 Y=f(X)+(为随机变量为随机变量)可用统计方法分析可用统计方法分析 没有关系没有关系 不用分析不用分析 相关关系的描述相关关系的描述 最直观的描述方式最直观的描述方式坐标图(散布图、散点图)坐标图(散布图、散点图)5函数关系函数关系相关关系相关
5、关系(线性线性)没有关系没有关系相关关系相关关系(非线性非线性)2、相关关系66 相关关系的类型类型 从涉及的变量数量看从涉及的变量数量看 简单相关简单相关 多重相关(复相关)多重相关(复相关)从变量相关关系的表现形式看从变量相关关系的表现形式看 线性相关线性相关散布图接近一条直线散布图接近一条直线 非线性相关非线性相关散布图接近一条曲线散布图接近一条曲线 从变量相关关系变化的方向看从变量相关关系变化的方向看 正相关正相关变量同方向变化,同增同减变量同方向变化,同增同减 负相关负相关变量反方向变化,一增一减变量反方向变化,一增一减 不相关不相关7 3、相关程度的度量相关系数 如果如果 和和 总
6、体的全部数据总体的全部数据都已知,都已知,和和 的方差和的方差和协方差也已知,则协方差也已知,则 X和和Y的的总体线性相关系数总体线性相关系数:其中:其中:-X 的方差的方差 -Y的方差的方差 -X和和Y的协方差的协方差特点:特点:总体相关系数只反映总体两个变量总体相关系数只反映总体两个变量 和和 的线性相关程度的线性相关程度对于特定的总体来说,对于特定的总体来说,和和 的数值是既定的,总体相关系的数值是既定的,总体相关系数数 是客观存在的特定数值。是客观存在的特定数值。总体的两个变量总体的两个变量 和和 的全部数值通常不可能直接观测,所的全部数值通常不可能直接观测,所以总体相关系数一般是未知
7、的。以总体相关系数一般是未知的。(,)()()Cov X YVar X Var Y(,)Cov X Y()Var X()Var YXXXXYYYYYX8如果只知道如果只知道 X 和和 Y 的样本观测值,则的样本观测值,则X和和Y的的样本线性样本线性相关系数为:相关系数为:其中:其中:和和 分别是变量分别是变量X和和Y的样本观测值,的样本观测值,和和 分别是变量分别是变量 X 和和Y 样本值的平均值样本值的平均值注意注意:是随抽样而变动的随机变量。是随抽样而变动的随机变量。iY_X_Y_22()()()()iiXYiiXX YYrXXYYiXXYrX和和Y的的样本线性相关系数样本线性相关系数:相
8、关系数较为简单相关系数较为简单,也可以在一定程度上测定变量也可以在一定程度上测定变量间的数量关系间的数量关系,但是对于具体研究变量间的数量规律但是对于具体研究变量间的数量规律性还有局限性。性还有局限性。X X和和Y Y 都是相互对称的随机变量,都是相互对称的随机变量,线性相关系数只反映变量间的线性相关程度,不线性相关系数只反映变量间的线性相关程度,不能说明非线性相关关系能说明非线性相关关系 样本相关系数是总体相关系数的样本估计值,由样本相关系数是总体相关系数的样本估计值,由于抽样波动,样本相关系数是随抽样而变动的随机变量,于抽样波动,样本相关系数是随抽样而变动的随机变量,其统计显著性还有待检验
9、其统计显著性还有待检验 9XYYXrr对相关系数的正确理解和使用对相关系数的正确理解和使用104 4、回归分析、回归分析回归的古典意义古典意义:高尔顿遗传学的回归概念高尔顿遗传学的回归概念 (父母身高与子女身高的关系父母身高与子女身高的关系)子女的身高有向人的平均身高子女的身高有向人的平均身高 回归回归 的趋势的趋势回归的现代意义现代意义:一个被解释变量对若干个一个被解释变量对若干个解释变量依存关系的研究解释变量依存关系的研究回归的目的目的(实质实质):由解释变量去估计被解释变由解释变量去估计被解释变量的平均值量的平均值11被解释变量被解释变量Y Y的的条件分布和条件概率条件分布和条件概率:当
10、解释变量当解释变量X X取某固定值时(条件),取某固定值时(条件),Y Y 的值不确定,的值不确定,Y Y的不同取值会形成一定的分布,这是的不同取值会形成一定的分布,这是 Y Y 的的条件分布条件分布。X X取某固定值时,取某固定值时,Y Y 取不同值的概率称为取不同值的概率称为条件概率条件概率。被解释变量被解释变量 Y Y 的的条件期望条件期望:对于对于 X X 的每一个取值,的每一个取值,对对 Y Y 所形成的分布确所形成的分布确 定其期望或均值,称定其期望或均值,称 为为 Y Y 的的条件期望或条件均条件期望或条件均 值,值,用用 表示。表示。注意注意:Y:Y的条件期望是随的条件期望是随
11、X X的变动而变动的的变动而变动的 iX)(iXYE)(iXYEYX明确几个概念明确几个概念(为深刻理解“回归”)12回归线回归线:对于每一个:对于每一个X的取值的取值 ,都有,都有Y的条件期望的条件期望 与之对应,代表与之对应,代表Y的条件期望的点的轨迹形成的条件期望的点的轨迹形成的直线或曲线称为回归线。的直线或曲线称为回归线。回归函数回归函数:被解释变量:被解释变量Y的条件期望的条件期望 随随解释变量解释变量X的变化而有规律的变化而有规律的变化,如果把的变化,如果把Y的条件期的条件期望表现为望表现为 X 的某种函数的某种函数 ,这个函数称为回归函数。这个函数称为回归函数。回归函数分为:总体
12、回归函数和样本回归函数回归函数分为:总体回归函数和样本回归函数 iXX YiX()iE Y X()iE Y X()iE Y XE()()iiY Xf X13每每 月月 家家 庭庭 可可 支支 配配 收收 入入 X2000250030003500400045005000550060006500131215301631184320372277246929243515352113401619172619742210238828893338372139541400171317862006232525263090365038654108每每15481750183522652419268131563802
13、40264345月月1688181418852367252228873300408741654812家家173819851943248526653050332142984380庭庭180020412037251527993189365443124580消消19022186207826892887335338424413费费220021792713291335344074支支231222982898303837104165出出2316292331673834 Y Y238730533310249831873510268932861591191520922586275430393396385340
14、364148()iE Y X举例举例:假如已知由假如已知由100100个家庭构成的总体的数个家庭构成的总体的数据据 (单位单位:元元)二、总体回归函数二、总体回归函数(PRF)14消费支出的条件期望与收入关系的图形消费支出的条件期望与收入关系的图形对于本例的总体,家庭消费支出的条件期望对于本例的总体,家庭消费支出的条件期望与家庭收入与家庭收入 基本是线性关系基本是线性关系,可以把家庭消费支可以把家庭消费支出的条件均值表示为家庭收入的线性函数:出的条件均值表示为家庭收入的线性函数:iiXXYE)()(iXYE)(iXYEiXiX15 1.1.总体回归函数的概念总体回归函数的概念 前提:前提:假如
15、已知假如已知所研究的经济现象的总体的被解释变量所研究的经济现象的总体的被解释变量Y和解释变量和解释变量X的每个观测值的每个观测值(通常这是不可能的!)(通常这是不可能的!),那,那么,可以计算出总体被解释变量么,可以计算出总体被解释变量Y的条件期望的条件期望 ,并将其表现为解释变量并将其表现为解释变量X的某种函数的某种函数 这个函数称为这个函数称为总体回归函数(总体回归函数(PRF)本质本质:总体回归函数实际上表现的是特定总体中被解释变总体回归函数实际上表现的是特定总体中被解释变量随解释变量的变动而变动的某种规律性。量随解释变量的变动而变动的某种规律性。计量经济学的根本目的是要探寻变量间数量关
16、系的规律计量经济学的根本目的是要探寻变量间数量关系的规律,也也就要努力去寻求总体回归函数就要努力去寻求总体回归函数。)()(iiXfXYE)(iXYE16 iuiXXY)(iXYEiY条件期望条件期望表现形式表现形式例如例如Y的条件期望的条件期望 是解是解 释变量释变量X的线性函数,可表示为:的线性函数,可表示为:个别值个别值表现形式表现形式(随机设定形式)(随机设定形式)对于一定的对于一定的 ,Y的各个别值的各个别值 并不一定等于条件期望,而并不一定等于条件期望,而是分布在是分布在 的周围,若令各个的周围,若令各个 与条件期望与条件期望 的的偏差为偏差为 ,显然,显然 是个随机变量是个随机变
17、量 则有则有 iYiYiX)(iXYE12()()iiiiE Y Xf XX)(iXYE)(iXYEiuiuiiiiiiXYXYEYu21)(12iiiYXu2.2.总体回归函数的表现形式总体回归函数的表现形式PRF作为总体运行的客观规律,总体回归函数是客观存在作为总体运行的客观规律,总体回归函数是客观存在的,但在实际的经济研究中总体回归函数通常是的,但在实际的经济研究中总体回归函数通常是未知未知的,的,只能根据经济理论和实践经验去只能根据经济理论和实践经验去设定设定。计量经济学研究中计量经济学研究中“计量计量”的根本目的就是要寻求总体的根本目的就是要寻求总体回归函数。回归函数。我们所设定的计
18、量模型实际就是在设定总体回归函我们所设定的计量模型实际就是在设定总体回归函数的具体形式。数的具体形式。总体回归函数中总体回归函数中 Y Y 与与 X X 的关系可以是的关系可以是线性线性的,也可的,也可以是以是非线性非线性的。的。173.3.如何理解总体回归函数如何理解总体回归函数18注意:注意:在计量经济学中,线性回归模型主要指在计量经济学中,线性回归模型主要指就参数而言就参数而言是是“线线性性”的的,因为只要对参数而言是线性的因为只要对参数而言是线性的,都可以用类似的方法去估都可以用类似的方法去估计其参数,都可以归于线性回归。计其参数,都可以归于线性回归。iiiXXYE21)(12()ln
19、iiiE Y XXiiiXXYE21)(“线性线性”的判断的判断概念概念 在总体回归函数中,各个在总体回归函数中,各个 的值与其条件期望的值与其条件期望 的偏差的偏差 有很重有很重要的意义。若只有要的意义。若只有 的影响的影响,与与 不应有偏差。若偏不应有偏差。若偏差差 存在,说明还有其他影响因素。存在,说明还有其他影响因素。实际代表了排除在模型以外的所有因素对实际代表了排除在模型以外的所有因素对 Y 的影响。的影响。性质性质 是其期望为是其期望为 0 有一定分布的随机变量有一定分布的随机变量重要性:重要性:随机扰动项的性质决定着计量经济分析结随机扰动项的性质决定着计量经济分析结 果的性质和计
20、量经济方法的选择果的性质和计量经济方法的选择19iuiuiY)(iiXYEiuiXXY()iE Y XiYiuiY)(iiXYEXiu 三、随机扰动项三、随机扰动项 是是未知未知影响因素影响因素的代表的代表(理论的模糊性理论的模糊性)是是无法取得数据无法取得数据的已知影响因素的代表的已知影响因素的代表(数据欠缺数据欠缺)是是众多细小影响因素众多细小影响因素的综合代表的综合代表(非系统性影响非系统性影响)模型可能存在模型可能存在设定误差设定误差(变量、函数形式的设定)变量、函数形式的设定)模型中变量可能存在模型中变量可能存在观测误差观测误差(变量数据不符合实际变量数据不符合实际)变量可能有内在变
21、量可能有内在随机性随机性(人类经济行为的内在随机性人类经济行为的内在随机性)20iu引入随机扰动项引入随机扰动项 的原因的原因样本回归线:样本回归线:对于对于X的一定值,取得的一定值,取得Y的样本观测值,可计算其条件均值,的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹,称为样本回归线。样本观测值条件均值的轨迹,称为样本回归线。样本回归函数:样本回归函数:如果把被解释变量如果把被解释变量Y的样本条件均值的样本条件均值 表示为解释变量表示为解释变量X的某种函数,的某种函数,这个函数称为样本回归函数(这个函数称为样本回归函数(SRF)21XYiYiYiXSRF四、样本回归函数四、样本回归函
22、数(SRF)22 样本回归函数如果为线性函数,可表示为样本回归函数如果为线性函数,可表示为 其中:其中:是与是与 相对应的相对应的 Y 的样本条件均值的样本条件均值 和和 分别是样本回归函数的参数分别是样本回归函数的参数 个别值(实际值)形式:个别值(实际值)形式:被解释变量被解释变量Y的实际观测值的实际观测值 不完全等于样本条件均值不完全等于样本条件均值 ,二者之差用二者之差用 表示,表示,称为称为剩余项剩余项或或残差项残差项:则则 或或 12iiYXiY12iYieiiieYY12iiiYXeiXie样本回归函数的函数形式样本回归函数的函数形式iY条件均值形式:条件均值形式:样本回归线随抽
23、样波动而变化样本回归线随抽样波动而变化:每次抽样都能获得一个样本,就可以拟合一条样本回每次抽样都能获得一个样本,就可以拟合一条样本回归线,归线,(SRF不唯一不唯一)样本回归函数的函数形式样本回归函数的函数形式应与设定的总体回归函数的应与设定的总体回归函数的函数形式一致。函数形式一致。样本回归线只是样本条件均值的轨迹,还不是总体样本回归线只是样本条件均值的轨迹,还不是总体回归线,它至多只是未知的总体回归线的近似表现。回归线,它至多只是未知的总体回归线的近似表现。23样本回归函数样本回归函数的特点的特点SRF1SRF2 YX A X 24iYYiYiY()iiE Y XieiuiXPRFSRF样
24、本回归函数与总体回归函数的关系样本回归函数与总体回归函数的关系 如果能够通过某种方式获得如果能够通过某种方式获得 和和 的数值,显然的数值,显然:和和 是对总体回归函数参数是对总体回归函数参数 和和 的估计的估计 是对总体条件期望是对总体条件期望 的估计的估计 在概念上类似总体回归函数中的在概念上类似总体回归函数中的 ,可视,可视 为对为对 的估计。的估计。25对比:对比:总体回归函数总体回归函数 样本回归函数样本回归函数12iYieiuiu12()iiE Y X1212()iiiE Y XX12iiiYXu12iiYX12iiiYXe对样本回归的理解对样本回归的理解26 目的:计量经济分析的
25、目标是寻求总体回归函数计量经济分析的目标是寻求总体回归函数。即用样本即用样本回归函数回归函数SRF去估计总体回归函数去估计总体回归函数PRF。由于样本对总体总是存在代表性误差,由于样本对总体总是存在代表性误差,SRF 总会总会过高或过低估计过高或过低估计PRF。要解决的问题:要解决的问题:寻求一种规则和方法,使其得到的寻求一种规则和方法,使其得到的SRF的参数的参数 和和 尽可能尽可能“接近接近”总体回归函数中的参数总体回归函数中的参数 和和 的真实值。这样的的真实值。这样的“规则和方法规则和方法”有多种,如矩估计、有多种,如矩估计、极大似然估计、最小二乘估计等。其中最常用的是最小极大似然估计
26、、最小二乘估计等。其中最常用的是最小二乘法。二乘法。11212回归分析的目的回归分析的目的用样本去估计总体回归函数,总要使用特定的方法,而任何估用样本去估计总体回归函数,总要使用特定的方法,而任何估计参数的方法都需要有一定的前提条件计参数的方法都需要有一定的前提条件假定条件假定条件 一、简单线性回归的基本假定一、简单线性回归的基本假定 为什么要作基本假定?为什么要作基本假定?只有具备一定的假定条件,所作出的估计才具有良好的统只有具备一定的假定条件,所作出的估计才具有良好的统计性质。计性质。模型中有随机扰动项,估计的参数是随机变量,显然参数模型中有随机扰动项,估计的参数是随机变量,显然参数估计值
27、的分布与扰动项的分布有关,只有对随机扰动的分估计值的分布与扰动项的分布有关,只有对随机扰动的分布作出假定,才能比较方便地确定所估计参数的分布性质,布作出假定,才能比较方便地确定所估计参数的分布性质,也才可能进行假设检验和区间估计等统计推断。也才可能进行假设检验和区间估计等统计推断。假定分为:假定分为:对模型和变量的假定对模型和变量的假定对随机扰动项的假定对随机扰动项的假定 27第二节第二节 简单线性回归模型的最小二乘估计简单线性回归模型的最小二乘估计例如对于例如对于 假定模型设定是正确的(变量和模型无设定误差)假定模型设定是正确的(变量和模型无设定误差)假定解释变量假定解释变量X在重复抽样中取
28、固定值。在重复抽样中取固定值。假定解释变量假定解释变量X是非随机的,或者虽然是非随机的,或者虽然X是随机的,是随机的,但与扰动项但与扰动项u是不相关的。是不相关的。(从变量从变量X角度看是外生的角度看是外生的)注意注意:解释变量非随机在自然科学的实验研究中相对解释变量非随机在自然科学的实验研究中相对容易满足,经济领域中变量的观测是被动不可控的,容易满足,经济领域中变量的观测是被动不可控的,X X非随机的假定并不一定都满足。非随机的假定并不一定都满足。2812iiiYXu1.1.对模型和变量的假定对模型和变量的假定 假定假定1 1:零均值假定:零均值假定:在给定在给定X X的条件下,的条件下,的
29、条件期望为零的条件期望为零 假定假定2 2:同方差假定:同方差假定:在给定在给定X X的条件下,的条件的条件下,的条件方差为某个常数方差为某个常数 29iu22)()(iiiiiXuEuEXuVariu()0iiE u X2iXX Y()iE Y X2.2.对随机扰动项对随机扰动项u u的假定的假定30 假定假定3 3:无自相关假定无自相关假定:随机扰动项随机扰动项 的逐次值互不相关的逐次值互不相关 假定假定4 4:解释变量解释变量 是非随机的,或者虽然是非随机的,或者虽然 是随是随机的但与扰动项机的但与扰动项 不相关不相关(从随机扰动从随机扰动 角度看角度看)iuiuiXiu(,)()()(
30、)0()ijiijjijCov u uE uE uuE uE uuij(,)()()0iiiiiiCov u XE uE uXE XiX231假定假定5 5:正态性假定正态性假定说明:说明:iuiu2(,)iuN o由于由于其中的其中的 和和 是非随机的,是非随机的,是随机变量,因此是随机变量,因此Y是随机变量,是随机变量,的分布性质决定了的分布性质决定了 的分布性质。的分布性质。对对 的一些假定可以等价地表示为对的一些假定可以等价地表示为对 的假定:的假定:假定假定1:零均值假定:零均值假定 假定假定2:同方差假定:同方差假定 假定假定3:无自相关假定:无自相关假定 假定假定5:正态性假定:
31、正态性假定 32iuiiiuXY21iuiuiYiY212(,)iiYNXiiiXXYE21)(12,iX2()iiVar Y X(,)0ijCov Y Yiu在对在对 的基本假定下的基本假定下 Y Y 的分布性质的分布性质1.OLS的基本思想的基本思想 对于对于 ,不同的估计方法可以得到不同的样本回归,不同的估计方法可以得到不同的样本回归参数参数 和和 ,所估计的,所估计的 也就不同。也就不同。理想的估计结果应使估计的理想的估计结果应使估计的 与真实的与真实的 的差的差(即剩余即剩余 )总的来总的来说越小越好说越小越好 因因 可正可负,总有可正可负,总有 ,所以可以取,所以可以取 最小,即最
32、小,即在观测值在观测值Y和和X确定时,确定时,的大小决定于的大小决定于 和和 。要解决的问题要解决的问题::如何寻求能使如何寻求能使 最小的最小的 和和 。3312iYiYieie2ie2212minmin()iiieYXiY2ie1212iiYX0ie 2ie12二、普通最小二乘法(二、普通最小二乘法(OLSOLS)(rdinary Least Squares)rdinary Least Squares)用克莱姆法则求解得以观测值表现的用克莱姆法则求解得以观测值表现的OLS估计量:估计量:342122()iiiiiiiXYXX YnXX222()iiiiiinX YXYnXX取偏导数并令其为
33、取偏导数并令其为0,可得正规方程,可得正规方程12212iiiiiiYnXX YXX21221212()20()20()()iiiiiiieXeYYX X 或整理得或整理得00iiiee X即即2.正规方程和估计量正规方程和估计量35 为表达得更简洁,或者用离差形式的为表达得更简洁,或者用离差形式的OLS估计量估计量:容易证明容易证明由正规方程:由正规方程:注意:注意:其中:其中:本课程中本课程中:大写的大写的 和和 均表示观测值;均表示观测值;小写的小写的 和和 均表示观测值的离差均表示观测值的离差而且由而且由样本回归函数可用离差形式写为样本回归函数可用离差形式写为 _12YXXXxiiYY
34、yii用离差表现的用离差表现的OLSOLS估计量估计量2iiyxiiXY2112YXixiyiXiY_22_222()()()()iiiiiiiiiiiinX YXYXX YYx yxnXXXX 剩余项剩余项 的均值为零的均值为零 OLS回归线通过样本均值回归线通过样本均值 估计值估计值 的均值等于实际观测的均值等于实际观测 值值 的均值的均值 36ie0ieenYXXYiY12YXiY12121()iiXXYYnn(由OLS第一个正规方程直接得到)(由OLS正规方程 两边同除n得到)12()0iiYX3.OLS3.OLS回归线的数学性质回归线的数学性质 Cov(,)0iiY eiYie 解释
35、变量解释变量 与剩余项与剩余项 不相关不相关 ieiXCov(,)0iiX e由OLS正规方程有:1Cov(,)()()0iiiiiiieX eeeXneXXX12121Cov(,)()()0()()()0iiiiiii iiiiiiiY eYeeee XYeenYYeYeYeX因为00iiiee X 被解释变量估计值被解释变量估计值 与剩余项与剩余项 不相关不相关38 面临的问题面临的问题:参数参数估计值估计值 参数真实值参数真实值对参数估计式的优劣需要有评价的标准对参数估计式的优劣需要有评价的标准 为什么呢为什么呢?参数无法直接观测,只能通过样本去估计。样本的获得存参数无法直接观测,只能通
36、过样本去估计。样本的获得存 在在抽样波动抽样波动,不同样本的估计结果不一致。,不同样本的估计结果不一致。估计参数的方法有多种,不同方法的估计结果可能不相同,估计参数的方法有多种,不同方法的估计结果可能不相同,通过样本估计参数时,估计方法及所确定的估计量不一定通过样本估计参数时,估计方法及所确定的估计量不一定 完备,不一定能得到理想的总体参数估计值。完备,不一定能得到理想的总体参数估计值。对各种估计方法优劣的比较与选择需要有评价标准。对各种估计方法优劣的比较与选择需要有评价标准。估计准则的基本要求:估计准则的基本要求:参数估计值应参数估计值应尽可能地接近尽可能地接近总体参数真实值总体参数真实值”
37、。什么是什么是“尽可能地接近尽可能地接近”原则呢?原则呢?用统计语言表述就是用统计语言表述就是:无偏性、有效性、一致性无偏性、有效性、一致性等等 4.OLS 4.OLS估计量的统计性质估计量的统计性质39 (1)无偏性 前提:前提:重复抽样重复抽样中中估计方法固定估计方法固定、样本数不变样本数不变、由重复抽样得到的观测值由重复抽样得到的观测值,可得一系列参数估计可得一系列参数估计值值 ,的分布称为的分布称为 的抽样分布,其密度的抽样分布,其密度函数记为函数记为概念概念:如果如果 ,则称则称 是参数是参数 的无偏估计量,的无偏估计量,如果如果 ,则称,则称 是有偏的估计,其偏倚为是有偏的估计,其
38、偏倚为 (见下页图)()f()E()E()E40 概 率 密 度 估计值 偏倚偏倚)(*E()f)(*f41 (2)(2)有效性有效性前提:前提:样本相同、用不同的方法估计参数,可以找到样本相同、用不同的方法估计参数,可以找到若若 干个不同的无偏估计式干个不同的无偏估计式 目标目标:努力寻求其抽样分布具有最小方差的估计量努力寻求其抽样分布具有最小方差的估计量 (见下页图)(见下页图)既是无偏的同时又具有最小方差特性的估计量,称为既是无偏的同时又具有最小方差特性的估计量,称为最佳(有效)估计量。最佳(有效)估计量。42 概概 率率 密密 度度 *()f()f估计值估计值()f思想思想:当样本容量
39、较小时,有时很难找到方差最小的无偏估计,当样本容量较小时,有时很难找到方差最小的无偏估计,需要考虑样本扩大后的性质(需要考虑样本扩大后的性质(估计方法不变估计方法不变,样本数逐步增大样本数逐步增大)一致性:一致性:当样本容量当样本容量 n 趋于无穷大时,如果估计式趋于无穷大时,如果估计式 依概率收敛于总体参数的依概率收敛于总体参数的真实值,就称这个估计式真实值,就称这个估计式 是是 的一致估计式。即的一致估计式。即 或或 (渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的(渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式)估计式)(见下页图见下页图)渐近有效性:渐近有效性:当样本
40、容量当样本容量 n 趋于无穷大时,在所有的一致估计趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。式中,具有最小的渐近方差。431)(limPnP)lim(3、渐近性质、渐近性质(大样本性质)(大样本性质)44 概 率 密 度 估计值 图 4100()f80()f40()f20()f先明确几点先明确几点:由由OLS估计式可以看出估计式可以看出 都都由可观测的样本值由可观测的样本值 和和 唯一表示。唯一表示。因存在抽样波动,因存在抽样波动,OLS估计估计 是随机变量是随机变量 OLS估计式是估计式是点估计量点估计量 2122()iiiiiiiXYXX YnXX 45iYiX222()ii
41、iiiinX YXYnXXkkOLSOLS估计是否符合估计是否符合“尽可能地接近总体参数真实值尽可能地接近总体参数真实值”的的要求呢要求呢?4.分析分析OLS估计量的统计性质估计量的统计性质 2、无偏特性无偏特性 可以证明可以证明 (证明见教材证明见教材P38)46kkE)(222()()()iiiiiiiiXX YYx yk yXXxOLSOLS估计式的统计性质估计式的统计性质高斯定理高斯定理2iiixkxk12YXiiYXkY1()iiXk Yn(注意(注意:无偏性的证明中用到了基本假定中无偏性的证明中用到了基本假定中 零均值等假定)零均值等假定)kiu1 1、线性特征线性特征 是是Y Y
42、的线性函数的线性函数3、最小方差特性最小方差特性(有效性有效性)(证明见教材证明见教材P68附录附录21)可以证明:在所有的线性无偏估计中,可以证明:在所有的线性无偏估计中,OLS估计估计 具具有最小方差有最小方差(注意(注意:最小方差性的证明中用到了基本假定中的同方差、无自相关等假最小方差性的证明中用到了基本假定中的同方差、无自相关等假定)定)结论结论(高斯定理)(高斯定理):在古典假定条件下,在古典假定条件下,OLSOLS估计量是最佳线性无偏估计量估计量是最佳线性无偏估计量(BLUEBLUE)47k概念概念:样本回归线是对样本数据的样本回归线是对样本数据的一种拟合。一种拟合。不同的模型(不
43、同函数形式不同的模型(不同函数形式)可拟合出不同的样本回归线可拟合出不同的样本回归线相同的模型用不同方法去估计相同的模型用不同方法去估计参数,也可以拟合出不同的回归线参数,也可以拟合出不同的回归线拟合的回归线与样本观测值总是有偏离。样本回归线拟合的回归线与样本观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度,可对样本观测数据拟合的优劣程度,可称为称为拟合优度拟合优度。如何度量拟合优度呢?如何度量拟合优度呢?拟合优度的度量建立在对拟合优度的度量建立在对 Y 的总变差分解的基础上的总变差分解的基础上48XY 第三节第三节 拟合优度的度量拟合优度的度量 分析分析Y的观测值的观测值 、估计值、
44、估计值 与平均值与平均值 有以下关系有以下关系 将上式两边平方加总,可证得将上式两边平方加总,可证得(提示:交叉项(提示:交叉项 )(TSS)(ESS)(RSS)或者表示为或者表示为 总变差总变差 (TSS):被解释变量:被解释变量Y的观测值与其平均值的离差平的观测值与其平均值的离差平 方和方和(总平方和)(总平方和)(说明说明 Y 的总变动程度)的总变动程度)解释了的变差解释了的变差 (ESS):被解释变量:被解释变量Y的估计值与其平均值的的估计值与其平均值的 离差平方和离差平方和(回归平方和)(回归平方和)剩余平方和剩余平方和 (RSS):被解释变量观测值与估计值之差的平方:被解释变量观测
45、值与估计值之差的平方 和和(未解释的平方和)(未解释的平方和)49()()()iiiiiiiYYYYYYYYYY222()()()iiiiYYYYYY2iy222iiiyye2ie()0iiYY e2iyiYiYY 一、总变差的分解一、总变差的分解 Y X 50iYYiXSRF变差分解的图示变差分解的图示(以某一个观测值为例以某一个观测值为例)()iiYYy 来自回归()iiiYYe=来自残差()iiYYy 变差iYiY()iiiYYYYe222iiiyye 以以TSS同除总变差等式同除总变差等式 两边:两边:或或 定义:定义:回归平方和(解释了的变差回归平方和(解释了的变差ESS)在总变在总
46、变 差(差(TSS)中所占的比重称为可决系数,用中所占的比重称为可决系数,用 或或 表示表示:512iy2r2iy222iyRy2221iieRy 22221iiiyyey或或2R222222()()()()()()iiiiiiiYYYYYYYYYYYY222()()()iiiiYYYYYY 二、可决系数二、可决系数 可决系数越大,说明在总变差中由模型作出了解释的可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系部分占的比重越大,模型拟合优度越好。反之可决系数越小,说明模型对样本观测值的拟合程度越差。数越小,说明模型对样本观测值的拟合程度越差。可决系数
47、的特点可决系数的特点:可决系数取值范围:可决系数取值范围:随抽样波动,样本可决系数随抽样波动,样本可决系数 是随抽样而变是随抽样而变 动的随机变量动的随机变量 可决系数是非负的统计量可决系数是非负的统计量52201R2R可决系数的作用可决系数的作用联系:联系:数值上可决系数是相关系数的平方数值上可决系数是相关系数的平方532222222222222222222222()()()()()()()iiiiiiiiiiiiiiiiiiiyxRyyxxyyx yx yxyxyrx yx2iiyx可决系数与相关系数的关系可决系数与相关系数的关系区别:区别:可决系数可决系数 相关系数相关系数 是就模型而言
48、是就模型而言 是就两个变量而言是就两个变量而言 说明解释变量对被解释说明解释变量对被解释 说明两变量线性依存程度说明两变量线性依存程度 变量的解释程度变量的解释程度 度量不对称的因果关系度量不对称的因果关系 度量对称的相关关系度量对称的相关关系 取值取值 0 1 取值取值-1r1 有非负性有非负性 可正可负可正可负542R55第四节第四节 回归系数的区间估计和假设检验回归系数的区间估计和假设检验为什么要作区间估计?为什么要作区间估计?运用运用OLS法可以估计出法可以估计出参数的一个估计值,但参数的一个估计值,但OLS估计只是通过样本得到的估计只是通过样本得到的点估计,它不一定等于真实参数,还需
49、要寻求真实参点估计,它不一定等于真实参数,还需要寻求真实参数的可能范围,并说明其可靠性。数的可能范围,并说明其可靠性。为什么要作假设检验?为什么要作假设检验?OLS 估计只是用样本估计的结果,是否可靠?估计只是用样本估计的结果,是否可靠?是否抽样的偶然结果呢?还有待统计检验。是否抽样的偶然结果呢?还有待统计检验。区间估计和假设检验都是建立在确定参数估计区间估计和假设检验都是建立在确定参数估计值值 概率分布性质的基础上。概率分布性质的基础上。k56 一、一、OLSOLS估计的分布性质估计的分布性质 基本思想基本思想 是随机变量,必须确定其分布性质才可能进行区间估是随机变量,必须确定其分布性质才可
50、能进行区间估计和假设检验计和假设检验 怎样确定怎样确定 的分布性质呢的分布性质呢?是服从正态分布的随机变量,决定是服从正态分布的随机变量,决定 了了 也是服从正态分布的随机变量;也是服从正态分布的随机变量;是是 的线性函数,决定了的线性函数,决定了 也服从正态分布也服从正态分布 正态正态 正态正态 正态正态 只要确定只要确定 的期望和方差,即可确定的期望和方差,即可确定 的分布性质的分布性质 kkiuiYiYiuiYkkkkk12iiiYXu2iik y线性特征线性特征(线性估计的重要性(线性估计的重要性)57 的期望:的期望:(已证明是无偏估计)已证明是无偏估计)的方差和标准误差的方差和标准
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。