1、1 1 回归分析概述 参数估计 模型检验 模型预测 第三章第三章 双变量模型:假设检验 2 古典线性回归模型的基本假定 最小二乘估计量的性质 普通最小二乘估计量的方差与标准误 参数的普通最小二乘估计 iii XY 10 i=1,2,n 见第二章 2 第二节 参数估计 3 3.1古典线性回归模型的基本假定 3.2普通最小二乘估计量的方差与标准误 3.3最小二乘估计量的性质-为什么使用OLS 3.5假设检验3.5.1置信区间法 3.5.2变量的显著性检验 3.6拟合优度检验 3.7回归分析结果的报告3.8计算机输出结果 3.9正态性检验 3.11模型预测 3.4 OLS估计量的抽样分布或概率分布
2、4 3.1古典线性回归模型的基本假设 原因1:只有符合这些基本假定,才能保证OLS参 数估计量具有良好的性质; 原因3:随机误差项加上一个非随机项X生成了Y, 因而Y也是随机变量。在根据SRF进行假设检验时, 如果不对随机误差项的生成做一些特殊的假定, 则无法进行假设检验。 原因2:如果不满足这些假定,第二部分会进一步 进行处理。这是基于学习的由浅入深、由理想状 态到现实实际的步骤。 4 5 3.1古典线性回归模型的基本假定 假定1:回归模型是参数线性的 假定2:随机误差项与解释变量X之间不相关。 Cov(Xi, i)=0 i=1,2, ,n 如果X是非随机的(即为固定值),则该假定自动满足。
3、 我们所指的回归分析是条件回归分析,即给定X条件下 的回归分析,即我们一直假定X是非随机的。 区别:古典线性回归模型(固定回归元模型);新古典线性回 归模型(随即回归元模型) 5 6 假定3:给定X i,随机误差项的期望或均值为零。 E(i X i)=0 i=1,2, ,n 随机误差项(其他影响因素)与Xi (纳入模型的变量)之间不相关。 6 如果在给定一个随机变量的情况下另一个随机变量的条件均值为0,那么这两 个变量之间的协方差就是0,说明这两个变量是无关的。 7 假定4:随机误差项i具有同方差,即方差为常数。 Var (i)=2 i=1,2, ,n 与给定X相对应的每个Y的条件分布具有同方
4、差,即每 个Y值以相同的方差分布在其均值周围。 7 8 假定5:无自相关。即随机误差项之间不相关。 Cov(i, j)=0 ij i,j= 1,2, ,n 表明误差项之间没有系统关系,即误差是随机的。 8 9 假定6:回归模型是正确设定的。即实证分析的 模型不存在设定偏差。 9 10 小结-古典线性回归模型的基本假设 假定1:回归模型是参数线性的 假定2:随机误差项与解释变量X之间不相关。 假定6:回归模型是正确设定的。即实证分析的 模型不存在设定偏差。 假定3、4、5:随机误差项是服从零均值、同 方差、零协方差的分布。 iii XY 10 i=1,2,n 10 11 3.2普通最小二乘估计量
5、的方差与标准误 基于1-6假定,可以估计OLS估计量的方差和标准误。 OLS估计量是随机变量,因为随着样本的不同,OLS 估计量是不同的。 OLS估计量是如何随样本变化而变化的呢,即这些估 计量的抽样变异性是怎样的呢? 这种抽样变异性通常由估计量的方差或其标准误 (方差的平方根)来度量。 11 12 XY x yx i ii 10 2 1 参数估计量的方差和标准误 12 3.2普通最小二乘估计量的方差与标准误 13 )var()var()var() var( 2 10 2 1iiiiiii kXkYk 2 2 2 2 2 ii i xx x 22 10 2 0 )/1 ()var()var()
6、 var( iiiiii kXnXwYw 2 2 2 2222 2 211 2 1 i i iii x x XkX nn kXkX nn 2 2 2 2 2 22 2 2 2 1 i i i i i xn X xn Xnx x X n 13 14 随机误差项的方差2的估计 由于随机项 i不可观测,只能从 i的估计残 差ei i出发,对总体方差进行估计。 3.2普通最小二乘估计量的方差与标准误 2又称为总体方差总体方差。 14 15 可以证明可以证明,2的最小二乘估计量最小二乘估计量为 2 2 2 n ei 3.2普通最小二乘估计量的方差与标准误 随机误差项的方差2的估计 是2 的估计量 是残差
7、平方和,即Y的真 实值与估计值之差的平方和 (n-2)称为自由度,可简单看做 观测值个数减去待估参数的个数 2 2 2 i e 称为回归的标准误 (SER,standard error of the regression) 该值越小,说明Y的实际值越接近根据 回归模型得到的估计值。 15 16 在 随 机 误 差 项 的 方 差 2 估 计 出 后 , 参 数0 和 1 的 方方 差差 和 标标 准准 差差 的 估 计 量 分 别 是 : 1 的样本方差: 222 1 i xS 1 的样本标准差: 2 1 i xS 0 的样本方差: 2222 0 ii xnXS 0 的样本标准差: 22 0
8、ii xnXS 标准误 标准误 方差 方差 3.2普通最小二乘估计量的方差与标准误 16 17 3.2普通最小二乘估计量的方差与标准误 17 18 Se= (16.9061)(0.000245) 3.2普通最小二乘估计量的方差与标准误 数学S.A.T一例P45 文章中回归结果的输出形式 参数估计值 标准误 18 432.41380.0013 ii YX 19 当模型参数估计出后,需考虑参数估计值的精度,即是否能 代表总体参数的真值,或者说需考察参数估计量的统计性质。 一个用于考察总体的估计量,可从如下几个方面考察 其优劣性: (1)线性性)线性性,即它是否是另一随机变量的线性函数; (2)无偏
9、性)无偏性,即它的均值或期望值是否等于总体的真 实值; (3)有效性)有效性,即它是否在所有线性无偏估计量中具有 最小方差。 3.3最小二乘估计量的性质-为什么使用OLS 19 20 3.3最小二乘估计量的性质-为什么使用OLS 高斯高斯马尔柯夫定理(马尔柯夫定理(Gauss-Markov theorem) 如果满足古典线性回归模型的基本假定, 则在所有线性估计量中, OLS估计是最优线性无偏估计量 (Best Linear Unbiased Estimator, BLUE) 简单易行很强的理论性质 20 2121 22 2 2、无无偏偏性性,即估计量 0 、 1 的均值(期望)等于总体回归
10、参数真值0与1 1111 )()() ( iiii EkkEE 0000 )()()() ( iiii EwEwEE 平均而言,参数估计值与其真值是一致的。 22 E 平均而言,误差方差的估计值收敛于其真值 ;误差方差的估计量也是无偏的 22 23 证明最小方差性 假设 * 1 是其他估计方法得到的关于1的线性无偏估计量: iiY c * 1 其中,ci=ki+di,di为不全为零的常数 则容易证明 ) var() var( 1 * 1 同理,可证明0的最小二乘估计量 0 具有最的小方差 3 3、有有效效性性(最最小小方方差差性性) ,即在所有线性无偏估计量 中,最小二乘估计量0 、 1 具有
11、最小方差。 23 24 第二节 参数估计-小结 古典线性回归模型的基本假设 最小二乘估计量的性质 普通最小二乘估计量的方差与标准误 参数的普通最小二乘估计 iii XY 10 i=1,2,n 24 结构参数结构参数 分布参数分布参数 2525 假定7:随机误差项i服从零均值、同方差的正态分布正态分布。 iN(0, 2 ) i=1,2, ,n 中心极限定理:随着变量个数增加, iid随机变量近似服从正态分布 Yi服从正态分布 服从正态分布 01 、 正态变量的线性函数仍然服从正态分布 ),( 2 2 11 i x N ),( 2 2 2 00 i i xn X N “线性性”: 是Yi的线性组合
12、 01 、 3.4 OLS估计量的抽样分布或概率分布 26 3.5假设检验 尽管尽管从统计性质上已知,若有足够多的重复抽样,参数 的估计值的期望(均值)就等于其总体的参数真值, 但但在一次抽样中,估计值不一定就等于该真值。 那么,在一次抽样中,参数的估计值与真值的差异有 多大,是否显著,这就需要进一步进行假设检验假设检验。 26 若知道某个估计量的概率分布,则可建立从样本到总 体的联系。 第三节 假设检验 2727 3.5假设检验 由于 服从正态分布,则变量Z服从标准正态分布 ),( 2 2 11 i x N ),( 2 2 2 00 i i xn X N 1 1 1111 2 - =0 1
13、/ i ZN S x , 由于 未知,需用 代替,则变量t服从t分布 11 2 2 - / n i tt x 如何建立从样本到总体间的联系 数学S.A.T一例 2828 假设检验 先给定对总体参数值的原假设和备择假设, 然后根据样本信息,对原假设下的结果进行分析, 判断是否拒绝原假设。(拒绝原假设;不拒接原假设) 2929 3.5.1置信区间法 数学S.A.T一例 设定自由度为d.f;假定显著性水平为 ,可得 /2/2 .1Ptd fttd f 1 1111 2 - / i t S x 11 11 /2/2/2/2 1/211/2 - . .1 Ptd fttd fPtd ftd f S Pt
14、d fStd fS 因为 H0: 1= ,H1:1 Step1: Step2: /2 .td f Step3: Step4:如果原假设的 值落在该区间中,则不拒绝原假设, 否则,拒绝原假设。 * * * 30 检验步骤:检验步骤: H0: 1=*, H1:1 * (2)以原假设H0构造t统计量,并由样本计算其值 1 * 1 - =t S 估计量 假设值 估计量的标准误 (3)给定显著性水平,查t分布表,得临界值 |t| t /2(n-2),则拒绝H0 |t| t /2(n-2),则不拒绝H0 (1)对总体参数提出假设 (4) 比较 判断 3.5.2变量的显著性检验 计量经计学中,主要是针对变量
15、的参 数真值是否为零来进行显著性检验的 双边检验 t /2(n-2)t (n-2) 单边检验 右侧检验t t (n-2)或左侧检 验t临界值3.355:在1%的显著性水平下拒绝1=0的零假设。 t=5.4354所对应的P值约为0.0006。P值越低越能拒绝原假设。 P值:统计量的 精确显著水平; 拒绝零假设最低 的显著水平 双边检验 P377 3636 3.5.2变量的显著性检验 数学S.A.T一例单边检验 H0: 10, H1:10这是因为预期的收入系数为正 1 1 0.0013 =5.4354 0.000245 t S 显著性水平临界值 0.011% 0.055% 0.1010% 2.89
16、6 1.860 1.397 t=5.43542.896:在1%的显著性水平下拒绝零假设。 给定显著性水平 ,查临界值:t (8) 对应的P值非常小 3737 二、变量的显著性检验 说明: 2、在经验分析中,常用的显著性水平 有1%、5%、10%。 为了避免选择显著水平的随意性,通常求出P值(精确地 显著水平)。如果计算的P值充分小,则拒绝零假设。 1、计量经计学中,主要是针对变量的参数真值是否 为零来进行显著性检验的,以判断X是否对Y具有显 著的线性性影响。 即H0: 1=0 3838 四、回归分析结果的报告P56 Se= (16.9061)(0.000245) t= (25.5774)(0.
17、0006) r2=0.7849 P值=(5.85*10-9)(0.0006) d.f.=8 数学S.A.T一例 样本回归函数 估计的回归系数的标准误 t值=估计的系数/其标准误 t值所对应的P值 判定系数 如果没有设定特殊的零假设,习惯性地规定零假设:总体参数为零。 若拒绝零假设,检验统计量是显著的,说明真实的总体参数不为零。 H0: 1=0,H1:10 H0: 0=0,H1:00 预先设定一个可接 受的P值水平,通常 为1%、5%、10% 临界P值计算P值 不能拒绝零假设 拒绝零假设 432.41380.0013 ii YX 3939 P值=(5.85*10-9)(0.0006) d.f.=
18、8 H0: 1=0,H1:10 H0: 0=0,H1:00 H0: 0=450,H1:0450 接上例: 如果: 432.4138450 1.0402 16.9061 t 对应的P值为0.3287 若设定的临界P值为10% 由于本例中计算的P值大于临界P值,所以不拒绝零假设 若设定的临界P值为1% 由于本例中计算的P值 小于临界P值,所以拒 绝零假设,即每个估 计系数是统计显著的。 40 3.6拟合优度检验 对样本回归直线与样本观测值之间拟合程度的检验。 问题:问题:采用普通最小二乘估计方法,已 经保证了模型最好地拟合了样本观测值, 为什么还要检验拟合程度? 判定系数判定系数(可决系数可决系数
19、)R2 2 40 41 总离差平方和的分解总离差平方和的分解 样本回归直线 ii XY 10 iiiiiii yeYYYYYYy) () ( 由X的变异所 解释的部分 Yi的变异未解释部分或 残差的变异 41 4242 如果Yi=i 即实际观测值落在样本回归“线”上,则拟合拟合 最好最好。即“离差”全部来自回归线,而与“残差”无关。 43 22 )(YYyTSS ii总体平方和 22 ) (YYyESS ii 回归平方和 22 () iii RSSeYY 残差平方和 43 (Total Sum of Squares) (Explained Sum of Squares) (Residual S
20、um of Squares ) TSS=ESS+RSS 4444 1 E S SR S S T S ST S S T S SE S SR S S 总体平方和回归平方和残差平方和 2 1 R S S r T S S 2 2 2 i i e r y 度量的是回归模型对Y变异的解释比例 拟合优度、(样本)可决系数拟合优度、(样本)可决系数/ /判定系数判定系数 (coefficient of determination)coefficient of determination) 判定系数判定系数 2 ESS r TSS 4545 r r2 2越接近越接近1 1,说明实际观测点离样本线越近,拟合优度越
21、高,说明实际观测点离样本线越近,拟合优度越高。 判定系数是一个非负的统计量判定系数是一个非负的统计量 判定系数判定系数的取值范围取值范围:0,1 2 ESS r TSS 3.6拟合优度检验 4646 数学S.A.T一例 判定系数判定系数 22 2 22 () 7801.0776 1110.7869 ()36610 iii ii YYe r YYy 即收入变量X解释了数学分数79%的变异。 因此可以认为该样本回归线很好地拟合了总体回归函数 4747 四、回归分析结果的报告 r2=0.7849 数学S.A.T一例 判定系数 432.41380.0013 ii YX P56P57 4848 判定系数
22、r2相关系数r 2 rr 度量了两个变量X与Y之间的线性相关程度 数学S.A.T一例 2 0.78690.8871rr 说明数学分数与家庭年收入高度正相关 4949 第四节 模型预测数学S.A.T一例 回归分析的目的之一是: 00 YE Y X的估计量 根据解释变量的值解释变量的值应变量的均值应变量的均值 预测 假定解释变量的值解释变量的值 为某一固定值X0 需要估计 注意:注意:严格地说,这只是 被解释变量的预测值的估 计值,而不是预测值。 原因1:参数估计量不确定 原因2:随机项的影响 5050 第四节 模型预测数学S.A.T一例 根据前述(3-46)的回归分析的结果可知,参数估计量是显著
23、 的,模型通过了统计检验,可以进行预测。 432.41380.0013 ii YX 需要估计该收入下数学分的实际均值 假定家庭年收 入值X0=78000 780000 =78000 X YE Y X 的估计量 78000 432.41380.0013 78000533.8138 X Y 当家庭年收入为78000美元时,预测的数学平均分数为534分。 5151 0是条件均值E(Y|X=X0) 的一个无偏估计 当X=X0时, 0100 XY 0101000100 ) () () () (XEXEXEYE 可见,0是条件均值E(Y|X=X0)的无偏估计。 010 0 E Y XXX 但对于任一给定样
24、本, 是一个估计量, , 两者之差称为预测误差。 00 YE Y XX 为了估计这个误差,需要求出 的抽样分布 0 Y 0 Y 一方面一方面 另一方面另一方面 5252 ) )(1 (,( 2 2 02 0100 i x XX n XNY 第四节 模型预测 总体均值预测值的置信区间 由于 0100 XY ),( 2 2 11 i x N ),( 2 2 2 00 i i xn X N 可以 证明 )2( )( 0 0100 nt S XY t Y 在1-的置信度下,总体均值E(Y|X0)的置信区间为: 0 2 0 2 000 )|( YY StYXYEStY 以 代 替 2 2 5353 第四
25、节 模型预测 总体均值预测值的置信区间 总体均值E(Y|X0)95%的置信区间为: 0 2 0 2 000 )|( YY StYXYEStY 数学S.A.T一例 78000 432.41380.0013 78000533.8138 X Y 78000 =126.5754 X Var Y 78000 =11.2506 X S Y 533.8138-2.306 11.250678000533.81382.306 1 1.2506E Y X()() 507.869978000559.7577E Y X 若家庭年收入为78000美元,预测的数学平均分数以95%的 置信度落在507.9559.8之间,一
26、个最优估计值为533.8。 (3-55) 5454 第四节 模型预测 总体回归线的置信带 如果对表2-2中的每个X值建立诸如(3-55)的一个95%的置信 区间,则可以得到对应于每个家庭年收入水平下的真实数学分 数的置信区间或置信带,即总体回归线的置信带。 5555 第四节 模型预测 总体回归线的置信带 当 时,置信带的 宽度最小,在此附近进 行预测精度越大 越远离均值,置 信带越宽,预测 可信度下降 0 XX 56 56 五、正态性检验 上述的统计检验过程以误差项服从正态分布为基础 真实的误差项无法直接观察,因此,通过残差来获 悉误差项的正态性。检验方法有: 然而,上例中的误差项是否服从正态
27、分布呢? 残差直方图 雅克-贝拉检验(JB test) 正态概率图 5757 回归分析概述 参数估计 模型检验 模型预测 双变量线性回归模型-小结 5858 双变量线性回归模型-小结 这两章介绍了回归分析的基本思想与基本 方法。从总体回归模型与总体回归函数、样本 回归模型和样本回归函数这两组概念开始,建 立了回归分析的基本思想。 总体回归函数是对总体变量间关系的定量 表述,由总体回归模型若干基本假设下得到, 但它只是建立在理论之上,在现实中只能先从 总体中抽取一个样本,获得样本回归函数,并 用它对总体回归函数做出统计推断。 59 由于置信区间一定程度地给出了样本 参数估计值与总体参数真值的“接近” 程度,因此置信区间越小越好。 如何缩小置信区间? 59 60 如何缩小置信区间? (1 1)增大样本容量)增大样本容量n n,因为在同样的置信水平 下,n越大,t分布表中的临界值越小;同时,增大 样本容量,还可使样本参数估计量的标准差减小; (2 2)提高模型的拟合优度)提高模型的拟合优度,因为样本参数估计 量的标准差与残差平方和呈正比,模型拟合优度越 高,残差平方和应越小。 60 61 作业 复习时思考3.10综合实例、问题 练习本作业3.7;3.8;3.11;3.14(其中b、 c两问不用做在练习本上);3.20;3.21