1、第二章 小样本最小二乘法一、古典线性回归模型的假定Ordinary Least SquareOLS最小二乘法(,)是线性回归模型最基本的估计方法。古典线性回归模型的假定如下:i1i12i2kikipopulationyxxxin假定2.1 线性假定 总体()模型为:(1,)(2.1)1kinik regression coefficients为样本容量,表示观察值序号,表示解释变量个数。,为未知参数,即总体回归系数()为扰动项,表示除了模型中的解释变量以外,影响被解释变量的其余因素。若有常数项,则令第一个变量恒为1Data Generating Process DGP 总体模型也称“数据生成过
2、程”(,)一般小写字母表示列向量,大写字母表示矩阵。iiiyxin(2.1)简写成 (1,)(2.2)12n12n12nyyyyXxxxyX定义,数据矩阵,则(2.2)简写成 (2.3)假定2.2 严格外生性i1nExx0i1n,(2.4)iiiijkxCov(x)0jk这意味着扰动项 均值独立于解释变量的所有观察值,而不仅仅是同一期或同一个观察值,由均值独立,得出 与所有解释变量不相关,即,i E00定理,即扰动项的无条件期望为 ixixEE EXE00证明:根据迭代期望定理,XYE XY0XYx y 定义:若随机变量,满足,则称,正交。(注意,而向量正交指的是向量的内积为0,0)定理:解释
3、变量与扰动项正交 jkijkijkijkiCov xE xE xEE x证明:0,2.3rank Xk假定 不存在严格多重共线性,即数据矩阵列满秩,1r Xr XXXXkXX由公式,可得的秩为,即满秩矩阵,故存在。XX X或由前面练习可知,为列满秩可得为正定矩阵,而正定矩阵可逆假定2.4 球型扰动项 即扰动项满足同方差、无自相关。22n2VarXEXI00 (2.5)211222x0 xxx0何谓“球型”,看二次型可知conditional heteroskedasticity若对角线元素不相等,是为条件异方差()0autocorrelation若非对角线元素不为,是为自相关()即扰动项之间有
4、相关关系OLS二、的推导iiiiresidualeyx为未知总体参数,而 为其某个估计值,记第个数据的拟合误差(即残差,)为 iiiiiiiyxyyxe有两种表达方式,12neeeeyX残差用向量表示,n2ii=1Sum of Squared ResidualsSSRe所谓最小二乘法是寻找能使残差平方和(,)达到最小的那个 n2ii=1SSRee eyXyXyXyXyyyXX yX XyyyXX X 因此残差平方和是 的二次函数,2 SSR为寻找的极值点,需要对 求导,为此先介绍向量求导法则k12kiii=1aaaaaa设有列向量,则12k12kaaaaaaaa 就有 (2.6)12kAAAA
5、A同理可验证 2 (2.7)对列向量求导,结果还是列向量,称为梯度向量。SSR2X y2X X0函数求极值的必要条件是 (2.8)X XX y 可得正规方程组:(2.9)1OLS X XX y 解出 的估计量(2.10)OLSXyXX0由的条件(2.8)可得X yX0X e0 eXOLS表示残差向量 与解释变量 正交,这是的特征之一多元函数存在极小值的充分条件是函数对自变量列向量求二阶导数所得的矩阵(海赛矩阵)为正定矩阵。2SSRX X 海赛矩阵为2前面已证其为正定矩阵。OLSyXeye yXfitted values估计量 求出后,被解释变量分解为 称为被解释变量的拟合值()yeyeXeX
6、e00 而 也与 正交,因为故被解释变量是被分解成相互正交的两个部分。2i2n22ii=1Vare1sen-k关于扰动项的方差,由于扰动项 不可观测,故残差 视为 的实现值(相当于变量的抽样实现值)故使用如下统计量作为方差的无偏估计 (2.11)2212nE sn-knn-kneeekXe 0n-k可以证明为什么除以而非,称为自由度,因为 个残差须满足 个正规方程,所以自由度减少为2ssstandard error of the regression称 为回归方程的标准误差()OLS三、的几何解释Xye yXXy yXe所谓做回归分析,是指将被解释变量分解成两部分,其一是由解释变量来解释的部分
7、(即拟合值或模型值),其二是由众多次要因素决定的残差部分。yXeye yXXXXX若模型设定为线性模型,则可表为 于是模型拟合值 是 之列向量的线性组合,也即属于由 的列向量所生成的空间(列空间)yye做回归分析自然希望模型的解释力度越大越好,也即中的 部分尽量大,从而残差 尽量小。向量的大小由长度或模来衡量。12nn2ii=1aaaaanormaa aa定义:设向量,定义 的模()或长度为 (2.12)aba bcosab定理(余弦法则):两个向量、之间的夹角 满足 (2.13)夹角 反映两向量的相关程度eyX目标是残差向量尽量小,也即 尽量小yyeXe向量间满足头尾相连的加法准则(如图所示
8、)即 e那么在什么情况下最小呢?eX几何知识告诉我们这将在 与 列空间正交(垂直)的情形下实现eXX则 与 列空间中的一切向量(包括)正交a bcos2ab由向量正交定义或余弦法则(0)Xe0X yX0 X yX X00X yX X0假定,X XX y1X XX yXyXprojection因此,线性组合被称为 在 的列空间的正交投影()yXyXOLS可见 到 的投影就是 对 回归的拟合值111PX X XX yXXX XX yX X XXyPy先设 1PyXPX X XX可见可以将 视作一个算子或函数,作用于(左乘)后生成投影,故称矩阵 为投影矩阵111MIX X XXeyXyX X XXy
9、IX X XXyMy先设 而残差 MyeMresidual maker可见将作用于(左乘)后即可生成残差向量,故称为残差制造者()MyyX也是投影矩阵,左乘 相当于把 投影到与列空间正交的补空间中去22PPPPMMMM请验证,投影矩阵必有两个性质:幂等、对称对称性将保证投影是正交的,而幂等性使二次投影保持不变2P yP PyP XXPyM,也一样MPPM请验证0Xey上式表明 列空间与残差 所在空间是正交的,输入 可知yPyMy显然有 投影残差 yyyPPyyMMyyyee 运用上式,勾股定理也成立222yye即下面的表达式很有用e eyM MyyMyyee y残差平方和e ee yyXyyy
10、X yyyyX MX0Pe0故有 与eMyM XMXMMMX0可以把残差表为总体扰动项 的函数 因为SSRe eMMM MM也可把残差平方和表为 的函数ny nyny R有 个观测值,相当于独立抽样,故均为自由的,故 属于 维空间,。XXXk而 在列满秩的基础上由 的列向量生成的列空间的维数就是列向量的个数,故 的列空间的维数几 何 知 识:线 性 空 间 的 维 数 等 于 相 互 正 交 的 子 空 间 的 维 数 之 和nknk即,enk即残差向量 所在空间的维数 2e enksnk故的自由度为 ,除以 四、拟合优度nnnnn22222iiiiiii=1i=1i=1i=1i1nii1yy
11、yyyyyyeOLSeye 若模型包含常数项,则被解释变量的离差平方和可分解为(的结果有0,0)n2ii=1n2ii1 yye为回归平方和,是可由模型解释的部分为残差平方和,是不能由模型解释的部分nn22ii2i=1i1nn22iii=1i=1 yyeR1yyyy定义:拟合优度coefficient of determination也称判定系数()22RR越大,则说明拟合程度越好。若增加解释变量则必然只增不减,但却会损失自由度,为此可通过对自由度相对平均化来对解释变量过多进行惩罚。n2i2i1n2ii=1en-kR1yyn-1故定义校正拟合优度 2R缺点是有可能为负若回归模型中不包含常数项,则
12、离差形式的平方和分解公式不成立(为什么?)nii1e0因为 n2ii1nn22iii1i1 yyyyeyeyy2yee e yye eyeye0若回归模型中不包含常数项,则有被解释变量平方和的分解公式 因为2222uc2RUncentered R y yye eR1yyyyy可定义非中心()12ucyX X XX yRyy可证(练习)LM此结果在第四章在推导检验时会用到OLS五、最小二乘法()的小样本性质11OLSX XX yy、线性估计量:估计量 是 的线性组合1EXEX XX y X2、无偏性:先看条件期望11EXXX XXEXXXX1XXXEXEX0 由于有严格外生性严格外生性是必要条件
13、 xxEE EXE然后得出无条件期望1AX XX为推导简便计,记 111X XX yX XX XX XXA 123VarXX X、的方差矩阵VarXVarXVar A XAVarX A111222nAI AX XXX XXX X证明的关键是球型扰动项假定,否则将使用稳健标准差4OLSBest Linear Unbiased EstimatorBLUE、高斯马尔可夫定理:估计量是最佳线性无偏估计量(,)最佳是指方差最小nAA预备定理:若 阶对称矩阵 是半正定的,则 的主对角线元素均为非负(练习)(使用反证法)OLSVarXVarX证明:已证估计量 是线性无偏估计量,设 是任意一个线性无偏估计量,
14、需要证明VarXVarXVarXVarX即证为半正定矩阵,也即的主对角线元素小于等于的主对角线元素。k n1CCyAyAX XXDCA因为 是线性估计量,故存在常数矩阵使得。而,其中。令,CyDA yD XDXD则有 EXE DXDXDXDEXEXDX利用 的无偏性,有 DX0DX0比较两边,得,由于 不确定,故必有DXDD故 DDADA 2122VarXVarXVarDAXDA VarXDADADADX0AD0DA0DDAADDX X注:由 得 和11222VarXVarXDDX XX XDDDD 由于为半正定矩阵故高斯马尔可夫定理成立OLSBLUEOLS注意,若没有球型扰动项假定,则估计量
15、不是有其他更优的线性无偏估计,参见第五章广义225E sX、方差的无偏估计:22e eME sXEXEXn-kn-k1EMXEMXn-kn-k证明:,故只要证明即可 Atrace A证明中需要“迹”运算,定义方阵 的迹为主对角线元素之和,记做 trace ABtrace Atrace Btrace ABtrace BAtrace kAk trace A可以证明以及,EMXE traceMXE traceMX()()22trace E MXtrace MItrace M注:球型扰动项1n11nktrace Mtrace IX X XXtrace Itrace X X XXntrace X X X
16、 Xntrace In-k 回代即得12VarXsX XVariance-Covariance Matrix Estimated因此,的方差协方差矩阵的无偏估计为,t六、对单个系数的 检验2nXXXN 0I假定2.5:在 给定的情况下,的条件发布为正态分布即,扰动项实际上是众多次要影响因素和测量误差之和,根据中心极限定理可知扰动项应近似服从正态分布,这是上面假定的理论基础。0iiiinull hypothesisH0对单个回归系数进行假设检验,原假设():,其中 为给定常数,通常 1iialternative hypothesisH备择假设():iiiWald test直观上来说,的估计值 距
17、离 较远,则应拒绝原假设,否则就接受原假设,这类检验称为“沃尔德检验”()112nX XXAXN 0IX XXAXEX0 由于,而 为 的线性函数,故 服从正态分布。且有1122VarXXXXN 0XX及,故,0ii1112iiiiii12iiiHiXN 0X XX XX XiiX X在原假设:成立下,第 个分量,其中为的(,)元素,为 的方差。2iii12iizN 01X X若已知,则检验统计量,22st而若未知,则需以 代替,于是引出 统计量 n22n1xN 0IxAx Axrank AAIx xn预备定理:若,这意味着 的各分量相互独立,且 为幂等矩阵,则二次型服从自由度为的分布。若 ,
18、则,此特殊情形是熟知的 0iiiiiiiii12iiitHttt n-kSESEsX Xestimated standard error定理(统计量的分布):在假定2.12.5均满足,且原假设“:”也成立的情况下,统计量。其中是 的估计标准误差 2ZN 01YkZYZt kkY k证明:上章学过,若,而且 与相互独立,则,其中 为自由度。这是总体思路iii212iie ezqX X令,2iizN 01qn-kzq已知,下面将证明:(1)(2)与 相互独立iztt n-kqn-k于是根据 分布定义,就有ii12iit n-ksX X也即22e eMqM(1)(二次型)2nnN 0IN 0I因为,
19、故有,M10已知为幂等矩阵,而幂等矩阵的特征值或 或,1X MXrank Mtrace Mn-k()故非零特征值的个数即为秩。故有21Mqn-k由预备定理 可得,1n11nn12n2nXXk Xk XXXXn预备定理:对于 个随机变量,若任意线性组合都服从一维正态分布,则 服从维正态分布。12n1m12n1mX XXnYYX XXYY预备定理3:若 服从 维正态分布,设,分别是 的线性函数,则也服从多维正态分布。iii12iii2 zqeX Xzqe是 的函数,而 是 的函数。因此,为了证明 与 相互独立,只要证明 与 相互独立即可。AeMe由于 ,均是多元状态扰动项 的线性函数,故根据预备定
20、理3可得,的联合分布也是多元正态分布eCove0因此为了证明 与 相互独立,只要证明,即可CoveCovAMCov AM,2E AME AE MAEMAM 1122XXXMXXMXMX 00()F七、对假设检验的 检验 0HRrrmRmkrank RmRr对回归方程的所有参数的检验,可以统一表为:其中 为 维列向量,为矩阵,即行满秩,表示 中没有多余的方程02k102kHH比如最常见的假设检验“:0”为常数项。再比如格兰杰因果检验,再比如面板分析中的变系数检验“:”等0HRr0直观上看,由于 是 的估计量,因此若成立,则应该比较接近于 向量,因此可以使用如下的沃尔德检验 0112FHRrFRr
21、R XXRRrmFF mn-ks定理(统计量的分布)在假定2.12.5均满足,且原假设:也成立的情况下,则 统计量,2.1421122112se en-kFRrR X XRRrmw mFqn-ke en-kwRrR X XRRr证明:由于,可将 写成其中,221 wm2 qn-k3 wq下面将证明:已在前面证明 与 相互独立w mFF mn-kqn-k则根据 分布的定义有,124mxNxxm预备定理:若 维随机向量 服从正态分布,其中为非退化矩阵(满秩),则二次型 01vRr HvRrRRR3vmE v0令 在成立的情况下,。由于 为正态分布,故根据预备定理,为 维正态分布,且 12Var v
22、Var RRVarRR X XR其方差为 1121214wRrR X XRRrvVar vvmRR X XR根据预备定理,注:由于 行满秩,故可逆 3 wqeewq是 的函数,而 是 的函数,由于 与 相互独立,故 与 相互独立F八、统计量的似然比原理表达式Restricted OLSRLSF使用约束条件下最小二乘法(,简记)可以得到 统计量的另一方便表达式。min SSRmin yXyXs.t.RrrmRmkr Rm考虑有约束的最小二乘问题:其中 为 维列向量,为矩阵,行满秩 LyXyXRrm引入拉格朗日函数,(2.15)其中 为 维拉格朗日乘子列向量k 1L2Xy 2XXR0,一阶条件(2
23、.16)m 1LRr0,及 (2.17)其中、表示极值点(即 与 的最优值)1OLSOLSR X X为了确定约束估计量与无约束估计量 之间的关系,在方程(2.16)两边同时左乘先求11112R X XX y2RR X XR0X XX yRr2R2rR X XR0 (2.18)将 及 代入上式,得 112 R X XRrR由上式解出 (2.19)1111XXXXR R XXRrR将上式代入(2.16),并在方程两边同时左乘得 (2.20)OLSOLSOLSrRrROLSRr这就是约束估计量,可见约束与无约束之差 是的线性函数,而衡量的是无约束估计量 偏离约束条件 的程度若 恰好满足这些约束,则e
24、eeyXyXXeX记 为无约束情况下的残差向量,为有约束情况下的残差向量,则 e eeXeXeeXeeXXXOLSXe0eeXX (根据无约束的性质:)(2.21)111X XRR X XRrR根据(2.20)式有:(2.22)11e eeeRrR XXRRr将上式代入(2.21)式有:(2.23)112211FRrR X XRRrmFe en-kRrR X XRRrmF mn-ke e n-k可得 统计量,e ee emFFe e n-k将(2.23)代入上式可得,这正是似然比原理的 统计量表达式11e ee eRrR X XRRr理解此问题的关键在于(2.23)式e ee emFe e n-kLikelihood ratio test有时更容易计算。这种通过比较“条件极值”与“无条件极值”而进行的检验,通称为“似然比检验”(),参见第四章
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。