数理统计第四章回归分析课件.ppt_163文库

资源描述

1、第四章回归分析数理统计篇数理统计篇变量之间的关系分成两大类变量之间的关系分成两大类 1 1）确定性的关系）确定性的关系-一些变量的值确定后另一些变量的值一些变量的值确定后另一些变量的值也随之确定也随之确定2 2）相关关系）相关关系 -变量之间虽然存在一定的依赖关系，但变量之间虽然存在一定的依赖关系，但这种关系没有达到能由其中一个或多个来准确地决定这种关系没有达到能由其中一个或多个来准确地决定另一个的程度另一个的程度回归分析是研究相关关系的一种有力工具回归分析是研究相关关系的一种有力工具 1 1）从一组观察数据出发，确定这些变量之间的回归方程；）从一组观察数据出发，确定这些变量之间的回

2、归方程；2 2）对回归方程进行假设检验；）对回归方程进行假设检验；3 3）利用回归方程进行预测和控制）利用回归方程进行预测和控制我们主要讨论线性回归方程。许多实际问题可以取我们主要讨论线性回归方程。许多实际问题可以取这种模型做为真实模型的近似这种模型做为真实模型的近似 4.1 回归分析概述在不确定性关系中作为影响因素的变量称为自变量或解释变量,记为X;受X取值影响的响应变量称为因变量,用Y表示;令E(Y|X=x)=f(x),由随机因素引起的偏差是=Y-f(x)X与Y的不确定性关系表示为 Y=E(Y|X=x)+=f(x）+满足E=0,D=DY=2 通常假定 N(0,2);根据回归函数的不同形

3、式,可分为多元非线性回归一元非线性回归非线性回归多元线性回归一元线性回归线性回归数据数据满足满足 ),(iiyxnibxayiii,2,1,其中误差其中误差表示表示中不能由中不能由来表示的部分来表示的部分我们自然假设其均值为零，即我们自然假设其均值为零，即通常还假设通常还假设它满足它满足：iiyibxa 0)(iE（1 1）；niVari,2,1,)(2（2 2）jiCovji,0),(这些假设被称为这些假设被称为Gauss-MarkovGauss-Markov假设，这里第一条假假设，这里第一条假设误差设误差是等方差的是等方差的.第二条则要求不同次的观测第二条则要求不同次的观测

4、误差是不相关的误差是不相关的.i（1）式中未知数）式中未知数、是待估计参数，估计他们的是待估计参数，估计他们的最基本方法是最小二乘法，设最基本方法是最小二乘法，设与与是用最小二乘是用最小二乘法获得的估计，即所谓的最小二乘估计，将它们代法获得的估计，即所谓的最小二乘估计，将它们代入一元线性回归模型并略去误差项入一元线性回归模型并略去误差项，即对给定的，即对给定的，得到方程：，得到方程：aba bxxbay称为称为关于的（经验）关于的（经验）回归方程，其图形称为回归回归方程，其图形称为回归直线直线.yy若随机变量若随机变量与多个普通变量与多个普通变量有关，则可建立数学模型：有关，则可

5、建立数学模型：12,ppx xx（1）ppxbxbby110（3）其中未知数其中未知数是不依赖于是不依赖于的未知参数，的未知参数，是常数，是常数，称为回归系数，称为回归系数，为误差项，称（为误差项，称（3）式为多元线性（理论）回归）式为多元线性（理论）回归模型模型pbbb,10pxxx,210bpbb,1若进行若进行次独立测量，得到样本：次独立测量，得到样本：n),(111211yxxxp),(21nnpnnyxxx，它们都满足（它们都满足（3）式，即就每个数据）式，即就每个数据有：有：),(21iipiiyxxxiippiixbxbby110ni,2,1（5）其中其中为对应于第为对应于

6、第组数据的随机误差组数据的随机误差ii假设假设，并且满足，并且满足Gauss-Markov假设：假设：0)(iE（1 1）；niVari,2,1,)(2（2 2）jiCovji,0),(引进矩阵记号表达多元线性回归模型（引进矩阵记号表达多元线性回归模型（5）会很方）会很方便，记便，记npnnppxxxxxxxxxX212222111211111nyyyY21pbbbB10p21则多元线性回归模型（则多元线性回归模型（5）与）与Gauss-Markov假设假设一起可以记为一起可以记为 XBY0)(EICov2)(6)这里这里为为的设计矩阵的设计矩阵.为为的观测向的观测向量量.为为的未

7、知数参数向量，的未知数参数向量，随机误差向量随机误差向量为其协方差阵，为其协方差阵，是是阶单位矩阵。当误差阶单位矩阵。当误差服从正态分布服从正态分布 .X)1(pnY1nB1n1p)(CovIn),0(2IN),(21iipiiyxxxpbbb,10pbbb,10有了观测数据有了观测数据后，同样可以用最小后，同样可以用最小二乘法获得参数二乘法获得参数的最小二乘估计，记为的最小二乘估计，记为，得多元线性回归方程：，得多元线性回归方程：ppxbxbby110（7）同理，（同理，（7）式是否真正描述了）式是否真正描述了与与的客观存在的关系还需进一步检验的客观存在的关系还需进一步检验yp

8、xxx,21第二节第二节参数估计参数估计一、一元线性回归的参数估计一、一元线性回归的参数估计最小二乘估计是数理统计中估计未知参数的一种重最小二乘估计是数理统计中估计未知参数的一种重要方法，现用它来求一元线性回归模型要方法，现用它来求一元线性回归模型:bxay中未知数中未知数，的估计值的估计值.ab最小二乘法的基本思想是：对一组观察值最小二乘法的基本思想是：对一组观察值),(,),(),(2211nnyxyxyx要使误差要使误差)(iiibxay的平方和的平方和),(baQ2112)(niiiniibxaya bab),(baQ达到最小的达到最小的与与做为未知数做为未知数，的估计，称

9、的估计，称其其为最小二乘估计在数学上这就归结为求二元函数为最小二乘估计在数学上这就归结为求二元函数的最小值问题具体做法如下：的最小值问题具体做法如下：将将分别对分别对，求偏导数，令他们等于零，求偏导数，令他们等于零，得到方程组：得到方程组：),(baQabniiiiniiixbxaybQbxayaQ110)(20)(2即即（9）niiiniiniininiiiyxxbxayxbna112111称为正规方程组，记称为正规方程组，记niixnx11niiyny11ix由于由于不完全相同，正规方程组的系数行列式不完全相同，正规方程组的系数行列式ixniiniiniixxxn12112112n

10、iiniixxn0)(12niixxn由克拉姆法则克制（由克拉姆法则克制（7）式有唯一解）式有唯一解xbyaxxyyxxbniiniii)()(121（10）xbyaxbay将将代入线性回归方程代入线性回归方程则线性回归方程也可表示为：则线性回归方程也可表示为：)(xxbyy（11）（11）式给出了最小二乘估计的几何意义当给定）式给出了最小二乘估计的几何意义当给定样本观察值样本观察值后，散点图中后，散点图中直线很多直线很多.选取点选取点，与诸直线的，与诸直线的偏差平方和最小的这条直线是一条通过散点图的几偏差平方和最小的这条直线是一条通过散点图的几何中心何中心，斜率为，斜率为的直线，可

11、以证明，在某的直线，可以证明，在某些假设下，些假设下，与与是所有线性无偏估计中最好的是所有线性无偏估计中最好的.),(,),(),(2211nnyxyxyx),(iiyxni,2,1),(yxba b 上述确定回归直线所依据的原则是是所有观测上述确定回归直线所依据的原则是是所有观测数据的偏差平方和达到最小按照这个理论确定数据的偏差平方和达到最小按照这个理论确定回归直线的方法称其为最小二乘法回归直线的方法称其为最小二乘法为了应用方便，引进记号如下：为了应用方便，引进记号如下：niixxxxS12)(niiyyyyS12)(niixyyyxxS1)(niiniiniiiyxnyx1111这样，

12、这样，的估计可以写成的估计可以写成abxbybxnynaSSbniiniixxxy1111（12）例例1 为研究商品的价格与销售量之间的关系，现收为研究商品的价格与销售量之间的关系，现收集某商品在一个地区集某商品在一个地区10个时间段内的平均价格个时间段内的平均价格（单位：元）和销售总额（单位：元）和销售总额（单位：万元），统计（单位：万元），统计资料如表资料如表1所示求关于的线性回归方程所示求关于的线性回归方程 xyxy表表 1 1时间段12345678910（元）12.08.011.513.015.014.08.510.511.513.3（万元）11.68.511.412.213.013

13、.28.910.511.312.0解：解：为求线性回归方程，计算得为求线性回归方程，计算得y1012)(iixxxxS961.451012124.22)(iiyyyySx73.11101101iix3.117101iix故故26.11101101iiyy6.112101iiy故故15.13521niiiyx101)(iixyyyxxS101101101101iiiiiiiyxyx352.316.1123.11710115.13522590.373.116821.026.116821.0 xbyaSSbxxxy回归方程：回归方程：xy6821.02590.3最小二乘估计的性质最小二乘估计的性质：

14、（1）与与分别是未知数分别是未知数与与的无偏估计，的无偏估计，即即，；a babaaE)(bbE)(（2）假设）假设，则，则与与都服从正态都服从正态分布，即：分布，即：),0(2Nia b)1(,(2xxSxnaNa)1,(2xxSbNb这里，这里，niixxxxS12)(i一元线性回归模型中，误差一元线性回归模型中，误差的方差的方差，由于由于，很自然地想到用，很自然地想到用与与分别代替分别代替与与得到得到的估计，记为的估计，记为，即：，即：i2)(10iiixbbya babii)(10iiixbbyni,2,1通常称之为残差用残差就可以构造通常称之为残差用残

15、差就可以构造的一个常的一个常用的估计用的估计 2niin122212的性质的性质（1）是是无偏估计；无偏估计；22（2），并且，并且与与，相互独立相互独立)2(/)2(222nn2a bbb二、多元线性回归的参数估计二、多元线性回归的参数估计若若，为一样为一样本，根据最小二乘法原理，多元线性回归中未知参本，根据最小二乘法原理，多元线性回归中未知参数数应满足使函数应满足使函数),(111211yxxxp),(21nnpnnyxxxpbbb,10niippiixbxbbyQ12110)(达到最小达到最小对对分别关于分别关于求偏导数，并令它们等于求偏导数，并令它们等于零，得到零，得到Q

16、pbbb,10njijipipiijipipiipjxxbxbbybQxbxbbybQ1)1101100,2,1,0(20)(2称为正规方程组，引进矩阵称为正规方程组，引进矩阵npnnppxxxxxxxxxX212222111211111nyyyY21pbbbB10p21于是正规方程组可写成于是正规方程组可写成YXXBX若若存在，则存在，则1)(XXpbbbB10YXXX1)(而而即为经验回归方程即为经验回归方程ppxbxbby110第三节第三节假设检验假设检验检验检验变量的变化对变量的变化对的影响是否显著，这个问的影响是否显著，这个问题可以利用线性关系的显著性检验来解决题可以利用线

17、性关系的显著性检验来解决.xy检验假设检验假设 0:,0:10bHbH（9-15）0H若拒绝原假设若拒绝原假设，则认为，则认为与与之间存在线性关之间存在线性关系，所求的线性回归方程无意义；系，所求的线性回归方程无意义；0Hyx若接受若接受，则认为，则认为与与的关系不能用一元线性的关系不能用一元线性回归模型来描述，所求的线性回归方程有无意义回归模型来描述，所求的线性回归方程有无意义；0Hyx已知已知与与具有性质：具有性质：b2)1,(2xxSbNb)2(/)2(222nn并且并且与与互相独立，于是，原假设成立互相独立，于是，原假设成立 2b)2(ntSbtxxt这个这个就是

18、此双边检验的就是此双边检验的检验统计量对于给定检验统计量对于给定的显著性水平的显著性水平，此假设检验的拒绝域为，此假设检验的拒绝域为tt)2(|2ntt这就是所谓的这就是所谓的检验法检验法 t如果检验的结论是拒绝原假设，即接受备择假设如果检验的结论是拒绝原假设，即接受备择假设，我们就说回归方程通过了显著性检验，认，我们就说回归方程通过了显著性检验，认为为与与有一定的线性关系但是如果检验的结有一定的线性关系但是如果检验的结论是接受原假设论是接受原假设，实际上可能有多种原因，实际上可能有多种原因导致这种情况当然可能是导致这种情况当然可能是对对确实没什么影确实没什么影响，也可能是还

19、有对响，也可能是还有对影响更大的自变量未被考影响更大的自变量未被考虑，还可能系统误差过大等等虑，还可能系统误差过大等等0bxy0bxyy注意到注意到分布与分布与分布的关系，当分布的关系，当时，时，故，故tF)2(ntt)2,1(2nFt)2,1(/22nFSbFxx（16）t这个这个就是此检验的就是此检验的检验估计量，注意，上面的检验估计量，注意，上面的检验法则等价于如下的检验法则等价于如下的检验法则：对于给定的检验法则：对于给定的显著性水平显著性水平，当，当则拒绝原假设，则拒绝原假设，否则接受原假设此假设检验的拒绝域为否则接受原假设此假设检验的拒绝域为 FFtF)2,1(

20、nFF)2,1(nFF关于关于检验，最最常用的是方差分析表检验，最最常用的是方差分析表 F设当设当的取值的取值，得到，得到的一组观察值的一组观察值，统计量，统计量称为称为的总偏差平方和，它的大小反应了观察的总偏差平方和，它的大小反应了观察值值的分散程度。它的自由度规定为的分散程度。它的自由度规定为xnxxx,21ynyyy,21总QniiyyyyS12)(nyyy,211nnyyy,21记记，称为在，称为在处因变量处因变量的拟合值或回的拟合值或回归值，因为归值，因为iixbayixyniiyy12)(niiiiyyyy12)(可以验证可以验证niiiiyyyy12)(ni

21、iiyy12)(niiiyy12)(记记niiiyyQ12)(回niiiyyQ12)(剩则有则有回剩总QQQ（17）回Q 称为回归平方和，反映了回归值称为回归平方和，反映了回归值的分散程度的分散程度，这种分散性是因为，这种分散性是因为的变化而引起的，并通过的变化而引起的，并通过对对的线性影响反映出来它的自由度规定为的线性影响反映出来它的自由度规定为1iy xxy剩Q 称为剩余平方和，反映了观测值称为剩余平方和，反映了观测值偏离回归直偏离回归直线的程度，这种偏离是由试验误差和其他未加控制线的程度，这种偏离是由试验误差和其他未加控制的因素引起的，其实它就是上节中残差的因素引起的，其实它就

22、是上节中残差的平方的平方和，即和，即，则由，则由的性质可知的性质可知是是的无偏估计，它的自由度是的无偏估计，它的自由度是 iyi剩Qnii12222nQ剩22n回Q通过对通过对，的分析，的分析，的分散程度的分散程度的两种影响可以从数量上区分开来，因而的两种影响可以从数量上区分开来，因而与与的比值反映了这种线性相关关系与随机因素对的比值反映了这种线性相关关系与随机因素对的影响的大小，比值越大，线性关系越强的影响的大小，比值越大，线性关系越强回Q剩Qnyyy,21总Q回Q剩Qy可以证明统计量可以证明统计量 xxSbF/2221nQQ剩回（9-18）故，当故，当为真时服从参数为

23、为真时服从参数为 1和和的的分布，分布，即即给定显著性水平给定显著性水平，若，若，则拒绝原假设，则拒绝原假设，即认为在显著，即认为在显著性水平性水平下，下，对对的线性相关关系是显著的；反的线性相关关系是显著的；反之，则认为之，则认为对对的没有线性相关关系，即所求的的没有线性相关关系，即所求的线性回归方程无实际意义线性回归方程无实际意义 0H2nF)2,1(nFF)2,1(nFF0Hyxyx实际计算中，可使用公式实际计算中，可使用公式nixxxyiiSSyyQ122)(回（9-19）xxxyyySSSQQQ2回总剩（9-20）表表9-2 一元回归的方差分析表一元回归的方差分析

24、表方差源平方和自由度均方 F比回归 Q回回1MQ回回=Q回回/1剩余 Q剩剩n-1M Q剩剩=Q剩剩/n-2总和 Q总总n-212QQFn剩剩回回例例2 在显著性水平在显著性水平下，检验例下，检验例1中回归效果中回归效果是否显著是否显著 05.0解：由例解：由例1知，知，961.45xxS352.31xyS124.22yyS计算出计算出3866.21)(122nixxxyiiSSyyQ回7374.03866.21124.22回总剩QQQ32.5)8,1(0217.2322105.0FnQQF剩回故拒绝原假设故拒绝原假设，即认为在显著性水平，即认为在显著性水平下，回归直线下，回归直

25、线 0Hxy6821.02590.3所表达的所表达的与与的线性相关关系是显著的的线性相关关系是显著的yx因变量因变量与与的线性相关关系是否显著的可以用的线性相关关系是否显著的可以用判定系数判定系数来度量，其定义是来度量，其定义是yx2R总回QQR 2yx这两项的比值表明回归直线所能解释的因变量这两项的比值表明回归直线所能解释的因变量的偏差部分在的偏差部分在的总偏差中的比例，其值越大，的总偏差中的比例，其值越大，则则与与的线性相关关系也就越大，事实上，的线性相关关系也就越大，事实上，就是就是与与相关系数相关系数.yyyxRyx例题例题2中，计算可得中，计算可得总回QQR 2

26、967.0124.223866.21这说明，在这种商品销售总额的变化中，有近这说明，在这种商品销售总额的变化中，有近的变化是由销售总额与价格的线性关系引起的的变化是由销售总额与价格的线性关系引起的第四节第四节预测预测0y假定在假定在处，理论回归方程处，理论回归方程成成立立，因变量，因变量的相应的值的相应的值满足满足 0 xx bxayy0y000bxay这就是所谓的点预测这就是所谓的点预测在点预测在点预测的基础上预测对应的的基础上预测对应的的观察值的的观察值的取值范围称之为区间预测取值范围称之为区间预测.需要假设误差需要假设误差服从服从正态分布且相互独立正态分布且相互独立

27、0yyi对于给定的对于给定的，的置信度为的置信度为的置信区的置信区间为间为100y1),(00lyly其中其中 xxSxxnntl202)(11)2(n这个预测区间是一个以这个预测区间是一个以的预测的预测为中心，为中心，长度为长度为的对称区间的对称区间.对给定的对给定的和和，越大，则预测区间的长度就越短，预测精度越大，则预测区间的长度就越短，预测精度也就越高也就越高.因此，威力提高预测精度，就要增因此，威力提高预测精度，就要增大大，也就是把实验点，也就是把实验点尽可能分尽可能分散开散开0y0 yl 2nxxSxxSnxxx,21在实际的回归问题中，若样本容量在实际的回归问题中

28、，若样本容量很大，而很大，而靠近预测中心靠近预测中心，则可简化计算，则可简化计算n0 xx1)(1120 xxSxxnztn22)2(则则的置信度为的置信度为的置信区间为近似为的置信区间为近似为 0y1),(2020zzyy特别地，取特别地，取，则，则的置信度为的置信度为的置的置信区间近似为信区间近似为 05.00y95.0)96.1,96.1(00yy可以预料，在全部可能出现的可以预料，在全部可能出现的值中，大约有值中，大约有的观测点落在直线的观测点落在直线：与与：所所夹的带型区域内夹的带型区域内1L96.10 yy2L96.10 yyy%95图图9-3例例4 给定给

29、定，问例，问例1中销售总额在中销售总额在什么范围内？什么范围内？05.05.130 x解解当当，的预测值为的预测值为 5.130 x0y4674.125.136821.02585.300 xbay22nQ剩对对，而，而再由例再由例2已知已知，所以，所以05.0306.2)8(025.0t7374.0剩Q3036.087374.0所以计算得所以计算得xxSxxnntl202)(11)2(7567.0961.45)73.115.13(10113036.0306.02故故的预测区间为的预测区间为，即销售总，即销售总额额将以将以的概率落在区间的概率落在区间内内 0y)7567.04674.12(0y%95)2241.13,7107.11(

展开阅读全文