1、第三章第三章 回归分析回归分析1. 一元线性回归分析一元线性回归分析2. 多元线性回归分析多元线性回归分析3. 逐步回归方法逐步回归方法回归分析回归分析是用来寻找若干变量之间统计联系是用来寻找若干变量之间统计联系(关系)的一种方法。(关系)的一种方法。它是一种统计模型,分为它是一种统计模型,分为线性线性回归和回归和非线性非线性回归。线性回归在气象中最为常用。回归。线性回归在气象中最为常用。利用回归分析得到的统计关系对某一变量作利用回归分析得到的统计关系对某一变量作出未来时刻的估计,称为出未来时刻的估计,称为预报值(量)预报值(量)。前。前期已发生的多个与之有关的气象要素称为期已发生的多个与之有
2、关的气象要素称为预预报因子报因子。第一节第一节 一元线性回归一元线性回归 一元回归分析处理的是一元回归分析处理的是两个变量两个变量之间之间的关系,即一个预报量和一个预报因子之的关系,即一个预报量和一个预报因子之间的关系。间的关系。基本原理:基本原理:对抽取容量为对抽取容量为n的预报量的预报量y与预报因子与预报因子x的一组样本,如认为的一组样本,如认为y与与x是一元线性统计关系,则线是一元线性统计关系,则线性回归方程为:性回归方程为:那么预报量的估计量那么预报量的估计量 与与x有如下关系:有如下关系:或写为一般的回归方程:或写为一般的回归方程: b0为截距,为截距,b为斜率为斜率一、回归模型一、
3、回归模型01,2,(1)iiybbxin y0 ybbx01,2,iybbxin年份年份冬季环流冬季环流指标(指标(x)5月平均月平均气温气温T(y)1951320.91952251.21953202.21954262.4195527-0.51956242.5195728-1.119582401959156.21960162.71961243.2196230-1.11963222.51964301.21965241.81966330.61967262.41968202.51969321.2197035-0.8最小二乘法最小二乘法求回归系数求回归系数对所有的对所有的xi,若,若 与与 yi 的偏
4、差最小,就认为的偏差最小,就认为(1)式所确定的直线能最好地代表所有实)式所确定的直线能最好地代表所有实测点的散布规律测点的散布规律。为了消除偏差符号的影。为了消除偏差符号的影响,可以用偏差的平方来反映偏差的绝对响,可以用偏差的平方来反映偏差的绝对值偏离情况。值偏离情况。iy显然,显然,Q值越小越好值越小越好, Q是待定系数是待定系数a和和b的函数。的函数。根据极值原理,要求根据极值原理,要求 :00Qb0bQ全部观测值与回归直线的离差平方和记为全部观测值与回归直线的离差平方和记为 : :201(, )()2niiiQ b byy( )(2 2)式刻画了全部观测值与回归直线偏离程度。)式刻画了
5、全部观测值与回归直线偏离程度。整理得到求回归系数整理得到求回归系数b0、b的方程组:的方程组: 110201113nniiiinnniiiiiiinbbxybxbxx y( )(3 3)式称为求回归系数的标准方程组。)式称为求回归系数的标准方程组。012221niixyinxiibybxx ynxySbSxnx回归系数也可直接表示为:回归系数也可直接表示为:-距平形式回归方程距平形式回归方程将将 代入回归方程代入回归方程 ,得,得到:到:0=bybx0 =iiybbx(iididiyyb xxybx) 或或2xyxyyyxyxxyxxSSSSbrSS SSSzixyziyr x-标准化形式回归
6、方程标准化形式回归方程回归系数回归系数b b与相关系数之间的关系与相关系数之间的关系: :2xyyxyxxSSbrSS相关系数相关系数 r与回归系数与回归系数b同号。同号。当当b0,回归直线斜率为正,预报量,回归直线斜率为正,预报量y随预报因子随预报因子x增加而增加,增加而增加,反映预报量与因子是正相关。反映预报量与因子是正相关。1 1、意义、意义 评价回归方程的优劣。评价回归方程的优劣。2、预报量的方差可以表示成回归估计值的方差预报量的方差可以表示成回归估计值的方差(回归方差)和误差(残差)方差之和。(回归方差)和误差(残差)方差之和。222yyesss二、回归问题的方差分析二、回归问题的方
7、差分析222111111()()()4nnniiiiiiyyyyyynnn( )即: 方差分析表明,预报量y的变化可以看成由前期因子x的变化所引起的,同时加上随机因素e变化的影响,这种前期因子x的变化影响可以用回归方差的大小来衡量。如果回归方差大,表明用线性关系解释y与x的关系比较符合实际情况,回归模型比较好。(4)式两边同时乘以式两边同时乘以n变成各变量离差平方和的关系。变成各变量离差平方和的关系。yysUQ21s()nyyiiyy总离差平方和:总离差平方和:21()niiUyy回归平方和:回归平方和:21()niiQyy残差平方和:残差平方和:反映反映因变量因变量y的的n个观测值与其均值的
8、总离差个观测值与其均值的总离差. .反映回归值的分散程度反映回归值的分散程度.反映反映观测值偏离回归直线的程度观测值偏离回归直线的程度. .三、相关系数与线性回归三、相关系数与线性回归因为回归方差不可能大于预报量的方差,可以用它们的比因为回归方差不可能大于预报量的方差,可以用它们的比值来衡量方程的拟合效果。即:值来衡量方程的拟合效果。即:222122111niyixynyyyiiyysUnrssyyn回归方程回归方程判决系数判决系数上式表明预报因子上式表明预报因子x对预报量对预报量y的方差的线性关系程的方差的线性关系程度,这一比值又称为度,这一比值又称为解释方差解释方差。判决系数是衡量两个变量
9、线性关系密切程度的量,判决系数是衡量两个变量线性关系密切程度的量,也等于两变量相关系数的平方。也等于两变量相关系数的平方。判决系数的物理含义:判决系数的物理含义:1. 回归平方和占总离差平方和的比例;回归平方和占总离差平方和的比例;2. 反映回归直线的拟合程度;反映回归直线的拟合程度;3. 取值范围在取值范围在0,14. r21,说明回归方程拟合的越好;,说明回归方程拟合的越好; r20,说明回归方程拟合的越差;,说明回归方程拟合的越差;5. 判决系数等于相关系数的平方判决系数等于相关系数的平方.回归分析与相关分析的区别:回归分析与相关分析的区别:1.相关分析中,变量相关分析中,变量x、y处于
10、平等的地位;回归分析中,处于平等的地位;回归分析中,变量变量y称为因变量,处在被解释的地位,称为因变量,处在被解释的地位,x称为自变量,称为自变量,用于预测因变量的变化。用于预测因变量的变化。2.相关分析中所涉及的变量相关分析中所涉及的变量x和和y都是随机变量;回归分都是随机变量;回归分析中,因变量析中,因变量y是随机变量,自变量是随机变量,自变量x可以是随机变量,可以是随机变量,也可以是非随机的确定变量。也可以是非随机的确定变量。3.相关分析主要是描述两个变量之间线性关系的密切程相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量度;回归分析不仅可以揭示变量x对变量对变
11、量y的影响大小,的影响大小,还可以由回归方程进行预测和控制。还可以由回归方程进行预测和控制。四、回归方程的显著性检验四、回归方程的显著性检验显著性检验的主要思想是显著性检验的主要思想是检验预报因子与预报量是否有检验预报因子与预报量是否有线性关系。线性关系。可以证明在原假设总体回归系数为可以证明在原假设总体回归系数为0 0的条件下,统计量的条件下,统计量 遵从分子自由度为遵从分子自由度为1,分母自由度为(,分母自由度为(n2)的)的F分布。分布。 查查F的分布表,在的分布表,在a=0.05下,若下,若 则认为回归方程是显著的。反之,则不显著。则认为回归方程是显著的。反之,则不显著。1(2)UFQ
12、naFFF分布表分布表2222/1/1/(2)/(2)(1)/(2)yesUrFQnsnrn222/yyxyssr统计量统计量F F也可以写为:也可以写为:注意注意:对于一元线性回归来说,因为对于一元线性回归来说,因为F的相关系数的相关系数表达式开方就是相关系数表达式开方就是相关系数t检验的表达式检验的表达式,故故回归方程的检验与相关系数的检验一致。回归方程的检验与相关系数的检验一致。221rtnr五、回归系数的显著性检验211() niicxx221(2)()niibbctQnxx气象中使用最多的是回归方程的距平形式,所以气象中使用最多的是回归方程的距平形式,所以对回归方程的显著性检验可以只
13、对因子的回归系对回归方程的显著性检验可以只对因子的回归系数进行检验。数进行检验。在原假设在原假设H0:=0的条件下,统计量的条件下,统计量2211()22niiiQyynn遵从自由度为遵从自由度为n-2的的t分布分布.或者根据或者根据F F分布与分布与t t分布的关系,统计量分布的关系,统计量21(2)(2)bUcFQQnn遵从分子自由度为遵从分子自由度为1,分母自由度为,分母自由度为n-2的的F分布分布.2200112221nniiiiniiUyybbxbbxbbxxc对回归方程的检验与对回归系数的检验一致对回归方程的检验与对回归系数的检验一致.95%1.96iy预报值的置信区间可近似估计为
14、因为因为 yi可以看成遵从可以看成遵从 的正态分布,的正态分布,所以其所以其95%的置信区间的置信区间为为 ()1.96iE y六、预报值的置信区间20(;)iNx2211()2niiiyyn0()iiiE ybbxy可用估计2Qn可用无偏估计量估计一元线性回归分析预测步骤一元线性回归分析预测步骤 年份年份气温气温T环流指标环流指标19510.93219521.22519532.22019542.4261955-0.52719562.5241957-1.128195802419596.21519602.71619613.2241962-1.13019632.52219641.23019651.
15、82419660.63319672.42619682.52019691.2321970-0.835012221niixyinxiibybxx ynxySbSxnx513第二节第二节 多元线性回归多元线性回归 对某对某一个预报量一个预报量y,研究,研究多个因子多个因子与它的定与它的定量统计关系量统计关系-多元回归多元回归多元线性回归的原理与一元线性回归完全多元线性回归的原理与一元线性回归完全相同相同一、多元回归模型1.描述因变量描述因变量y如何依赖于自变量如何依赖于自变量x1, x2, , xp和和误差项误差项 的方程,称为多元回归模型的方程,称为多元回归模型.2.涉及涉及 p 个自变量的多元线
16、性回归模型可表示为个自变量的多元线性回归模型可表示为假定预报量y与p个预报因子关系是线性,为研究它们之间的联系作n次抽样,则可得到如下结构表达式:101 112 2111201 122 222201 12 2(1)ppppnnnppnnyxxxeyxxxeyxxxe01 1221,2,tttppttyxxxetn展开展开(1)式也可以写成矩阵形式:式也可以写成矩阵形式:01p(2)YXe其中:其中:12nyyyy12neeee1111221111ppnpnxxxxXxx 我们得到的是一组实测我们得到的是一组实测p个变量的样本,利用这个变量的样本,利用这组样本(组样本(n次抽样)对上述回归模型进
17、行估计,次抽样)对上述回归模型进行估计,得到的得到的估计方程估计方程为多元线性回归方程,记为为多元线性回归方程,记为:其中,其中,bi 是的是的i 估计值估计值,下面讨论如何确定它们。,下面讨论如何确定它们。01 122ppybb xb xb x二、回归系数最小二乘估计 和一元线性回归类似,在样本容量为和一元线性回归类似,在样本容量为n的的y预报量预报量和因子变量和因子变量x的实测值中,满足线性回归方程:的实测值中,满足线性回归方程:01 1221,2,tttpptybb xb xb xtn要求回归系数,应使全部的预报量观测值与要求回归系数,应使全部的预报量观测值与回归估计值的差值平方和回归估
18、计值的差值平方和Q达到最小。达到最小。2201 12211()()nntttttpptttQyyybb xb xb x由极值定理:由极值定理:0112220111221112021122222201122ttppttttttttttpptttttttttttttpptttttttttpttpttptppttpttttttnbbxbxbxybxbxbx xbx xy xbxbx xbxbx xy xbxbx xbx xbxy x三、线性回归模型的其他形式00Qb01 122ppbyb xb xb x01 1221,2,tttpptybb xb xb xtn111222()()()tttpptpy
19、yb xxb xxb xx1122dddpdpybxb xb x距平形式的回归方程距平形式的回归方程从距平变量的观测值求回归系数,同样用从距平变量的观测值求回归系数,同样用最小二乘最小二乘法法导出求回归系数的标准方程组:导出求回归系数的标准方程组:211221112112222221122d td td tpdptd tdtd tttttd td td tpdptd tdtd tttttd tdptd tdptpdptdtdptttttbxbxxbxxy xbxxbxbxxy xbxxbxxbxy x为书写方便,上式两边乘上为书写方便,上式两边乘上1/n1/n,变成各变量的协方,变成各变量的协
20、方差形式,相应的方程组写为:差形式,相应的方程组写为:1122112212121212dddpdppdpdddyyyypdpdddpyyyypyb xb xb xb xyb xb xsssssxyxxssbbbsssssss对距平变量多元线性回归方程两边除以预报量对距平变量多元线性回归方程两边除以预报量y的标的标准差,得到:准差,得到:11zzzzpzpyb xb x(1,2,)kzkkysbbkps令:令:标准化形式的回归方程标准化形式的回归方程从标准化变量的观测值求回归系数,同样用从标准化变量的观测值求回归系数,同样用最小二最小二乘法乘法导出求回归系数的标准方程组:导出求回归系数的标准方程
21、组:211221112112222221122zz tzz tz tzpzptz tztz tttttzz tz tzz tzpzptz tztz tttttzz tzptzz tzptzpzptztzptttttbxbxxbxxy xbxxbxbxxy xbxxbxxbxy x111122111122zzpzpypzpzppzppyr br br brr br br br四、回归问题的方差分析四、回归问题的方差分析211pykkyksUb snyySUQ21zpykyzkksr b回归方差可表示为:回归方差可表示为:对于标准化变量而言,回归方差为对于标准化变量而言,回归方差为:211111(
22、)()() ()()()()()nniiiiiiipnniiiiik kyiikUyyyyyyyyyy yyyy yynbs=0五、复相关系数五、复相关系数复相关系数复相关系数R :衡量一个预报量与多个变量之间线性关系程:衡量一个预报量与多个变量之间线性关系程度的量,即衡量预报量度的量,即衡量预报量y与估计量与估计量 之间线性相关程度的量。之间线性相关程度的量。 y12211()()()()niiinnyyiiiiyyyyURSyyyy21yyQRS 六、回归方程的显著性检验六、回归方程的显著性检验 回归方程的显著性检验和一元回归类似:回归方程的显著性检验和一元回归类似:假设总体回归系数为假设
23、总体回归系数为0 0时时, ,利用利用 221111yyyyUSURpppFQQRnpSnpnp遵从分子自由度为遵从分子自由度为p,分母自由度为,分母自由度为n-p-1的的F分布,在显著分布,在显著性水平下性水平下=0.05,若,若 ,认为回归方程是显著的。,认为回归方程是显著的。aFF95%1.96iy预报值的置信区间可近似估计为因为因为 的正态分的正态分布,布, ,所以其,所以其95%的置信区间的置信区间为:为: ()1.96iE y七、预报值的置信区间2011(;)ppyNxx2211()1niiiyynpiib可用 估计1Qnp可用无偏估计量估计若在若在p个预报因子中去掉一个因子,再建
24、立它们对个预报因子中去掉一个因子,再建立它们对y的预报方程,则此时回归平方和、残差平方和记分的预报方程,则此时回归平方和、残差平方和记分别为别为 ,定义单个预报因子的方差贡献:定义单个预报因子的方差贡献:八、预报因子(回归系数)的显著性检验八、预报因子(回归系数)的显著性检验-1-1ppUQ()(),2( )(1)(1)( )1,2,ppppkkkkbVUUQQCkp 是因子离差矩阵是因子离差矩阵 的对角线上的元素。的对角线上的元素。kkC1CX X 计算统计量计算统计量 符合自由度为符合自由度为(1,n-p-1)的的F分布。给定信度以分布。给定信度以后,当后,当 ,说明第,说明第k个因子的方
25、差贡献是个因子的方差贡献是显著的。显著的。2(1)(1)kkkkkVbCFQQnpnpkFF九、在气象中利用回归方程进行预报的步骤九、在气象中利用回归方程进行预报的步骤 1)1)确定预报量并选择恰当的因子确定预报量并选择恰当的因子 2)2)根据数据计算回归系数标准方程组所包含的有根据数据计算回归系数标准方程组所包含的有 关统计量关统计量( (因子的交叉积、协方差阵或相关阵因子的交叉积、协方差阵或相关阵, ,以及以及 因子与预报量交叉积、协方差或相关系数因子与预报量交叉积、协方差或相关系数) ) 3 3)解线性方程组定出回归系数)解线性方程组定出回归系数 4 4)建立回归方程并进行统计显著性检验
26、)建立回归方程并进行统计显著性检验 5 5)利用已出现的因子值代入回归方程作出预报)利用已出现的因子值代入回归方程作出预报 量的估计,求出预报值的置信区间量的估计,求出预报值的置信区间十、实例分析十、实例分析例:设对某一预报量例:设对某一预报量y,选择,选择4个因子作预报,个因子作预报,样本容量样本容量n=13,它们的资料见表,它们的资料见表1 i 1 2 3 4 5 6 7 8 910 111213x1 7 111 11 711 3 1 221 11110 x226295631525571315447406668x3 615 8 8 6 9172218 423 9 8x46052204733
27、22 6442226341212y78.574.3104.387.695.9109.2102.772.593.1115.983.8113.3109.4为了说明问题,我们选取为了说明问题,我们选取 , , 作为因子作为因子使用使用标准化变量的回归方程标准化变量的回归方程,求标准回归系数,求标准回归系数的方程组为:的方程组为: (略去下标略去下标z) 得出回归方程为:得出回归方程为: 1x2x4x1241241240.22860.24550.73070.22860.97300.81630.24550.97300.8213bbbbbbbbb 124 =0.5679 +0.43230.2613yxxx
28、计算回归方差和残差方差:计算回归方差和残差方差: 对回归方程进行统计检验,计算对回归方程进行统计检验,计算 在显著水平在显著水平a=0.05下下, 说明该方程是显著的说明该方程是显著的 。以上用的是多元线性回归方法以上用的是多元线性回归方法 。但是这是否说明三个因子对预报量都有显著影响呢?但是这是否说明三个因子对预报量都有显著影响呢?20.5679 0.73070.2613 0.82130.9823ys221=0.0177eyss 0.98233=166.40.01771133 1UpFQnp aFF对回归系数检验,利用对回归系数检验,利用 发现发现 是显著的是显著的 ,而,而 和和 是不显著
29、的。是不显著的。 21kkkkbcFQnp1b2b4b通过例子说明,尽管回归方程是显著的,并不能通过例子说明,尽管回归方程是显著的,并不能说明方程中所有因子都对预报量有显著影响。说明方程中所有因子都对预报量有显著影响。回归分析中回归系数的计算(1)交换矩阵的两行(2)以非零常数k乘矩阵的某一行(3)将矩阵的某一行乘非零常数k加至矩阵的另一行111213121222323132333yyyrrrrrrrrrrrr1233331 0 00 1 00 0 1yyyrrr( )( )( )初等行变换初等行变换1 1、线性方程组求解、线性方程组求解高斯高斯- -亚当消去法亚当消去法2 2、求解求逆并行方
30、案、求解求逆并行方案2 2、求解求逆紧凑方案、求解求逆紧凑方案r21/r11r31 ( )( )( )(1)( )( )( )( )( )( )1(,)1(,)2(,)3(,)4lkklkjlkklijliklkkllkjiklijlkkik jkaaik jkaaaik jkaaaaik jka列( )( )( )ljilijljirrr第三节第三节 逐步回归分析逐步回归分析 在气象预报中,对预报量的预报常常需在气象预报中,对预报量的预报常常需要要从可能影响预报从可能影响预报y的诸多因素中挑选一批的诸多因素中挑选一批关系较好的作为预报因子关系较好的作为预报因子,应用多元线性回,应用多元线性回
31、归的方法建立回归方程来做预报,但归的方法建立回归方程来做预报,但如何才如何才能保证在已选定的一批因子中得到最优的回能保证在已选定的一批因子中得到最优的回归方程呢归方程呢? 逐步回归分析方法就是针对这一逐步回归分析方法就是针对这一问题提出的一种常用方法。问题提出的一种常用方法。若在若在p个预报因子中去掉一个因子,再建立它们对个预报因子中去掉一个因子,再建立它们对y的预报方程,则此时回归平方和、残差平方和记分的预报方程,则此时回归平方和、残差平方和记分别为别为 ,定义单个预报因子的方差贡献:定义单个预报因子的方差贡献:一、预报因子(回归系数)的显著性检验一、预报因子(回归系数)的显著性检验-1-1
32、ppUQ()(),2( )(1)(1)( )1,2,ppppkkkkbVUUQQCkp 是因子离差矩阵是因子离差矩阵 的对角线上的元素。的对角线上的元素。kkC1CX X 在多元线性回归方程的建立中,尽管最后都作了在多元线性回归方程的建立中,尽管最后都作了方程的统计检验,但并不意味着在方程的统计检验,但并不意味着在p个因子中,每个因子中,每个因子对预报量个因子对预报量y的影响都是重要的。需要对每个的影响都是重要的。需要对每个因子进行考察,若某个因子对预报量因子进行考察,若某个因子对预报量y的作用不显的作用不显著,那么在多元线性回归方程中它前面的系数就著,那么在多元线性回归方程中它前面的系数就可
33、能近似为可能近似为0,因此,因此,检验某一因子是否显著等价检验某一因子是否显著等价于检验假设:于检验假设: 要对 作假设检验,自然就要寻找它的样本统计量 和与它有关的统计量的分布。 因为最小二乘估计的 是随机变量 的线性函数,由于这些随机变量是遵从正态分布,则 也遵从正态分布。iykbkkbkb 计算统计量计算统计量 符合自由度为符合自由度为(1,n-p-1)的的F分布。给定信度以分布。给定信度以后,查表求出标准值,若后,查表求出标准值,若 ,说明该因,说明该因子方差贡献显著,保留该因子,否则可以考虑子方差贡献显著,保留该因子,否则可以考虑从回归方程中剔除出去。从回归方程中剔除出去。2(1)(
34、1)kkkkkVbCFQQnpnpkFF二、预报因子数目对回归方程的影响 一般而言,回归方程中包含的因子个数越多,回归平一般而言,回归方程中包含的因子个数越多,回归平方和就越大,残差平方和越小。但是当因子增加到一方和就越大,残差平方和越小。但是当因子增加到一定数目,残差平方和下降的幅度就很小了。定数目,残差平方和下降的幅度就很小了。一般回归一般回归方程的因子数目在方程的因子数目在5-6个左右为宜。个左右为宜。 如果如果因子过多因子过多,则一方面对方程所起的贡献已不很大,则一方面对方程所起的贡献已不很大,另一方面会带来因子本身的各种随机因素,另一方面会带来因子本身的各种随机因素,影响回归影响回归
35、方程的稳定性,方程的稳定性,反而使预报效果下降。反而使预报效果下降。 选择因子时要使因子之间的相关系数选择因子时要使因子之间的相关系数 ,而因,而因子各自与预报量之间的相关系数子各自与预报量之间的相关系数 。越小越好越小越好越大越好越大越好关键问题:既要选择对预报量影响显著的因子,又要使回归方程的残差方差估计很小,这样才有利于气象预报。如何选择这种最优的回归方程呢? 逐步回归方法三、逐步回归的三种方案 1 1、逐步剔除方案、逐步剔除方案 2 2、逐步引进方案、逐步引进方案 3 3、双重检验的逐步回归方案、双重检验的逐步回归方案逐步剔除方案 1 1、基本思想:、基本思想:从包含全部变量的回归方程
36、中逐步从包含全部变量的回归方程中逐步剔除不显著的因子。剔除不显著的因子。2 2、方案:、方案: 假定有假定有p p个预报因子,首先用这个预报因子,首先用这p p个因子建立回个因子建立回 归方程,然后检查每个因子的方差贡献大小。归方程,然后检查每个因子的方差贡献大小。21,2,kkkkbVkpC从从Vk中选出方差贡献最小者记为中选出方差贡献最小者记为 Vmin,检验时,检验时使用统计量使用统计量min( )1lVFQnl 表示回归方程含表示回归方程含l个因子时的残差平方和。个因子时的残差平方和。若显著,则其余因子也是显著的。若不显著,则若显著,则其余因子也是显著的。若不显著,则剔除这一因子,对该
37、因子对应的列进行消去后重剔除这一因子,对该因子对应的列进行消去后重复上面的步骤。复上面的步骤。3 3、思考、思考(1)因子的方差贡献代表什麽意义?(2)为何不同时把几个不显著的因子从方程中剔除出去,而是要每次剔除一个?(1)回归平方和是所有因子对预报量的总贡献。)回归平方和是所有因子对预报量的总贡献。所考虑的因子越多,回归平方和越大,若所考虑的因子越多,回归平方和越大,若去掉去掉一个因子,回归平方和只会减小,不会增加。一个因子,回归平方和只会减小,不会增加。减少的数值越大,说明该因子在回归中所起的减少的数值越大,说明该因子在回归中所起的作用越大,表明该因子越重要,作用越大,表明该因子越重要,所
38、以,可用此所以,可用此衡量该因子的方差贡献大小。衡量该因子的方差贡献大小。( )( -1)llkVUUVk就是去掉第就是去掉第k个因子后,回归平方和的减少量。个因子后,回归平方和的减少量。这部分也叫做这部分也叫做偏回归平方和偏回归平方和。衡量每个因子对回衡量每个因子对回归方程所起作用的大小。归方程所起作用的大小。(2)在剔除因子过程中,假如)在剔除因子过程中,假如x1、x2方差贡献都比方差贡献都比较小,我们只能剔除其中的最小者,而不应该全较小,我们只能剔除其中的最小者,而不应该全部去掉。因为这部去掉。因为这两个因子之间可能存在密切相关两个因子之间可能存在密切相关关系,关系,剔除剔除x1后,其对
39、后,其对y的影响很大部分可以转加的影响很大部分可以转加到到x2对对y的影响上。所以回归平方和不会因此减小的影响上。所以回归平方和不会因此减小很多。但如果同时去掉两个因子,就会比较多的很多。但如果同时去掉两个因子,就会比较多的减少回归平方和,从而影响回归的精度。减少回归平方和,从而影响回归的精度。逐步引进方案 1 1、基本思想:、基本思想:在一批待选的因子中,考查他们对预报量在一批待选的因子中,考查他们对预报量y的方差贡献,的方差贡献,挑选所有因子中方差贡献最大者,经统计检挑选所有因子中方差贡献最大者,经统计检验是显著后,进入回归方程。验是显著后,进入回归方程。2 2、方案:、方案: 如从如从x
40、1, x2, , xp 等因子中考察哪个因子方差在一元回归方等因子中考察哪个因子方差在一元回归方程中贡献最大,故首先计算:程中贡献最大,故首先计算: (1)(1)(0)(1)kVUUUU(0)为为回归方程中无任何因子时的回归平方和,此时为回归方程中无任何因子时的回归平方和,此时为0。(1,2, )kp 假如在假如在p个因子中,个因子中,xk的方差贡献最大,记为的方差贡献最大,记为Vmax,则据回归系数的检验公式遵从,则据回归系数的检验公式遵从F分布的分布的统计量进行检验:统计量进行检验: 若显著,则该因子引进。若显著,则该因子引进。max(1)1 1VFQn 设到设到l步,方程已有步,方程已有
41、l个因子。若考虑从个因子。若考虑从p-l个因子中个因子中引进哪个变量时,还是要考察他们各个因子引进后引进哪个变量时,还是要考察他们各个因子引进后的方差贡献,仍选取最大者,记为的方差贡献,仍选取最大者,记为Vmax, 使用统计量使用统计量:max(1)(1) 1lVFQnl作检验,其中作检验,其中Q(l+1)表示在将要引入回归方程的表示在将要引入回归方程的l+1个个因子时,回归方程的残差平方和。因子时,回归方程的残差平方和。如此在方程中逐个地引入因子。如此在方程中逐个地引入因子。注意:注意:这样得到的方程并不能保证其中所有因这样得到的方程并不能保证其中所有因子都是显著的。因为各因子之间可能存在相
42、关关子都是显著的。因为各因子之间可能存在相关关系,引入新变量后,原有的变量就不一定仍然显系,引入新变量后,原有的变量就不一定仍然显著。著。所以,逐步引入方案不一定保证最后的回归所以,逐步引入方案不一定保证最后的回归方程是方程是“最优最优”的。的。1、 基本思想基本思想: : 将因子一个个引入,引入因子的条件是该将因子一个个引入,引入因子的条件是该因子的方差贡献显著;同时,每引入一个新因因子的方差贡献显著;同时,每引入一个新因子,要对已引入的老因子逐个检验,将方差贡子,要对已引入的老因子逐个检验,将方差贡献变为不显著的因子剔除。因此献变为不显著的因子剔除。因此双重检验的逐双重检验的逐步回归能使最
43、后组成的方程只含有重要的变量,步回归能使最后组成的方程只含有重要的变量,所建立的回归方程也称为最优回归方程。所建立的回归方程也称为最优回归方程。这一这一方法在目前气象统计预报中所常用。方法在目前气象统计预报中所常用。双重检验的逐步回归方案双重检验的逐步回归方案2 2、方法:、方法: 利用求解线性方程组利用求解线性方程组求解求逆并行(紧凑)方案求解求逆并行(紧凑)方案,使得计算因子方差贡献和求解回归系数同时进行。使得计算因子方差贡献和求解回归系数同时进行。3 3、优点:、优点:计算简便,由于每步都作检验,保证计算简便,由于每步都作检验,保证了最后所得方程中所有因子都是显著的。了最后所得方程中所有
44、因子都是显著的。4 4、逐步回归方法的一般步骤、逐步回归方法的一般步骤 : :第一步第一步 准备工作准备工作:首先从首先从标准化变量标准化变量出发,利用出发,利用标准回归方程组,建立相关系数增广矩阵,如下:标准回归方程组,建立相关系数增广矩阵,如下:111211212222(0)12 pypyyyypyyr rrrrrrrRrrrr第二步第二步 引进因子:引进因子: 从从p个待选的因子个待选的因子 中,考虑引中,考虑引进第一个因子时,建立引进因子的回归方程:进第一个因子时,建立引进因子的回归方程:1,2,3,zzzzpx xxx引进方差贡献最大的那个因子。引进方差贡献最大的那个因子。2(1)(
45、1)(0)(1)(1)(0)(1)(0)(0)(0)kzkkykykykykkVUUUb rr rrr(1,2, )kp( =1,2)zkzkzkyb xkp对标准化变量,为计算方便式中回归平方和符号均用回归方差代替。对标准化变量,为计算方便式中回归平方和符号均用回归方差代替。 假如在假如在p个因子中,个因子中,xzk的方差贡献最大,记为的方差贡献最大,记为Vmax,则据回归系数的检验公式遵从,则据回归系数的检验公式遵从F分布的分布的统计量进行检验:统计量进行检验:max(1)1 1VFQn 若显著,则将第若显著,则将第k个因子引进方程。这相当于对个因子引进方程。这相当于对R(0)阵中第阵中第
46、k列进行消去,变成列进行消去,变成R(1).(0)(0)2(1)(0)(1)(0)(0)(0)(1)1yyyykyykykkyyQsrQQVrrrr 假定在前假定在前l步中已引入步中已引入l个因子,考虑个因子,考虑p-l个未引入个未引入的因子中的方差贡献时,计算第的因子中的方差贡献时,计算第k个因子方差贡献个因子方差贡献的公式:的公式:2( )1( )lkylklkkrVr计算中可利用前计算中可利用前l步消去求逆的结果,即用在步消去求逆的结果,即用在 作作l 次消去求逆变成次消去求逆变成 矩阵后阵中的元素。这矩阵后阵中的元素。这样可以简化过程的计算量。样可以简化过程的计算量。 lR 0R其中其
47、中 ,如果发现第,如果发现第k个因子方差贡献个因子方差贡献最大,则用它进一步作下面的显著性检验,这时最大,则用它进一步作下面的显著性检验,这时利用下面统计量作检验。利用下面统计量作检验。1maxlkVV在信度在信度 下,若下,若 ,则认为该因子方差贡,则认为该因子方差贡献显著,引入该因子。献显著,引入该因子。(0)(0)2(1)(0)(1)(0)(0)(0)(1)( )( )( 1)( )( 1)1yyyykyykykkyyllyylllyykQsrQQVrrrrQrQrV (1)(1)(1) 1lklVFQnl第三步第三步 剔除因子剔除因子:当因子引入后,原来已引入当因子引入后,原来已引入的
48、因子方差贡献会发生变化,可能变为不显著,的因子方差贡献会发生变化,可能变为不显著,因此要进行剔除,剔除的标准是进行统计检验。因此要进行剔除,剔除的标准是进行统计检验。 可以证明,在逐步回归中,可以证明,在逐步回归中,仅在第三个因子引入仅在第三个因子引入后才考虑剔除。后才考虑剔除。 设已引进了设已引进了l 个因子,考虑其中第个因子,考虑其中第k个因子的方差个因子的方差贡献,使用如下公式:贡献,使用如下公式:222(1)( )(1)( )( )(1)(1)( )llllkykykkkylklllkkkkkkrrrrVrrr 找出其中最小者,进行统计检验:找出其中最小者,进行统计检验: 若该因子不显
49、著,则剔除。再对该因子所对应的若该因子不显著,则剔除。再对该因子所对应的列进行消去,就当该因子从未进入过方程一样。列进行消去,就当该因子从未进入过方程一样。 自此,自此,每一步每一步首先考虑首先考虑有无因子需要剔除,若有有无因子需要剔除,若有就进行剔除,直到没有可剔除的因子时就进行剔除,直到没有可剔除的因子时再考虑再考虑引引入新因子,如此进行下去,直到既无因子剔除又入新因子,如此进行下去,直到既无因子剔除又无因子可引入为止。无因子可引入为止。( )( )1lklyyVFrnl 第四步第四步 计算结果:计算结果: 设最后引入了设最后引入了l个因子进入回归个因子进入回归方程,方程, 变到变到 ,则
50、回归方程为:,则回归方程为: 其中,其中,标准化数据回归系数为标准化数据回归系数为: (0)R( ) lR1122zzzzzzlzlyb xb xb x( ) lzkkybr回归方程的残差平方和为:回归方程的残差平方和为:( )( )llyyyy yyQS QS r回归平方和为:回归平方和为:( )1-lyyyyyyUSQSr()( )01 122yylkzkkykkkkssbbrssbyb xb xb x原始数据回归系数为:原始数据回归系数为:回归方程的剩余标准差无偏估计量为:回归方程的剩余标准差无偏估计量为:可进行预报值的置信区间估计。可进行预报值的置信区间估计。( )1lyyyyURrS