1、 第五章第五章 回归分析回归分析n回归分析回归分析n一元线性回归一元线性回归n多元线性回归多元线性回归n非线性回归非线性回归25.0 5.0 引言引言回归名称的由来回归名称的由来回归分析是研究变量之间相互依赖回归分析是研究变量之间相互依赖关系的一种统计方法,是数理统计关系的一种统计方法,是数理统计学中应用最广泛的分支之一学中应用最广泛的分支之一. . 3 回归分析的基本思想以及回归分析的基本思想以及 “ “回归回归”名称的由来最初是由名称的由来最初是由英国生物学家兼英国生物学家兼统计学家高尔顿统计学家高尔顿提出来的提出来的. . 他从一千多对父母身高与其子女身高他从一千多对父母身高与其子女身高
2、的数据分析中得出:当父亲身高很高的数据分析中得出:当父亲身高很高时,儿子的身高并不像期待的那样高,时,儿子的身高并不像期待的那样高,而要稍矮一些,有向同龄人平均身高而要稍矮一些,有向同龄人平均身高靠拢的现象;而当父亲身高很矮时,靠拢的现象;而当父亲身高很矮时,儿子的身高要比预期的高,也有向同儿子的身高要比预期的高,也有向同龄人平均身高靠拢的现象龄人平均身高靠拢的现象. . 4 正是因为儿子的身高有回到同龄人正是因为儿子的身高有回到同龄人平均身高的这种趋势,才使人类的身平均身高的这种趋势,才使人类的身高在一定时间内相对稳定,没有出现高在一定时间内相对稳定,没有出现父辈个子高其子女更高,父辈个子矮
3、父辈个子高其子女更高,父辈个子矮其子女更矮的两极分化现象,说明后其子女更矮的两极分化现象,说明后代的平均身高向中心靠拢了,这种现代的平均身高向中心靠拢了,这种现象叫象叫回归回归,这就是,这就是“回归回归”一词的最一词的最初含义初含义. 现在的意思是:凡是利用一个现在的意思是:凡是利用一个变量或一组变量的变异来估计或预测变量或一组变量的变异来估计或预测另一个变量的变异情况都称之为回归。另一个变量的变异情况都称之为回归。 在现实问题中处于同一个过程中的一些在现实问题中处于同一个过程中的一些变量往往是相互依赖和相互制约的,它们之变量往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:间的相
4、互关系大致可分为两种:(1)确定性关系确定性关系 -函数关系函数关系(2)非确定性关系非确定性关系 - - 相关关系相关关系:变量之间有:变量之间有一定的依赖关系,但这种关系并不完全确定。一定的依赖关系,但这种关系并不完全确定。可控变量:可以在某范围内随意地取指定数值可控变量:可以在某范围内随意地取指定数值- - 自变量自变量不可控变量不可控变量: :可以观测但不可控制可以观测但不可控制( (随机变量随机变量)- )- 因变量因变量 6 例例2 2 人的血压人的血压y与年龄与年龄x之间的关之间的关 系,不可能由一个人的年龄完全确定系,不可能由一个人的年龄完全确定 他的血压他的血压. . 一般说
5、人的年龄越大血压一般说人的年龄越大血压 越高,但年龄相同者,血压未必相同越高,但年龄相同者,血压未必相同. . 例例1 1 人的体重人的体重y与身高与身高x之间的关系之间的关系一一般来说,身高高一些,体重也要重般来说,身高高一些,体重也要重一些,但身高不能严格地确定体重,即一些,但身高不能严格地确定体重,即同样身高的人,体重可能不同同样身高的人,体重可能不同. .7 这几个例子中的两个变量之间都有这几个例子中的两个变量之间都有一定的关系,且是一种一定的关系,且是一种非确定性非确定性的关系,的关系,称这类关系为称这类关系为相关关系相关关系. . 例例3 3 水稻亩产量水稻亩产量y与其施肥量与其施
6、肥量x1 1、播种、播种量量x2 2、种子、种子x3 3有关系,但有关系,但 x1 1、x2 2、x3 3 取相同的一组数值时,亩产量取相同的一组数值时,亩产量y可取不可取不同数值同数值. .8 上述例子中身高上述例子中身高x,年龄年龄x,施肥量施肥量 x1、播种量播种量x2 、种子种子 x3 都是可以在一定范都是可以在一定范围内随意的取指定数值围内随意的取指定数值,是可控变量称是可控变量称之为之为自变量自变量,而体重而体重 y, 血压血压 y,亩产亩产量量 y 都是不可控变量称为都是不可控变量称为因变量因变量. . 研究一个变量与一个研究一个变量与一个( (或几个或几个) )可控变量可控变量
7、之间之间 相关关系相关关系的统计分析方法称为的统计分析方法称为回归回归分析分析. .回归分析:回归分析:研究一个随机变量与一个(或几个)研究一个随机变量与一个(或几个)可控变量之间相关关系地统计方法。可控变量之间相关关系地统计方法。只有一个自变量的回归分析叫做只有一个自变量的回归分析叫做一元回归分析一元回归分析;多于一个自变量的回归分析叫做多于一个自变量的回归分析叫做多元回归分析多元回归分析。 回归分析主要内容回归分析主要内容: :(1)(1)提供建立有相关关系的变量之间的数学关系式提供建立有相关关系的变量之间的数学关系式( (经验公式经验公式) )的一般方法的一般方法; ;(2)判别所建立的
8、经验公式是否有效判别所建立的经验公式是否有效; ;(3)利用所得到的经验公式进行预测和控制利用所得到的经验公式进行预测和控制. .5.1 5.1 一元线性回归一元线性回归( (一一) ) 一元线性回归模型一元线性回归模型 ),(20 NbxaY设设 与与 有相关关系有相关关系, ,当自变量当自变量 时时, , 因因变量变量 并不取固定的值与其对应并不取固定的值与其对应. . 如果要用函数关如果要用函数关系近似系近似 与与 的相关关系的相关关系, ,很自然想到很自然想到, ,应该以应该以 作为作为 与与 相对应的数值相对应的数值. .xY0 xx YxY0EYY0 xx (51)其中其中 为常数
9、,则称为常数,则称 与与 之间存在线性之间存在线性相关关系,称(相关关系,称(5 51 1)为一元正态线性回归模型,)为一元正态线性回归模型,简称一元线性模型,其回归函数记为简称一元线性模型,其回归函数记为2 ,baYxbxaEYY 称为称为 对对 的线性回归,的线性回归, 称为回归常数,称为回归常数, 称为回归系数。称为回归系数。 Yxab 由(由(5 51 1)得)得),(2 bxaNY ,可知可知 取取不同数值时,便得到不同的正态变量。不同数值时,便得到不同的正态变量。x ),(,2212221110 NbxaYbxaYbxaYnnnn相互独立,均服从相互独立,均服从其中其中2 ,ba为
10、未知的常数。为未知的常数。由由n ,21独立知道独立知道nYYY,21也相互独立,且也相互独立,且),(2 iibxaNY ni,21 。而而样样本本(简简称称独独立立样样本本)的的一一个个独独立立随随机机的的容容量量为为称称为为来来自自nYYYYn,21),( ,),(),nnyxyxyx2211(称为独立样本称为独立样本nYYY,21的一个(或一组)样本观测的一个(或一组)样本观测值,其中值,其中niyi,21 为x取固定值取固定值ixx 时,对时,对iY进行一次试验所得到的观测值。进行一次试验所得到的观测值。利用独立样本及其样本值可得利用独立样本及其样本值可得2 ,ba的估计量及的估计量
11、及估计值估计值ba, 和和,2从而得到回归函数从而得到回归函数bxaY 的估计的估计xbaY称为称为 对对 的经验回归方程或经验公式。的经验回归方程或经验公式。注:确定变量间相关关系数学关系式的三种方法注:确定变量间相关关系数学关系式的三种方法1.1.经验公式。经验公式。2.2.假设检验。假设检验。3.3.散点图法。散点图法。Yx把样本值把样本值),( ,),(),nnyxyxyx2211(作为平面直角坐标系的作为平面直角坐标系的 个点描出来,构成实验的个点描出来,构成实验的散点图。散点图。n根据散点图,适当地选择一个函数根据散点图,适当地选择一个函数),( xy 使得使得),(),(),(n
12、nyxyxyx2211),(),(),(nnyxyxyx2211在一定意义下最好地吻合在一定意义下最好地吻合于观测结果于观测结果常用的是最小常用的是最小二乘法,即二乘法,即 niiiniiixyyy1212min)( )( xyo. .二、未知参数的估计二、未知参数的估计1. 1. 正规方程组、回归系数的点估计正规方程组、回归系数的点估计根据最小二乘法求线性回归函数根据最小二乘法求线性回归函数bxay 的估计的估计xbay 就是求使得就是求使得 niiibxaybaQ12)(),(取得最小值的取得最小值的, ba即即 niiibababxaybaQbaQ12)(min),(min), (,根据
13、微分学中的二元函数极值的充分条件根据微分学中的二元函数极值的充分条件, ,将将),(baQ分别对分别对ba,求一阶偏导数并令其为零求一阶偏导数并令其为零 niiiiniiixbxaybQbxayaQ110202)()(经过整理后得到线性方程组经过整理后得到线性方程组 niniiiiyxbxaxnynbxnna112)(其中其中 niiniiynyxnx1111正规方程组正规方程组解此方程组即得使解此方程组即得使),(baQ取得最小值的取得最小值的ba, 222)()()()()(xxyxxxxyyxxxxyxnyxbxbyaiiiiiiiii分别称为分别称为ba,的最小二乘估计值的最小二乘估计
14、值. .于是于是, , 得到得到Y对对x的经验回归方程的经验回归方程)(xxbyxbay 注注: :用最小二乘法得到的经验回归直线通过已知用最小二乘法得到的经验回归直线通过已知n个数据点个数据点),(iiyxni, 21 的几何重心的几何重心),(yx把估计值中的把估计值中的yyi,分别用分别用YYi,来代替来代替, ,就得到了参数就得到了参数ba,的估计量的估计量. .为了方便为了方便, , 我们引进几个常用的记号我们引进几个常用的记号iiiYYiiiiiixYiiiixxYYYYYlYxxYxnYxYYxxlxxxxnxxxl)()()()()()(2222则则 xxxYllbxbYa)(
15、xxbYxbaY 参数估计量参数估计量回归方程回归方程定理定理1:1: 在一元线性回归模型中在一元线性回归模型中, , Y和和b相互相互独立独立.证明证明: xxiiilYxxYnbY)(,cov),cov(1 ninjjxxjiYlxxYn111,cov niixxiDYnlxx1)(012 niixxxxnl)( 即即Y与与b不相关不相关. . 但但Y与与b都是独立正态变量都是独立正态变量nYYY,21的线性组合的线性组合, ,因此因此, Y与与b的联合分布为正的联合分布为正态分布态分布. . 对于正态随机向量来说不相关和相互独立是对于正态随机向量来说不相关和相互独立是等价的等价的. .
16、证毕证毕定理定理2:2: 在一元线性回归模型中在一元线性回归模型中, , 的最小二的最小二 乘估计量乘估计量 的数学期望和方差为的数学期望和方差为ba,ba, 21 xxlbDbbE 221 xxlxnaDaaE证明证明: : xxiilYxxEbE)(xxiilEYxx )(lxxbxaxxii )(xxiixxilxxxblxxa )()(b xxiilYxxDbD)(22xxiilDYxx )(22xxxxll xxl2 )(xbYEaE bExYE bExEYni 1 bxbxani)(1a)(xbYDaD bDxYD2 222 xxlxn 221 xxlxn证毕证毕. .由定理由定理
17、2 2可看出可看出, , 当当 时时, , 取最小值取最小值 ; ; 与与 成反比成反比. .所以所以, ,为了提高为了提高 和和 的估计精度的估计精度, , 最最好选择好选择 使使 , ,并且并且 应比较分散应比较分散. .0 xaDn2bDxxla bix0 xix注注: 的最小二乘估计量与极大似然估计量相等的最小二乘估计量与极大似然估计量相等. .ba,24实际上:实际上: 在在 ,0和和 1的最大似的最大似然估计为最小二乘估计然估计为最小二乘估计01,201(,)iiyNx12,ny yy的似然函数为22010121222012111,exp()2212exp()2niiinniiiL
18、yxyx 2. 2. 参数参数 的点估计的点估计2当当 的极大似然估计量的极大似然估计量 已得到后已得到后, , 的估计量可由似然方程的估计量可由似然方程ba, ba,2 niiixbaynL124220212)(ln 可得可得 的极大似然估计量为的极大似然估计量为2 niiiLxbaYn1221)( 记记 niniiiiieYYxbaYS1122)()(即即21LeSn是是 的极大似然估计量的极大似然估计量.2定理定理3: 在一元线性模型中在一元线性模型中2)2( nESe证明证明: : niiiexxbYYS12)( niiniiiniixxbYYxxbYY1221122)()()(xxx
19、xniilblbbYY2122)( xxniilbYY212)( 而而 niiniiniiYnEEYYnYEYYE12212212)( 212)()(YEYDnEYDYniii 221221)()(xbannbxanii 22122)()(xbanbxannii niixbabxan1221)()( xxlbn221 )(又又 )(22bEllbExxxx 2)(bEbDlxx 221bllxxxx 22blxx 于是有于是有 )()(xxielbEYYEES22 22 )( n证毕证毕. .由定理由定理3 3可得可得eSn212 * 是是 的无偏估计的无偏估计. .2 3. 3. 估计量估计
20、量 和和 的分布的分布ba, 2*定理定理4: 4: 在一元线性模型中在一元线性模型中(1) ),(xxlbNb2 (2)( ,(221 xxlxnaNa (3)(,(221 xxlxxnbxaNxbaY(4)()(*222222 nSne (5)2*, bY相互独立相互独立. .4. 4. 未知参数未知参数 和和 的区间估计的区间估计ba,2定理定理5.5. 在一元线性模型中在一元线性模型中)(*212 ntlxnaaxx )(*2 ntlbbxx 证明证明: :由定理由定理4,4,得得),(1012Nlxnaaxx ),(10Nlbbxx 由定理由定理4 4的的(5)(5)可知可知, ,
21、22*, 与与与与ba分别相互独立分别相互独立, ,再由再由t t分布的定义分布的定义, ,即得即得)()()(*212212222 ntlxnaannlxnaaxxxx )()(*222222 nnSe )(*2 ntlbbxx 证毕证毕由定理由定理5 5及及t t分布的分位数分布的分位数, ,得得 121212)(|*ntlxnaaPxx即得即得 的的 置信区间为置信区间为a1 xxlxnnta222112*)( 类似类似, , 的的 置信区间为置信区间为b1 xxlntb*)( 221由由),()(*22222 nn 易得易得 的的 置信区间为置信区间为21 )()(,)()(*2222
22、2222212nnnn 三、线性回归效果的显著性检验三、线性回归效果的显著性检验 我们在求我们在求 Y 对对 x 的线性回归之前,必须判断的线性回归之前,必须判断Y与与 x 的关系是否满足一元线性回归模型。理论上的关系是否满足一元线性回归模型。理论上讲,这要求检验讲,这要求检验(1) 对对x取任一固定值时,取任一固定值时,Y都服从正态分布,而且都服从正态分布,而且 方差相同;方差相同;(2) x在某一范围取值时,在某一范围取值时,EY是是x的线性函数;的线性函数;(3) 在在x取各个不同值时,相应的取各个不同值时,相应的Y是相互独立的。是相互独立的。但要检验这三条不仅需要大量的试验,还要进行大
23、但要检验这三条不仅需要大量的试验,还要进行大量的计算,实际上很难办到。量的计算,实际上很难办到。系系,转转化化为为检检验验之之间间不不存存在在线线性性相相关关关关与与认认为为时时,就就特特别别当当变变化化的的趋趋势势越越不不明明显显。随随越越小小,明明显显;当当的的变变化化而而变变化化的的趋趋势势越越随随越越大大,可可知知,当当,由由xYbxYbxYbNbxaY002 |),( 0010 bHsvbH:.:情情况况:种种无无意意义义,可可能能有有如如下下几几所所求求得得的的线线性性回回归归方方程程模模型型来来表表示示,的的关关系系不不是是用用一一元元线线性性与与则则认认为为,方方程程有有意意义
24、义;若若接接受受关关系系,所所求求的的线线性性回回归归之之间间存存在在线线性性与与,则则认认为为是是否否成成立立。若若拒拒绝绝xYHxYH00(1) x对对Y没有显著影响,应丢掉自变量没有显著影响,应丢掉自变量x;(2) x对对Y有显著影响,但不能用线性相关关系来有显著影响,但不能用线性相关关系来 表示;表示;(3) 除除x外还有其它不可忽略的变量对外还有其它不可忽略的变量对Y也有显著也有显著 影响,从而削弱了影响,从而削弱了x对对Y的影响,应考虑多元的影响,应考虑多元 线性回归。线性回归。1. F检验法检验法考虑考虑22)()()(yyyyyylSiiiiyyT 令令22)()(iieiRy
25、ySyyS 计算后可得一元线性模型中的平方和分解公式:计算后可得一元线性模型中的平方和分解公式:eRTSSS 总偏差平方和总偏差平方和回归平方和回归平方和残差平方和残差平方和 2)(yySiT:TS总偏差(离差)平方总偏差(离差)平方和和数值波动越大。数值波动越大。越大,则越大,则的平方和,的平方和,的偏差的偏差与其平均值与其平均值表示表示nTinyySyyyyy,)(,11 :RS回归平方和回归平方和因为因为,)(yxbxbyxbaxbanynii 11。的的平平均均值值也也是是所所以以,yyyn, 1的分散程度。的分散程度。平方和,描述了平方和,描述了的的的偏差的偏差与与是是niniRyy
26、yyyyyyyS,)(,)(112 22)()(yxbayySiiR 2)(yxxbyixxilbxxb222)( 的平方成正比。的平方成正比。且与且与的分散性,的分散性,的分散性来源于的分散性来源于这表明这表明bxxyynn,11:eS剩余平方和(或残差平方和)剩余平方和(或残差平方和)的平方和。的平方和。之差之差的纵坐标的纵坐标与回归直线上对应点与回归直线上对应点观测数据观测数据)(),(iiiiiiyyyyxy 平方和分解公式:平方和分解公式:eRTSSS 为为两两部部分分:的的分分散散性性的的原原因因可可分分解解引引起起nyy,1(1)由于)由于x对对Y的线性相关关系而引起的的线性相关
27、关系而引起的Y的分散性。的分散性。(2)剩余因素引起的)剩余因素引起的Y的分散性。的分散性。的的线线性性影影响响就就不不显显著著。对对越越大大,表表示示越越小小,的的线线性性影影响响越越显显著著;对对就就越越小小,表表示示越越大大,给给定定后后,总总偏偏差差平平方方和和YxSSYxSSSeReRT定理定理6:为真时,有为真时,有在一元线性模型中,当在一元线性模型中,当00 bH :相互独立。相互独立。与与,且,且eRRSSS)(122 证明:证明:,相互独立且服从相互独立且服从时,时,当当),(,210 aNYYbn ),(),(1002NlblNbxxxx ).(),(1122222 Rxx
28、Slb即即相互独立,从而有相互独立,从而有由由2*, bY也相互独立。也相互独立。222*)( nSlbSexxR对于检验对于检验0010 bHbH:证毕证毕).,()()(212222 nFSSnnSSFeReR 。比较大,应拒绝比较大,应拒绝比较小;若比较小;若为真时,为真时,当当0022HSSnSSnHeReR)()( .)2, 1()2(1 nFSSnPeR著著的的线线性性相相关关关关系系;之之间间有有显显与与,则则拒拒绝绝若若xYHnFF0121),( 显显著著的的线线性性相相关关关关系系;之之间间没没有有与与,则则接接受受若若xYHnFF0121),( 2. t检验法检验法由定理由
29、定理5知知)(*2 ntlbbtxx 为真时,有为真时,有于是,当于是,当00 bH :.)(|* 221ntlbPxx;,则拒绝,则拒绝若若0212Hntt)(| 。,则接受,则接受若若0212Hntt)(| 3. r检验法检验法为了检验为了检验Y与与x是否有线性相关性,也可用统计量是否有线性相关性,也可用统计量 22)()()(YYxxYYxxriiii相关系数相关系数进行检验进行检验yyxxyyxxxyiiiillblllyyxxyyxxr)()()( 22两边平方得两边平方得yyeyyRyyxxlSlSllbr 122于是得到于是得到yyRlrS2 )(21rlSlSyyRyye ,故
30、故有有,中中,显显然然有有在在平平方方和和分分解解式式00 ReeRTyySSSSSl102 yyRlSr即即.|10 r,此此时时回回归归直直线线时时,有有当当axbaybr)( 001这说明这说明Y与与x之间不存在线性相关关系。之间不存在线性相关关系。(2)性函数关系。性函数关系。实际上存在着确定的线实际上存在着确定的线与与上,此时上,此时都在回归直线都在回归直线个点个点,这表示,这表示,即,即,从而得,从而得时,有时,有当当xYxbayyxyxnyySSlSrnniieeyyR),( ,),()(| 112001(3)。的的线线性性相相关关程程度度就就越越小小与与,则则接接近近越越密密切
31、切;的的线线性性相相关关程程度度也也就就越越与与就就越越大大,的的比比值值也也就就越越小小,从从而而就就越越大大,则则越越接接近近固固定定时时,当当着着一一定定的的线线性性相相关关关关系系之之间间存存在在与与时时为为绝绝大大多多数数的的情情形形,此此xYrxYSSSSrlxYreReRyy0110| 检验假设检验假设0010 bHbH:。,则接受,则接受;若;若,则拒绝,则拒绝当当00HrrHrr |r检验法与检验法与F检验实质上是一回事,因为检验实质上是一回事,因为222212122rrnrllrnSSnFyyyyeR )()()()(等价于等价于由此易推得由此易推得),(211 nFF r
32、nFnr ),(|212111F检验法与检验法与r检验法的拒绝域是相同的。检验法的拒绝域是相同的。50对于一元线性回归模型,上述对于一元线性回归模型,上述3种检验的种检验的结果是完全一致的结果是完全一致的.4.4.三种检验的关系三种检验的关系(1)由于由于t分布与分布与F分布的关系分布的关系2( )(1,)tnFn因此因此t检验与检验与F检验完全一致检验完全一致51r检验与检验与F检验也一致检验也一致2222(2)/(2)(1)/(2)1RTeTSr SrFnSnr Snr因此因此(1,2)FFn等价于等价于22(2)(1,2)1rnFnr1| |1 (2)/(1,2)rrnFn四、利用回归方
33、程进行预测四、利用回归方程进行预测预测:预测:对固定的对固定的x值预测它所对应的值预测它所对应的Y的取值。的取值。考虑考虑 ),(20 NbxaY重复观测的结果。重复观测的结果。时对时对是是的某个固定值,而的某个固定值,而是是设设YxxbxaYxx00000 来预测,用来预测,用根据观测值根据观测值),( ,),(nnyxyx11(1)点预测)点预测00 xbay 。的预测值,即的预测值,即作为作为00000yYbxaY 0000EYbxaxbaEyE )((2)区间预测)区间预测时时,有有使使得得当当与与,找找到到及及置置信信度度对对于于给给定定的的00101xxxyxyx )()()(*
34、.)()(* 1000 xyYxyP定理定理7:相相互互独独立立,则则而而,时时的的因因变变量量为为在在一一元元线线性性模模型型中中,当当nYYYYxx,1000 ).()(*2112000 ntlxxnYYxx 由定理由定理7知知,)()(|* 1211212000ntlxxnYYPxx即即,)()( 100000 xyYxyP其中其中.)()()(*xxlxxnntx20210112 预测区间为预测区间为的的,对应的,对应的对任意对任意 1bxaYx)(),(xyxy 其其中中.)()()(*xxlxxnntxxbay221112 562200,22nnyzyznn 当当 x0 越靠近越靠
35、近 ,区间宽度越窄,预测就越精确区间宽度越窄,预测就越精确x 当当 x0 离离 不太远且不太远且n较大时较大时, ,而而x22(2)t nz20111xxxxIn于是于是,y0的的1置信区间可近似表示为置信区间可近似表示为57002,222nnyynn于是于是,y0的的95%置信区间可近似表示为置信区间可近似表示为003,322nnyynn于是于是,y0的的99%置信区间可近似表示为置信区间可近似表示为58控制问题控制问题12 ,x x对对x的控制范围的控制范围12,LUyyyy1x2x 当要求当要求 y 在某个区间范围内变化时,如在某个区间范围内变化时,如 ,如何求得如何求得 x 的相应控制
36、范围的相应控制范围.12yyy 即要求以即要求以 1 的置信度求出相应的的置信度求出相应的 使当使当 时时,x 所对应的所对应的 y落在落在12xxx12,x x12,y y59 只考虑只考虑 n 较大情形,令较大情形,令0/2010/210/2010/22/(2)/(2)/(2)/(2)yzn nxzn nyyzn nxzn ny10当时,有20/210/211/(2)/(2)yzn nyzn nx10当时,有10/220/211/(2)/(2)yzn nyzn nx60Uy Ly 1y2y2x1xxy 例 在钢线碳含量在钢线碳含量x对于电阻效应对于电阻效应y的研究中的研究中, 得到了得到了
37、以下数据以下数据:碳含量(%) 0.10 0.30 0.40 0.55 0.70 0.80 0.95电阻(微欧) 15 18 19 21 22.6 23.8 26假设对于给定的假设对于给定的 x, ,y 为正态变量为正态变量, 且方差与且方差与 x 无关无关. 如果如果x, ,y满足经验公式满足经验公式 01,yx求线性回归方程求线性回归方程 xy10解解 设设01,yx2, 0N现在现在7,n 3.8,ix 4 .145iy 595. 22ix61.85iiyx2 .31042iy221xxiiLxxn1xyi iiiLxyxyn221yyiiLyyn1xyxxLL9584.138 . 37
38、15503.124 .1457110 xy212.5953.80.53217185.613.8 145.4 6.67867 213104.2145.484.034376.678612.55030.5321xy5503.129584.13所求的线性回归方程为所求的线性回归方程为 2的无偏估计的无偏估计. .由例得 7,n 6.6786xyL 84.0343,yyL 112.55031eyyxyQLL84.0342 12.5503 6.67860.215920.21590.043225eQn 检验例中的线性回归是否显著. 解解 检验假设 01:0,H11:0.H拒绝域为 1/2(2)xxLttn由
39、例2得 7,n 112.550320.0432,0.5321,xxL5706. 2)5()2(025. 02/tnt)05. 0(112.55030.532144.03480.2079xxLt 44.03482.5706t =拒绝 01:0,H即认为线性回归显著例例 求上例中当碳含量为0.50时,电阻的置信水平为0.95的置信区间 解解 由例1和例2可得 7n ,20.04320.5321xxL,5706. 2)5()2(025. 02/tnt0.5429x ,00.50 x 当 时,0013.9584 12.5503yx13.9584 12.5503 0.5020.233620()11xxx
40、xnL21(0.500.5429)170.5321 1.1061095%y的置信区间为)2()(112/200ntLxxnyxx(20.23360.2079 1.1061 2.5706)(20.23360.5911)(19.6425, 20.8247)685.2 5.2 多元线性回归分析多元线性回归分析一一. .多元线性回归模型多元线性回归模型011222( )0,( )ppyxxxED模型模型1 10112220,ppyxxxN模型模型2 26920101212,212,pppppx xxy 其中是未知参数,模型 和 称为 元线性回归模型.称为回归常数,称为回归系数,称为随机误差.是自变量,
41、是随机变量称为解释变量或因变量70201 122( ),( )ppE yxxxD y在模型在模型1 1下,有下,有201122,ppyNxxx在模型在模型2 2下,有下,有7110111212112012122222011221223,()0,(),1,2,ppppnnnpnpnniiyxxxyxxxyxxxEDin 模型相互独立,且12,;)1,2,iiipixxxyin观测数据( 满足72称模型称模型3和模型和模型4为为y关于关于x的的p元样本线性回归元样本线性回归模型模型. 101 112 1211201 2122222011222124,0,ppppnnnpnpnniyxxxyxxxy
42、xxxN 模型独立同分布,且12,;)1,2,iiipixxxyin观测数据( 满足73对多元线性回归模型,需研究如下几个问题:对多元线性回归模型,需研究如下几个问题:(2)对建立的关系式进行统计假设检验对建立的关系式进行统计假设检验(3)对变量对变量y进行预测和对自变量进行预测和对自变量x进行控制进行控制1201(1),;)1,2,iipipxxy inyx 根据样本观测值(估计,由此建立 与 之间的关系式74np1,记记0111211112122222212(1)11,1ppnnnpnnn ppxxxyxxxyYXxxxy75模型模型3和模型和模型4可表示为如下矩阵形式可表示为如下矩阵形式
43、其中其中In为为 n 阶单位矩阵,矩阵阶单位矩阵,矩阵X是是n(p+1)矩阵称为设计矩阵,且秩矩阵称为设计矩阵,且秩(X)=p+123( )0,( )nYXEDI模型24(0,)模型nYXNI76二二. .未知参数的估计未知参数的估计01(,)() ()pQYXYX1.1.最小二乘估计最小二乘估计201011221,npiiipipiQyxxx 最小二乘法:求最小二乘法:求 使使01,p误差平方和误差平方和2011221()niiipipiyxxx01201122,1min()pniiipipiyxxx77 求求 并令其都等于并令其都等于0 0,整理后得到如下整理后得到如下正规方程组正规方程组
44、: :0(1,2, )jQQjp、0112211112011121211111120211222221111101nnnniipipiiiiinnnniiiipiipiiiiiinnnnniiiipiipiiiiiiinipinxxxyxxx xx xx yxx xxx xx yx 211221111ipnnnniipiippipiiiiix xx xxx y78 正规方程组的解正规方程组的解就是就是 的最小二乘估计的最小二乘估计01,p 01,p 由于由于121112111211112121111nnniiipiiinnniiiiiipiiinnnnipipiipiipiiiinxxxxxx
45、 xx xX Xxx xx xx79及及11112131121112311111niinniiipppnpnnip iiyyxxxxyx yX Yxxxxyx y于是正规方程组用矩阵表示为于是正规方程组用矩阵表示为X XX Y80X XX Y-1() 由于由于Rank(X)=p+1,因此因此 必存在必存在逆阵逆阵X X1X X()解正规方程组得到解正规方程组得到 的估计为的估计为 称之为称之为 的的最小二乘估计最小二乘估计. .于是线性回归方程为于是线性回归方程为01 122kkyxxx812.2.最大似然估计最大似然估计 多元线性回归系数的最大似然估计与一元线多元线性回归系数的最大似然估计与
46、一元线性回归时求最大似然估计的想法一样性回归时求最大似然估计的想法一样 01(,)p的最大似然估计与最小二乘估计一样,是X XX Y-1() 21YYYYn2误差方差的最大似然估计为823.3.参数估计的性质参数估计的性质性质性质3 2()DX X-1性质性质1 估计量估计量 是随机变量是随机变量 的线性变换的线性变换 y性质性质2 估计量估计量 是是 的无偏估计的无偏估计 在在模型模型1 1下有如下性质下有如下性质83性质性质4(2)222(1)nnp性质性质4(1)2( ,()-1NX X在在模型模型2 2下有如下性质下有如下性质2(,)iiiiNc(1,2, )()1iic ipX Xi
47、-1其中是矩阵对角线上的第个元素21(,)p且与相互独立84三三. .回归方程的显著性检验回归方程的显著性检验012:0pH检验问题:检验问题:考虑模型考虑模型2 因变量因变量y的观测值的观测值 是不是不完全相同的,之所以不同,可能由于完全相同的,之所以不同,可能由于如下两个原因:一是随机因素引起的,如下两个原因:一是随机因素引起的,如随机误差;另一个是由自变量的变如随机误差;另一个是由自变量的变化引起的变化化引起的变化. 为此,考虑平方和分为此,考虑平方和分解解12,ny yy85平方和分解平方和分解212211nTiinniiiiieRSyyyyyySS交叉项为交叉项为0 08621nTi
48、iSyy称为总变差平方和,反映数据称为总变差平方和,反映数据 的波动性,即这些数据的分散程度的波动性,即这些数据的分散程度12,ny yy 越大表明越大表明n个观测值个观测值 的波动的波动越大即之间越分散,越大即之间越分散,TS12,ny yy反之反之 越小表明越小表明 的数值波动越的数值波动越小即小即 之间越接近之间越接近.12,ny yyTSiy87称为称为残差平方和残差平方和. .2211nniiiiiyySe反映了除掉由反映了除掉由 对对y的影响之的影响之外的剩余因素对外的剩余因素对 分散程度分散程度的作用,即随机因素引起的波动的作用,即随机因素引起的波动.12,px xx12,ny
49、yy21nRiiSyy称为称为回归平方和回归平方和反映了反映了 的波动程度的波动程度12,ny yy88 而而SR越小越小,Se越大越大,此时此时x 对对y 的的 线性影响线性影响不显著不显著. ST给定后给定后,SR越大越大,Se e越小越小,x对对y 的线性影响的线性影响越显著越显著; 因此因此,F=SR/Se的比值反映了的比值反映了x 对对y 的线性影响的显著性,进而检验假设的线性影响的显著性,进而检验假设.TeRSSS89定理:定理:在在p元线性回归模型元线性回归模型2下,有下,有2122(1),(1)且与()相互独立eepSnpS2022()( )成立时,且与相互独立RReSHpSS
50、90根据定理构造根据定理构造F检验统计量检验统计量/(1)ReSpFSnp012:0pH当成立时0.HF当不成立时, 有偏大的趋势( ,1)FF p np91对于给定的显著性水平对于给定的显著性水平 当当 时,拒绝时,拒绝 ,认为,认为线性回归效果显著,即线性回归效果显著,即y与与 之间之间存在显著的线性相关关系存在显著的线性相关关系; ;( ,1)FF p np0H12,px xx当当 时,接受时,接受 ,认,认为为线性回归效果不显著,即线性回归效果不显著,即y与与 之之间不存在显著的线性相关关系间不存在显著的线性相关关系; ;( ,1)FF p np0H12,px xx92上述分析方法通过
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。