1、现代高等工程数学电子教案第8章 回归分析数学学院应用数学系 王国富2012年9月 引例:某厂生产的圆钢,其屈服点Z受含碳量x和含锰量y的影响,现做了25次观察,测得如下数据x 16 18 19 17 20 16 16 15 19 18 y 39 38 39 39 38 48 45 48 48 48 Z 24 24.5 24.5 24 25 24.5 24 24 24.5 24.5x 18 17 17 17 18 18 20 21 16 18 y 46 48 49 46 44 45 48 48 55 55 Z 24.5 24.5 25 24.5 24.5 24.5 25 25 25 25x 19
2、 19 21 19 21y 56 58 58 49 49 Z 25.5 25.5 26.5 24.5 26试通过上述数据建立起它们之间的关系?回归分析 回归分析是数理统计的一个应用分枝,它主要研究变量与变量之间的某一种相依关系,其主要内容包括线性回归与非线性回归一元回归与多元回归这一节介绍一元线性回归 回归的含义 变量与变量之间的关系有两种:一种是函数关系;当一组变量取定一个值时,另一个变量也有确定的值与它对应这是一种函数关系。另一种关系不能用函数关系来描述,比如人的身高与体重之间的关系;农作物的产量与施肥量之间的关系就不能用函数关系来描述 变量可以分为可控变量与不可控变量(随机变量)在回归分
3、析中,讨论的是随机变量与可控变量之间的关系随机变量作为因变量(响应变量),可控变量作为自变量当自变量只有一个变量时的回归分析为一元回归,否则称为多元回归 假设随机变量Y与x有一元回归关系.当选定x时,Y的数学期望应为x的函数,记()(|)xE Y x()x我们称为回归函数 回归分析的一般步骤:(1)求取试验数据(2)选取回归模型(3)对回归模型中的未知参数作估计(4)对模型进行检验(5)预测与控制(1)求取试验数据12,),),);,nnxx Yx Yx Yx xx12n12对(,Y)进行n次观测,得观测值(其中,互不相等.(2)选取回归模型12,),),)nx Yx Yx Y12n对观测值(
4、在二维平面上用点描出,所得到的图形称为散点图,根据散点图的形状可选取回归函数,当散点图近似一条直线时,可选取线性函数,当散点图近似一条抛物线时,可选取二次函数等.当选取的是一元线性回归函数时,其回归模型可写为Yabxa其中,b为未知参数,为统计误差(3)对回归模型中的未知参数作估计 当选取回归模型为Yabxaaa其中,b为未知参数,由样本对,b进行点估计得估计值,b.代入有()xabx称它为经验回归方程(4)对模型进行检验 我们是根据经验和散点图选定模型的,模型是否切合实际,需要对模型进行检验。(5)预测与控制当我们得到的模型是正确的时,就要利用这个模型进行预测与控制.即当x取定某个值时,对Y
5、的取值作估计;如果要Y在某个范围内取值,如何控制x的取值?一元线性回归模型2()0;()YabxEDa2其中,b,为未知参数先假定一元线性回归模型2(0,)YabxN2,.a我们对,b采用极大似然估计 对采用矩法估计12,),),),),niiiix Yx Yx Yx Yabx12n对(进行观测得观测值(则Y其中独立同正态分布212221(,)(;,)1(2)exp()2nniiniiiL a bfa byabx似然函数为 要使L达到最大,只要等式右边的平方和的部分达到最小即可。21(,)()niiiQ a byabx令,a b我们求的值 使(,)min(,)Q a bQ a b 通过求导,并
6、令其为零,可得方程组112()02()0niiiniiiiQyabxaQx yabxb xxxyabxyL bL整理后得到 1121111,(),()()nniiiinnxxixyiiiiyy xxnnLxxLyyxx其中xyxxaybxLbL解得 2(0,),.N当时 我们采用极大似然估计估计a,b当 不服从正态分布时,我们采用最小二乘估计.?什么是最小二乘估计呢我们把使误差平方和达到最小的参数的值称为最小二乘估计,即2211(,)(),nniiiiiQ a byabxa ba b达到最小的的值称为最小二乘估计 注意:当随机误差服从正态分布时,参数的最小二乘估计就是极大似然估计,当随机误差不
7、服从正态分布时,参数的最小二乘估计一般与极大似然估计不同。一元线性回归模型中回归系数的最小二乘估计为xyxxaybxLbL 222),2n2ii=1对采用矩法估计,由于E(故1可用去估计即n22()iiyabxnn2ii=1i=111=nn,a b由于式中未知 可用22()iiyabxni=11n-2 ,a b将代入上式,有22()iiyabxni=11n-22()iiyybxbxni=11n-2222()()2()()iiiiyybxxb yyxxni=11n-2yyxyLbL1n-2 为了对模型及模型参数进行检验,我们需要知道 估计量的分布,下面对随机误差服从正态分布的情况下给出了一些统计
8、量的分布:2(1)(,)xxbN bL221(2)(,)niixxaN axnL221()(3)(,)xxxxyabxN abxnL2(4)Ynii=1记SSR=(Y2()nii=1=bxbx2)n2ii=1=b(xxxxxyLL2=bb2)iYnii=1记SSE=(Y2)iiYabxni=1=(2(2)n2)Ynii=1记SST=(Y 我们有SSESSRSST=2(2);n2SSE(5)20,(1)b2SSR当时SSESSR且与相互独立(6)0,(1,2)(2)bFFnSSE nSSR当时(2)xxTLt nb 我们仅证明(1)(2)。证明(1)xyxxLbL由于11()()niiixxxx
9、yyL11()niiixxxx yL,12n为y y,y 的线性函数,因而b服从正态分布,11()()niiixxE bxx EyL且11()()niiixxxxabxL1()niiixxbxx xLb 2211()()()niiixxD bxxDYL22211()()niixxxxL2xxL 证明(2)aybx111()nniiiiixxxyxx ynL11()niiixxxxxynL,12n为y y,y 的线性函数,因而a服从正态分布11()()()niiixxxE axxabxnL1111()()nniiiiixxxxxxxx axx bxnLnL 11()niiixxxabxx xnL
10、11()niiixxabxbxxx xLa211()()()niiixxxD axxDYnL22222112()()niiixxxxxxxxxxnLnL221()xxxnL22()xxxxLnxnL221niixxxnL 假设检验 假设检验包括参数检验和线性模型的检验。00,a a bb0参数检验包括对=的检验,大家可自己导出其检验方法.0?:0Hb 模型检验主要检验所选取的模型是否正确主要检验假设 t-检验 F-检验xxbTL选用统计量0(2)HTt n 在为真时2|(2)WTtn拒绝域为22(2)xxb LSSRFSSE n选用统计量0(1,2)HFFn在为真时(1,2)WFFn拒绝域为
11、r-检验(样本相关系数检验)xyxxyyLrL L选用统计量|(2)Wrr n拒绝域为:注 当r0时,b0,表示x与y正相关;当r0时,b0,表示x与y负相关.预测与控制0000,xxyxxy当时 对应的 的点估计值为当时 对应的 的预测值.00yabx2.求预测区间1.求预测值22000()1(,)xxxxyN abxnL由于200(,)yN abx22000()1(0,1)xxxxyyNnL故 我们可以得到0020(2)()1 1xxyyt nxxnLT=20200()1 1(2)xxyxxytnnL由此可得 的预测区间为 0.x0当 连续变动时,y 的预测区间扫过的区域构成一条预测带0
12、xxyyabx 由预测区间可以看出:00.xxxxxx当 在 不远处,预测精度高;当 在 较远处,预测精度低;并且预测精度还与n及L 有关2200,(,)xxnLyZyZ当 较大较大时 预测区间可近似为 控制:控制是预测的反问题,当因变量y在某一范围内取值时,x应控制在什么范围之内。这个问题比预测要复杂。220()()1()1()1(2)xxyxyyxxxxtnnL 由于P其中11112222(),()yyxx xyyx不妨令可解得12xxx则 应控制在 与 之间例.为研究温度对某个化学过程的生产量的影响,收集到如下数据(规范化形式):温度x -5 -4 -3 -2 -1 0 1 2 3 4
13、5生产量y 1 5 4 7 10 8 9 13 14 13 18(1)求Y对X的线性回归方程。(结果保留小数点后两位。)(2)对回归方程的显著性进行检验。(检验水平=0.01,)(3)对规范温度在0.5时,对其规范生产量作95%的预测区间。0111iix102111iiy111158iiiyx1101112iix11941112iiy解(1)0,9.273xy22110 xxilxnx158xyiilx ynx y2221021149248.1811yyilyny1581.436110 xyxxlbl 9.273aybx9.273 1.436yx回归直线方程为(2)采用T检验:选用 xxbtl
14、211248.18 1.436 1582.27329yyxylbln,9.99t 0.005(9)3.2498t而0.025(9)tt有故回归方程显著(3)00.5xx在时009.273 1.435 0.59.991yabx点预测值,2002()1()1(2)3.56xxxxxtnnl故规范温度在0.5时,其规范生产量的95%的预测区间为(6.43,13.55)多元线性回归模型01 1222(0,)ppYxxxN 012,;P 2其中,为未知参数121201122,)(,),1,2,.Piiiiiipiix xx YxxxYipxxxipip对(进行观测得观测值则Y其中独立同标准正态分布.20
15、121,)npii 采用最小二乘估计,令 Q(为了便于写出它最小二乘估计;引进矩阵表示 记则有01,u1122pnnYY Y=Y1112121111ppnnpxxxxXxx2(0,)nnYXuuNI 因此20121,)nTpiiu u Q(Q()()TYXYX,求使 Q()=minQ()()TTTTTTY YX YY XX X对 求导,我们有 Q 2TTTX YX YX X 22TTX YX X TTX XX Y令其为零得矩阵方程 1()TTTX XX XX Y如果可逆,则 的最小二乘解为 21()()1TYXYXnp2的估计仍采用矩法,且无偏估计为 01 122ppYxxx称为经验回归方程2
16、11()1niiiYYnp有了上面的结论,我们可以导出检验的检验方法.在这里就不讨论了,参见讲义012:0nH预测1201020(,)(,)ppx xxxxxY对自变量=时对 作点估计和区间估计就是点预测与区间预测.我们不加证明地给出下列结果:00101202pxxx0p点预测:Y200001000001020,)(1)1()(1,)TTTptnpxX Xxxxxx区间预测:(YY 其中 回到引例:某厂生产的圆钢,其屈服点Z受含碳量x和含锰量y的影响,现做了25次观察,测得如下数据x 16 18 19 17 20 16 16 15 19 18 y 39 38 39 39 38 48 45 48
17、 48 48 Z 24 24.5 24.5 24 25 24.5 24 24 24.5 24.5x 18 17 17 17 18 18 20 21 16 18 y 46 48 49 46 44 45 48 48 55 55 Z 24.5 24.5 25 24.5 24.5 24.5 25 25 25 25x 19 19 21 19 21y 56 58 58 49 49 Z 25.5 25.5 26.5 24.5 26试通过上述数据建立起它们之间的关系?2012,(0,)ZxyN 2424.526Z492113818139161X569142149911842149982774531184453
18、25 XX5.2937211234619ZX0556.02218.01078.18)(2101ZXXX记则解:设210556.02218.01078.18xx 检验线性模型是否显著和检验假设 0:0(1,2)iiHi故76.2425619251251iiyy06.9)(2512iiyySST,282708.7)(2512IiyySSR772292.1SSRSSTSSE20125.4522772292.12282708.7)1(pnSSEpSSRF因为取05.0FFpnpF44.3)22,2()1,(05.0所以故线性模型显著0805587.022772292.11)(11122niiipnSS
19、Ryypn30.4)22,1(05.0F30.44494.40211211cF30.40969.31222222cF又因为)2,1(0:0iHii故显著地不成立9.2.4变量选择及多元共线性性问题 在多元线性回归模型是,由于有多个自变量,存在一些有一元线性回归模型中不会遇到的问题。本节讨论两个涉及到变量之间关系的问题。第一个问题是关于自变量与因变量之间的关系。当我们就一个实际问题建立多元线性回归模型时,可能会考虑到多个对因变量有潜在影响的自变量,但在对数据进行分析之前无法事先断定哪些变量是有效的(对因变量有显著影响),哪些是无效的(对因变量没有显著影响)。有效变量应该保留在模型中,而无效变量应
20、该从模型中去掉。因为无效变量在模型中会对分析结果产生干扰,从而产生误导。那么究竟哪些变量是有效的,哪些变量是无效的呢?这就是变量选择的问题。第二个问题是关于自变量之间的关系。在某些实际问题中(如在实验室或某些工业生产条件下),观测者(试验者)可以控制自变量的值,这是他可以在事先设计好的自变量值上观测因变量。而在另一些情况下(研究社会、地质、水文)。观测者不能控制自变量的值,或者说自变量是随机变量。这时,自变量之间会有统计相关性。当这种统计相关性很强时就产生“多元共线性”的问题。多元共线性的存在对回归分析的结果产生很坏的影响。因此数据分析应该考虑多元共线性的影响,并知道用何种方法去克服这种影响。
21、变量选择的方法变量选择的方法2maxR从原则上讲,一个好的模型应该包含所有的有效变量,而不包含任何无效变量 准则是根据的 大小在所有可能的模型中选择“最优模型”的一种方法 2max R2R 设备选的自变量共有K个,先假定已知有效变量的数目为r,我们来考虑恰好包含r个变量的模型,这样的模型共有 个rkC r个自变量对因变量的总的影响可以由它的决定系数 来度量 2R2SSRRSST总的原则:2R越大,自变量对因变量的总影响 也越大 在计算决定系数时,由于SST为因变量的总平方和,在任何模型下是不变的,只须计算各个模型下的回归平方和SSR 一般情况,有效变量的个数r未知时,在这种情况下如何确定最佳模
22、型?考虑如下的思路,对j个有效回归变量的模型中按上述方法找到最佳模型,此时最佳模型的决定系数记为2jR可以得出22212kRRR如何找出r 根据决定系数增加的快慢来确定r,当它由快变慢形成拐点时,此时的最优模型的自变量的个数就是r缺点:准则要求对所有可能的回归模型计算 ,当备选变量的数目比较小时,用这种方法可以保证对给定的有效变量的个数r找到理论上的最优模型。但当备选变量的数目比较大时,用这种方法其计算量非常地大 2maxR2R向后、向前向后、向前、逐步回归逐步回归(1)向后回归法 其基本思路是:先将所有可能对因变量产生影响的自变量都纳入模型,然后逐个地从中剔除认为是最没有价值的变量,直至所留
23、在模型中的变量都不能被剔除,或者模型中没有任何变量为止。在逐步的剔除过程中,每次都对当前模型中的所有变量计算评估附加影响的F统计量,并找到其中最小的。如果最小F统计量超过指定的临界值 Fout,当前模型中的所有变量都保留,将当前模型作为最终模型,程序终止。反之,如果最小F统计量达不到临界值,就将相应的变量加以剔除,得到一个较小的模型。在新的模型下重复以上作法。以上步骤不断进行,直至没有变量可以剔除,或者模型中没有任何变量为止。最终的模型就是所选定的“最优”模型。标准的统计软件通常还输出所有中间模型。(2)向前回归法其基本思路是:先将所有可能对因变量产生影响的自变量作为备选的变量集,都放在模型之
24、外,从零模型,即不包含任何自变量的模型开始,然后逐个地向模型中加入被认为是最有附加价值的变量,直至所留在模型外的变量都不能被加入,或者所有备选的变量都已加入模型为止。在逐步加入的过程中,第一步对所有变量计算当模型中只有一个变量时的F统计量,并找到其中最大的。如果最大F统计量不超过临界值Fin,则所有在模型外的变量都不能加入到模型中去,将零模型作为最终模型,程序终止。反之,如果最大F统计量超过临界值,就将相应的变量加入到模型中去。从第二步开始,每次都对当前模型外的任一变量计算;当这个变量被加入模型后,在新模型下计算它的F统计量,并找到其中最大的。如果最大F统计量不超过临界值,可以认为所有在当前模
25、型外的变量都是无效变量,因此都不能加入到当前模型中去,将当前模型作为最终模型,程序终止。反之,如果最大F统计量超过临界值,就将相应的变量加入到当前模型中去,得到一个较大的模型。以上步骤不断进行,直至没有变量可以加入,或者模型中已经包含了所有变量为止。最终的模型就是所选定的“最优”模型,标准的统计软件通常还输出所有中间模型。(3)逐步回归法逐步回归法是对向前回归的一个修正。在向前回归中,变量逐个被加入到模型中去,一个变量一旦被加入到模型中,就再也不可能被剔除。但是,原来在模型中的变量在引入新变量之后,可能会变得没有存在的价值而没有必要再留在模型中。出现这种情况是因为回归变量之间存在着相关性的缘故。因此,在逐步回归中,每当向模型中加入一个变量之后,就对原来模型中的变量在新模型下再进行一次向后剔除的检查,看是否其中有变量应该被剔除。这种“加入剔除”的步骤反复进行,直至所有已经在模型中的变量都不能剔除,而且所有在模型外的变量都不能加入,过程就终止,最终的模型就是被选定的“最优”模型,标准的统计软件通常还输出所有中间模型。例: