数学建模-回归分析预测(回归预测模型)课件.ppt_163文库

资源描述

1、数学建模数学建模回归预测模型回归预测模型 n一、变量间的关系一、变量间的关系第一节第一节回归分析预测法概述回归分析预测法概述各经济变量之间的关系一般分为两类：各经济变量之间的关系一般分为两类：1.确定性确定性关系关系2.相关相关关系关系变量与变量之间的函数关系反映客观事物之间存在着严格的依存关系。在这种关系中，当一个或几个变量取值一定时，另一个变量有确定的值与之相对应，并且这种关系可以用一个确定的数学表达式反映出来。在三个变量中，任意两个都可以确定第三个。一般把作为影响因素的变量称为自变量，把发生对应变化的变量称为因变量。1.确定性关系2.相关关系相关关系反映的是客观事物之间的非严格

2、、不确定的线性依存关系。这种线性依存关系有两个显著的特点：客观事物之间在数量上确实存在一定的内在联系。表现在一个变量发生数量上的变化，要影响另一个变量也相应地发生数量上的变化。客观事物之间的数量依存关系不是确定的，具有一定的随机性。表现在当一个或几个相互联系的变量取一定数值时，与之对应的另一个变量可以取若干个不同的数值。这种关系虽然不确定，但因变量总是遵循一定规律围绕这些数值的平均数上下波动（一）回归分析的提出（一）回归分析的提出n回归分析起源于生物学研究，是由英国生物学家兼统计学回归分析起源于生物学研究，是由英国生物学家兼统计学家高尔登（家高尔登（Francis Galton 1822-

3、1911）在）在19世纪末叶研世纪末叶研究遗传学特性时首先提出来的。究遗传学特性时首先提出来的。 n 高尔登在高尔登在1889年发表的著作年发表的著作自然的遗传自然的遗传中，提出中，提出了回归分析方法以后，很快就应用到经济领域中来，而且了回归分析方法以后，很快就应用到经济领域中来，而且这一名词也一直为生物学和统计学所沿用。这一名词也一直为生物学和统计学所沿用。 n回归的现代涵义与过去大不相同。一般说来，回归是研究回归的现代涵义与过去大不相同。一般说来，回归是研究因变量随自变量变化的关系形式的分析方法。因变量随自变量变化的关系形式的分析方法。其目的在于其目的在于根据已知自变量来估计和预测因变量的

4、总平均值。根据已知自变量来估计和预测因变量的总平均值。 1、定义理解：n 相关分析是以相关关系为对象，研究两个或两个以上随机变量之间线性依存关系的紧密程度。通常用相关系数表示，多元相关时用复相关系数表示。n 回归分析是对具有相关关系的变量之间的数量变化规律进行测定，研究某一随机变量（因变量）与其他一个或几个普通变量（自变量）之间的数量变动关系，并据此对因变量进行估计和预测的分析方法。（三）回归分析三）回归分析与与相关分析相关分析n它们是研究客观事物之间相互依存关系的两个不可分割的方面。n在实际工作中，一般先进行相关分析，由相关系数的大小决定是否需要进行回归分析。在相关分析的基础上建立回归模

5、型，以便进行推算、预测，同时相关系数还是检验回归分析效果的标准。n相关分析需要回归分析来表明客观事物数量关系的具体形式，而回归分析则应建立在相关分析的基础上。2、回归分析与相关分析的关系、回归分析与相关分析的关系（四）在回归分析中应当注意的问题1重视数据的收集和甄别在收集数据的过程中可能会遇到以下困难：在收集数据的过程中可能会遇到以下困难：（1）一些变量无法直接观测。）一些变量无法直接观测。（2）数据缺失或出现异常数据。）数据缺失或出现异常数据。（3）数据量不够。）数据量不够。（4）数据不准确、不一致、有矛盾。）数据不准确、不一致、有矛盾。2. 合理确定数据的单位在建立回归方程时，如果不同

6、变量的单位选取不适当，导致模型中各变量的数量级差异悬殊，往往会给建模和模型解释带来诸多不便。比如模型中有的变量用小数位表示，有的变量用百位或千位数表示，可能会因舍入误差使模型计算的准确性受到影响。因此，适当选取变量的单位，使模型中各变量的数量级大体一致是一种明智的做法。从各种经济现象之间的相关关系出发，通过从各种经济现象之间的相关关系出发，通过对与预测对象有联系的现象变动趋势的分对与预测对象有联系的现象变动趋势的分析，推算预测对象未来状态数量表现的一析，推算预测对象未来状态数量表现的一种预测法。种预测法。回归分析预测法回归分析预测法n（一）根据预测的目的，选择确定自变量（一）根据预测的目的，选

7、择确定自变量和和因变量因变量n (二二)收集历史统计资料收集历史统计资料,分析分析.计算并建立回计算并建立回归预测模型归预测模型n（三）进行相关分析（三）进行相关分析n（四）检验（四）检验回归预测模型回归预测模型,计算预测误差计算预测误差n（五）计算并确定预测值（五）计算并确定预测值回归分析预测法的基本步骤回归分析预测法的基本步骤回归模型回归模型n定义：定义：n 回归分析是对具有相关关系的变量之回归分析是对具有相关关系的变量之间的数量变化规律进行测定，研究某一随间的数量变化规律进行测定，研究某一随机变量（因变量）与其他一个或几个普通机变量（因变量）与其他一个或几个普通变量（自变量）之间的数

8、量变动关系，并变量（自变量）之间的数量变动关系，并据此对因变量进行估计和预测的分析方法。据此对因变量进行估计和预测的分析方法。由回归分析求出的关系式，由回归分析求出的关系式，称为回归模型称为回归模型一元线性回归n回归函数n若Y的数学期望E(Y)存在,则其取值随x的取值而定，它是x的函数，记为u(x) ,称其为Y关于x的回归函数。n利用样本来估计u(x)的问题称为求Y关于x的回归问题，若u(x)为线性函数，此时称为一元线性回归问题()一元线性回归一元线性回归()多元线性回归多元线性回归回归分析回归分析数学模型及定义数学模型及定义模型参数估计模型参数估计检验、预测与控制检验、预测与控制可线性化的一

9、元非线可线性化的一元非线性回归（曲线回归性回归（曲线回归）数学模型及定义数学模型及定义模型参数估计模型参数估计多元线性回归中的多元线性回归中的检验与预测检验与预测逐步回归分析逐步回归分析（i）建立因变量y与自变量x1 , x2 , , xm 之间的回归模型（经验公式）；（ii）对回归模型的可信度进行检验；（iii）判断每个自变量xi (i=1,2,m) 对y 的影响是否显著；（iv）利用回归模型对y 进行预报或控制。线性回归分析的主要任务主要任务是：()一、数学模型一、数学模型例例1 测16名成年女子的身高与腿长所得数据如下：身高14314514614714915015315415515615

10、7158159160162164腿长8885889192939395969897969899100102以身高x为横坐标，以腿长y为纵坐标将这些数据点（xI，yi）在平面直角坐标系上标出.1401451501551601658486889092949698100102散点图xy10解答一般地，称由xy10确定的模型为一一元元线线性性回回归归模模型型，记为 210, 0DExy固定的未知参数0、1称为回归系数，自变量 x 也称为回归变量.xY10，称为 y 对对 x的回归直线方程的回归直线方程.返回返回二、模型参数估计二、模型参数估计1、回归系数的最小二乘估计、回归系数的最小二乘估计有 n 组

11、独立观测值，（x1，y1），（x2，y2），（xn，yn）设相互独立且，niiiiDEnixy., , 0,.,2 , 1,21210 记 niiiniixyQQ12101210),(最小二乘法最小二乘法就是选择0和1的估计0，1使得 ),(min),(10,1010QQ22110 xxyxxyxy解得（经经验验）回回归归方方程程为为: )(110 xxyxy 或 niiniiixxyyxx1211 其中niiniiynyxnx111,1，niiiniiyxnxyxnx11221,1. 2、2的无偏估计的无偏估计记 niniiiiieyyxyQQ11221010)(),(称 Qe

12、为残残差差平平方方和和或剩剩余余平平方方和和. 2的的无无偏偏估估计计为 )2(2nQee称2e为剩剩余余方方差差（残残差差的的方方差差）， 2e分别与0、1独立。 e称为剩剩余余标标准准差差.返回返回对一元线性回归模型的检验拟合优度检验显著性检验回归方程线性关系的显著性检验（F 检验）回归系数的显著性检验（t 检验）三、检验、预测与控制三、检验、预测与控制1、拟合优度检验、拟合优度检验2、回归方程的显著性检验、回归方程的显著性检验假设0:10H被拒绝，则回归显著，认为 y 与 x 存在线性关系，所求的线性回归方程有意义；否则回归不显著，y 与 x 的关系不能用一元线性回归模型来描述，所

13、得的回归方程也无意义.（）F检验法检验法回归模型的线性关系检验回归模型的线性关系检验当0H成立时， )2/( nQUFeF（1，n-2）其中 niiyyU12（回归平方和）回归平方和）故 F)2, 1 (1nF，拒绝0H，否则就接受0H. （）t检验法检验法回归系数的显著性检验回归系数的显著性检验niiniixxxnxxxL12212)(其中当0H成立时，exxLT1t（n-2）故)2(21ntT，拒绝0H，否则就接受0H.2、回归系数的置信区间、回归系数的置信区间0和和1置信水平为置信水平为 1-的置信区间分别为的置信区间分别为 xxexxeLxnntLxnnt221022101)2(,1

14、)2(和 xxexxeLntLnt/)2(,/)2(2112112的的置置信信水水平平为为 1-的的置置信信区区间间为为 )2(,)2(22221nQnQee3、预测与控制、预测与控制（1）预测）预测用 y0的回归值0100 xy作为 y0的的预预测测值值.0y的置信水平为1的预测区间预测区间为 )(),(0000 xyxy其中xxeLxxnntx2021011)2()( 特别，当 n 很大且 x0在x附近取值时,y 的置信水平为1的预预测测区区间间近近似似为为 2121,uyuyee（2）控制）控制要求：xy10的值以1的概率落在指定区间yy ,只要控制 x 满足以下两个不等式 yxyyxy

15、 )(,)(要求)(2xyy .若yxyyxy )(,)(分别有解x和x ，即yxyyxy )(,)(. 则xx ,就是所求的 x 的控制区间.返回返回四、可线性化的一元非线性回归四、可线性化的一元非线性回归（曲线回归）（曲线回归）例例2 出钢时所用的盛钢水的钢包，由于钢水对耐火材料的侵蚀，容积不断增大.我们希望知道使用次数与增大的容积之间的关系.对一钢包作试验，测得的数据列于下表：使用次数增大容积使用次数增大容积234567896.428.209.589.509.7010.009.939.991011121314151610.4910.5910.6010.8010.6010.9010.

16、76解答24681012141666.577.588.599.51010.511散点图此即非线性回归非线性回归或曲线回归曲线回归问题（需要配曲线）配曲线的一般方法是：配曲线的一般方法是：先对两个变量 x 和 y 作 n 次试验观察得niyxii,.,2 , 1),(画出散点图，根据散点图确定须配曲线的类型.然后由 n 对试验数据确定每一类曲线的未知参数 a 和 b.采用的方法是通过变量代换把非线性回归化成线性回归，即采用非线性回归线性化的方法.通常选择的六类曲线如下：（1）双曲线双曲线xbay1（2）幂函数曲线幂函数曲线 y=abx, 其中 x0,a0（3）指数曲线指数曲线 y=abxe其中

17、参数 a0.（4）倒倒指指数数曲曲线线 y=axbe/其中 a0，（5）对对数数曲曲线线 y=a+blogx,x0（6）S 型型曲曲线线xbeay1返回返回解例2.由散点图我们选配倒指数曲线y=axbe/根据线性化方法，算得4587. 2,1107. 1Ab由此 6789.11Aea最后得 xey1107. 16789.11()一、多元回归分析模型及定义一、多元回归分析模型及定义一般称 nICOVEXY2),(, 0)( 为高斯马尔柯夫线性模型(k k 元线性回归模型元线性回归模型)，并简记为),(2nIXY nyyY.1，nknnkkxxxxxxxxxX.1.1.1212222111211，

18、k.10，n.21kkxxy.110称为回回归归平平面面方方程程. 返回返回线性模型),(2nIXY考虑的主要问题是：（1）用试验值（样本值）对未知参数和2作点估计和假设检验，从而建立 y 与kxxx,.,21之间的数量关系；（2）在,.,0022011kkxxxxxx处对 y 的值作预测与控制，即对 y 作区间估计. 二、模型参数估计二、模型参数估计1、对对i和和2作作估估计计用最小二乘法求k,.,0的估计量：作离差平方和 niikkiixxyQ12110.选择k,.,0使 Q 达到最小。得到的i代入回归平面方程得： kkxxy.110称为经验回归平面方程经验回归平面方程.i称为经验回

19、归系数经验回归系数.注注意意：服从 p+1 维正态分布，且为的无偏估计，协方差阵为C2. C=L-1=(cij), L=XX2、多多项项式式回回归归设变量 x、Y 的回归模型为 ppxxxY.2210其中 p 是已知的，), 2 , 1(pii是未知参数，服从正态分布), 0(2N. 令iixx ，i=1，2，k 多项式回归模型变为多元线性回归模型.返回返回 kkxxxY.2210称为回回归归多多项项式式.上面的回归模型称为多多项项式式回回归归.对多元线性回归模型的检验拟合优度检验显著性检验回归方程线性关系的显著性检验（F 检验）回归系数的显著性检验（t 检验）三、多元线性回归中的检验

20、与预测三、多元线性回归中的检验与预测2、预测、预测（1）点预测）点预测求出回归方程kkxxy.110，对于给定自变量的值kxx ,.,*1，用*110*.kkxxy来预测*110.kkxxy.称* y为*y的点预测.（2）区间预测）区间预测y 的1的预测区间（置信）区间为),(21yy,其中) 1(1) 1(12/10022/1001kntxxcyykntxxcyykikjjiijekikjjiijeC=L-1=(cij), L=XX1knQee返回返回四、逐步回归分析四、逐步回归分析（4）“有进有出”的逐步回归分析。（1）从所有可能的因子（变量）组合的回归方程中选择最优者；（2）从包含全部变

21、量的回归方程中逐次剔除不显著因子；（3）从一个变量开始，把变量逐个引入方程；选择“最优”的回归方程有以下几种方法： “最优最优”的回归方程的回归方程就是包含所有对Y有影响的变量, 而不包含对Y影响不显著的变量回归方程。以第四种方法，即逐步回归分析法逐步回归分析法在筛选变量方面较为理想. 这个过程反复进行，直至既无不显著的变量从回归方程中剔除，又无显著变量可引入回归方程时为止。逐步回归分析法逐步回归分析法的思想：从一个自变量开始，视自变量Y作用的显著程度，从大到地依次逐个引入回归方程。当引入的自变量由于后面变量的引入而变得不显著时，要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量

22、，为逐步回归的一步。对于每一步都要进行Y值检验，以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。返回返回统计工具箱中的回归分析命令统计工具箱中的回归分析命令1、多元线性回归、多元线性回归2、多项式回归、多项式回归3、非线性回归、非线性回归4、逐步回归、逐步回归返回返回多元线性回归多元线性回归 b=regress( Y, X )npnnppxxxxxxxxxX.1.1.1212222111211nYYYY.21pb.101、确定回归系数的点估计值：确定回归系数的点估计值：ppxxy.110对一元线性回归，取 p=1 即可3、画出残差及其置信区间：画出残差及其置信区间： rco

23、plot（r，rint）2、求回归系数的点估计和区间估计、并检验回归模型：求回归系数的点估计和区间估计、并检验回归模型： b, bint,r,rint,stats=regress(Y,X,alpha)回归系数的区间估计残差用于检验回归模型的统计量，有三个数值：相关系数r2、F值、与F对应的概率p置信区间显著性水平（缺省时为0.05）相关系数 r2越接近 1，说明回归方程越显著； F F1-（k，n-k-1）时拒绝 H0，F 越大，说明回归方程越显著；与 F 对应的概率 p时拒绝 H0，回归模型成立.例例1 解：解：1、输入数据：输入数据： x=143 145 146 147 149 15

24、0 153 154 155 156 157 158 159 160 162 164; X=ones(16,1) x; Y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102;2、回归分析及检验：回归分析及检验： b,bint,r,rint,stats=regress(Y,X) b,bint,stats得结果：b = bint = -16.0730 -33.7071 1.5612 0.7194 0.6047 0.8340 stats = 0.9282 180.9531 0.0000即7194. 0,073.1610；0的置信区间为-33.7017，

25、1.5612, 1的置信区间为0.6047,0.834;r2=0.9282, F=180.9531, p=0.0000p0.05, 可知回归模型 y=-16.073+0.7194x 成立.题目3、残差分析，作残差图：、残差分析，作残差图： rcoplot(r,rint) 从残差图可以看出，除第二个数据外，其余数据的残差离零点均较近，且残差的置信区间均包含零点，这说明回归模型 y=-16.073+0.7194x能较好的符合原始数据，而第二个数据可视为异常点. 4、预测及作图：、预测及作图：z=b(1)+b(2)*x plot(x,Y,k+,x,z,r)246810121416-5-4-3-2-1

26、01234Residual Case Order PlotResidualsCase Number返回返回多多项项式式回回归归（一）一元多项式回归（一）一元多项式回归（1）确定多项式系数的命令：p，S=polyfit（x，y，m）其中 x=（x1，x2，xn），y=（y1，y2，yn）；p=（a1，a2，am+1）是多项式 y=a1xm+a2xm-1+amx+am+1的系数；S 是一个矩阵，用来估计预测误差.（2）一元多项式回归命令：polytool（x，y，m）1、回归：、回归：y=a1xm+a2xm-1+amx+am+12、预测和预测误差估计：、预测和预测误差估计：（1）

27、Y=polyval（p，x）求polyfit所得的回归多项式在x处的预测值Y；（2）Y，DELTA=polyconf（p，x，S，alpha）求polyfit所得的回归多项式在x处的预测值Y及预测值的显著性为1- alpha的置信区间Y DELTA；alpha缺省时为0.5. 例例 2 观测物体降落的距离 s 与时间 t 的关系，得到数据如下表，求 s关于 t 的回归方程2ctbtas.t (s)1/302/303/304/305/306/307/30s (cm)11.8615.6720.6026.6933.7141.9351.13t (s)8/309/3010/3011/3012/3

28、013/3014/30s (cm)61.4972.9085.4499.08113.77129.54146.48法一法一直接作二次多项式回归：直接作二次多项式回归： t=1/30:1/30:14/30; s=11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48; p,S=polyfit(t,s,2)1329. 98896.652946.4892tts得回归模型为：法二法二化为多元线性回归：化为多元线性回归：t=1/30:1/30:14/30;s=11.86 15.67 20

29、.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48;T=ones(14,1) t (t.2);b,bint,r,rint,stats=regress(s,T);b,stats22946.4898896.651329. 9tts得回归模型为：Y=polyconf(p,t,S) plot(t,s,k+,t,Y,r)预测及作图预测及作图（二）多元二项式回归（二）多元二项式回归命令：rstool（x，y，model, alpha）nm矩阵显著性水平（缺省时为0.05）n维列向量由下列 4 个模型中选择 1

30、个（用字符串输入，缺省时为线性模型）： linear（线性）：mmxxy 110 purequadratic（纯二次）： njjjjmmxxxy12110 interaction（交叉）： mkjkjjkmmxxxxy1110 quadratic（完全二次）： mkjkjjkmmxxxxy,1110 例例3 设某商品的需求量与消费者的平均收入、商品价格的统计数据如下，建立回归模型，预测平均收入为1000、价格为6时的商品需求量.需求量10075807050659010011060收入10006001200500300400130011001300300价格5766875439选择纯二次模型

31、，即 2222211122110 xxxxy法一法一直接用多元二项式回归：x1=1000 600 1200 500 300 400 1300 1100 1300 300;x2=5 7 6 6 8 7 5 4 3 9;y=100 75 80 70 50 65 90 100 110 60;x=x1 x2; rstool(x,y,purequadratic) 在画面左下方的下拉式菜单中选”all”, 则beta、rmse和residuals都传送到Matlab工作区中.在左边图形下方的方框中输入1000，右边图形下方的方框中输入6。则画面左边的“Predicted Y”下方的数据变为88.479

32、81，即预测出平均收入为1000、价格为6时的商品需求量为88.4791.在Matlab工作区中输入命令： beta, rmse得结果：beta = 110.5313 0.1464 -26.5709 -0.0001 1.8475 rmse = 4.5362故回归模型为：2221218475. 10001. 05709.261464. 05313.110 xxxxy剩余标准差为 4.5362, 说明此回归模型的显著性较好.X=ones(10,1) x1 x2 (x1.2) (x2.2);b,bint,r,rint,stats=regress(y,X);b,stats结果为: b = 110.53

33、13 0.1464 -26.5709 -0.0001 1.8475 stats = 0.9702 40.6656 0.0005法二法二返回返回 2222211122110 xxxxy将化为多元线性回归：非线性回非线性回归归（1）确定回归系数的命令： beta，r，J=nlinfit（x，y，model, beta0）（2）非线性回归命令：nlintool（x，y，model, beta0，alpha）1、回归：、回归：残差Jacobian矩阵回归系数的初值是事先用m-文件定义的非线性函数估计出的回归系数输入数据x、y分别为矩阵和n维列向量，对一元非线性回归，x为n维列向量。mn2、预测

34、和预测误差估计：、预测和预测误差估计：Y，DELTA=nlpredci（model, x，beta，r，J）求nlinfit 或nlintool所得的回归函数在x处的预测值Y及预测值的显著性为1-alpha的置信区间Y DELTA.例例 4 对第一节例2，求解如下：1、对将要拟合的非线性模型 y=axbe/，建立 m-文件 volum.m 如下： function yhat=volum(beta,x) yhat=beta(1)*exp(beta(2)./x);2、输入数据： x=2:16; y=6.42 8.20 9.58 9.5 9.7 10 9.93 9.99 10.49 10.59 10

35、.60 10.80 10.60 10.90 10.76; beta0=8 2;3、求回归系数： beta,r ,J=nlinfit(x,y,volum,beta0)； beta得结果：beta = 11.6036 -1.0641即得回归模型为：xey10641. 16036.11题目4、预测及作图： YY,delta=nlpredci(volum,x,beta,r ,J)； plot(x,y,k+,x,YY,r)例例5 财政收入预测问题：财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关。下表列出了1952-1981年的原始数据，试构造预测模型。解解设国民

36、收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资分别为x1、x2、x3、x4、x5、x6，财政收入为y，设变量之间的关系为：y= ax1+bx2+cx3+dx4+ex5+fx6使用非线性回归方法求解。1 对回归模型建立对回归模型建立M文件文件model.m如下如下: function yy=model(beta0,X) a=beta0(1); b=beta0(2); c=beta0(3); d=beta0(4); e=beta0(5); f=beta0(6); x1=X(:,1); x2=X(:,2); x3=X(:,3); x4=X(:,4); x5=X(:,5); x6=X(:

37、,6); yy=a*x1+b*x2+c*x3+d*x4+e*x5+f*x6; 2. 主程序主程序liti6.m如下如下:X=598.00 349.00 461.00 57482.00 20729.00 44.00 . 2927.00 6862.00 1273.00 100072.0 43280.00 496.00;y=184.00 216.00 248.00 254.00 268.00 286.00 357.00 444.00 506.00 . 271.00 230.00 266.00 323.00 393.00 466.00 352.00 303.00 447.00 . 564.00 638

38、.00 658.00 691.00 655.00 692.00 657.00 723.00 922.00 . 890.00 826.00 810.0;beta0=0.50 -0.03 -0.60 0.01 -0.02 0.35;betafit = nlinfit(X,y,model,beta0) betafit = 0.5243 -0.0294 -0.6304 0.0112 -0.0230 0.3658即y= 0.5243x1-0.0294x2-0.6304x3+0.0112x4-0.0230 x5+0.3658x6结果为结果为:返返回回逐逐步步回回归归逐步回归的命令是： stepwi

39、se（x，y，inmodel，alpha）运行stepwise命令时产生三个图形窗口：Stepwise Plot，Stepwise Table，Stepwise History. 在Stepwise Plot窗口，显示出各项的回归系数及其置信区间. Stepwise Table 窗口中列出了一个统计表，包括回归系数及其置信区间，以及模型的统计量剩余标准差（RMSE）、相关系数（R-square）、F值、与F对应的概率P.矩阵的列数的指标，给出初始模型中包括的子集（缺省时设定为全部自变量）显著性水平（缺省时为0.5）自变量数据, 阶矩阵mn因变量数据，阶矩阵1n例例6 水泥凝固时放出的热量y

40、与水泥中4种化学成分x1、x2、x3、 x4 有关，今测得一组数据如下，试用逐步回归法确定一个线性模型. 序号12345678910111213x17111117113122111110 x226295631525571315447406668x3615886917221842398x46052204733226442226341212y78.574.3104.387.695.9109.2102.772.593.1115.983.8113.3109.41、数据输入：、数据输入：x1=7 1 11 11 7 11 3 1 2 21 1 11 10;x2=26 29 56 31 52 55 7

41、1 31 54 47 40 66 68;x3=6 15 8 8 6 9 17 22 18 4 23 9 8;x4=60 52 20 47 33 22 6 44 22 26 34 12 12;y=78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4;x=x1 x2 x3 x4;2、逐步回归：、逐步回归：（1）先在初始模型中取全部自变量：）先在初始模型中取全部自变量： stepwise(x,y)得图Stepwise Plot 和表Stepwise Table图图Stepwise Plot中四条直线都是虚中四条直

42、线都是虚线，说明模型的显著性不好线，说明模型的显著性不好从表从表Stepwise Table中看出变中看出变量量x3和和x4的显著性最差的显著性最差.（2）在图）在图Stepwise Plot中点击直线中点击直线3和直线和直线4，移去变量，移去变量x3和和x4移去变量移去变量x3和和x4后模型具有显著性后模型具有显著性. 虽然剩余标准差（虽然剩余标准差（RMSE）没）没有太大的变化，但是统计量有太大的变化，但是统计量F的的值明显增大，因此新的回归模型值明显增大，因此新的回归模型更好更好.（3）对变量）对变量y和和x1、x2作线性回归：作线性回归： X=ones(13,1) x1 x2; b=r

43、egress(y,X)得结果：b = 52.5773 1.4683 0.6623故最终模型为：y=52.5773+1.4683x1+0.6623x2返回返回下表给出了下表给出了3030个人的血压、年龄等信息，作回归分个人的血压、年龄等信息，作回归分析析问题：问题：60岁比岁比50岁的人血压高多少呢？岁的人血压高多少呢？3030个人的血压与年龄个人的血压与年龄序序号号血血压压年龄年龄序号序号血压血压年年龄龄序序号号血压血压年年龄龄1 1144144393911111621626464212113613636362 2215215474712121501505656222214214250503

44、3138138454513131401405959232312012039394 4145145474714141101103434242412012021215 5162162656515151281284242252516016044446 6142142464616161301304848262615815853537 7170170676717171351354545272714414463638 8124124424218181141141818282813013029299 9158158676719191161162020292912512525251010 1541545656

45、2020124124191930301751756969血压与年龄关系血压与年龄关系1.1.画散点图画散点图ny=144 215 138 145 162 142 170 124 158 154 162 150 140 110 128 130 135 114 116 124 136 142 120 120 160 158 144 130 125 175;nx=39 47 45 47 65 46 67 42 67 56 64 56 59 34 42 48 45 18 20 19 36 50 39 21 44 53 63 29 25 69;nplot(x,y,.r)程序程序: :ny=144 215

46、 138 145 162 142 170 124 158 154 162 150 140 110 128 y=144 215 138 145 162 142 170 124 158 154 162 150 140 110 128 130 135 114 116 124 136 142 120 130 135 114 116 124 136 142 120 120120 160 158 144 130 125 175; 160 158 144 130 125 175;nx=39 47 45 47 65 46 67 42 67 56 64 56 59 34 42 48 45 18 20 19 x=

47、39 47 45 47 65 46 67 42 67 56 64 56 59 34 42 48 45 18 20 19 36 50 39 21 44 53 63 29 25 69;36 50 39 21 44 53 63 29 25 69;nn=30; % n=30; % 数据点的个数数据点的个数 nX=ones(n,1),xX=ones(n,1),x; % 1; % 1与自变量组成的输入矩阵与自变量组成的输入矩阵 n b,bint,r,rint,sb,bint,r,rint,s=regress(yregress(y,X,X); %); %回归分析程序回归分析程序( (默认默认=0.05=0.

48、05) )nb,bint,sb,bint,s % %输出回归系数及其置信区间输出回归系数及其置信区间nrcoplot(r,rintrcoplot(r,rint) %) %残差及其置信区间作图残差及其置信区间作图01yaa x2.2.线性拟合线性拟合运行结果运行结果: :nb = 98.4084 0.9732b = 98.4084 0.9732nbint = 78.7484 118.0683bint = 78.7484 118.0683 0.5601 1.3864 0.5601 1.3864ns = 0.4540 23.2834 0.0000 273.7137s = 0.4540 23.2834

49、 0.0000 273.7137回归系数回归系数回归系数估计值回归系数估计值回归系数置信区间回归系数置信区间a0 098984084408478.748478.7484，118.0683118.0683a1 10.97320.97320.5601, 1.38640.5601, 1.3864 R R2 2=0.4540 =0.4540 F=23.2834 p0.0001 sF=23.2834 p0.0001 s2 2 =273.7137=273.7137血压与年龄的计算结果表血压与年龄的计算结果表n在显著性水平在显著性水平下下, ,y y0 0的预测区间为的预测区间为x预测预测220000112

50、2()()11(2)1, (2)1xxxxxxxxytnsytnssnsnn当当n n很大且很大且x x0 0的接近于的接近于时时, ,上述预测区间简化为上述预测区间简化为001122u, uysysn将将x x0 0代入回归方程可得代入回归方程可得y y0 0的估计值为的估计值为144.5298,144.5298,在显著性水平在显著性水平=0.05=0.05下下, ,按按上两式计算的预测区间分别为上两式计算的预测区间分别为 124.5406, 164.5190124.5406, 164.5190 125.7887, 163.2708 125.7887, 163.2708 参考书目参考书目统

展开阅读全文