1、第十章第十章 统计回归模型统计回归模型 重点:重点:1.1.熟悉建立统计回归模型的基本方法和步骤;熟悉建立统计回归模型的基本方法和步骤;2.2.熟练运用熟练运用MatlabMatlab作回归分析、预测等。作回归分析、预测等。内容:内容:回归分析的基本理论;用回归分析的基本理论;用MATLABMATLAB求解回归分析求解回归分析问题;牙膏的销售量问题;牙膏的销售量回归模型回归模型是用统计分析方法建立的最常用的一类模型是用统计分析方法建立的最常用的一类模型.数学建模的基本方法数学建模的基本方法机理分析机理分析测试分析测试分析通过对数据的通过对数据的统计分析统计分析,找出与数据拟合最好的模型,找出与
2、数据拟合最好的模型.由于客观事物内部规律的复杂及人们认识程度的限制由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型律的数学模型.回归分析回归分析-研究研究一个变量与其他一个变量与其他变量之间变量之间相互相互关系关系的一种的一种数学工具数学工具,它是在一组试验或观测数据的基它是在一组试验或观测数据的基础上,寻找被随机性掩盖的变量之间的依存关系。础上,寻找被随机性掩盖的变量之间的依存关系。粗略的讲,可以理解为粗略的讲,可以理解为用一种确定的函数关系用一种确定的函数关系去去近近似似代替代替比较复杂
3、的关系,比较复杂的关系,这个函数被称为回归函数这个函数被称为回归函数(回归方程、经验函数回归方程、经验函数)。根据自变量个数和经验函数形式的不同,回归根据自变量个数和经验函数形式的不同,回归分析可以分为一元回归、多元回归、线性回归、多分析可以分为一元回归、多元回归、线性回归、多项式(完全二次、交叉二次等)回归等许多类别。项式(完全二次、交叉二次等)回归等许多类别。回归和拟合比较相近,但并不一样。对拟合而言,回归和拟合比较相近,但并不一样。对拟合而言,一个一个Y Y变量对应一个变量对应一个X X变量,而回归分析的一个变量,而回归分析的一个Y Y变变量则有可能对应多个量则有可能对应多个X X变量。
4、从这个角度说,拟合变量。从这个角度说,拟合也属于回归的一种。也属于回归的一种。http:/ (多元线性回归课件)http:/ (回归分析MATLAB工具箱)http:/ (回归分析的基本理论及软件实现)回归分析的一般步骤回归分析的一般步骤1 1.确定回归方程中的确定回归方程中的因变量和自变量;因变量和自变量;2 2.设定回归模型;设定回归模型;基于数据画散点图,通过观察散点图设出因变量和自变量基于数据画散点图,通过观察散点图设出因变量和自变量 之间的关系(线性、非线性等),含待定参数。之间的关系(线性、非线性等),含待定参数。3 3.求得回归方程并进行检验;求得回归方程并进行检验;利用数学软件
5、利用数学软件(MATLAB)(MATLAB)求相关参数即回归系数,得到确定求相关参数即回归系数,得到确定 的回归方程的回归方程,并对回归方程进行检验(,并对回归方程进行检验(比如计算比如计算R2,F,p,s2 对模型进行整体评价对模型进行整体评价,观察回归系数置信区间是否含零点观察回归系数置信区间是否含零点 来检验回归系数对因变量的影响是否显著等)。来检验回归系数对因变量的影响是否显著等)。4.4.若检验通过,利用回归方程进行预测若检验通过,利用回归方程进行预测(借助借助MATLAB)MATLAB);若不通过,则改进模型(若不通过,则改进模型(如增添二次项、交互项等如增添二次项、交互项等)。)
6、。统计工具箱中的回归分析命令统计工具箱中的回归分析命令1 1、多元线性回归、多元线性回归2、多项式回归、多项式回归3、非线性回归、非线性回归1.多元线性回归01 1.mmyxx线性回归线性回归:regress调用格式调用格式:(1)b=regress(Y,X)(2)b,bint=regress(Y,X)(3)b,bint,r=regress(Y,X)(4)b,bint,r,rint=regress(Y,X)(5)b,bint,r,rint,stats=regress(Y,X)(6)b,bint,r,rint,stats=regress(Y,X,alpha)线性回归:输入:Y因变量(列向量),X
7、1与自变量组成的矩阵,alpha显著性水平(缺省时设定为0.05)stats:4个检验统计量:决定系数R2;F统计量值;F(1,n-2)分布大于F值的概率p,p时回归模型有效;残差的方差s2(这里s称剩余标准差)的估计值输出:b=()),bint:b的置信区间,r:残差向量,rint:r的置信区间01,nrcoplot(r,rint)残差及其置信区间作图 b=regress(Y,X)b,bint,r,rint,stats=regress(Y,X,alpha)常用常用调用格式调用格式 b,bint,r,rint,stats=regress(Y,X,alpha)Y为观察得到的因变量,X为自变量矩阵
8、。若回归系数中包含常数,则X的第一列应全部为1,Y与X的行数相等,X的列数等于回归系数的个数。alpha为输出各种置信区间用的显著性水平。b=regress(Y,X,alpha)或或输出结果有输出结果有5项:项:b是参数的点估计;bint为参数的区间估计;r为残差的点估计;rint为残差的区间估计,当点估计落在区间估计之外时,拒绝原假设;stats中包含四个项中包含四个项:R2是回归方程的相关系数R的平方;s2的估计值F是回归方程的F统计量,;P是拒绝原假设的概率,当Palpha时拒绝假设H0:,即接受y与x有线性关系。(,1)FF m nm120m b=regress(Y,X)1112121
9、222121.1.1.mmnnnmxxxxxxXxxxnYYYY.211、确定回归系数的点估计值:确定回归系数的点估计值:01 1.mmyxx 线性回归小结线性回归小结对于一元线性回归,取对于一元线性回归,取m=1即可。即可。3、画出残差及其置信区间:、画出残差及其置信区间:rcoplot(r,rint)2、求回归系数的点估计和区间估计并检验回归模型:求回归系数的点估计和区间估计并检验回归模型:b,bint,r,rint,stats=regress(Y,X,alpha)回归系数的区间估计残差用于检验回归模型的统计量,有 四个数值:相关系数R2、F值、与F对应的概率p,s2的估计值。置信区间 显
10、著性水平(缺省时为0.05)4、作预测及求预测区间:、作预测及求预测区间:rstool(x,y,linear)2.2.多多 项项 式式 回回 归归 (一)一元多项式回归(一)一元多项式回归(1)确定多项式系数的命令:p,S=polyfit(x,y,m)(2)一元多项式回归命令:polytool(x,y,m)1、回归:y=a1xm+a2xm-1+amx+am+12、预测和预测误差估计:(1)Y=polyval(p,x)求polyfit所得的回归多项式在x处 的预 测值Y;(2)Y,DELTA=polyconf(p,x,S,alpha)求polyfit所得 的回归多项式在x处的预测值Y及预测值的显
11、著性为 1-alpha的置信区间Y DELTA;alpha缺省时为0.05.2012年(二)多元二项式回归(二)多元二项式回归命令:rstool(x,y,model,alpha)nm矩阵显著性水平(缺省时为0.05)n维列向量多项式回归的第二种处理方法多项式回归的第二种处理方法 化为多元线性回归化为多元线性回归http:/ 10.1 牙膏的销售量牙膏的销售量 问问题题建立建立牙膏销售量与价格、广告投入之间的牙膏销售量与价格、广告投入之间的模型模型;预测预测在不同价格和广告费用下的牙膏在不同价格和广告费用下的牙膏销售量销售量.收集了收集了30个销售周期本公司牙膏销售量、价格、个销售周期本公司牙膏
12、销售量、价格、广告费用,及同期其他厂家同类牙膏的平均售价广告费用,及同期其他厂家同类牙膏的平均售价.9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量销售量(百万支百万支)价格差价格差(元)(元)广告费用广告费用(百万元百万元)其他厂家其他厂家价格价格(元元)本公司价本公司价格格(元元)销售销售周期周期问题分析问题分析 注意到牙膏是生活必需品,注意到牙膏是生活必需品,顾客顾客在购买同类在购买同类产品时常常会产品时常常会更在意更在意不同品牌之间的不同品牌之间的价格差异
13、价格差异,而不是他们价格本身。而不是他们价格本身。因此,在研究各因素对销售量的影响时,用因此,在研究各因素对销售量的影响时,用价价格差格差代替代替公司销售价格和其他厂家平均价格公司销售价格和其他厂家平均价格更为合更为合适。适。下面下面建立建立牙膏销售量牙膏销售量与与价格差价格差、广告费广告费之间的之间的关系关系模型模型。基本模型基本模型y 公司牙膏销售量公司牙膏销售量x1其他厂家与本公司其他厂家与本公司价格差价格差x2公司广告费用公司广告费用110 xy222210 xxy55.566.577.577.588.599.510 x2y-0.200.20.40.677.588.599.510 x1
14、y22322110 xxxyx1,x2解释变量解释变量(回归变量回归变量,自变量自变量)y被解释变量(因变量)被解释变量(因变量)0,1,2,3 回归系数回归系数 随机随机误差(误差(均值为零的均值为零的正态分布随机变量)正态分布随机变量)Matlab中线性回归分析的实现中线性回归分析的实现1.确定回归系数的点估计值,用命令确定回归系数的点估计值,用命令(Y,X)bregress2.求回归系数的点估计和区间估计求回归系数的点估计和区间估计,并检验回归模型并检验回归模型,用命令用命令b,bint,r,rint,stats(Y,X,alpha)regress3.画出残差和置信区间,用命令画出残差和
15、置信区间,用命令(r,rint)recoplotMATLAB 统计工具箱统计工具箱 模型求解模型求解b,bint,r,rint,stats=regress(y,x,alpha)输入输入 x=n 4数数据矩阵据矩阵,第第1列为全列为全1向量向量1 2221xxxalpha(置信置信水平水平,0.05)22322110 xxxyb 的的估计值估计值 bintb的置信区间的置信区间 r 残差向量残差向量y-xb rintr的置信区间的置信区间 Stats检验统计量检验统计量 R2,F,p,s2 yn维数据向量维数据向量输出输出 由数据由数据 y,x1,x2估计估计 参数参数参数估计值参数估计值置信区
16、间置信区间17.60105.4358 29.76621.29980.6514 1.9482-3.7752-7.7555 0.2051 0.35450.0299 0.6791 R2=0.89884 F=71.0858 p=0.0000 s2=0.0523 0 1 2 3结果分析结果分析y的的89.88%可由模型确定可由模型确定 22322110 xxxyF值远超过值远超过F检验的临界值检验的临界值 p值远小于值远小于=0.05 2的置信区间包含零点的置信区间包含零点(右端点距零点很近右端点距零点很近)x2对因变量对因变量y 的的影响不太显著影响不太显著x22项显著项显著 可将可将x2保留在模型中
17、保留在模型中 模型从整体上看成立模型从整体上看成立参数参数参数估计值参数估计值置信区间置信区间17.60105.4358 29.76621.29980.6514 1.9482-3.7752-7.7555 0.2051 0.35450.0299 0.6791 R2=0.8988 F=71.0858 p=0.0000 s2=0.0523 0 1 2 322322110 xxxy销售量预测销售量预测 价格差价格差x1=其他厂家其他厂家价格价格x3-本公司本公司价格价格x4估计估计x3调整调整x4控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=6.5百万元百万元销售量预测区间为销售量
18、预测区间为 8.0956,8.5012(置信度(置信度95%)上限用作库存管理的目标值上限用作库存管理的目标值 下限用来把握公司的现金流下限用来把握公司的现金流 若估计若估计x3=3.9,设定,设定x4=3.7,则可以,则可以95%的把握知的把握知道销售额在道销售额在 8.0956 3.7=29.95(百万元)以上。(百万元)以上。控制控制x1通过通过x1,x2预测预测y201122328.2984yxxx(百万支百万支)模型改进模型改进x1和和x2对对y的的影响独立影响独立 22322110 xxxy21422322110 xxxxxy参数参数参数估计值参数估计值置信区间置信区间29.281
19、513.2706 45.292411.26041.6295 20.8914-7.6631-12.9469 -2.3794 0.67590.2420 1.1099-1.4981-2.9437 -0.0525 R2=0.9157 F=62.4505 p=0.0000 s2=0.0455 3 0 1 2 4x1和和x2对对y的影响有的影响有交互作用交互作用参数参数参数估计值参数估计值置信区间置信区间17.60105.4358 29.76621.29980.6514 1.9482-3.7752-7.7555 0.2051 0.35450.0299 0.6791 R2=0.8988 F=71.0858
20、p=0.0000 s2=0.0523 0 1 2 3两模型销售量预测两模型销售量预测比较比较21422322110 xxxxxy22322110 xxxy预测区间预测区间 8.0947,8.5013预测区间预测区间 8.1184,8.5492 控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=6.5百万元百万元预测区间长度稍长预测区间长度稍长 略有增加略有增加 y 8.2980y 预测值预测值8.3338y 预测值预测值x2=6.5x1=0.2-0.200.20.40.67.588.59x1y-0.200.20.40.67.588.59x1y 56787.588.599.510
21、 x2y 567888.599.51010.5x2y 22322110 xxxy21422322110 xxxxxy两模型两模型 与与x1,x2关系的关系的比较比较y 交互作用影响的讨论交互作用影响的讨论2221.06712.07558.72267.301xxyx价格差价格差 x1=0.1 价格差价格差 x1=0.32223.06712.00513.84535.321xxyx21422322110 xxxxxy5357.72x加大广告投入使销售量增加加大广告投入使销售量增加(x2大于大于6百万元)百万元)价格差较小时增价格差较小时增加的速率更大加的速率更大 56787.588.599.5101
22、0.5x1=0.1x1=0.3x2y 1.03.011xxyy价格优势会使销售量增加价格优势会使销售量增加 价格差较小时更需要靠价格差较小时更需要靠广告来吸引顾客的眼球广告来吸引顾客的眼球 完全二次多项式模型完全二次多项式模型 22521421322110 xxxxxxyMATLAB中有命令中有命令rstool直接求解直接求解00.20.47.588.599.5105.566.57y),(543210从输出从输出 Export 可得可得鼠标移动十字线鼠标移动十字线(或下方窗口输入或下方窗口输入)可改变可改变x1,x2,左边窗口显示预测值左边窗口显示预测值 及预测区间及预测区间y 牙膏的销售量的
23、建模过程牙膏的销售量的建模过程 根据已知数据从常识和经验分析根据已知数据从常识和经验分析,辅之以作图辅之以作图,决定回归变量及函数形式决定回归变量及函数形式(先取尽量简单的形式先取尽量简单的形式).用用软件软件(如如MATLAB统计工具箱统计工具箱)求解求解.对结果作对结果作统计分析统计分析:R2,F,p,s2是对模型整体的评价是对模型整体的评价,回归系数置信区间是否含零点,用于检验回归变量回归系数置信区间是否含零点,用于检验回归变量 对因变量的对因变量的影响是否显著影响是否显著.模型改进模型改进,如增添二次项、交互项等如增添二次项、交互项等.对因变量进行对因变量进行预测预测.建立统计回归模型
24、的一般步骤建立统计回归模型的一般步骤1 1.确定回归方程中的确定回归方程中的因变量和自变量;因变量和自变量;2 2.设定回归模型;设定回归模型;基于数据画散点图,通过观察散点图设出因变量和自变量基于数据画散点图,通过观察散点图设出因变量和自变量 之间的关系(线性、非线性等),含待定参数。之间的关系(线性、非线性等),含待定参数。3 3.求得回归方程并进行检验;求得回归方程并进行检验;利用数学软件利用数学软件(MATLAB)(MATLAB)求相关参数即回归系数,得到确定求相关参数即回归系数,得到确定 的回归方程的回归方程,并对回归方程进行检验(,并对回归方程进行检验(比如计算比如计算R2,F,p,s2 对模型进行整体评价对模型进行整体评价,观察回归系数置信区间是否含零点观察回归系数置信区间是否含零点 来检验回归系数对因变量的影响是否显著等)。来检验回归系数对因变量的影响是否显著等)。4.4.若检验通过,利用回归方程进行预测若检验通过,利用回归方程进行预测(借助借助MATLAB)MATLAB);若不通过,则改进模型(若不通过,则改进模型(如增添二次项、交互项等如增添二次项、交互项等)。)。