1、实验十四实验十四 回归分析简介回归分析简介 由于客观事物内部规律的复杂及人们认识程度的由于客观事物内部规律的复杂及人们认识程度的限制限制,无法分析实际对象内在的因果关系无法分析实际对象内在的因果关系,建立合乎机建立合乎机理规律的数学模型理规律的数学模型.数学建模的基本方法数学建模的基本方法:机理分析机理分析和和测试分析测试分析.通过对数据的统计分析通过对数据的统计分析,找出与数据拟合最好的找出与数据拟合最好的模型模型.回归模型回归模型是用统计分析方法建立的最常用的一是用统计分析方法建立的最常用的一类模型类模型.简单介绍回归分析的数学原理和方法简单介绍回归分析的数学原理和方法;通过实例讨论如何选
2、择不同类型的模型通过实例讨论如何选择不同类型的模型;对软件得到的结果进行分析对软件得到的结果进行分析,对模型进行改进对模型进行改进.一、线性回归分析基本概念一、线性回归分析基本概念 例例1:F.Galton断言断言:儿子的身高会受父亲身高的儿子的身高会受父亲身高的影响影响,但身高偏离父代平均水平的父亲但身高偏离父代平均水平的父亲,其儿子身高有其儿子身高有回归回归子代平均水平的趋势子代平均水平的趋势.K.Pearson给出了如下样本给出了如下样本(单位单位:英吋英吋):父亲身高父亲身高 60 62 64 65 66 67 68 70 72 74儿子身高儿子身高 63.6 65.2 66.0 65
3、.5 66.9 67.1 67.4 68.3 70.1 70.0 设父亲身高为设父亲身高为x,儿子儿子身高为身高为y.显然显然,y与与x有关系有关系,但这种关系并不是确定的但这种关系并不是确定的,即父亲身高即父亲身高x相同时其儿相同时其儿子身高子身高 y并不是确定的并不是确定的,也也就是说就是说,y 除受除受 x这一这一主要主要因因6264666870727465666768697062646668707274656667686970素素的影响外的影响外,还受到还受到诸多随机因素诸多随机因素的影响的影响.这种关系被这种关系被称为称为相关关系相关关系.在一般情况下在一般情况下,y为为随机变量随机
4、变量,而而 x为可控制或可为可控制或可精确观察的变量精确观察的变量,如年龄如年龄,身高身高,温度温度,压力压力,时间等时间等,因因此不把此不把x看作随机变量看作随机变量.由于由于y为随机变量为随机变量,则对于则对于x的每一个确定的值的每一个确定的值,有有它的分布它的分布.若若 y 的数学期望的数学期望 Ey 存在存在,则则 Ey 取值随取值随 x 的的取值而定取值而定,因此因此Ey是是 x 的函数的函数,记作记作(x),称称(x)为为 y 关关于于 x 的的回归回归.由于由于(x)的大小在一定程度上反映在的大小在一定程度上反映在 x 处随机变处随机变量量 y 的观测值的大小的观测值的大小,因此
5、因此,如果能通过一组样本来估如果能通过一组样本来估计计(x),则在一定条件下我们就能解决如下问题则在一定条件下我们就能解决如下问题:(1)在给定的置信度下在给定的置信度下,估计出当估计出当 x 取某一确定值取某一确定值时时,随机变量随机变量 y 的取值范围的取值范围,即所谓即所谓预测问题预测问题;(2)在给定的置信度下在给定的置信度下,控制自变量控制自变量 x 的取值范围的取值范围,使使 y在给定范围内取值在给定范围内取值,即所谓即所谓控制问题控制问题.对于对于 x 的取定的一组不完全相同的值的取定的一组不完全相同的值x1,x2,xn,作独立的试验作独立的试验,得到得到 n 对对(一组一组)观
6、察结果观察结果:(x1,y1),(x2,y2),(xn,yn),其中其中 yi 是是 x=xi 处对随机变量处对随机变量 y 的的观测结果观测结果.这这 n 对观对观察结果就是一个容量为察结果就是一个容量为 n 的样本的样本.由样本估计由样本估计(x),首先需要推测首先需要推测(x)的形式的形式.方法方法一一,根据所述问题的根据所述问题的实际意义实际意义,可以知道可以知道(x)的形式的形式;方法二方法二,当自变量仅有一个时当自变量仅有一个时,描绘出样本的描绘出样本的散点图散点图;方法三方法三,试探性试探性回归回归.对于父子身高问题对于父子身高问题,我们根本就不知道其关系的我们根本就不知道其关系
7、的形式形式,但我们通过散点图但我们通过散点图,发现儿子身高与父亲身高呈发现儿子身高与父亲身高呈线性关系线性关系,因此可设因此可设:y=a+bx+其中其中 N(0,2),即即yN(a+bx,2),a,b,与与x无关无关.利用利用mathematica5.0软件包作线性回归软件包作线性回归:StatisticsLinearRegression(*调入线性回归软件包调入线性回归软件包*)d=60,63.6,62,65.2,64,66,65,65.5,66,66.9,67,67.1,68,67.4,70,68.3,72,70.1,74,70;(*输入数据输入数据*)Regressd,1,x,x(*线性
8、回归线性回归*)父子身高的线性回归分析表父子身高的线性回归分析表:模型可靠模型可靠性非常好性非常好.回归方程回归方程:y=35.9768+0.46457x.方差估计值为方差估计值为:s2=0.186697y 二、线性回归分析计算二、线性回归分析计算输出结果的说明输出结果的说明:ParameterTable:参数表参数表,Estimate:系数估计系数估计SE:标准差标准差TStat:T统计量统计量PValue:检验统计量的概率值检验统计量的概率值RSquared:相关系数相关系数R2,AdjustedRSquared:修正的相关系数修正的相关系数,EstimatedVariance:方差方差
9、2的估计值的估计值s2.ANOVATable:方差分析表方差分析表,Model:模型模型,Error:误差误差,Total:总和总和,DF:自由度自由度SumOfSq:平方和平方和MeanSq:均方偏差均方偏差FRatio:F比比三、一元线性回归的预测区间三、一元线性回归的预测区间:1)2()(11|220000ntSxxnsyyPxx由于由于 则则 y0的置信度为的置信度为1 的预测区间为的预测区间为:)(11)2(2020 xxSxxnsnty 其中其中s为均方差为均方差 的估计值的估计值;为为y在在x0处的估计值处的估计值;Sxx为自变量为自变量x的偏差平方和的偏差平方和,可以用回归可以
10、用回归(或模型或模型)的平方的平方和除以和除以b的估计值的估计值 计算计算.0 y2bxxSxxnsntx2020)(11)2()(称为称为预测半径预测半径.nkkxxxxS12)(在父子身高问题中在父子身高问题中,432084.0186697.0 s6.171464569.00354.372 xxS,306.2)8()2(025.02/tnt.8.6611 niixnx则则预测半径预测半径为为:xxSxxnsntx2020)(11)2()(6.171)8.66(10114321.0306.220 x由此公式由此公式,当输入父亲的身高值当输入父亲的身高值,即可推算出即可推算出儿子身高儿子身高的
11、估计值的估计值和和预测区间预测区间.当父亲身高为当父亲身高为65.5英吋英吋,其子身高的估计值为其子身高的估计值为66.41英英吋吋,95%的的预测半径预测半径为为1.05,置信区间置信区间为为:(66.411.05,66.41+1.05)(65.36,67.46)四、一元线性回归的控制问题四、一元线性回归的控制问题:由于预测问题的预测半径的表达式过于复杂由于预测问题的预测半径的表达式过于复杂,经经常使用如下的近似表达式常使用如下的近似表达式:);2,2(00sysy 95%的预测区间的预测区间:).3,3(00sysy 99%的预测区间的预测区间:这是由于常假设回归模型的误差这是由于常假设回
12、归模型的误差 N(0,2).用近似预测区间来解决控制问题变得简单用近似预测区间来解决控制问题变得简单.控制问题的描述控制问题的描述:当随机变量当随机变量 y 以概率以概率1-落在区落在区间间(A,B)内即内即AyB时时,自变量自变量x应控制在什么范围内应控制在什么范围内?回归方程回归方程:y=35.9768+0.46457x.方差估计值为方差估计值为:s2=0.186697y 由于由于反解不等式组反解不等式组:,2,200BsyAsy 即可求得即可求得x1,x2.当当x(x1,x2)时时,可满足可满足AyB.True(False):当取默认值当取默认值True时时,即使即使基函数表中没有基函数
13、表中没有1,回归方程中也会有常数项回归方程中也会有常数项,取取False时时,基函基函数表中没有数表中没有1,则没有常数项则没有常数项;Weights-w1,w2,(Automatic):给出给出y1,y2,权重权重,默默认值时权重均为认值时权重均为1;BasisNames-g1,g2,(Automatic):分析报告显示基函分析报告显示基函数名为数名为g1,g2,;取默认值时显示基函数表的函数名取默认值时显示基函数表的函数名;ConfidenceLevel-0.95:回归分析报告中所考虑置信区回归分析报告中所考虑置信区间的置信水平间的置信水平;Mathematica5.0线性回归分析命令线性
14、回归分析命令:RegressionReport-SummaryReport:默认值时输出默认值时输出标准报告标准报告,包括包括:ParameterTable(参数分析参数分析表表),RSquared(相关系数相关系数R2),AdjustedRSquared(调整后的相关调整后的相关系数系数=1-(1-R2)(n-1)/(n-p-1),EstimatedVariance(方差方差 2的无偏的无偏估计估计s2),ANOVATable(方差分析表方差分析表).常用的还有常用的还有ParameterCITable(参数置信区间表参数置信区间表),BestFit(最佳拟合最佳拟合(回归回归)方程方程),
15、SinglePredictionCITable(因变量的预测因变量的预测区间表区间表),PredictedResponse(因变量的预测值因变量的预测值)等等.其它参数用命令其它参数用命令RegressionReportValuesRegress查询查询.其参其参数总数共数总数共31项项.牙膏的销售量牙膏的销售量 问题问题:建立牙膏销售量与价格、广告投入之间的模型建立牙膏销售量与价格、广告投入之间的模型;预测在不同价格和广告费用下的牙膏销售量预测在不同价格和广告费用下的牙膏销售量.收集了收集了30个销售周期本公司牙膏销售量、价格、个销售周期本公司牙膏销售量、价格、广告费用广告费用,及同期其它厂
16、家同类牙膏的平均售价及同期其它厂家同类牙膏的平均售价.销售销售周期周期本公司本公司价格价格(元元)其它厂家其它厂家价格价格(元元)广告费用广告费用(百万元百万元)价格差价格差(元)(元)销售量销售量(百万支百万支)12 29303.853.75 3.803.703.804.00 3.854.255.506.75 5.806.80-0.050.25 0.050.557.388.51 7.939.26五、多元回归问题的例子五、多元回归问题的例子:1 3.85 3.80 5.50 -0.05 7.38 2 3.75 4.00 6.75 0.25 8.51 3 3.70 4.30 7.25 0.60
17、9.52 4 3.70 3.70 5.50 0.00 7.50 5 3.60 3.85 7.00 0.25 9.33 6 3.60 3.80 6.50 0.20 8.28 7 3.60 3.75 6.75 0.15 8.75 8 3.80 3.85 5.25 0.05 7.87 9 3.80 3.65 5.25 -0.15 7.1010 3.85 4.00 6.00 0.15 8.0011 3.90 4.10 6.50 0.20 7.8912 3.90 4.00 6.25 0.10 8.1513 3.70 4.10 7.00 0.40 9.1014 3.75 4.20 6.90 0.45 8.
18、8615 3.75 4.10 6.80 0.35 8.9016 3.80 4.10 6.80 0.30 8.8717 3.70 4.20 7.10 0.50 9.2618 3.80 4.30 7.00 0.50 9.0019 3.70 4.10 6.80 0.40 8.7520 3.80 3.75 6.50 -0.05 7.9521 3.80 3.75 6.25 -0.05 7.6522 3.75 3.65 6.00 -0.10 7.2723 3.70 3.90 6.50 0.20 8.0024 3.55 3.65 7.00 0.10 8.5025 3.60 4.10 6.80 0.50 8.
19、7526 3.65 4.25 6.80 0.60 9.2127 3.70 3.65 6.50 -0.05 8.2728 3.75 3.75 5.75 0.00 7.6729 3.80 3.85 5.80 0.05 7.9330 3.70 4.25 6.80 0.55 9.26基本模型基本模型 y 公司的牙膏销售量公司的牙膏销售量,x1 与其它厂家的价格差与其它厂家的价格差,x2 广告费用广告费用.y=0+1 x2+2 x22+2.y=0+1x1+1.y=0+1x1+2 x2+3 x22+.推断回归模型为推断回归模型为:RegressA,1,x1,x2,x22,x4,x3,x2,x1从输出表中可
20、以得出如下结论从输出表中可以得出如下结论:1)回归方程为回归方程为:=17.3244+1.30699x1 3.69559 x2+0.348612 x22.y 2)相关系数相关系数R2=0.9054,指销售量指销售量 y 的的90.45%可由可由此模型确定此模型确定;3)F值产生的概率值值产生的概率值p远小于远小于0.05或或0.01,即此模即此模型高度显著型高度显著,整体可用整体可用.但但 2 的估计值产生的概率值的估计值产生的概率值 p=0.05635490.5,故故广告费广告费 x2 一项在此模型中不是非常显著一项在此模型中不是非常显著,模型有待修模型有待修改改.当维持价格差为当维持价格差
21、为x1=0.2(元元),投入广告费用为投入广告费用为x2=6.5(百万元百万元)时时,则预计销售量则预计销售量 y可由回归方程计算得可由回归方程计算得,=17.3244+1.30699x1 3.69559 x2+0.348612 x22.y=8.2933(百万支百万支)故其故其95%的近似预测区间为的近似预测区间为:由于方差的估计值由于方差的估计值 s2=0.0489719,s=0.2213.(8.29332s,8.2933+2s)(8.29330.4426,8.2933+0.4426)=(7.8507,8.7359)较精确的预测区间为较精确的预测区间为:(7.8230,8.7636).Reg
22、ressA,1,x1,x2,x22,x1*x2,x4,x3,x2,x1 如果增加如果增加x1,x2的交叉项的交叉项,模型的可信度也是非常模型的可信度也是非常高的高的,且相关系数且相关系数R2=0.9209有所增加有所增加.s2有所减少有所减少.当维持价格差为当维持价格差为x1=0.2(元元),投入广告费用为投入广告费用为x2=6.5(百万元百万元)时时,则预计销售量则预计销售量 y可由回归方程计算得可由回归方程计算得,其其95%的近似预测区间为的近似预测区间为:(7.9145,8.7399).3272.8 y(百万支百万支)较精确的预测区间为较精确的预测区间为:(7.8867,8.7678).
23、结果分析结果分析上述两模型上述两模型,后者要优于前者后者要优于前者.前者销售量的估计值为前者销售量的估计值为8.2933(百万支百万支),其其95%的的近似预测区间为近似预测区间为(7.8507,8.7359).后者销售量的估计值为后者销售量的估计值为8.3272(百万支百万支),其其95%的的近似预测区间为近似预测区间为(7.9145,8.7399).六、多元回归问题的预测半径六、多元回归问题的预测半径:01020)(1)1()(xCCxsmntxTT 其中其中,n为样本数据个数为样本数据个数,m为回归项的项数为回归项的项数,.111121332312222111211 nmnnmmmxxx
24、xxxxxxxxxC特例特例,当当m=1时时,11111312111 nxxxxC.1211111 niiniiniiTxxxnCC,1002010 mxxxx可以导出一元可以导出一元线性回归的预线性回归的预测半径公式测半径公式.关于牙膏销售问题的预测半径公式可以利用计算关于牙膏销售问题的预测半径公式可以利用计算机进行计算机进行计算:=17.3244+1.30699x1 3.69559 x2+0.348612 x22.y 对于对于模型模型1:取取x0=(1,x01,x02,x022)T=(1,0.2,6.5,6.52)T.=29.1133+11.1342x17.6080 x2+0.6712x2
25、21.4777x1x2y 取取x0=(1,x01,x02,x022,x01x02)T =(1,0.2,6.5,6.52,0.2 6.5)T.对于对于模型模型2:输入计算机计算得输入计算机计算得:模型模型1较精确的预测区间为较精确的预测区间为:(7.8230,8.7636),=0.4703.模型模型2较精确的预测区间为较精确的预测区间为:(7.8867,8.7678).=0.4405.关于多元回归的控制问题关于多元回归的控制问题,即使是使用简化的估即使是使用简化的估计公式计公式,反解多个自变量的值也存在较多的问题反解多个自变量的值也存在较多的问题.因此因此,只有对每一个变量逐一进行分析计算只有对
26、每一个变量逐一进行分析计算.不再介绍不再介绍.程序程序 练习练习:小麦赤霉病通常发病期在三月下旬至四月小麦赤霉病通常发病期在三月下旬至四月上旬的开花灌浆期上旬的开花灌浆期,根据经验知根据经验知:发病率发病率y(%)与该期与该期间的总降雨天数间的总降雨天数x1(d)和降雨量和降雨量x2(mm)密切相关密切相关.收集收集到到24个观测数据列于下表个观测数据列于下表,试建立试建立y与与x1,x2之间的线性之间的线性相关关系相关关系.k d mm%1 11 224 402 9 47 103 12 144 204 18 177 255 14 255 506 11 66 8.27 14 116 12.58 10 79 6.5k d mm%9 13 94 9.810 16 182 3211 15 167 2712 10 87 513 7 69 314 16 206 3515 10 150 3016 12 104 17k d mm%17 9 123 22.618 10 40 1.219 12 69 620 11 136 30.721 13 193 27.522 14 196 2023 16 242 4024 17 170 31
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。