1、内容 回归分析回归分析 线性:b,bint,r,rint,stats=regress(Y,X,alpha)多元二项式回归多元二项式回归:rstool(x,y,model,alpha)逐步回归:逐步回归:stepwise(x,y,inmodel,penter,premove)常用函数拟合常用函数拟合 1、多项式拟合:、多项式拟合:P=polyfit(x,y,n)2、函数线性组合的曲线拟合方法 3、最小二乘曲线拟合:X=lsqcurvefit(FUN,X0,XDATA,YDATA,LB,UB,OPTIONS)直线拟合:直线拟合:a=polyfit(x,y,1),b=polyfit(x,z,1),同
2、一条直线 y=0.33x+0.96(z=0.33x+0.96)从拟合到回归从拟合到回归x=0 1 2 3 4,y=1.0 1.3 1.5 2.0 2.3 (+x=0 1 2 3 4,y=1.0 1.3 1.5 2.0 2.3 (+号号)x=0 1 2 3 4,z=0.6 1.95 0.9 2.85 1.8 x=0 1 2 3 4,z=0.6 1.95 0.9 2.85 1.8(*号)号)问题:你相信哪个拟合结果?怎样给以定量评价问题:你相信哪个拟合结果?怎样给以定量评价?00.511.522.533.540.511.522.53得到得到a=0.33 0.96b=0.33 0.96一、数学模型一
3、、数学模型例例1 测16名成年女子的身高与腿长所得数据如下:身高143145146147149150153154155156157158159160162164腿长8885889192939395969897969899100102以身高x为横坐标,以腿长y为纵坐标将这些数据点(xI,yi)在平面直角坐标系上标出.1401451501551601658486889092949698100102散点图xy10一元线性回归分析的主要任务主要任务是:返回返回二、模型参数估计二、模型参数估计1、回归系数的最小二乘估计、回归系数的最小二乘估计22110 xxyxxyxy 其中 niiniiynyxnx1
4、11,1,niiiniiyxnxyxnx11221,1.返回返回三、检验、预测与控制三、检验、预测与控制1、回归方程的显著性检验、回归方程的显著性检验()F检验法检验法()t检验法检验法niiniixxxnxxxL12212)(其中()r检验法检验法2、回归系数的置信区间、回归系数的置信区间3、预测与控制、预测与控制(1)预测)预测(2)控制)控制返回返回 收集一组包含因变量和自变量的数据;收集一组包含因变量和自变量的数据;选定因变量与自变量之间的模型,利用数据选定因变量与自变量之间的模型,利用数据按照最小二乘准则计算模型中的系数;按照最小二乘准则计算模型中的系数;利用统计分析方法对不同的模型
5、进行比较,利用统计分析方法对不同的模型进行比较,找出与数据拟合得最好的模型;找出与数据拟合得最好的模型;判断得到的模型是否适合于这组数据判断得到的模型是否适合于这组数据,诊断诊断有无不适合回归模型的异常数据;有无不适合回归模型的异常数据;利用模型对因变量作出预测或解释。利用模型对因变量作出预测或解释。回归分析的主要步骤回归分析的主要步骤 例例1:血压与年龄、体重指数、吸烟习惯血压与年龄、体重指数、吸烟习惯 序号 血压年龄体重指数吸烟习惯 序号 血压年龄体重指数吸烟习惯11443924.20211363625.0022154731.11221425026.2131384522.602312039
6、23.50101545619.30301756927.41体重指数体重指数=体重体重(kg)/身高身高(m)的平方的平方 吸烟习惯吸烟习惯:0表示不吸烟,表示不吸烟,1表示吸烟表示吸烟 建立血压与年龄、体重指数、吸烟习惯之间的回归模型建立血压与年龄、体重指数、吸烟习惯之间的回归模型模型建立模型建立血压血压y,年龄,年龄x1,体重指数,体重指数x2,吸烟习惯,吸烟习惯x3 3322110 xxxyy与与x1的散点图的散点图y与与x2的散点图的散点图线性回归模型线性回归模型回归系数回归系数 0,1,2,3 由数据估计由数据估计,是随机误差是随机误差 多元线性回归多元线性回归 b=regress(Y
7、,X)npnnppxxxxxxxxxX.1.1.1212222111211nYYYY.21pb.101、确定回归系数的点估计值:确定回归系数的点估计值:ppxxy.110MATLAB 统计工具箱常用命令统计工具箱常用命令(1)(1)3、画出残差及其置信区间:画出残差及其置信区间:rcoplot(r,rint)2、求回归系数的点估计和区间估计、并检验回归模型:求回归系数的点估计和区间估计、并检验回归模型:b,bint,r,rint,stats=regress(Y,X,alpha)回归系数的区间估计残差用于检验回归模型的统计量,有三个数值:相关系数r2、F值、与F对应的概率p置信区间 显著性水平(
8、缺省时为0.05)相关系数 r2越接近 1,说明回归方程越显著;F F1-(k,n-k-1)时拒绝 H0,F 越大,说明回归方程越显著;与 F 对应的概率 p时拒绝 H0,回归模型成立.rcoplot(r,rint)残差及其置信区间作图残差及其置信区间作图MATLAB7.0版本版本 s增加一个统计量增加一个统计量:剩余方差剩余方差s2.使用命令regress实现一元线性回归模型的计算 b=regress(Y,X)或 b,bint,r,rint,stats=regress(Y,X,alpha)回归系数beta以及它们的置信区间残差向量r=Y-Y及它们的置信区间相关系数R2,F-统计量和与F(1,
9、n-2)分布大于分布大于F值的概率值的概率p,p 时时回归模型有效回归模型有效.默认值是0.05nnmnmyyxxxx1Y,11X1111回归系数回归系数回归系数回归系数估计值估计值回归系数回归系数置信区间置信区间 045.36363.5537 87.1736 10.3604-0.0758 0.7965 23.09061.0530 5.1281 311.8246-0.1482 23.7973R2=0.6855 F=18.8906 p0.0001 s2=169.7917模型模型求解求解回归系数回归系数回归系数回归系数估计值估计值回归系数回归系数置信区间置信区间 058.510129.9064 8
10、7.1138 10.43030.1273 0.7332 22.34490.8509 3.8389 310.30653.3878 17.2253R2=0.8462 F=44.0087 p0.0001 s2=53.6604剔除异常点剔除异常点(第第2点和第点和第10点点)后后3213065.103449.24303.05101.58xxxy例例2 软件开发人员的薪金软件开发人员的薪金资历资历 从事专业工作的年数;管理从事专业工作的年数;管理 1=管理人员,管理人员,0=非管理人员;教育非管理人员;教育 1=中学,中学,2=大学,大学,3=更高程度更高程度建立模型研究薪金与资历、管理责任、教育程度的
11、关系建立模型研究薪金与资历、管理责任、教育程度的关系分析人事策略的合理性,作为新聘用人员薪金的参考分析人事策略的合理性,作为新聘用人员薪金的参考 编编号号薪金薪金资资历历管管理理教教育育01138761110211608103031870111304112831020511767103编编号号薪金薪金资资历历管管理理教教育育422783716124318838160244174831601451920717024619346200146名软件开发人员的档案资料名软件开发人员的档案资料 分析与假设分析与假设 y 薪金,薪金,x1 资历(年)资历(年)x2=1 管理人员,管理人员,x2=0 非管理
12、人员非管理人员1=中学中学2=大学大学3=更高更高其它中学,x013其它大学,x014资历每加一年薪金的增长是常数;资历每加一年薪金的增长是常数;管理、教育、资历之间无交互作用管理、教育、资历之间无交互作用 教教育育443322110 xaxaxaxaay线性回归模型线性回归模型 a0,a1,a4是待估计的回归系数,是待估计的回归系数,是随机误差是随机误差 中学:中学:x3=1,x4=0;大学:大学:x3=0,x4=1;更高:更高:x3=0,x4=0 模型求解模型求解443322110 xaxaxaxaay参数参数参数估计值参数估计值置信区间置信区间a011032 10258 11807 a1
13、546 484 608 a26883 6248 7517 a3-2994-3826 -2162 a4148-636 931 R2=0.957 F=226 p=0.000R2,F,p 模型整体上可用模型整体上可用资历增加资历增加1年年薪金增长薪金增长546 管理人员薪金管理人员薪金多多6883 中学程度薪金比中学程度薪金比更高的少更高的少2994 大学程度薪金比大学程度薪金比更高的多更高的多148 a4置信区间包含零置信区间包含零点,解释不可靠点,解释不可靠!中学:中学:x3=1,x4=0;大学:大学:x3=0,x4=1;更高:更高:x3=0,x4=0.x2=1 管理,管理,x2=0 非管理非管
14、理x1资历资历(年年)xinjindata.m xinjin.m 残差分析方法残差分析方法 结果分析结果分析443322110 xaxaxaxaay残差残差yyee 与资历与资历x1的关系的关系 05101520-2000-1000010002000e与管理与管理教育组合的关系教育组合的关系 123456-2000-1000010002000残差全为正,或全为负,残差全为正,或全为负,管理管理教育组合处理不教育组合处理不当当 残差大概分成残差大概分成3个水平,个水平,6种管理种管理教育组合混在教育组合混在一起,未正确反映一起,未正确反映 应在模型中增加管理应在模型中增加管理x2与与教育教育x3
15、,x4的交互项的交互项 组合组合123456管理管理010101教育教育112233管理与教育的组合管理与教育的组合426325443322110 xxaxxaxaxaxaxaay进一步的模型进一步的模型增加管理增加管理x2与教育与教育x3,x4的交互项的交互项参数参数参数估计值参数估计值置信区间置信区间a01120411044 11363a1497486 508a270486841 7255a3-1727-1939 -1514a4-348-545 152a5-3071-3372-2769a618361571 2101R2=0.999 F=554 p=0.000R2,F有改进,所有回归系数置信
16、有改进,所有回归系数置信区间都不含零点,模型完全可用区间都不含零点,模型完全可用 消除了不正常现象消除了不正常现象 异常数据异常数据(33号号)应去掉应去掉 05101520-1000-5000500e x1 123456-1000-5000500e 组合组合去掉异常数据后去掉异常数据后的结果的结果参数参数参数估计值参数估计值置信区间置信区间a01120011139 11261a1498494 503a270416962 7120a3-1737-1818 -1656a4-356-431 281a5-3056-3171 2942a619971894 2100R2=0.9998 F=36701 p
17、=0.000005101520-200-1000100200e x1 123456-200-1000100200e 组合组合R2:0.957 0.999 0.9998F:226 554 36701 置信区间长度更短置信区间长度更短残差残差图十分正常图十分正常最终模型的结果可以应最终模型的结果可以应用用xinjindata2.m xinjin1.m 模型应用模型应用 制订制订6种管理种管理教育组合人员的教育组合人员的“基础基础”薪金薪金(资历为资历为0)组合组合管理管理教育教育系数系数“基础基础”薪金薪金101a0+a39463211a0+a2+a3+a513448302a0+a41084441
18、2a0+a2+a4+a619882503a011200613a0+a218241426325443322110 xxaxxaxaxaxaxaay中学:中学:x3=1,x4=0;大学:;大学:x3=0,x4=1;更高:更高:x3=0,x4=0 x1=0;x2=1 管理,管理,x2=0 非管理非管理大学程度管理人员比更高程度管理人员的薪金高大学程度管理人员比更高程度管理人员的薪金高 大学程度非管理人员比更高程度非管理人员的薪金略低大学程度非管理人员比更高程度非管理人员的薪金略低 MATLAB 统计工具箱常用命令统计工具箱常用命令(2)(2)rstool(x,y,model,alpha)xnm矩阵矩
19、阵,n是数据容量是数据容量,yn维列向量,维列向量,alpha显著性水平显著性水平多元二项式回归多元二项式回归kmkjjjkmmxxxxy,1110model从以下从以下4个模型中选取个模型中选取:(设设m=2)22110:linearxxy22421322110:ticpurequadraxxxxy21322110:ninteractioxxxxy22521421322110:quadraticxxxxxxy130140150160170180-200-1000100200300150200250例例3 3 商品销售量与价格商品销售量与价格 x1=;x2=;x=x1 x2;y=;rstool
20、(x,y,quadratic)Export向工作区传送参数:向工作区传送参数:beta-回归系数,回归系数,rmse-剩余标准差剩余标准差s,residuals-残差残差(向量向量);变量选择变量选择影响因变量的因素:影响因变量的因素:自变量自变量x1,x2,xm及其简单函数及其简单函数,如如),2,1(,/1,2miexxixii 将所有影响显著的因素都纳入回归模型;将所有影响显著的因素都纳入回归模型;最终的模型尽量简单最终的模型尽量简单,即包含尽量少的因素。即包含尽量少的因素。变量选择的标准变量选择的标准 从候选集合从候选集合S=x1,xk中选出一子集中选出一子集S1(含含p k个个自变量
21、自变量)与因变量与因变量y构造回归模型构造回归模型,其优劣由其优劣由s2度量度量.最小22),1/(spnQs 影响显著的自变量进入模型时,影响显著的自变量进入模型时,Q明显下降,明显下降,s减小;减小;影响很小的自变量进入模型时,影响很小的自变量进入模型时,Q下降不大,下降不大,p的增加的增加 会使会使s变大变大.变量选择与逐步回归变量选择与逐步回归 逐步回归逐步回归 从候选集合中确定一初始子集;从候选集合中确定一初始子集;从子集外(候选集合内)中引入一个对从子集外(候选集合内)中引入一个对y影响显著的;影响显著的;对集合中的变量进行检验,剔除影响变得不显著的;对集合中的变量进行检验,剔除影
22、响变得不显著的;迭代式地进行引入和剔除,直到不能进行为止。迭代式地进行引入和剔除,直到不能进行为止。选择衡量影响显著程度的统计量,通常用偏选择衡量影响显著程度的统计量,通常用偏F统计量;统计量;适当选取引入变量的显著性水平适当选取引入变量的显著性水平 in和剔除变量的和剔除变量的 out。引入新的变量后原来模型内影响显著的变量变得不显引入新的变量后原来模型内影响显著的变量变得不显著,从而被剔除著,从而被剔除 自变量之间存在较强相关性的结果自变量之间存在较强相关性的结果.某些自变量之间的相关性很强某些自变量之间的相关性很强回归系数的置信区间较大回归系数的置信区间较大 多重共线性多重共线性 矩阵矩
23、阵XTX病态病态MATLAB 统计工具箱常用命令统计工具箱常用命令(3)(3)逐步回归逐步回归 stepwise(x,y,inmodel,penter,premove)x候选变量集合的候选变量集合的nk 数据矩阵(数据矩阵(n是数据容量是数据容量,k是变量数目)是变量数目);y因变量数据向量(因变量数据向量(n维)维);Inmodel初始模型中包括的候选变量集合的指标初始模型中包括的候选变量集合的指标(矩阵(矩阵x的列序数,缺省时设定为全部候选变量)的列序数,缺省时设定为全部候选变量);penter引入变量的显著性水平(缺省时设定为引入变量的显著性水平(缺省时设定为0.05);premove剔
24、除变量的显著性水平(缺省时剔除变量的显著性水平(缺省时设定为设定为0.10)。)。输出交互式画面输出交互式画面 例例 儿童的体重与身高和年龄儿童的体重与身高和年龄序号序号体重体重(kg)身高身高(m)年龄年龄 序号序号体重体重(kg)身高身高(m)年龄年龄127.11.348730.91.3910230.21.4910827.81.219324.01.146929.41.2610433.41.57111024.81.066524.91.1981136.51.6412624.31.1771229.11.44911.21.41.61.8202530354067891011122025303540可
25、能存在二次函数关系可能存在二次函数关系 体重体重y身高身高x1体重体重y年龄年龄x2例例 儿童的体重与身高和年龄儿童的体重与身高和年龄ertong.m初初始始结结果果 最最终终结结果果 22212380.06849.23289.58287.25xxxy2004 B题题 电力市场的输电阻塞管理电力市场的输电阻塞管理确定各线路上潮流关于各发电机组出力的近似表达式确定各线路上潮流关于各发电机组出力的近似表达式 8,6,1),(21nmjpppfunjj当前时段各发电机组出力当前时段各发电机组出力 p1(0),pn(0),线路潮流线路潮流 uj(0)()()0()0(111)0()0()0(nnpnjpjjjpppfpppfuunnpapaa110a0 答卷中的问题:没有常数项答卷中的问题:没有常数项 a0;没有统计检验;没有统计检验p(0)+p0ua0=01 1、多项式拟合、多项式拟合用polytool(x0,y0,3)还可以得到一个交互式画面。该方程的最小二乘解为:其中谢谢大家!谢谢大家!