1、一.一元数据处理方法二.多元数据处理方法三.如何写好建模竞赛论文数据处理专题数据处理专题1谢谢观赏2019-8-23数据处理是指用简明而严格的方法把获得的实验数据所代表的事物内在的规律提炼出来,得出结果的加工过程,包括数据记录、描绘曲线,从带有误差的数据中提取参数,验证和寻找经验规律,外推实验数据等等。本章介绍一些最基本的数据处理方法。2谢谢观赏2019-8-231.插值插值 2.拟合及线性回归拟合及线性回归1.一元数据处理方法 在解决实际问题的生产(或工程)实践和科学实验过程中,通常需要通过研究某些变量之间的函数关系来帮助我们认识事物的内在规律和本质属性,而这些变量之间的未知函数关系又常常隐
2、含在从试验、观测得到的一组数据之中。因此,能否根据一组试验观测数据找到变量之间相对准确的函数关系就成为解决实际问题的关键3谢谢观赏2019-8-23 例如在工程实践和科学实验中,常常需要从一组试验观测数据(xi,yi),i=0,1,.,n之中找到自变量x与因变量y 之间的函数关系,一般可用一个近似函数y=f(x)来表示。函数y=f(x)的产生办法因观测数据和要求不同而异,通常可采用数据拟合与函数插值两种办法来实现。数据拟合数据拟合主要是考虑到观测数据受随机观测误差的影响,进而寻求整体误差最小、能较好反映观测数据的近似函数y=f(x),此时并不要求所得到的近似函数y=f(x)满足yi=f(xi)
3、,i=0,1,n。函数插值函数插值则要求近似函数y=f(x)在每一个观测点 xi 处一定要满足y i=f(xi),i=0,1,n,在这种情况下,通常要求观测数据相对比较准确,即不考虑观测误差的影响。4谢谢观赏2019-8-23在实际问题中,通过观测数据能否正确揭示某些变量之间的关系,进而正确认识事物的内在规律与本质属性,往往取决于两方面因素。其一其一是观测数据的准确性或准确程度,这是因为在获取观测数据的过程中一般存在随机测量误差,导致所讨论的变量成为随机变量。其二其二是对观测数据处理方法的选择,即到底是采用插值方法还是用拟合方法,插值方法之中、拟合方法之中又选用哪一种插值或拟合技巧来处理观测数
4、据。插值问题忽略了观测误差的影响,而拟合问题则考虑了观测误差的影响。但由于观测数据客观上总是存在观测误差,而拟合函数大多数情况下是通过经验公式获得的,因此要正确揭示事物的内在规律,往往需要对大量的观测数据进行分析,尤为重要的是进行统计分析。统计分析的方法有许多,如方差分析、回归分析等。5谢谢观赏2019-8-23 数据拟合虽然较有效地克服了随机观测误差的影响,但从数理统计的角度看,根据一个样本计算出来的拟合函数(系数),只是拟合问题的一个点估计,还不能完全说明其整体性质。因此,还应该对拟合函数作区间估计或假设检验,如果置信区间太大或包含零点,则由计算得到的拟合函数系数的估计值就毫无意义。这里所
5、采用的统计分析方法就是所谓的回归分析。另外还可用方差分析的方法对模型的误差作定量分析。对于插值方法,本文简单介绍最常用的插值法的基本结论及其Matlab实现问题。由于数据拟合问题必须作区间估计或假设检验,所以除了介绍最基本的数据拟合方法最小二乘法的基本结论及其Matlab实现问题外,我们专门介绍了对数值拟合问题进行区间估计或假设检验的统计方法。6谢谢观赏2019-8-23即介绍回归分析方法及其Matlab实现。数据处理问题通常情况下只是某个复杂实际问题的一个方面或部分内容,因而这里所介绍的数据处理方法函数插值和数据拟合的方法(包括回归分析)通常只能解决实际问题中的部分问题计算问题。一般来说,对
6、实际问题进行数学建模需要用到多方面知识,只有很少的情况下可以单独使用本章所介绍的内容,故我们最后以修改后的美国91年数学建模A题为例说明如何使用数值计算知识建立数学模型,从而解决实际问题的方法。7谢谢观赏2019-8-23 1 1、插、插 值值 法法 在生产和实验中,常常需要根据一张表格表示的函在生产和实验中,常常需要根据一张表格表示的函数推算该表中没有的函数值数推算该表中没有的函数值.解决此类问题的简单途径之解决此类问题的简单途径之一利用插值法。一利用插值法。插值在数学发展史上是一个老问题,它是和插值在数学发展史上是一个老问题,它是和Gauss,Lagrange,Newton等在著名数学家连
7、在一起的。它最初等在著名数学家连在一起的。它最初来源于天体计算来源于天体计算由若干观测值计算人一时刻星球的由若干观测值计算人一时刻星球的位置。现在,插值法在工程技术和数据处理有许多直接位置。现在,插值法在工程技术和数据处理有许多直接应用,而且也是数值积分、数值微分的基础。应用,而且也是数值积分、数值微分的基础。8谢谢观赏2019-8-231.1 插值概念与基础理论插值概念与基础理论1.1.1 插值问题的提法对于给定的函数表xx0 x1.xnY=f(x)y0y1.yn(其中其中 在在a,b上连续,上连续,x0,x1,xn 是是 a,b上的上的 n+1个互异的点个互异的点),在某函数类,在某函数类
8、(x)中求一个函数中求一个函数(x),使,使()yf x (xi)=yi,(i=0,1,2,n)(2)(1)并用并用函数函数(x)作为函数作为函数 y=f(x)的近似的近似函数,即函数,即y=f(x)(x),(xa,b)9谢谢观赏2019-8-23 这类问题称为这类问题称为插值问题插值问题。a,b称为称为插值区间插值区间,x0,x1,.,xn 称为称为插值节点插值节点,(,(2)称为)称为插值条件插值条件,插值条件,插值条件是选择近似函数的标准,满足此条件的近似函数是选择近似函数的标准,满足此条件的近似函数 (x)称称为为插值函数插值函数,f(x)称为称为被插值函数被插值函数。函数类函数类(x
9、)有多种取法,常用的有代数多项式、有多种取法,常用的有代数多项式、三角函数和有理函数。三角函数和有理函数。最简单的插值函数是代数多项式最简单的插值函数是代数多项式,相应的插值问题称为多项式多项式插值插值。最简单的插值函数是代数多项式最简单的插值函数是代数多项式,相应的插值问题称为多项式多项式插值插值。10谢谢观赏2019-8-23 求)(xf的n次插值多项式()nypx 的几何意义,就是)(xfy 上的若干个节点,作一条代数曲线()nypx 来近似代替曲线)(xfy。如图所示。通过曲线11谢谢观赏2019-8-231.2 插值多项式的求法插值多项式的求法 在前面讨论插值多项式的存在唯一性时,实
10、际上已提供在前面讨论插值多项式的存在唯一性时,实际上已提供了它的一种求法,即通过求解线性方程组来确定其系数了它的一种求法,即通过求解线性方程组来确定其系数ai(i=0,1,2,n)但是这种方法不仅计算量大,而且因不能获得简明的表但是这种方法不仅计算量大,而且因不能获得简明的表达式而给理论和应用研究带来不便。在这里我们学习两种达式而给理论和应用研究带来不便。在这里我们学习两种简便而实用的求答。简便而实用的求答。1.2.1 拉格朗日插值多项式拉格朗日插值多项式 在线性代数中知道,所有次数不超过在线性代数中知道,所有次数不超过n次的多项式构次的多项式构成一个成一个n+1维线性空间。其基有各种不同的取
11、法。因此维线性空间。其基有各种不同的取法。因此尽管满足条件(尽管满足条件(4)的)的n次插值多项式是唯一的,然而它次插值多项式是唯一的,然而它的表达式可以有多种不同的形式。如果取满足条件:的表达式可以有多种不同的形式。如果取满足条件:12谢谢观赏2019-8-230,()1,kiikikl x 的一组n次多项式xlxlxlxln,210作为上述线性空间的基,则容易看出10010()()()()nnnk kklx ylx ylx yy lx n 是是一一个个次次数数不不超超过过 的的多多项项式式。且且满满足足插插值值条条件件(4 4)。因此,由n+1个代数多项式 xlxlxlxln,210线性生
12、成的多项式(10)就是满足插值条件的n次插值多项式。(10)(9)满足条件(9)的多项式称为n+1个节点的n次基本插值多项式(或n次基函数)xlxlxlxln,21013谢谢观赏2019-8-23 显然,求拉格朗日多项式的关键是求n次插值基函数。0,()1,kiikikl x 因此,可设 0111()().()().()kkkknlxAxxxxxxxxxx 因为 xlk为n次多项式,且n 011011()()()()()()()()()nkkkkkkknkkxxxxxxxxlxxxxxxxxx 14谢谢观赏2019-8-23两种特殊的两种特殊的Lagrange插值多项式插值多项式1.线性插值线
13、性插值(两点插值两点插值)最简单的插值是线性插值最简单的插值是线性插值(此时此时n=1),这时插值问题这时插值问题就是就是求一次多项式求一次多项式P1(x)=a0+a1x 使它满足使它满足条件条件P1(x0)=y0,P1(x1)=y1,这时这时1001()xxlxxx 0110()xxlxxx 于是线性插值多项式为于是线性插值多项式为011010110()xxxxL xyyxxxx 即即100010()()nyyLxyxxxx 它就是通过它就是通过M0(x0,y0)和和M1(x1,y1)两点的线段两点的线段.15谢谢观赏2019-8-232.抛物插值抛物插值 线性插值仅仅用两个节点以上的信息,
14、精确度较差。为线性插值仅仅用两个节点以上的信息,精确度较差。为了提高精确度,我们进一步考察以下三点的插值问题了提高精确度,我们进一步考察以下三点的插值问题(n=2):这时1200102()()()()()xxxxlxxxxx 0211012()()()()()xxxxlxxxxx 0122021()()()()()xxxxlxxxxx 由此得到抛物插值多项式由此得到抛物插值多项式20 01 12 2()()()()L xy l xy l xy l x 抛物插值又称三点插值抛物插值又称三点插值.16谢谢观赏2019-8-23xyln 例例1 1 已知已知的函数表的函数表x 10 11 12 13
15、 14y 2.3026 2.3979 2.4849 2.5649 2.6391 ln(11.5)并估计误差。并估计误差。分别用拉格朗日线性和抛物线插值求分别用拉格朗日线性和抛物线插值求的近似值,的近似值,%lagrange插值法的程序插值法的程序function y=lagrange(x0,y0,x);n=length(x0);m=length(x);for i=1:mz=x(i);s=0.0;for k=1:np=1.0;for j=1:nif j=kp=p*(z-x0(j)/(x0(k)-x0(j);endends=p*y0(k)+s;endy(i)=s;endclearx0=10 11
16、12 13 14;y0=2.3026 2.3979,2.4849,2.5649 2.6391;x=10:0.1:15;y=lagrange(x0,y0,x);plot(x0,y0,+,x,y)17谢谢观赏2019-8-23 1901年龙格年龙格(Runge)给出一个例子给出一个例子:定义在区间-1,1上,这是一个光滑函数,它的任意阶导数都存在,对它在-1,1上作等距节点插值时,插值多项式情况,见图:从图中,可见,在靠近-1或1时,余项会随n值增大而增大,如P12(0.96)=36!但f(0.96)=0.25 21()1fxx-5-4-3-2-1012345-1.5-1-0.500.511.52
17、n=2n=4n=6n=8n=10f(x)=1/(1+x2)18谢谢观赏2019-8-23 从图中,还可发现,在0附近插值效果是好的,即余项较小,另一种现象是插值多项式随节点增多而振动更多。这种插值多项式当节点增加时反而不能更好地接近被插之数的现象,称为龙格现象龙格现象。上述现象和定理,告诉我们用高次插值多项式是不妥当的,从数值计算上可解释为高次插值多项式的计算会带来舍入误差的增大,从而引起计算失真。那么如何提高插值精度呢?采用分段插值是一种办法。实践上作插值时一般只用一次、二次最多用三次插值多项式。19谢谢观赏2019-8-23分段线性插值的构造分段线性插值的构造:设f(x)是定义在a,b上的
18、函数,在a,b上节点 a=x0 x1x2xn-1xn=b,的函数值为 y0,y1,y2,yn-1,yn 。(x)在每个子区间xi,xi+1(i=0,1,2,n-1)上是一次插 值多项式;11111 iiiiiiiiiixxxxxxxyxxxxyx,)(这种分段低次插值称为分段线性插值分段线性插值.在几何上就是用折线段带代替曲线,故分段线性插值又称为折线插值折线插值.(,),0,1,kkxyin实际上是连接点的一条折线1.2.2 分段线性插值分段线性插值分段线性插值:分段线性插值:matalb调用格式:调用格式:yi=interp1(x,y,xi,linear)x,y为插值节点,xi为待求节点2
19、0谢谢观赏2019-8-23分段线性插值曲线图:-4-3-2-101234-1-0.8-0.6-0.4-0.200.20.40.60.81曲线的光滑性较差在节点处有尖点 但如果增加节点的数量减小步长,会改善插值效果21谢谢观赏2019-8-23xyln 例例1 1 已知已知的函数表的函数表x 10 11 12 13 14y 2.3026 2.3979 2.4849 2.5649 2.6391 ln(11.5)并估计误差。并估计误差。分别用拉格朗日线性和抛物线插值求分别用拉格朗日线性和抛物线插值求的近似值,的近似值,clearx0=10 11 12 13 14;y0=2.3026 2.3979,
20、2.4849 2.5649 2.6391;x=10:0.1:15;y1=interp1(x0,y0,x,linear);yy1=interp1(x0,y0,11.5,linear);y2=interp1(x0,y0,x,cubic);yy2=interp1(x0,y0,11.5,cubic);subplot(1,2,1)plot(x0,y0,+,x,y1,11.5,yy1,rO)title(Piecewise linear)subplot(1,2,2)plot(x0,y0,+,x,y2,11.5,yy2,rO)title(Piecewise cubic)22谢谢观赏2019-8-23分段二次插
21、值分段二次插值即:选取跟节点x最近的三个节点xi-1,xi,xi+1进行二次插值,即在区间xi-1,xi+1,取:这种分段的低次插值叫分段二次插值,在几何上就是用分段抛物线代替y=f(x),故分段二次插值又和分段抛物插值。11112iikikjijikjikxxxxyxLxf)()()()(matlab调用格式调用格式yi=interp1(x,y,xi,cubic)%二次多项式插值二次多项式插值23谢谢观赏2019-8-23什么是样条:是 指飞机或轮船等的制造过程中为描绘出光滑的外形曲线(放样)所用的工具样条本质上是一段一段的三次多项式拼合而成的曲线在拼接处,不仅函数是连续的,且一阶和二阶导数
22、也是连续的1946年,Schoenberg将样条引入数学,即所谓的样条函数 1.3 三次样条三次样条插值插值24谢谢观赏2019-8-23,)(,)(),(),()1(2baCxSbaxSxSxS 即上连续都在区间上都是三次多项式在每个小区间,)()2(1kkxxxS处的函数值为在节点如果函数nxxxxf,)()3(10njyxfjj,1,0,)()S x而满足njyxSjj,1,0,)(上的三次样条插值函数在为则称,)()(baxfxS-(1)定义1.的一个分割为区间,10babxxxan:,)(上满足条件在区间如果函数baxS1.4.1、三次样条插值函数25谢谢观赏2019-8-232()
23、s x由条件(),不妨将记为1,1,2,.,iiisxs x xx xin()=(),32()(1)iiiixa xb xc xdisiiiiabcd其中,为待定系数,共4n个。1由条件(),有()()()()(1,2,.,1)(2)()()iiiiiixxxxinxxii+1ii+1ii+1ssssss26谢谢观赏2019-8-233由条件(),有()(0,1,2,.,)(3)iiis xyin 2342n容易看出,()和()共有个方程,为确定s(x)的4n个待定参数,尚需再给出两个条件,即所谓边界条件。通常使用的边界条件有以下三类:000,nnnxfxfff第一类边界条件是s()=s()=
24、为给定的值。27谢谢观赏2019-8-2300000()nnnnnf xx-xs xx-xs xs xs xs xs xs x第三类边界条件是周期条件。设()是周期函数,不妨设以为一个周期,这时也应以为周期的周期函数,于是 s(x)在端点处满足条件:(+0)=(-0);(+0)=(-0);(+0)=(-0).000nnnxfxfff第二类边界条件是s()=s()=,为给定的值。0=0nxx当s()=s()时,样条函数在两端点不受力,呈自然状态,故称之为自然边界条件。28谢谢观赏2019-8-234()4().ns xns x 利用个条件求出三次样条函数的个待定常数,直接求解计算量很大,通常利用
25、Matlab软件求例2设f(x)为定义在0,3上的函数,有下列函数值表xi0123yi00.521.503()0.2,()1,0,3().fxfxs x 且试求区间上满足上述条件的三样次条插值函数解 matlab求解s(x).程序为:clearx0=0 1 2 3;y0=0 0.5 2 1.5;x=0:0.1:3;pp1=csape(x0,y0,complete);y3=ppval(pp1,x);%计算插值函数在x处的值plot(x0,y0,+,x,y3,r)29谢谢观赏2019-8-23pp=csape(x,y,complete)breaks,coefs,npolys,ncoefs,dim=
26、unmkpp(pp)(,)csape x y complete上述程序中函数是指定边界条件的样条插值函数,csape返回一个包含三次样条插值的pp形,或者说是分段多项式的结构。这个结构包含了计算用户希望的任何插值点数值的三次样条值需要的所有信息。字符串complete表示所给边界条件是第一类边界条件;若将complete换成second表示第二类边界条件;periodic表示第三类边界条件。在第一类边界条件和第二类边界条件时,边界条件值放在y的第一个分量和最后一个分量的位置上。30谢谢观赏2019-8-23这样y的分量的个数比x的分量的个数多。例如,在例中,x=0 1 2 3y=0.2 0 0
27、.5 2.0 1.5-1周期边界条件时,无需指定边界条件值。在计算一个三次样条表达式的时候,必须将pp形中不同域提取出来进行计算,这个过程可以由函数unmkpp完成,该函数的使用方法为:breaks,coefs,npolys,ncoefs,dim=unmkpp(pp)31谢谢观赏2019-8-23其中输入变量pp是样条插值函数csape的输出变量,unmkpp的输出变量有个:breaks,coefs,npolys,ncoefs,dim。0123320111213,.()()()():dim:iiiia a a as xa xxa xxaxxanpolysncoefsbreaks:包含了插值节点
28、;coefs:是一个矩阵,其第i行是第i个多项式的系数:即 中的系数。是多项式的个数;是每个多项式系数的个数;是样条的维数。32谢谢观赏2019-8-23其中输入变量pp是样条插值函数csape的输出变量,unmkpp的输出变量有个:breaks,coefs,npolys,ncoefs,dim。0123320111213,.()()()():dim:iiiia a a as xa xxa xxaxxanpolysncoefsbreaks:包含了插值节点;coefs:是一个矩阵,其第i行是第i个多项式的系数:即 中的系数。是多项式的个数;是每个多项式系数的个数;是样条的维数。33谢谢观赏2019
29、-8-23运行结果如下:pp=form:ppbreaks:0 1 2 3coefs:3 4 doublepieces:3order:4dim:134谢谢观赏2019-8-233232320.180.2,0,11.04(1)1.26(1)1.28(1)0.5,1,22,3(2)1.86(2)0.68(2)2.0,xxxxs xxxxxxxxx因此所求的三次样条函数为0.28()=0.68breaks=0 1 2 3coefs=0.2800 -0.1800 0.2000 0-1.0400 1.2600 1.2800 0.5000 0.6800 -1.8600 0.6800 2.0000npolys
30、=3ncoefs=4dim=135谢谢观赏2019-8-23例已知函数值表xi1245yi1342().s x试求在区间,5 上满足上述函数表所给出的插值条件的三次样自然样条插值函数解用Matlab求解s(x).程序为:x=;y=;pp=csape(x,y,second)breaks,coefs,npolys,ncoefs,dim=unmkpp(pp)36谢谢观赏2019-8-23运行结果如下:pp=form:ppbreaks:1 2 4 5coefs:3 4 doublepieces:3order:4dim:137谢谢观赏2019-8-23332321)2.125(1)1,1,20.125(
31、2)0.375(2)1.75(2)3,2,44,5(4)1.125(4)1.25(4)4,xxxs xxxxxxxxx因此所求的三次样条函数为-0.125()=0.375breaks=1 2 4 5coefs=-0.1250 0 2.1250 1.0000 -0.1250 -0.3750 1.7500 3.0000 0.3750 -1.1250-1.2500 4.000038谢谢观赏2019-8-23 一维插值总结一维插值总结 插值函数一般是已知函数的线性组合或者称为加权平均。在已知数据点较少时,插值技术在工程实践和科学实验中有着广泛而又十分重要的应用。例如在信息技术中的图像重建、图像放大过程
32、中为避免图像失真、扭曲而增加的插值补点,建筑工程的外观设计,化学工程试验数据与模型分析,天文观测数据、地理信息数据的处理,社会经济现象的统计分析等方面,插值技术的应用是不可或缺的。插值技术(插值技术(或方法)远不止这里所介绍的这些,但在解决实际问题时,对于一位插值问题而言,前面介绍的插值方法已经足够了。剩下的问题关键在于什么情况下使用、怎样使用和使用何种插值方法的选择上。拉格朗日插值函数在整个插值区间上有统一的解析表达式,其形式关于节点对称,光滑性好。但缺点同样明显,这主要体现在高次插值收敛性差(龙格现象);增加节点时前期计算作废,导致计算量大;一个节点函数值的微小变化(观测误差存在)将导致整
33、个区间上插值函数都发生改变,因而稳定性差等几个方面。因此拉格朗日插值法多用于理论分析,在采用拉格朗日插值方法进行插值计算时通常选取n 0.(4)倒倒指指数数曲曲线线 y=axbe/其中 a0,(5)对对数数曲曲线线 y=a+blogx,x0(6)S 型型曲曲线线xbeay172谢谢观赏2019-8-23二.多元数据处理方法1、二维插值2、多元回归分析3、聚类分析4、主成分分析73谢谢观赏2019-8-23二维插值的定义二维插值的定义 xyO O第一种(网格节点):第一种(网格节点):74谢谢观赏2019-8-23 已知已知 m n个节点个节点),2,1;,.,2,1(),(njmizyxijj
34、i 其中其中jiyx,互不相同,不妨设互不相同,不妨设bxxxam 21dyyycn 21 构造一个二元函数构造一个二元函数),(yxfz 通过全部已知节点通过全部已知节点,即即再用再用),(yxf计算插值,即计算插值,即).,(*yxfz ),1,0;,1,0(),(njmizyxfijji 75谢谢观赏2019-8-23第二种(散乱节点):第二种(散乱节点):yx0 076谢谢观赏2019-8-23已知已知n个节点个节点),.,2,1(),(nizyxiii 其中其中),(iiyx互不相同,互不相同,构造一个二元函数构造一个二元函数),(yxfz 通过全部已知节点通过全部已知节点,即即),
35、1,0(),(nizyxfiii 再用再用),(yxf计算插值,即计算插值,即).,(*yxfz 77谢谢观赏2019-8-23 注意:注意:最邻近插值一般不连续。具有连续性的最简单的插值是分片线性插值。最邻近插值最邻近插值x y(x1,y1)(x1,y2)(x2,y1)(x2,y2)O O 二维或高维情形的最邻近插值,与被插值点最邻近的节点的函数值即为所求。78谢谢观赏2019-8-23 将四个插值点(矩形的四个顶点)处的函数值依次简记为:分片线性插值分片线性插值xy (xi,yj)(xi,yj+1)(xi+1,yj)(xi+1,yj+1)O Of(xi,yj)=f1,f(xi+1,yj)=
36、f2,f(xi+1,yj+1)=f3,f(xi,yj+1)=f479谢谢观赏2019-8-23插值函数为:jii1ij1jy)xx(xxyyy)yy)(ff()xx)(ff(f)y,x(fj23i121第二片(上三角形区域):(x,y)满足iii1ij1jy)xx(xxyyy插值函数为:)xx)(ff()yy)(ff(f)y,x(fi43j141注意注意:(x,y)当然应该是在插值节点所形成的矩形区域内。显然,分片线性插值函数是连续的;分两片的函数表达式如下:第一片(下三角形区域):(x,y)满足80谢谢观赏2019-8-23 双线性插值是一片一片的空间二次曲面构成。双线性插值函数的形式如下:
37、)dcy)(bax()y,x(f其中有四个待定系数,利用该函数在矩形的四个顶点(插值节点)的函数值,得到四个代数方程,正好确定四个系数。双线性插值双线性插值x y(x1,y1)(x1,y2)(x2,y1)(x2,y2)O O81谢谢观赏2019-8-23 要求要求x0,y0 x0,y0单调;单调;x x,y y可取可取为矩阵,或为矩阵,或x x取取行向量,行向量,y y取为列向量,取为列向量,x,yx,y的值分别不能超出的值分别不能超出x0,y0 x0,y0的范围。的范围。z=interp2(x0,y0,z0,x,y,method)被插值点插值方法用用MATLAB作网格节点数据的插值作网格节点
38、数据的插值插值节点被插值点的函数值nearest nearest 最邻近插值最邻近插值linear linear 双线性插值双线性插值cubic cubic 双三次插值双三次插值缺省时缺省时,双线性插值双线性插值82谢谢观赏2019-8-23例:测得平板表面例:测得平板表面3 3*5 5网格点处的温度分别为:网格点处的温度分别为:82 81 80 82 84 82 81 80 82 84 79 63 61 65 81 79 63 61 65 81 84 8484 84 82 85 86 82 85 86 试作出平板表面的温度分布曲面试作出平板表面的温度分布曲面z=f(x,y)z=f(x,y)的
39、图形。的图形。输入以下命令:x=1:5;y=1:3;temps=82 81 80 82 84;79 63 61 65 81;84 84 82 85 86;mesh(x,y,temps)1.先在三维坐标画出原始数据,画出粗糙的温度分布曲图.2以平滑数据,在x、y方向上每隔0.2个单位的地方进行插值.83谢谢观赏2019-8-23再输入以下命令:xi=1:0.2:5;yi=1:0.2:3;zi=interp2(x,y,temps,xi,yi,cubic);mesh(xi,yi,zi)画出插值后的温度分布曲面图.84谢谢观赏2019-8-23例例 山区地貌:山区地貌:在某山区测得一些地点的高程如下表
40、。平面区域为在某山区测得一些地点的高程如下表。平面区域为 1200=x=4000,1200=y=3600)试作出该山区的地貌图和等高线图,并对几种插值方法进行比较。试作出该山区的地貌图和等高线图,并对几种插值方法进行比较。X Y120016002000240028003200360040001200113012501280123010409005007001600132014501420140013007009008502000139015001500140090011001060950240015001200110013501450120011501010280015001200110015
41、50160015501380107032001500155016001550160016001600155036001480150015501510143013001200980 通过此例对最近邻点插值、双线性插值方法和双三次插值方法的插值效果进行比较。85谢谢观赏2019-8-23 插值函数插值函数griddata格式为格式为:cz=griddata(x,y,z,cx,cy,method)用用MATLABMATLAB作散点数据的插值计算作散点数据的插值计算 要求要求cxcx取行向量,取行向量,cycy取为列向量取为列向量。被插值点插值方法插值节点被插值点的函数值nearest nearest
42、 最邻近插值最邻近插值linear linear 双线性插值双线性插值cubic cubic 双三次插值双三次插值v4-Matlab提供的插值方法提供的插值方法缺省时缺省时,双线性插值双线性插值86谢谢观赏2019-8-23 例例 在某海域测得一些点在某海域测得一些点(x,y)(x,y)处的水深处的水深z z由下由下表给出,船的吃水深度为表给出,船的吃水深度为5 5英尺,在矩形区域(英尺,在矩形区域(7575,200200)*(-50-50,150150)里的哪些地方船要避免进入。)里的哪些地方船要避免进入。xyz129 140 103.5 88 185.5 195 1057.5 141.5
43、23 147 22.5 137.5 85.54 8 6 8 6 8 8xyz157.5 107.5 77 81 162 162 117.5-6.5 -81 3 56.5 -66.5 84 -33.59 9 8 8 9 4 987谢谢观赏2019-8-23 )1(.150,50200,75.2hd三次插值法作二维插值在矩形区域.1 输入插值基点数据4.作出水深小于5的海域范围,即z=5的等高线.3、作海底曲面图88谢谢观赏2019-8-23实验作业实验作业 山区地貌:山区地貌:在某山区测得一些地点的高程如下表:在某山区测得一些地点的高程如下表:(平平面区域面区域1200=x=4000,1200=
44、y=3600)1200=x=4000,1200=y F1-(k,n-k-1),则 拒 绝 H0,认 为 y 与 x1,xk之 间 显 著地 有 线 性 关 系;否 则 就 接 受 H0,认 为 y 与 x1,xk之 间 线 性 关 系 不显 著.其中 niiyyU12(回回归归平平方方和和)niiieyyQ12)(残差平方和)残差平方和)F检验法检验法98谢谢观赏2019-8-23(2)预测预测(A)点预测)点预测(B)区间预测)区间预测1knQees99谢谢观赏2019-8-231.5 逐步回归分析逐步回归分析 实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归
45、模型,这就涉及到变量选择的问题。逐步回归是一种从众多变量中有效地选择重要变量的方法。它是在多元线性回归的基础上派生出来的一种算法技巧。“最优最优”的回归方程的回归方程就是包含所有对Y有影响的变量,而不包含对Y影响不显著的变量回归方程。如果采用的自变量越多,则回归平方和越大,残差平方和越小,然而较多的变量来拟合回归方程,得到的防策划能够稳定性差,用它作预测可靠性差,精度低另一方面,如果采用了y 影响较小的变量而遗漏了重要变量,可导致估计量产生偏崎和不一致性为此,我们希望得到“最优”的回归方程100谢谢观赏2019-8-23(4)“有进有出”的逐步回归分析。(1)从所有可能的因子(变量)组合的回归
46、方程中选择最优者;(2)从包含全部变量的回归方程中逐次剔除不显著因子;(3)从一个变量开始,把变量逐个引入方程;选择“最优”的回归方程有以下几种方法:以第四种方法,即逐步回归分析法逐步回归分析法在筛选变量方面较为理想.101谢谢观赏2019-8-23 这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。逐步回归分析法逐步回归分析法的思想:从一个自变量开始,视自变量Y作用的显著程度,从大到小地依次逐个引入回归方程。当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。对于每一步都要进行Y值
47、检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。102谢谢观赏2019-8-231.1多元线性回归多元线性回归 b=regress(Y,X)npnnppxxxxxxxxxX.1.1.1212222111211nYYYY.21pb.101)确定回归系数的点估计值:确定回归系数的点估计值:ppxxy.1101.MATLAB统计工具箱中的回归分析命令对一元线性回归,取p=1即可.103谢谢观赏2019-8-233、画出残差及其置信区间:画出残差及其置信区间:rcoplot(r,rint)2)求回归系数的点估计和区间估计、并检验回归模型:求回归系数的点估计和区间估计、并检验回归
48、模型:b,bint,r,rint,stats=regress(Y,X,alpha)回归系数的区间估计残差用于检验回归模型的统计量,有三个数值:相关系数r2、F值、与F对应的概率p置信区间 显著性水平(缺省时为0.05)相关系数 r2越接近 1,说明回归方程越显著;F F1-(k,n-k-1)时拒绝 H0,F 越大,说明回归方程越显著;与 F 对应的概率 p时拒绝 H0,回归模型成立.104谢谢观赏2019-8-23例例1 解:解:1、输入数据:输入数据:x=143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164;X=one
49、s(16,1)x;Y=88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102;2、回归分析及检验:回归分析及检验:b,bint,r,rint,stats=regress(Y,X)b,bint,statsTo MATLAB(liti11)题目题目105谢谢观赏2019-8-233、残差分析,作残差图:、残差分析,作残差图:rcoplot(r,rint)从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型 y=-16.073+0.7194x能较好的符合原始数据,而第二个数据可视为异常点.4、预测及作图:
50、、预测及作图:z=b(1)+b(2)*x plot(x,Y,k+,x,z,r)246810121416-5-4-3-2-101234Residual Case Order PlotResidualsCase Number返回返回To MATLAB(liti12)106谢谢观赏2019-8-231.2多多 项项 式式 回回 归归(1)一元多项式回归)一元多项式回归 1)确定多项式系数的命令:p,S=polyfit(x,y,m)2)一元多项式回归命令:polytool(x,y,m)A、回归:、回归:y=a1xm+a2xm-1+amx+am+1 此命令产生一个交互式的画面,画面中有拟合曲线和此命令产
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。