1、数值分析第三章第三章 函数逼近与曲线拟合函数逼近与曲线拟合 当函数只在当函数只在有限点集有限点集上给定上给定函数值函数值,要,要在包含该点击的区间上在包含该点击的区间上用公式给出用公式给出函数的函数的简简单表达式单表达式,这些都涉及到在区间,这些都涉及到在区间a,ba,b上上用用简单函数简单函数逼近逼近已知复杂函数已知复杂函数的问题,这就是的问题,这就是函数逼近问题。函数逼近问题。插值法就是函数插值法就是函数逼近问题的一种逼近问题的一种拟解决的问题:拟解决的问题:1.计算复杂的函数值计算复杂的函数值2.已知有限点集上的函数值,给出在包含该已知有限点集上的函数值,给出在包含该点集的区间上函数的简
2、单表达式点集的区间上函数的简单表达式函数逼近函数逼近对函数类对函数类A中给定的函数中给定的函数f(x),记作,记作 要求在另一类简单的便于计算的函数类要求在另一类简单的便于计算的函数类B中求函数中求函数 使使p(x)与与f(x)的误差在的误差在某种度量意义某种度量意义下最小。下最小。(),f xA(),p xB 逼近问题逼近问题函数逼近函数逼近曲线拟合曲线拟合基本数学概念:定义1:设集合S是数域P上的线性空间,元素12,.,nx xxS如果存在不全为0的数12,.,nP,使得1122.0(1.1)nnxxx线性相关,否则,若等式(1.1)只对12,.,nx xx则称12.0n成立,则称为线性无
3、关。若线性空间S是由n个线性无关元素生成的,即:11,.nnxS xxx 为空间S的一组基,记为:12,.,nx xx则称1 S=span,.,nxx并称该空间为n维空间。12,.,nP 称为x在这组基下的坐标。例:n次多项式2(),()=.1,.,nn01nnnp xHp xa+a xa xHspanx xx连续函数不能用有限个线性无关的函数表示,故连续函数空间是无限维的,但它的任一元素可以用有限维的多项式逼近,使误差为任意小。定理1:设(),f xC a b则对任何0总存在一个代数多项式p(x),使()()f xp x在a,b上一致成立。范数与赋范线性空间范数与赋范线性空间定义2:设S为线
4、性空间,x是S的元素,若存在唯一实数 ,满足条件:(1)0;00(2),(3),xxiffxxxRxyxyx yR则称 为线性空间S上的范数。,S称为赋范线性空间。例:n维向量空间上定义的三种范数:111112221(,.,)max()nnii nniiniixxxRxxxxxx 称为 -范数称为 1 -范数称为 2 -范数例:连续函数空间上定义的三种范数:11222(),max()()()a x bbabaf xC a bff xff x dxffx dx 称为 -范数称为 1 -范数称为 2 -范数例:求下列向量的1范数、2范数和无穷范数11112221(4,4,4,4),max416()
5、8Tii nniiniixxxxxxx 11112221(6,0,0,0),max66()6Tii nniiniiyyyyyyy 内积与内积空间内积与内积空间定义3:设X为数域K(R或C)上的线性空间,满足条件:,(,),.(1)(,)(,)(2)(,)(,),(3)(,)(,)(,),(4)(,)0,0(,)0u vXku vKstu vv uu vu vforKuv wu wv wforwXu uuiffu u 称(u,v)为 X上u与v的内积。定义了内积的线性空间为内积空间。若(u,v)=0,则称u和v正交。例11211,(,.,),(,.,)(,),(,)nnTTnnnni iiiii
6、nner productinRx y Rxxxyyyx yxyx xx41(4,4,4,4),(6,0,0,0)(,)24TTiiixyx yx y例如:例,(),(),(),()()()()bainner productinCabf x g xCabf x g xx f x g x dx其中 为权函数,满足定义4(page 68)()x2()1:(),()()()(),()()babaespeciallyxf x g xf x g x dxf x g xf xdx正交函数正交函数定义5:(),(),(),()()()()0()(),baf x g xCabiff x g xx f x g x
7、 dxthen f x andg x isorthogonalin ab既:f(x)与g(x)在a,b上带权 正交。若函数族01(),(),.,(),.nxxx满足0(,)()()()0bjkjkakjkxxx dxAjk 则称该函数族是在a,b上带权 的正交函数族。时为标准正交函数族1kA 例如,三角函数族1,cos,sin,cos2,sin2,.xxxx是在区间 上的正交函数族。定义6:正交多项式(page 70),逼近问题逼近问题函数逼近函数逼近曲线拟合曲线拟合实例:考察某种纤维的强度与其拉伸倍数的关系,下表是实际测定的24个纤维样品的强度与相应的拉伸倍数是记录:编 号 拉伸倍数 强 度
8、编 号 拉伸倍数 强 度11.91.41355.5221.3145.2532.11.81565.542.52.5166.36.452.72.8176.5662.72.5187.15.373.531986.583.52.72087944218.98.51043.52298114.54.2239.58.1124.63.524108.1iiyxiiyx1234567891012345678912345678910123456789纤维强度随拉伸倍数增加而增加系要关系应是线性关的主与拉伸倍数因此可以认为强度xy并且24个点大致分布在一条直线附近xxy10)(为待定参数其中10,越接近越好样本点与所有的
9、数据点我们希望),)()(10iiyxxxy必须找到一种度量标准来衡量什么曲线最接近所有数据点必须找到一种度量标准来衡量什么曲线最接近所有数据点(1)仍然是已知仍然是已知 x1 xm;y1 ym,求一个求一个简单易算的近似函数简单易算的近似函数 P(x)f(x)。但是但是 m 很大;很大;yi 本身是测量值,不准确,即本身是测量值,不准确,即 yi f(xi)这时没必要取这时没必要取 P(xi)=yi,而要使而要使 P(xi)yi 总体上总体上尽可能小。尽可能小。使误差在某种度量意义下最小使误差在某种度量意义下最小常见做法:常见做法:使使 最小最小/*minimax problem*/|)(|
10、max1iimiyxP 太复杂太复杂 使使 最小最小 miiiyxP1|)(|不可导,求解困难不可导,求解困难 使使 最小最小 /*Least-Squares method*/miiiyxP12|)(|iiiyxy)(令一般使用mii0222在回归分析中称为残差miiiyxy02)(准偏离程度大小的度量标与数据点作为衡量),()(iiyxxy称为平方误差在回归分析中称为残差平方和在回归分析中称为残差平方和从而确定从而确定(1)(1)中的待定系数中的待定系数mii0222miiiyxy02)(注意注意(1)(1)式是一条直线式是一条直线关系的关系并不一定是线性但yx,因此将问题一般化因此将问题一
11、般化一般情况下)(,xSyyx的关系为设来自函数类其中)(xS来自线性函数类中如)()1(xy为给定的一组数据设),1,0)(,(miyxii),1,0)(nixi的基函数为设函数类mn 一般要求即生成的函数集是由也称,),1,0)(nixi)(,),(),(10 xxxspannmii0222miiiyxS02)(仍然定义平方误差njjjxaxS0)()(我们选取的度量标准是)(*xS中选取一个函数在函数类njjjxaxS0*)()(*)(*)(*)(*1100 xaxaxann22*miiiyxS02)(*(miiixSyxS02)()(min22)(minxS中的任意函数为其中mjjjx
12、axS0)()(-(2)-(3)数据拟合的最小二乘法的方法为的求函数称满足条件njjjxaxS0*)()(*)3(为最小二乘解njjjxaxS0*)()(*为拟合系数为拟合函数),1,0(,)()(0njaxaxSjnjjj),1,0(,)(njaxSj如何求拟合系数后在确定了拟合函数呢?满足拟合条件使得)3()()(*0*njjjxaxS误差称为最小二乘解的平方22*miinjijjyxa020)(miiiyxS02)(22njjjxaxS0)()(由的函数为拟合系数),1,0(njaj可知因此可假设),(10naaa miinjijjyxa020)(因此求最小二乘解转化为二次函数的问题点极
13、小值的最小值求*,*,*,)(),(1010nnaaaaaa由多元函数取极值的必要条件0),(10knaaaank,1,0)()(200ikmiinjijjxyxaka0得即miikimiiknjijjxyxxa000)()()(0)()()(00 ikmiinjikijjxyxxa),(10naaa miinjijjyxa020)(miikimiiknjijjxyxxa000)()()(miikinjjikmiijxyaxx000)()()(nk,1,0-(4)miikiikmiinnikmiiikmiixyxxaxxaxxa00011000)()()()()()()(nk,1,0即元线性方
14、程组的是一个关于显然1,)4(10naaan引入记号)(,),(),(10mrrrxxxr),(10myyyf)()(),(0ijmiikjkxx则由内积的概念可知imiikkyxf0)(),(-(5)-(6),(jk),(kj显然内积满足交换律方程组(4)便可化为),(),(),(),(1100faaaknknkknk,1,0-(7)的线性方程组常数项为这是一个系数为),(),(fkjk将其表示成矩阵形式naaa10),(),(),(10fffn),(),(),(01000n),(),(),(11101n),(),(),(10nnnn-(8)上的法方程组在点式为函数序列称mnxxxxxx,)
15、(,),(),()8(1010的基为函数类由于)(,),(),(10 xxxn必然线性无关因此)(,),(),(10 xxxn并且其系数矩阵为对称阵所以法方程组的系数矩阵非奇异,即0),det(nnji根据Cramer法则,法方程组有唯一解*,*,*,1100nnaaaaaa*),*,*,(10naaa miinjijjyxa020)(),(10naaa即是的最小值22*miiiyxS02)(*(miiixSyxS02)()(min22)(minxS所以 miinjijjyxa020)(*(miinjijjxSyxa020)()(min miinjijjyxa020)(*(为最小二乘解njjj
16、xaxS0*)()(*因此的拟合函数作为常使用多项式),1,0)(,()()(miyxxPxSiin作为一种简单的情况,的基函数为拟合函数)()(xPxSn,1)(0 x,)(1xx,)(,kkxx nnxx)(基函数之间的内积为)()(),(0ijmiikjkxxmijikixx0mijkix0imiikkyxf0)(),(miikiyx022*平方误差miiiyxS02)(*(njjjfaff0),(*),(例1.回到本节开始的实例,从散点图可以看出纤维强度和拉伸倍数之间近似与线性关系xaaxy10)(故可选取线性函数为拟合函数,其基函数为1)(0 xxx)(1建立法方程组根据内积公式,可
17、得24),(005.127),(1061.829),(111.113),(0f6.731),(1f法方程组为61.8295.1275.1272410aa6.7311.1131505.00a即为所求的最小二乘解xxy8587.01505.0)(*8587.01a解得6615.5*22平方误差为1234567891012345678912345678910123456789拟合曲线与散点的关系如右图:例2.求拟合下列数据的最小二乘解x=.24.65.95 1.24 1.73 2.01 2.23 2.52 2.77 2.99y=.23-.26-1.10-.45.27.10-.29.24.56 1解:
18、从数据的散点图可以看出xxycos之间具有三角函数关系与xexy系之间还具有指数函数关与xxyln系之间还具有对数函数关与因此假设拟合函数与基函数分别为xcexbxaxScosln)(xex)(2xxln)(0 xxcos)(100.511.522.53-1.5-1-0.500.51xy6.7941 -5.3475 63.2589-5.3475 5.1084 -49.008663.2589-49.0086 1002.5 1.6163-2.382726.7728通过计算,得法方程组的系数矩阵及常数项矩阵为00.511.522.53-1.5-1-0.500.51xyGo!用Gauss列主元消去法,
19、得cba -1.0410 -1.2613 0.030735xexxxS030735.0cos2613.1ln0410.1)(*的最小二乘解是关于xy22*20)(*(miiiyxS20)030735.0cos2613.1ln0410.1(miixiiyexxi92557.0拟合的平方误差为图象如图例3.在某化学反应里,测得生成物浓度y%与时间t的数据如下,试建立y关于t的经验公式x=1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16y=4.00,6.40,8.00,8.80,9.22,9.50,9.70,9.86,10.00,10.20,10.32,10.42,10.
20、50,10.55,10.58,10.60解:的散点图与浓度画出时间yx具有图示的图形的曲线很多,本题特提供两种形式xbaey 指数函数形式baxxy双曲线形式都是待定系数其中ba,xbay1lnlnxbay11例:例:xy(xi,yi),i=1,2,m方案一:方案一:设设baxxxPy )(求求 a 和和 b 使得使得 最小。最小。miiiiybaxxba12)(),(But hey,the system of equations for a and b is nonlinear!Take it easy!We just have to linearize it 线性化线性化/*lineari
21、zation*/:令:令 ,则,则xXyY1,1 bXaY 就是个就是个线性问题线性问题将将 化为化为 后易解后易解 a 和和b。),(iiYX),(iiyx方案二:方案二:设设xbeaxPy/)(a 0,b 0)线性化:线性化:由由 可做变换可做变换xbay lnlnbBaAxXyY ,ln,1,lnBXAY 就是个就是个线性问题线性问题将将 化为化为 后易解后易解 A 和和B),(iiYX),(iiyxxbAeaxPBbea/)(,tbaey 指数函数形式).1(tbay1lnln两边取对数,得aattyyln,1,ln设t bay得即为拟合函数基函数为,1)(0 ttt)(10567.1
22、,427.2ba解法方程组得325.11atey0567.1325.11最小二乘解为11631.0*221平方误差为batty双曲线形式).2(tbay1116272.0080174.0ba用最小二乘法得即16272.0080174.0tty5621.1*222无论从图形还是从平方误差考虑在本例中指数函数拟合比双曲线拟合要好02468101214164567891011ty02468101214164567891011ty02468101214164567891011ty02468101214164567891011ty平方误差为定义定义权函数:权函数:离散型离散型/*discrete typ
23、e*/根据一系列离散点根据一系列离散点 拟合时,在每一误拟合时,在每一误差前乘一正数差前乘一正数wi,即,即 误差函数误差函数 ,这个,这个wi 就称作就称作权权/*weight*/,反映该点的重要程度。,反映该点的重要程度。),.,1(),(niyxii niiiiyxPw12)(连续型连续型/*continuous type*/在在a,b上用广义多项式上用广义多项式 P(x)拟合连续函数拟合连续函数 f(x)时,定义时,定义权函权函数数 (x)Ca,b,即误差函数,即误差函数 =。权函数权函数(x)必须必须满足:非负、可积,且在满足:非负、可积,且在a,b的任何子区间的任何子区间上上(x)
24、0。dxxyxPxba2)()()(加权最小二乘法加权最小二乘法),1,0)(,(miyxii对于一组给定的数据点中在拟合的数据点),1,0)(,(miyxii各点的重要性可能是不一样的的重度表示数据点假设),(iiiyx重度:即权重或者密度,统称为权系数mk,1,0 定义加权平方误差为miii0222miiiiyxy02)(-(9)来自函数类设拟合函数)(xS),1,0)(nixi的基函数为函数类)(,),(),(10 xxxspannmiiiiyxS02)(*()(xS)()()(1100 xaxaxann为拟合系数),1,0(njaj),1,0(*njaj组拟合的目标仍然为找一22*mi
25、iiixSyxS02)()(min22)(minxS使得),(10naaa求miinjijjiyxa020)(的问题点极小值的最小值*,*,*,)(10naaa由多元函数取极值的必要条件0),(10knaaaank,1,0)()(200ikmiinjijjixyxaka0得即 miikiimiiknjijjixyxxa000)()()(0)()()(00ikmiiinjikijjixyxxa miikiimiiknjijiixyxxa000)()()(miikiinjjikmiijixyaxx000)()()(nk,1,0元线性方程组的是一个关于显然1,)10(10naaan引入记号)(,),
26、(),(10mrrrxxxr),(10myyyf定义加权内积-(10)()(),(0ijmiikijkxximiikikyxf0)(),(),(),(),(),(1100faaaknknkknk,1,0矩阵形式(法方程组)为naaa10),(),(),(10fffn),(),(),(01000n),(),(),(11101n),(),(),(10nnnn方程组(10)式化为-(11)-(12)平方误差为miiiiyxS02)(*(22*作为特殊情形作为特殊情形,用多项式作拟合函数的法方程组为用多项式作拟合函数的法方程组为miiniimiiiimiiinimiinimiinimiinimiiim
27、iiimiinimiiimiimiiyxyxyaaaxxxxxxxx000102010010200000-(13)例:例:连续型拟合中,取连续型拟合中,取1,0)(,1)(,)(Cxyxxxjj 则则 1011),(jidxxxjiji Hilbert阵!阵!改进:改进:若能取函数族若能取函数族=0(x),1(x),n(x),,使得任意一对使得任意一对 i(x)和和 j(x)两两两两(带权)正交(带权)正交,则则 B 就化为就化为对角阵对角阵!这时直接可算出这时直接可算出ak=),(),(kkky 用正交多项式作最小二乘拟合*选为基底的基函数若拟合函数)()(xS),()(00 xPx,),(
28、)(11xPx)()(xPxnn为正交多项式且)(,),(),(10 xPxPxPn),1,0)(,(miyxii对于一组给定的数据点),(jkPPjk 0jk kAmiijikixPxP1)()(即0kA其中正交多项式如何选取呢正交多项式如何选取呢-(14)线性无关显然)(,),(),(10 xPxPxPn线性表示次多项式均可由任意且)(,),(),(10 xPxPxPkk1)(,),(),(10时令其首项均为选取正交多项式xPxPxPn)(1xxPkk次多项式考虑 线性表示显然其可由)(,),(),(110 xPxPxPk1,110kk即存在系数)()()(110 xPxPxPkkkkjj
29、j使得)(xxPk)()()(110 xPxPxPkkkkjjj)(xxPk),(skPxP)(),()()(110 xPxPxPxPskkkkjjj)(ks),(skPxP),(sssPP),(kkPxP),(kkkPP由可知因此),(),(kkkkPPPxPks),(),(ssskPPPxPs),(),(ssskPPPxP而),(),(ssskPPxPP次多项式为1)(sxxPs线性表示可由正交多项式组10)(sjxP时当ks10),(skxPP时即1 ks因此s110ksks),(),(111kkkkPPxPP),(),(111kkkkPPxPP),(),(11kkkkPPPP)()()
30、()(101xPxPxxPxPkkkjjjkk)()()(11xPxPxkkkk可知最后可得正交多项式选取的方法:1)(0 xP01)(xxPmiiixm0011),(),(0000PPPxP)(1xPk)()()(11xPxPxkkkk),(),(111kkkkkPPPP),(),(kkkkPPPxPk-(15)ni,2,1)()()(110 xPxPxPkkkkjjj)(xxPk由naaa10),(),(),(10fffn),(),(),(01000n),(),(),(11101n),(),(),(10nnnn作拟合选择正交多项式)(,),(),(10 xPxPxPn),1,0)(,(mi
31、yxiii的数据点对于一组给定的带权)()()()(1100 xPaxPaxPaxSnnmiiiiyxS02)(*(22*miiiixSyxS02)()(min22)(minxS使得由正交多项式的性质,法方程组),(),(fPaPPkkkkni,2,1,0-(16),(),(*kkkkPPfPa-(17)naaa10),(),(),(10fPfPfPn00),(00PP0),(011PP),(00nnPP可化为即得)(*)(*)(*)(*1100 xPaxPaxPaxSnn即为利用正交多项式的最小二乘解miiiiyxS02)(*(22*平方误差为)(*,)(*(fxSfxS),()*,(2*)
32、*,(fffSSS),(),(*2),(*002fffPaPPankkknkkkk),(),(*2),(*0202ffPPaPPankkkknkkkknkkkkPPaff02),(*),(例4.如下及权重给定数据点iiiyx),(11111110.371.244.219.296.175.110.19.08.07.06.05.00iiiyx是用最小二乘法求拟合这组数据的多项式解:00.10.20.30.40.50.60.70.80.9111.21.41.61.822.22.42.62.83从散点图可知数据和二次多项式拟合较好因此选用二次多项式作这组数据的拟合函数00.10.20.30.40.50
33、.60.70.80.9111.21.41.61.822.22.42.62.83设拟合函数为基函数)(),(),(210 xPxPxP)()()()(221100 xPaxPaxPaxS取1)(0 xP01)(xxP0),(),(0000PPPxP75.4642857.0 x0a),(),(000PPfP15.2705.151a),(),(111PPfP978260.1657143.0300000.11),(),(1111PPPxP335403.0657143.0220408.0),(),(00110PPPP093878.07657143.0)(2xP)()()(0011xPxPx093878.0)642857.0)(335403.0(xx2a),(),(222PPfP999942.0068660.0068656.0121738.0978260.02xx