1、华长生制作1iiijjijiilxlbx11nnnnnnaaaaaaaaaA212222111211bAx ni,3,2第二章 插值与逼近 2.9 数据拟合数据拟合(最小二乘法最小二乘法)华长生制作2 2.9 数据拟合数据拟合(最小二乘法最小二乘法)实例:考察某种纤维的强度与其拉伸倍数的关系,下表是实际测定的24个纤维样品的强度与相应的拉伸倍数是记录:编 号 拉伸倍数 强 度编 号 拉伸倍数 强 度11.91.41355.5221.3145.2532.11.81565.542.52.5166.36.452.72.8176.5662.72.5187.15.373.531986.583.52.72
2、087944218.98.51043.52298114.54.2239.58.1124.63.524108.1iiyxiiyx华长生制作31234567891012345678912345678910123456789纤维强度随拉伸倍数增加而增加系要关系应是线性关的主与拉伸倍数因此可以认为强度xy并且24个点大致分布在一条直线附近xxy10)(为待定参数其中10,-(1)华长生制作4越接近越好样本点与所有的数据点我们希望),)()(10iiyxxxy必须找到一种度量标准来衡量什么曲线最接近所有数据点一、最小二乘法的基本概念iiiyxy)(令一般使用mii0222在回归分析中称为残差miiiyx
3、y02)(准偏离程度大小的度量标与数据点作为衡量),()(iiyxxy称为平方误差华长生制作5在回归分析中称为残差平方和从而确定(1)中的待定系数mii0222miiiyxy02)(注意(1)式是一条直线关系的关系并不一定是线性但yx,因此将问题一般化华长生制作6)(,xSyyx的关系为设来自函数类其中)(xS来自线性函数类中如)()1(xy为给定的一组数据设),1,0)(,(miyxii),1,0)(nixi的基函数为设函数类mn 一般要求即生成的函数集是由也称,),1,0)(nixi)(,),(),(10 xxxspannmii0222miiiyxS02)(仍然定义平方误差njjjxaxS
4、0)()(华长生制作7我们选取的度量标准是)(*xS中选取一个函数在函数类njjjxaxS0*)()(*)(*)(*)(*1100 xaxaxann22*miiiyxS02)(*(miiixSyxS02)()(min22)(minxS中的任意函数为其中mjjjxaxS0)()(-(2)-(3)华长生制作8数据拟合的最小二乘法的方法为的求函数称满足条件njjjxaxS0*)()(*)3(为最小二乘解njjjxaxS0*)()(*为拟合系数为拟合函数),1,0(,)()(0njaxaxSjnjjj),1,0(,)(njaxSj如何求拟合系数后在确定了拟合函数呢?满足拟合条件使得)3()()(*0*
5、njjjxaxS误差称为最小二乘解的平方22*华长生制作9 miinjijjyxa020)(miiiyxS02)(二、法方程组22njjjxaxS0)()(由的函数为拟合系数),1,0(njaj可知因此可假设),(10naaa miinjijjyxa020)(因此求最小二乘解转化为二次函数华长生制作10的问题点极小值的最小值求*,*,*,)(),(1010nnaaaaaa由多元函数取极值的必要条件0),(10knaaaank,1,0)()(200ikmiinjijjxyxaka0得即miikimiiknjijjxyxxa000)()()(0)()()(00 ikmiinjikijjxyxxa华
6、长生制作11miikimiiknjijjxyxxa000)()()(miikinjjikmiijxyaxx000)()()(nk,1,0-(4)miikiikmiinnikmiiikmiixyxxaxxaxxa00011000)()()()()()()(nk,1,0即华长生制作12元线性方程组的是一个关于显然1,)4(10naaan引入记号)(,),(),(10mrrrxxxr),(10myyyf)()(),(0ijmiikjkxx则由内积的概念可知imiikkyxf0)(),(-(5)-(6),(jk),(kj显然内积满足交换律华长生制作13方程组(4)便可化为),(),(),(),(110
7、0faaaknknkknk,1,0-(7)的线性方程组常数项为这是一个系数为),(),(fkjk将其表示成矩阵形式naaa10),(),(),(10fffn),(),(),(01000n),(),(),(11101n),(),(),(10nnnn-(8)华长生制作14上的法方程组在点式为函数序列称mnxxxxxx,)(,),(),()8(1010的基为函数类由于)(,),(),(10 xxxn必然线性无关因此)(,),(),(10 xxxn并且其系数矩阵为对称阵所以法方程组的系数矩阵非奇异,即0),det(nnji根据Cramer法则,法方程组有唯一解*,*,*,1100nnaaaaaa华长生
8、制作15*),*,*,(10naaa miinjijjyxa020)(),(10naaa即是的最小值22*miiiyxS02)(*(miiixSyxS02)()(min22)(minxS所以 miinjijjyxa020)(*(miinjijjxSyxa020)()(min miinjijjyxa020)(*(为最小二乘解njjjxaxS0*)()(*因此华长生制作16的拟合函数作为常使用多项式),1,0)(,()()(miyxxPxSiin作为一种简单的情况,的基函数为拟合函数)()(xPxSn,1)(0 x,)(1xx,)(,kkxx nnxx)(基函数之间的内积为)()(),(0ijmi
9、ikjkxxmijikixx0mijkix0imiikkyxf0)(),(miikiyx022*平方误差miiiyxS02)(*(njjjfaff0),(*),(华长生制作17例1.回到本节开始的实例,从散点图可以看出纤维强度和拉伸倍数之间近似与线性关系xaaxy10)(故可选取线性函数为拟合函数,其基函数为1)(0 xxx)(1建立法方程组根据内积公式,可得华长生制作1824),(005.127),(1061.829),(111.113),(0f6.731),(1f法方程组为61.8295.1275.1272410aa6.7311.1131505.00a即为所求的最小二乘解xxy8587.0
10、1505.0)(*8587.01a解得6615.5*22平方误差为华长生制作191234567891012345678912345678910123456789拟合曲线与散点的关系如右图:华长生制作20例2.求拟合下列数据的最小二乘解x=.24.65.95 1.24 1.73 2.01 2.23 2.52 2.77 2.99y=.23-.26-1.10-.45.27.10-.29.24.56 1解:从数据的散点图可以看出xxycos之间具有三角函数关系与xexy系之间还具有指数函数关与xxyln系之间还具有对数函数关与因此假设拟合函数与基函数分别为xcexbxaxScosln)(xex)(2x
11、xln)(0 xxcos)(1华长生制作2100.511.522.53-1.5-1-0.500.51xy6.7941 -5.3475 63.2589-5.3475 5.1084 -49.008663.2589-49.0086 1002.5 1.6163-2.382726.7728通过计算,得法方程组的系数矩阵及常数项矩阵为00.511.522.53-1.5-1-0.500.51xyGo!Go!华长生制作22用Gauss列主元消去法,得cba -1.0410 -1.2613 0.030735xexxxS030735.0cos2613.1ln0410.1)(*的最小二乘解是关于xy22*20)(*
12、(miiiyxS20)030735.0cos2613.1ln0410.1(miixiiyexxi92557.0拟合的平方误差为图象如图华长生制作23例3.在某化学反应里,测得生成物浓度y%与时间t的数据如下,试建立y关于t的经验公式t=1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16y=4.00,6.40,8.00,8.80,9.22,9.50,9.70,9.86,10.00,10.20,10.32,10.42,10.50,10.55,10.58,10.60解:的散点图与浓度画出时间yt具有图示的图形的曲线很多,本题特提供两种形式tbaey 指数函数形式batty双
13、曲线形式都是待定系数其中ba,tbay1lnlntbay11华长生制作24tbaey 指数函数形式).1(tbay1lnln两边取对数,得aattyyln,1,ln设t bay得即为拟合函数基函数为,1)(0 ttt)(10567.1,427.2ba解法方程组得325.11atey0567.1325.11最小二乘解为11631.0*221平方误差为华长生制作25batty双曲线形式).2(tbay1116272.0080174.0ba用最小二乘法得即16272.0080174.0tty5621.1*222无论从图形还是从平方误差考虑在本例中指数函数拟合比双曲线拟合要好0246810121416
14、4567891011ty02468101214164567891011ty02468101214164567891011ty02468101214164567891011ty平方误差为华长生制作26三、加权最小二乘法),1,0)(,(miyxii对于一组给定的数据点中在拟合的数据点),1,0)(,(miyxii各点的重要性可能是不一样的的重度表示数据点假设),(iiiyx重度:即权重或者密度,统称为权系数mk,1,0 定义加权平方误差为miii0222miiiiyxy02)(-(9)华长生制作27来自函数类设拟合函数)(xS),1,0)(nixi的基函数为函数类)(,),(),(10 xxxs
15、pannmiiiiyxS02)(*()(xS)()()(1100 xaxaxann为拟合系数),1,0(njaj),1,0(*njaj组拟合的目标仍然为找一22*miiiixSyxS02)()(min22)(minxS使得华长生制作28),(10naaa求miinjijjiyxa020)(的问题点极小值的最小值*,*,*,)(10naaa由多元函数取极值的必要条件0),(10knaaaank,1,0)()(200ikmiinjijjixyxaka0得即 miikiimiiknjijjixyxxa000)()()(0)()()(00ikmiiinjikijjixyxxa华长生制作29 miiki
16、imiiknjijiixyxxa000)()()(miikiinjjikmiijixyaxx000)()()(nk,1,0元线性方程组的是一个关于显然1,)10(10naaan引入记号)(,),(),(10mrrrxxxr),(10myyyf定义加权内积-(10)华长生制作30)()(),(0ijmiikijkxximiikikyxf0)(),(),(),(),(),(1100faaaknknkknk,1,0矩阵形式(法方程组)为naaa10),(),(),(10fffn),(),(),(01000n),(),(),(11101n),(),(),(10nnnn方程组(10)式化为-(11)-(
17、12)华长生制作31平方误差为miiiiyxS02)(*(22*作为特殊情形,用多项式作拟合函数的法方程组为miiniimiiiimiiinimiinimiinimiinimiiimiiimiinimiiimiimiiyxyxyaaaxxxxxxxx000102010010200000-(13)华长生制作32四、用正交多项式作最小二乘拟合*选为基底的基函数若拟合函数)()(xS),()(00 xPx,),()(11xPx)()(xPxnn为正交多项式且)(,),(),(10 xPxPxPn),1,0)(,(miyxii对于一组给定的数据点),(jkPPjk 0jk kAmiijikixPxP1
18、)()(即0kA其中正交多项式如何选取呢-(14)华长生制作33线性无关显然)(,),(),(10 xPxPxPn线性表示次多项式均可由任意且)(,),(),(10 xPxPxPkk1)(,),(),(10时令其首项均为选取正交多项式xPxPxPn)(1xxPkk次多项式考虑 线性表示显然其可由)(,),(),(110 xPxPxPk1,110kk即存在系数)()()(110 xPxPxPkkkkjjj使得)(xxPk华长生制作34)()()(110 xPxPxPkkkkjjj)(xxPk),(skPxP)(),()()(110 xPxPxPxPskkkkjjj)(ks),(skPxP),(s
19、ssPP),(kkPxP),(kkkPP由可知因此),(),(kkkkPPPxPks),(),(ssskPPPxP华长生制作35s),(),(ssskPPPxP而),(),(ssskPPxPP次多项式为1)(sxxPs线性表示可由正交多项式组10)(sjxP时当ks10),(skxPP时即1 ks因此s110ksks),(),(111kkkkPPxPP),(),(111kkkkPPxPP),(),(11kkkkPPPP华长生制作36)()()()(101xPxPxxPxPkkkjjjkk)()()(11xPxPxkkkk可知最后可得正交多项式选取的方法:1)(0 xP01)(xxPmiiixm
20、0011),(),(0000PPPxP)(1xPk)()()(11xPxPxkkkk),(),(111kkkkkPPPP),(),(kkkkPPPxPk-(15)ni,2,1)()()(110 xPxPxPkkkkjjj)(xxPk由华长生制作37naaa10),(),(),(10fffn),(),(),(01000n),(),(),(11101n),(),(),(10nnnn作拟合选择正交多项式)(,),(),(10 xPxPxPn),1,0)(,(miyxiii的数据点对于一组给定的带权)()()()(1100 xPaxPaxPaxSnnmiiiiyxS02)(*(22*miiiixSyx
21、S02)()(min22)(minxS使得由正交多项式的性质,法方程组华长生制作38),(),(fPaPPkkkkni,2,1,0-(16),(),(*kkkkPPfPa-(17)naaa10),(),(),(10fPfPfPn00),(00PP0),(011PP),(00nnPP可化为即得)(*)(*)(*)(*1100 xPaxPaxPaxSnn即为利用正交多项式的最小二乘解华长生制作39miiiiyxS02)(*(22*平方误差为)(*,)(*(fxSfxS),()*,(2*)*,(fffSSS),(),(*2),(*002fffPaPPankkknkkkk),(),(*2),(*020
22、2ffPPaPPankkkknkkkknkkkkPPaff02),(*),(华长生制作40例4.如下及权重给定数据点iiiyx),(11111110.371.244.219.296.175.110.19.08.07.06.05.00iiiyx是用最小二乘法求拟合这组数据的多项式解:00.10.20.30.40.50.60.70.80.9111.21.41.61.822.22.42.62.83从散点图可知数据和二次多项式拟合较好因此选用二次多项式作这组数据的拟合函数00.10.20.30.40.50.60.70.80.9111.21.41.61.822.22.42.62.83华长生制作41设拟合
23、函数为基函数)(),(),(210 xPxPxP)()()()(221100 xPaxPaxPaxS取1)(0 xP01)(xxP0),(),(0000PPPxP75.4642857.0 x0a),(),(000PPfP15.2705.151a),(),(111PPfP978260.1657143.0300000.1华长生制作421),(),(1111PPPxP335403.0657143.0220408.0),(),(00110PPPP093878.07657143.0)(2xP)()()(0011xPxPx093878.0)642857.0)(335403.0(xx2a),(),(222PPfP999942.0068660.0068656.0121738.0978260.02xx华长生制作43)()()()(221100 xPaxPaxPaxS因此拟合多项式为999993.0000057.1999942.02xx平方误差为22*nkkkkPPaff02),(*),(1010313856.2华长生制作44五、利用正交多项式作最小二乘法的算法设计下周请交第三章作业及应用题