1、 最小二乘法最小二乘法 插值方法插值方法 当问题的机理非常不清楚难以直接利用其他知当问题的机理非常不清楚难以直接利用其他知识来建模时,一个较为自然的方法是利用数据识来建模时,一个较为自然的方法是利用数据进行曲线拟合,找出变量之间的近似依赖关系进行曲线拟合,找出变量之间的近似依赖关系即函数关系。即函数关系。经验模型经验模型设经实际测量已得设经实际测量已得 到到n组数据(组数据(xi,yi),),i=1,n。将数据。将数据画在平面直角坐标系中,见画在平面直角坐标系中,见 图。如果建模者判断图。如果建模者判断 这这n个点很个点很象是分布在某条直线附近,令象是分布在某条直线附近,令 该直线方程该直线方
2、程 为为y=ax+b,进而,进而利用数据来求参利用数据来求参 数数a和和b。由于该直线只是数据近似满足的。由于该直线只是数据近似满足的关系式,故关系式,故 yi-(axi+b)=0一般不成立,但我们希望一般不成立,但我们希望 niiibaxy12)(最小最小此式对此式对a和和b的偏导数均的偏导数均 为为0,解相应方程组,求得:解相应方程组,求得:xaybxxyyxxaniiniii121)()(y=ax+byO(xi,yi)x其中其中 和和 分别为分别为xi和和yi的平均值的平均值 xy如果建模者判断变量间的关系并非线性关系而是其他类型的函数,如果建模者判断变量间的关系并非线性关系而是其他类型
3、的函数,则可作则可作 变量替换变量替换使之转化为线性关系或用类似方使之转化为线性关系或用类似方 法法拟合拟合。显然,运动员体重越大,他能举起的重量也越大,但举重显然,运动员体重越大,他能举起的重量也越大,但举重成绩和运动员体重到底是怎样关系的,不同量级运动员的成绩和运动员体重到底是怎样关系的,不同量级运动员的成绩又如何比较优劣呢?运动成绩是包括生理条件、心理成绩又如何比较优劣呢?运动成绩是包括生理条件、心理因素等等众多相关因素共同作用的结果,要建立精确的模因素等等众多相关因素共同作用的结果,要建立精确的模型至少现在还无法办到。但我们拥有大量的比赛成绩纪录,型至少现在还无法办到。但我们拥有大量的
4、比赛成绩纪录,根据这些数据不妨可以建立一些经验模型。为简单起见,根据这些数据不妨可以建立一些经验模型。为简单起见,我们不妨取表中的数据为例。我们不妨取表中的数据为例。例例1(举重成绩的比较)(举重成绩的比较)举重举重是一种一般人都能看懂的运动,它共分是一种一般人都能看懂的运动,它共分九个重量级,有两种主要的比赛方法:抓举九个重量级,有两种主要的比赛方法:抓举和挺举。和挺举。表中给出了到表中给出了到1977年底为止九个年底为止九个重量级的世界纪录。重量级的世界纪录。255200110以上以上237.518511022118090207.517082.5195157.575180141.567.5
5、161.513060151120.55614110952挺举(公斤)挺举(公斤)抓举(公斤)抓举(公斤)成绩成绩重量级(上限体重量级(上限体重)重)模型模型1(线性模型)(线性模型)将数据画在直角坐标系中可以发现,运动成绩与体将数据画在直角坐标系中可以发现,运动成绩与体量近似满足线性关系,只有量近似满足线性关系,只有110公斤级有点例外,两公斤级有点例外,两项成绩都显得较低。应用前面叙述的方法可求出近项成绩都显得较低。应用前面叙述的方法可求出近似关似关 系式系式L=kB+C,其中,其中B为体重,为体重,L为举重成绩。为举重成绩。你在作图你在作图 时时L轴可以放轴可以放 在在50公斤或公斤或52
6、公斤处,因为公斤处,因为没有更轻级别的比赛,具体计算留给读者自己去完没有更轻级别的比赛,具体计算留给读者自己去完成。成。模型模型2(幂函数模型)(幂函数模型)线性模型并未得到广泛的接受,要改进结果,能够线性模型并未得到广泛的接受,要改进结果,能够想到的自然首先是幂函数模型,即令想到的自然首先是幂函数模型,即令L=kBa,对此式,对此式取对数,得取对数,得 到到lnL=lnk+a lnB。将原始数据也取对数,。将原始数据也取对数,问题即转化了线性模型,可用最小二乘法求出参数。问题即转化了线性模型,可用最小二乘法求出参数。几十年前英国和爱尔兰采用的比较举重成绩优劣几十年前英国和爱尔兰采用的比较举重
7、成绩优劣 的的Austin公式公式:L=L/B3/4就是用这一方法求得的。就是用这一方法求得的。模型模型3(经典模型)(经典模型)经典模型是根据生理学中的已知结果和比例关系推导出来的经典模型是根据生理学中的已知结果和比例关系推导出来的公式,应当说,它并不属于经验公式。为建立数学模型,先公式,应当说,它并不属于经验公式。为建立数学模型,先提出如下一些假设:提出如下一些假设:(1)举重成绩正比于选手肌肉的平均横截举重成绩正比于选手肌肉的平均横截 面积面积A,即,即L=k1A(2)A正比于身高正比于身高 L的平方,即的平方,即 A=k2L2(3)体重正比于身高体重正比于身高 L的三次方,的三次方,即
8、即B=k3L3根据上述假设,可得根据上述假设,可得 3232321)(KBkBkkL显然,显然,K越大则成绩越好,故可用越大则成绩越好,故可用 来比较选手来比较选手比赛成绩的优劣。比赛成绩的优劣。32LBL32321kkkK模型模型4(O Carroll公式)公式)经验公式的主要依据是比例关系,其假设条件非常粗糙,可经验公式的主要依据是比例关系,其假设条件非常粗糙,可信度不大,因而大多数人认为它不能令人信服。信度不大,因而大多数人认为它不能令人信服。1967年,年,O Carroll基于动物学和统计分析得出了一个现在被广泛使用的基于动物学和统计分析得出了一个现在被广泛使用的公式。公式。O Ca
9、rroll模型的假设条件是:模型的假设条件是:(1)L=k1Aa,a1 (2)A=k2Lb,b2(3)B-Bo=k3L3 假设假设(1)、(2)是解剖学中的统计规律,在假设是解剖学中的统计规律,在假设(3)中)中O Carroll将体重划分成两部分:将体重划分成两部分:B=B0+B1,B0为非肌肉重量。为非肌肉重量。故有:故有:3 31 135)35)(BkL根据三条假设可根据三条假设可 得得L=k(B-B0),k和和为两个常数,为两个常数,3 32 23 3ab此外,根据统计结果,他此外,根据统计结果,他 得出得出B035公斤,公斤,3 31 1k越大成绩越好。因而建议越大成绩越好。因而建议
10、根据的大小根据的大小 来比来比 较选手成绩的优劣。较选手成绩的优劣。3 31 135)35)(BLL模型模型5(Vorobyev公式)公式)这是一个前苏联使用的公式。建模者认为举重选手举起的不这是一个前苏联使用的公式。建模者认为举重选手举起的不光是重物,也提高了自己的重心,故其举起的总重量为光是重物,也提高了自己的重心,故其举起的总重量为L+B,可以看出,他们更重视的是腿部肌肉的爆发力。应用与模型可以看出,他们更重视的是腿部肌肉的爆发力。应用与模型4类似的方法,得出了按类似的方法,得出了按 的大小比较成绩优劣的建议。的大小比较成绩优劣的建议。60)/900BBBLL(0.45上述公式具有各不相
11、同的基准,无法相互比较。为了使公式具上述公式具有各不相同的基准,无法相互比较。为了使公式具有可比性,需要对公式稍作处理。例如,我们可以要求各公式有可比性,需要对公式稍作处理。例如,我们可以要求各公式均满足均满足在在 B=75公斤时有公斤时有 L=L,则上述各公式化为:,则上述各公式化为:(1)Austin公式:公式:(2)经典经典公式:公式:(3)O Carroll公式:公式:(4)Vorobyev公式:公式:4 43 37 75 5BLL3 32 27 75 5BLL3 31 13 35 54 40 0BLL7575)(465(465)29250(29250(BBBLL将公式(将公式(1)(
12、4)用来比较)用来比较1976年奥运会的抓举成绩,各年奥运会的抓举成绩,各公式对九个级别冠军成绩的优劣排序如表公式对九个级别冠军成绩的优劣排序如表 所示,比较结果所示,比较结果较为一致,例如,对前三名的取法是完全一致的,其他排序较为一致,例如,对前三名的取法是完全一致的,其他排序的差异也较为微小。的差异也较为微小。138.5(8)141.9(7)135.6(7)131.8(8)175110150.3(2)152.9(2)150.5(2)148.3(2)17090152.1(1)153.5(1)152.2(1)151.3(1)162.542.5145.0(6)145.0(5)145.0(3)14
13、5.0(6)14575145.8(5)144.7(6)144.8(5)146.1(5)13567.5147.7(3)146.2(3)145.0(3)147.8(3)12560146.6(4)145.7(4)142.8(6)146.3(4)117.556138.8(7)139.7(8)134.0(8)138.2(7)10552VorobyevO Carroll经典公式经典公式Austin抓举成绩抓举成绩(公斤公斤)体重体重(公斤公斤)我们希望建立一个我们希望建立一个 体重体重与与身高身高之间的关系式,不难看出两者之间的关系式,不难看出两者之间的关系不易通过机理的分析得出,不妨可以采取之间的关系不
14、易通过机理的分析得出,不妨可以采取 统计统计方法方法,用数据来拟合出与实际情况较为相符的经验公式。,用数据来拟合出与实际情况较为相符的经验公式。为为此,我们先作一番抽样调查,测量了十五个不同高度的人的此,我们先作一番抽样调查,测量了十五个不同高度的人的体重,列成了体重,列成了 下表,在抽样时,各高度的人都需经适当挑选,下表,在抽样时,各高度的人都需经适当挑选,既不要太胖也不要太瘦。既不要太胖也不要太瘦。例例2 体重与身高的体重与身高的 关系关系将表中的数画将表中的数画 到到h-w平面上,你会发现这些数据分布很接近某平面上,你会发现这些数据分布很接近某一指数曲线。为此,一指数曲线。为此,对对h和
15、和w均取对数,令均取对数,令x=lnh,y=lnw,将,将(xi,yi)再画到)再画到x-y平面中去(平面中去(i=1,15),这次你会发现这),这次你会发现这些点几乎就分布在一条直线附近,令此直线的些点几乎就分布在一条直线附近,令此直线的 方程为方程为y=ax+b,用最小二乘法求,用最小二乘法求 得得a2.3,b2.82,故可取,故可取y=2.32x+2.84,即,即lnw=2.32lnh+2.84,故有,故有w=17.1h2.327566595451体重体重 w(公斤)(公斤)1.851.781.711.671.63身高身高 h(米)(米)5048413527体重体重 w(公斤)(公斤)1
16、.601.551.511.351.26身高身高 h(米)(米)2017151210体重体重 w(公斤)(公斤)1.121.080.960.860.75身高身高 h(米)(米)在使用在使用 最小二乘法最小二乘法 时,我们并未要求得到的拟合曲线一定时,我们并未要求得到的拟合曲线一定要经过所有的样本点,而只是要求要经过所有的样本点,而只是要求 了了总偏差最小总偏差最小。当实际。当实际问题要求拟合曲线必须问题要求拟合曲线必须 经过样本点经过样本点 时,我们可以应用数值时,我们可以应用数值逼近中的逼近中的 插值法插值法。根据实际问题的不同要求,存在多种不同的插值方法,有根据实际问题的不同要求,存在多种不
17、同的插值方法,有只要求过样本点的只要求过样本点的 拉格朗日插值拉格朗日插值 法法、牛顿插值法牛顿插值法 等,有既等,有既要求过插值点(即样本点)又对插值点处的导数有所要求要求过插值点(即样本点)又对插值点处的导数有所要求的的样条(样条(Spline)插值)插值,甚至还有对插值曲线的凹凸也有,甚至还有对插值曲线的凹凸也有要求的要求的B样条插值法样条插值法。本课不准备详细介绍这些细致的插。本课不准备详细介绍这些细致的插值方法,只是提请读者注意,在建立经验模型时,插值法值方法,只是提请读者注意,在建立经验模型时,插值法也是可以使用的数学工具之一。也是可以使用的数学工具之一。对插值法感兴趣的对插值法感兴趣的 同学可以查同学可以查阅相关书籍,例如由阅相关书籍,例如由 李岳生李岳生编著上编著上海科学技术出版社出版的海科学技术出版社出版的样条与样条与插值插值(1983年出版)等。年出版)等。