1、回归分析回归分析5.1 概述概述 回归分析回归分析研究变量与变量之间关系的数学研究变量与变量之间关系的数学方法。方法。 变量之间的关系:变量之间的关系:5.1.1 确定性关系确定性关系 函数关系,经反复的精确试验或严格的数学推函数关系,经反复的精确试验或严格的数学推导得到。如导得到。如 S= vt 。数学分析和物理学中的大多数学分析和物理学中的大多数公式属于这种类型。数公式属于这种类型。到方差分析到方差分析 实际问题中,绝大多数情况下,变量之间的关系实际问题中,绝大多数情况下,变量之间的关系不那么简单。如材料的抗拉强度与其硬度之间的关系;不那么简单。如材料的抗拉强度与其硬度之间的关系;材料的性
2、能与其化学成份之间等等。材料的性能与其化学成份之间等等。 这些变量之间既存在着密切的关系,又不能由一这些变量之间既存在着密切的关系,又不能由一个(或几个)变量(自变量)的数值精确地求出另一个(或几个)变量(自变量)的数值精确地求出另一个变量(因变量)的数值,而是要通过试验和调查研个变量(因变量)的数值,而是要通过试验和调查研究,才能确定它们之间的关系,如究,才能确定它们之间的关系,如图图5.1所示,虽然各所示,虽然各组数据不是准确地服从组数据不是准确地服从f(x)关系,但关系,但y值总还是随值总还是随x的的增加而增加。我们称这类变量之间的关系为增加而增加。我们称这类变量之间的关系为相关关系。相
3、关关系。 5.1.2 相关关系相关关系 图5.1 相关关系024681012141605101520 xy 虽然各组数据不是准确地服从虽然各组数据不是准确地服从f(x)关系,但关系,但y值总值总还是随还是随x的增加而变化。的增加而变化。5.1 概述概述回归分析的主要内容:回归分析的主要内容: 应用数学的方法,对大量的测量数据进行处理,应用数学的方法,对大量的测量数据进行处理,从而得出比较符合事物内部规律的数学表达式(数学模从而得出比较符合事物内部规律的数学表达式(数学模型)。型)。),(21Ncccxfy(5-1)待定常数待定常数5 .2 最小二乘法原理最小二乘法原理 假设假设 x 和和 y
4、是具有某种相关关系的物理量,它们是具有某种相关关系的物理量,它们之间的关系可用下式给出:之间的关系可用下式给出:5 .2 最小二乘法原理最小二乘法原理 同时测量同时测量 x ,y 的数值,设有的数值,设有 m 对观测结果:对观测结果:),( ,),(),(2211mmyxyxyx 利用观测值,确定利用观测值,确定 。设。设 x,y 关系的关系的最佳形式为:最佳形式为:Nccc,21),(21Ncccxfy(5-2)(5-3)最佳估计值最佳估计值如不存在测量误差,则:如不存在测量误差,则:micccxfyNii, 2 , 1),(21(5-4)由于存在测量误差,因而式(由于存在测量误差,因而式(
5、5-3)与()与(5-4)不相重合,即有:)不相重合,即有:miyyeiii, 2 , 1(5-5)残差残差误差的实测值误差的实测值5 .2 最小二乘法原理最小二乘法原理 式(式(53)中的)中的 x 变化时,变化时,y 也随之变化。如果也随之变化。如果 m 对观测对观测值中有比较多的值中有比较多的 y 值落到曲线(值落到曲线(51)上,则所得曲线就能较)上,则所得曲线就能较为满意地反映被测物理量之间的关系,为满意地反映被测物理量之间的关系,y 值同时出现的概率最大,值同时出现的概率最大,则曲线(则曲线(53)就是曲线()就是曲线(51)的最佳形式。如)的最佳形式。如图图5.1a所示。所示。如
6、果误差服从正态分布,则概率如果误差服从正态分布,则概率 P(e1, e2, , em)为:为: miimiiieyyS1212)((57)当当P最大时,求得的曲线就应当是最佳形式。从图最大时,求得的曲线就应当是最佳形式。从图5-1a中可以看中可以看出,显然,此时下式应最小:出,显然,此时下式应最小:miiimyyeeeP122212)(exp21),( (56)即残差平方和最小,这就是最小二乘法原理的由来。即残差平方和最小,这就是最小二乘法原理的由来。图图5.1aiy 38141514108y = 0.0108x3 - 0.4408x2 + 4.8901x - 1.97640246810121
7、4161805101520 xyx1 13 36 68 81010131316163 38 814141515141410108 8yi2.482.489.029.0213.8313.8314.4614.4613.6413.6410.8310.837.667.66ei0.520.52-1.02-1.020.170.170.540.540.360.36-0.83-0.830.340.34iy 5 .2 最小二乘法原理最小二乘法原理 这里假定这里假定 xi 无误差。式(无误差。式(57)可以写成:)可以写成:miNiicccxfyS1221),((58)S最小,就应有:最小,就应有:0, 0, 0
8、21NcScScS(59)即要求求解如即要求求解如下联立方程组:下联立方程组:0),(0),(0),(12121211121NmiNiimiNiimiNiicfcccxfycfcccxfycfcccxfy(510)5.3 直线的回归直线的回归5.3.1 一元直线回归分析一元直线回归分析 对一元线性回归而言,就是配直线的问题,下面对一元线性回归而言,就是配直线的问题,下面通过例题加以分析说明。通过例题加以分析说明。 例例5.1 研究腐蚀时间与腐蚀深度两个变量之间研究腐蚀时间与腐蚀深度两个变量之间的关系,可把腐蚀时间作为自变量的关系,可把腐蚀时间作为自变量 x ,把腐蚀深度作把腐蚀深度作为因变量为
9、因变量 y ,将试验数据记录在将试验数据记录在表表5-1中。求出中。求出x,y之间的线性关系。之间的线性关系。 解:解:将将表表5-1中的中的(x, y) 数据,在直角坐标系中对应地数据,在直角坐标系中对应地做出一系列的点,可得做出一系列的点,可得图图5.2,这种图称之为散点图。,这种图称之为散点图。 与与 x 的关系大致呈直线关系,但并不是确定性的的关系大致呈直线关系,但并不是确定性的关系,而是一种相关关系:关系,而是一种相关关系:y bxay 回归系数回归系数(511) 最佳估计值应使其残差平方和最小,残差为:最佳估计值应使其残差平方和最小,残差为:)(iiibxaye (512)图图52
10、、表、表51时间时间 x,min351020304050606590120腐蚀深度腐蚀深度 y, u40 60 80 130 160 170 190 250 250 290 460表表5-1 试验数据试验数据图52 散点图图52 散点图y = 3.2149x + 45.007R2 = 0.97110100200300400500020406080100120140时间 x时间 x腐蚀深度 y腐蚀深度 ybxay.5.3.1一元直线回归分析一元直线回归分析其平方和为:其平方和为: 2112)( miiimiibxayeS(513)平方和最小,即:平方和最小,即: 0)(20)(211miiiim
11、iiibxayxbSbxayaS(514)得正规方程组:得正规方程组: imiimiimiimiimiiyxxbxayxbam112111(515)5.3.1一元直线回归分析一元直线回归分析令平均值为:令平均值为: miimiimyymxx11(516)由由511得:得: xbyayxba(517)(518)由由式(式(515)得:得: mimiiimimiimiiiixmxyxmyxb1212111115.3.1一元直线回归分析一元直线回归分析 miimiiixxyyxxb121)()((519)式中式中(520) 由式由式(5-18)和式和式(5-19)可以求得回归直线方程式中的常数可以求
12、得回归直线方程式中的常数a及回归系数及回归系数b。令令5-21便可得到回归系数的另一种表达式:便可得到回归系数的另一种表达式: 5-52并且,习惯上称miix12为 x 的平方和; mxmii12)(为平方和的修正项; miiiyx1为 x 与 y 的乘积和;的乘积和;myxmiimii11)( )(为乘积和的修正项。 上述回归直线的具体计算,通常都是列表进行的,上述回归直线的具体计算,通常都是列表进行的,本节的示例,具体计算见本节的示例,具体计算见表表5-2。完成表完成表5-2的计算,就可得到回归直线方程:的计算,就可得到回归直线方程: 5-23编号 x yx2 y2xy1340916001
13、202560253600300310801006400800420130400169002600530160900256004800640170160028900680075019025003610095008602503600625001500096525042256250016250109029081008410026100111204601440021160055200参数值493208035859539800137470参数值44.81818182189.0922095.3636439330993221.818181376414649144248.181823.2145.01表5-2
14、回归直线方程的计算(I)xy2x2yxyxymx2)(my2)(myx)(yylxylxxxyllbxbyaxxl1)先把数据在)先把数据在Excel中成列输入到电子表格中;中成列输入到电子表格中;2)全部选择所有数据;全部选择所有数据;3)点击)点击图表向导图表向导快捷按钮,按提示一步一步快捷按钮,按提示一步一步建立建立散点图;散点图;5.3.2 利用微软公司的电子表格(利用微软公司的电子表格(Microsoft Excel)在计算机中进行线性回归的方法在计算机中进行线性回归的方法14)建立好散点图后,)建立好散点图后,用鼠标点到图上散点的位置,用鼠标点到图上散点的位置,单击鼠标左键选中所有
15、的散点单击鼠标左键选中所有的散点,然后单击鼠标右键,然后单击鼠标右键,出现一个对话框,点击左键选择添加趋势线,出现出现一个对话框,点击左键选择添加趋势线,出现另一个对话框,在对话框中选择某些功能,回归直另一个对话框,在对话框中选择某些功能,回归直线方程就会出现在图上的某一位置。线方程就会出现在图上的某一位置。2.3.2 方差分析方差分析 由由 x 预报预报 ,精确度如何?用,精确度如何?用解决这一问题。解决这一问题。 残差可表示如下:残差可表示如下:y iiiyye 试验得到的数据试验得到的数据回归直线对应的数据回归直线对应的数据上式可改写成:上式可改写成:)()(yyyyyyeiiiii (
16、524)移项得:移项得:)()(yyyyyyiiii miimiiiimiiimiiiimiiyyyyyyyyyyyyyy121122112)()(2)()()()(两端平方求和得:两端平方求和得:(525)可以证明此项可以证明此项为零,故得:为零,故得: miimiiimiiyyyyyy121212)()()( miiiyy12)( miiyy12)( 上式中三项平方和的意义如下:上式中三项平方和的意义如下:代表在试验范围内,观测值代表在试验范围内,观测值 yi 总总的波动情况,称此为的波动情况,称此为。 miiyy12)(代表代表 x 变化所引起的变化所引起的 y 值变化大小的量,值变化大
17、小的量,即即yi 波动中,可以通过回归方程计算出波动中,可以通过回归方程计算出来的那一部分,称之为来的那一部分,称之为。 上述三个平方和之间的关系,可以用上述三个平方和之间的关系,可以用图图5.14表示出来。总平表示出来。总平方和可以分解成两部分,回归平方和与残差平方和。方和可以分解成两部分,回归平方和与残差平方和。是是,表示了回归方程的拟合,表示了回归方程的拟合误差,即观测值误差,即观测值yi 偏离回归值偏离回归值 的大小。的大小。这一部分不能通过回归方程计算出来,这一部分不能通过回归方程计算出来,它是它是yi 波动中与波动中与 x 无关的部分。无关的部分。iy 的分解的分解图图yyi 35
18、 x x y y回归残差的分解图yyi14. 5yy yyi bxay iiyy yyi 由图中可以看出,如果残差平方和很小,则回归平方和总平方和将接近于由图中可以看出,如果残差平方和很小,则回归平方和总平方和将接近于1。这时,所有的观测点都靠近或落在回归线上,这就表明回归直线的精度较高。这时,所有的观测点都靠近或落在回归线上,这就表明回归直线的精度较高。 残差平方和是排除了残差平方和是排除了 x 对对 y 的线性影响后的剩余部分,的线性影响后的剩余部分,y 值随机波动程值随机波动程度的大小,用它来估计误差。度的大小,用它来估计误差。 产生原因:包括随机误差、那些影响很小但尚未考虑的因素。产生
19、原因:包括随机误差、那些影响很小但尚未考虑的因素。自由度:自由度: f总总= f回回 + f残残 f总总= m - 1 f回回 =1f残残= f总总 f回回 = m - 2 方差:残差平方和除以它的自由度:方差:残差平方和除以它的自由度:残残残差平方和残差平方和fS 2标准偏差估算值:标准偏差估算值:残残残差平方和残差平方和fS (529)用用S衡量随机因素对衡量随机因素对 y 的影响。的影响。回归方程可作如下预报:回归方程可作如下预报:)( 置信水平置信水平Sbxay 波动原因自由度方差142252471.04239.121.70146491总计表5-3 一元直线回归方程方差分析示例平方和1
20、回归残差4395023.3)(2xyiblyy6 .142029146491)(2xyyyiibllyy2myyilyy2)(1m22mbllSxyyyS将例将例5.1一元直线回归的方差分析可归纳在表一元直线回归的方差分析可归纳在表5-3中。中。 回归方程可改写为:回归方程可改写为:)05. 0(70.21668.432316. 3置信水平xy5.3.4 相关性检验相关性检验 用一个数量性的指标,来衡量两个变量之间线性相关关系的密切程度用一个数量性的指标,来衡量两个变量之间线性相关关系的密切程度相关系数相关系数 r 。2121)()( miimiiyyyyr回归平方和回归平方和总平方和总平方和
21、(5-32) r 1 时,说明标准误差很小(试验点与回归点几乎吻合),回归方程才时,说明标准误差很小(试验点与回归点几乎吻合),回归方程才有意义。通常有意义。通常 0r1。r 取值不同时的散点分布情况示于图取值不同时的散点分布情况示于图5.15中,具体分析如下:中,具体分析如下:(1) r = 0 时。此时时。此时 b = 0 ,即按最小二乘法确定的回归直线平即按最小二乘法确定的回归直线平行于行于 x 轴,这说明轴,这说明 y 的变化与的变化与 x 无关。故无关。故 x 与与 y 之间没有线性之间没有线性关系。通常,散点的分布是完全不规则的,如关系。通常,散点的分布是完全不规则的,如图图5.1
22、5(a)所示。所示。(2) 0r1。这时,这时, x 与与 y 之间存在着一定的线性关系。之间存在着一定的线性关系。当当 r 0 时时 b0 ,散点分布有随散点分布有随 x 增加增加 y 增加的趋势,此时称增加的趋势,此时称 x 与与 y 是正相关,如是正相关,如图图5.15(b)所示。当所示。当 r 0 时时 b0 ,散点散点图呈图呈 y 随随 x 增加而减小的趋势,此时称增加而减小的趋势,此时称 x 与与 y 为负相关,如为负相关,如图图5.15(c)所示。当所示。当 r 的绝对值比较大时,散点远离回归直线较的绝对值比较大时,散点远离回归直线较为分散;当为分散;当 r 的绝对值较大时,散点
23、分布就靠近直线。的绝对值较大时,散点分布就靠近直线。(3) r= 1。所有的点都在一条直线上,即散点都落在回归所有的点都在一条直线上,即散点都落在回归直线上。此时,称直线上。此时,称 x 与与 y 完全性相关。实际上,此时完全性相关。实际上,此时 x 与与 y 之之间有确定性的线性关系。如间有确定性的线性关系。如图图5.15(d)所示。所示。图图(a)R2 = 0y 图图5.15(a) xR2 = 0.6215y 图图5.15(b) xR = - 0.79y 图图5.15(c) xR2 = 1y 图图5.15(d) xR2 = 0y 图图5.15(e) x 从上述讨论可以看出,相关系数从上述讨
24、论可以看出,相关系数 r 表示两个随机变量表示两个随机变量 x 与与 y 之间线性相关的密切程度。之间线性相关的密切程度。 r越大,愈接近于越大,愈接近于1,x 与与 y 之之间的线性相关也就愈密切。但必须指出,相关系数间的线性相关也就愈密切。但必须指出,相关系数 r 只表示线性只表示线性相关的密切程度,当相关的密切程度,当 r 很小,甚至等于零时,并不一定说明很小,甚至等于零时,并不一定说明 x 与与 y 之间就不存在其它关系。如之间就不存在其它关系。如图图515(e)所示,虽然所示,虽然 r = 0,但从散但从散点分布看,点分布看,x 与与 y 之间存在着明显的曲线关系,只不过这种关系之间
25、存在着明显的曲线关系,只不过这种关系不是线性关系罢了。不是线性关系罢了。 相关系数的绝对值究竟多大才能认为两个变量是相关的呢?相关系数的绝对值究竟多大才能认为两个变量是相关的呢?或回归方程才有意义呢?或回归方程才有意义呢?F检验:检验:假设:假设:H0:b = 0,F为:为:残残回回残残差差平平方方和和回回归归平平方方和和ffF/(534) 可见可见 r 检验与检验与 F 检验的检验的作用是一致的,只用一种即可。作用是一致的,只用一种即可。 可查表得出可查表得出 F (1 1,m2),),当:当: F F0.01 0.01 特别显著;特别显著; F0.01 0.01 F F0.05 0.05
26、时,显著;时,显著; F0.05 0.05 F F0.10 0.10 时,较显著;时,较显著; F F0.10 0.10 时,不显著。时,不显著。(1)先把数据在)先把数据在Excel中成列输入到电子表格中;中成列输入到电子表格中;(2)点击下拉菜单的)点击下拉菜单的“工具工具”按钮,鼠标箭头移动到按钮,鼠标箭头移动到“数据分析数据分析”项下,点击左键,出现数据分析对话框,项下,点击左键,出现数据分析对话框,在对话框中选择在对话框中选择“回归回归”,点击,点击“确定确定”按钮,出现回按钮,出现回归对话框,按对话框中的提示,选择对话框中的某些功归对话框,按对话框中的提示,选择对话框中的某些功能,
27、即可得出与直线回归有关的很多参数。能,即可得出与直线回归有关的很多参数。(3)利用计算出的参数,即可写出回归方程。)利用计算出的参数,即可写出回归方程。5.3.5 利用利用Excel在计算机中进行线性回归的方法在计算机中进行线性回归的方法25.4 曲线回归曲线回归 在实际问题中,变量之间常常不是直线关系。这时,通常在实际问题中,变量之间常常不是直线关系。这时,通常是选配一条比较接近的曲线,通过变量变换把非线性方程加以是选配一条比较接近的曲线,通过变量变换把非线性方程加以线性化,然后对线性化的方程应用最小乘法求解回归方程。线性化,然后对线性化的方程应用最小乘法求解回归方程。 最小二乘法的一个前提
28、条件是函数最小二乘法的一个前提条件是函数 y = f(x)的具体形式的具体形式为已知,即要求首先确定为已知,即要求首先确定 x 与与 y 之间内在关系的函数类型。函之间内在关系的函数类型。函数的形式可能是各种各样的,具体形式的确定或假设,一般有数的形式可能是各种各样的,具体形式的确定或假设,一般有下述两个途径:一是根据有关的物理知识,确定两个变量之间下述两个途径:一是根据有关的物理知识,确定两个变量之间的函数类型;二是把观测数据划在坐标纸上,将散点图与已知的函数类型;二是把观测数据划在坐标纸上,将散点图与已知函数曲线对比,选取最接近散点分布的曲线公式进行试算。函数曲线对比,选取最接近散点分布的
29、曲线公式进行试算。 常见的一些非线性函数及其线性化方法如下。常见的一些非线性函数及其线性化方法如下。5.4.1 曲线回归曲线回归xbay 1(1)双曲线,)双曲线, 型,见型,见图图5.23。bvauxvyu 则则令令,1,1(2)指数曲线,)指数曲线, ,见,见图图5.24。型型bxaey bvcuacxvyu 则则令令,ln,ln (3)指数曲线,)指数曲线, ,见,见图图5.25。型型xbaey/bvcuacxvyu则则令令,ln,/1,ln (4)幂函数曲线,)幂函数曲线, ,见,见图图5.26。型型baxy bvcuacxvyu则则令令,lg,lg,lg图图5.23 (a) 双曲线双
30、曲线(a ) a 0, b 0-0.10-0.050.000.050.100.15-4-202468101214xy图图5.23(b) 双曲线双曲线(b) a0, b00510152025-1-0.500.511.52xy图图5.24(b) 指数曲线指数曲线(b) b00102030405060708000.511.522.533.54xy图图5.25(b) 指数曲线指数曲线(b) b0 xyb10 b 1b = 1图图5.26(b) 幂函数曲线幂函数曲线(b) b0 xyb 1b=11 b 0-10 xy图图5.27(b) 对数曲线对数曲线(a) b 0, c 050 xy图图5.29 (b
31、) 对数抛物线对数抛物线b b 0, c 0 如上所述,许多曲线都可以通过变换化为直线,可以按直线如上所述,许多曲线都可以通过变换化为直线,可以按直线拟合的办法来处理。拟合的办法来处理。 必须注意!所配曲线的回归中,必须注意!所配曲线的回归中,r、S、F 等的计算稍有不同。等的计算稍有不同。u、v 等仅仅是为了变量变换,使曲线方程变为直线方程,然而要等仅仅是为了变量变换,使曲线方程变为直线方程,然而要求的是所配曲线与观测数据拟合较好,所以计算求的是所配曲线与观测数据拟合较好,所以计算r、S、F 等时,应等时,应首先根据已建立的回归方程,用首先根据已建立的回归方程,用 xi 依次代入,得到依次代
32、入,得到 yi 后再计算后再计算残差平方和残差平方和 及总平方和及总平方和 ,于是:,于是: miiiyy12)( miiyy12)(21212)() (1miimiiyyyyR(536)2)(12 myySmiii(537)残残回回残残差差平平方方和和回回归归平平方方和和ffF/(538) 下面举例说明曲线回归的一般计算方法。下面举例说明曲线回归的一般计算方法。 例例5.2 炼钢厂出钢用钢包在使用过程中,由于钢炼钢厂出钢用钢包在使用过程中,由于钢液及炉渣对耐火材料的浸蚀,其容积不断增大。钢包液及炉渣对耐火材料的浸蚀,其容积不断增大。钢包的容积(用盛满钢水的重量的容积(用盛满钢水的重量 kg
33、表示)与相应的使用次表示)与相应的使用次数列于数列于表表5-4中。求:中。求:x、y之间的关系式:之间的关系式: 表表5-4 试验数据试验数据使用次数 x23457810容积 y106.42108.20109.58109.50110.00109.93110.49使用次数 x111415161819容积 y110.59110.60110.90110.76111.00111.20 解:解: 首先按实测数据做散点图,如首先按实测数据做散点图,如图图5.30所示。所示。 由图可见,最初容积增加很快,以后减慢并趋于由图可见,最初容积增加很快,以后减慢并趋于稳定。根据这个特点,选用稳定。根据这个特点,选用
34、双曲线双曲线:xbay 1(539)表示容积表示容积 y 与使用次数与使用次数 x 的关系。的关系。图5.30 钢包容积与使用次数之间的关系散点图10610710810911011111205101520使用次数 x钢包容积 y:,1,1则则上上式式可可改改写写成成若若令令xvyubvau(5-40) 对新变量对新变量 u、 v 而言,式(而言,式(5-40)是一个直线方)是一个直线方程,因而可用最小二乘法进行拟合计算,求出回归系程,因而可用最小二乘法进行拟合计算,求出回归系数数 b 和常数项和常数项 a 。计算步骤如下:计算步骤如下:(1)根据表)根据表5-4中的数据,计算出中的数据,计算出
35、 v 、v2、 u、 u2 、uv和回归系数和回归系数b及常数项及常数项a列于列于表表5-5中。中。 编号 x yv2u2uv12106.420.5000000.0093970.25000008.829853E-054.698365E-0323108.200.3333330.0092420.11111118.541723E-053.080715E-0334109.580.2500000.0091260.06250008.327937E-052.281438E-0345109.500.2000000.0091320.04000008.340110E-051.826484E-0357110.000
36、.1428570.0090910.02040828.264463E-051.298701E-0368109.930.1250000.0090970.01562508.274991E-051.137087E-03710110.490.1000000.0090510.01000008.191323E-059.050593E-04811110.590.0909090.0090420.00826458.176516E-058.220372E-04914110.600.0714290.0090420.00510208.175037E-056.458280E-041015110.900.0666670.0
37、090170.00444448.130868E-056.011422E-041116110.760.0625000.0090290.00390638.151436E-055.642831E-041218111.000.0555560.0090090.00308648.116224E-055.005005E-041319111.200.0526320.0089930.00277018.087056E-054.733056E-042.0508820.1182670.5372181.076075E-031.883495E-02xv1yu1_表5-5 回归计算13vumv2)(mu2muv)(m编号
38、x yv2u2uv12106.420.5000000.0093970.25000008.829853E-054.698365E-0323108.200.3333330.0092420.11111118.541723E-053.080715E-0334109.580.2500000.0091260.06250008.327937E-052.281438E-0345109.500.2000000.0091320.04000008.340110E-051.826484E-0357110.000.1428570.0090910.02040828.264463E-051.298701E-0368109.
39、930.1250000.0090970.01562508.274991E-051.137087E-03710110.490.1000000.0090510.01000008.191323E-059.050593E-04811110.590.0909090.0090420.00826458.176516E-058.220372E-04914110.600.0714290.0090420.00510208.175037E-056.458280E-041015110.900.0666670.0090170.00444448.130868E-056.011422E-041116110.760.0625
40、000.0090290.00390638.151436E-055.642831E-041218111.000.0555560.0090090.00308648.116224E-055.005005E-041319111.200.0526320.0089930.00277018.087056E-054.733056E-042.0508820.1182670.5372181.076075E-031.883495E-02xv1yu1_表5-5 回归计算130.15776010.01865777610.00909740.32354740.0010759245vumv2)(mu2 muv)(m由式(5-
41、21)计算下面的参数为:8.291744E-040.008966630.21367051.508906E-071.771701E-04vvluuluvl muv)(vvuvllbvbua(2) 得出变换后的回归直线方程式为:得出变换后的回归直线方程式为:vu4310291744. 81096663. 8变换回原始曲线方程为:变换回原始曲线方程为: 将原始数据带入回归方程式将原始数据带入回归方程式(5-42)中,计算标准偏中,计算标准偏差差S和相关系数和相关系数R,计算结果见,计算结果见表表5-6所示。所示。 由表由表5-6得出的参数可写出最后的回归曲线方程式为:得出的参数可写出最后的回归曲线方
42、程式为:xy110291744. 81096663. 8143 0.2284933 109.94f回 = 10.22849330.9864f残 = m 2 = 11f总 = m 1 = 12式 (5-29)y残残 差 平 方 和fS总 平 方 和残 差 平 方 和1R编 号 x y残 差 平 方 和总 平 方 和12106.42106.60-0.180.0310-3.5212.363323108.20108.190.010.0001-1.743.014234109.58109.000.580.3311-0.360.126845109.50109.500.000.0000-0.440.19025
43、7110.00110.07-0.070.00500.060.004168109.93110.25-0.320.1025-0.010.0000710110.49110.50-0.010.00020.550.3067811110.59110.590.000.00000.650.4275914110.60110.79-0.190.03720.660.44071015110.90110.840.060.00340.960.92901116110.76110.88-0.120.01530.820.67871218111.00110.950.050.00211.061.13181319111.20110.
44、980.220.04651.261.59731429.171429.170.00490.57430.000021.211表 5-6 回 归 后 的 方 差 分 析y yy2)(yy yy 2)(yy _ 本例应用最小二乘法,虽然使用双曲线拟合,在本例应用最小二乘法,虽然使用双曲线拟合,在计算过程中使残差平方和达到了最小,但这并不足以计算过程中使残差平方和达到了最小,但这并不足以说明,所配双曲线是对表说明,所配双曲线是对表5-4中数据的最佳拟合曲线。中数据的最佳拟合曲线。因而在配曲线时,最好用不同的函数类型计算后再进因而在配曲线时,最好用不同的函数类型计算后再进行比较,选取其中最优者,即选取相关
45、系数行比较,选取其中最优者,即选取相关系数R为最大的为最大的曲线。此外,在曲线拟合时也可采用分段拟合的方法,曲线。此外,在曲线拟合时也可采用分段拟合的方法,即在不同的自变量区间内配以不同的曲线来进行拟合。即在不同的自变量区间内配以不同的曲线来进行拟合。下面我们采用计算机处理方法,用其它类型的函数进下面我们采用计算机处理方法,用其它类型的函数进行回归拟合试一试,看会得出什么样的结果?行回归拟合试一试,看会得出什么样的结果? 利用利用 Excel 对对 x 、y 的数据作散点图,直接作出回归曲线。的数据作散点图,直接作出回归曲线。 第一步第一步: 在在Excel电子表格中,按列(行)输入电子表格中
46、,按列(行)输入 x 与与 y 的试验数据。的试验数据。 第二步:对第二步:对 x 与与 y 的试验数据作出散点图。的试验数据作出散点图。 第三步:在图中选定散点的数据,做多项式的趋势线,即得到相应的回归曲第三步:在图中选定散点的数据,做多项式的趋势线,即得到相应的回归曲线。线。5.4.2 用用Excel电子表格软件进行曲线回归的方法电子表格软件进行曲线回归的方法5.4.2.1 方法方法15.4.2.2 方法方法2 利用利用 Excel 对对 x 、y 的数据求出所有的回归系数及方差分析数据。的数据求出所有的回归系数及方差分析数据。 第一步第一步: 在在Excel电子表格中,按列(行)输入电子
47、表格中,按列(行)输入 x 与与 y 的试验数据。的试验数据。 第二步:对第二步:对 x 数据进行格式化复制数据进行格式化复制x2x8。 第三步:在表中选定所有第三步:在表中选定所有xx8数据,选择数据,选择“工具工具”下拉菜单下拉菜单“数据分析数据分析”,按提示进行操作,即可得出全部计算分析数据。按提示进行操作,即可得出全部计算分析数据。5.5 多元回归多元回归5.5.1基本概念基本概念 上面讨论的是只有两个变量的回归问题,其中一个是自变上面讨论的是只有两个变量的回归问题,其中一个是自变量,另一个是因变量。但在大多数情况下,自变量不是一个而是量,另一个是因变量。但在大多数情况下,自变量不是一
48、个而是多个,称这类问题为多元回归问题。多个,称这类问题为多元回归问题。 多元回归中最简单且最基本的是多元线性回归。如自变量多元回归中最简单且最基本的是多元线性回归。如自变量 xi ( i= 1,2, ,G ),进行进行m次试验,所得的数据可以写成两个数次试验,所得的数据可以写成两个数组,即两个矩阵:组,即两个矩阵:121212221212111mmGmGmmmGGyyyYxxxxxxxxxX显然,多元线性统计模型是:显然,多元线性统计模型是:GGxaxaxaay22110(5-45) 多元线性回归分析原理,与一元线性回归分析原理完全相多元线性回归分析原理,与一元线性回归分析原理完全相同只是计算
49、上复杂得多。但是用计算机来进行计算工作量与一同只是计算上复杂得多。但是用计算机来进行计算工作量与一元线性回归相比,复杂程度并不大。根据最小二乘法,应使残元线性回归相比,复杂程度并不大。根据最小二乘法,应使残差:差:21)(jmjjyy试验值试验值回归值回归值最小最小下面我们通过例题来说明如何进行多元线性回归。下面我们通过例题来说明如何进行多元线性回归。例例5.3 某种水泥在凝固时放出的热量某种水泥在凝固时放出的热量 y ( J/g ) 与水泥中下列四种与水泥中下列四种化学成分的含量有关:化学成分的含量有关: x1 3CaO Si2O3 的含量,的含量,% x2 2CaO SiO2 的含量,的含
50、量,% x3 3CaO Al2O3 的含量,的含量,% x4 4CaO Al2O3 Fe2O3的含量,的含量,% 原始试验数据如表原始试验数据如表5-7所示:所示:求解步骤如下:求解步骤如下:用用Excel电子表格电子表格点击下拉菜单点击下拉菜单“工具工具”栏栏点击点击 “数据分析数据分析”项项选择选择 “回归回归”项项 按回归对话框中的提示,进行按回归对话框中的提示,进行选择操作,即可得出全部的回归系选择操作,即可得出全部的回归系数、相关系数、标准偏差等数据。数、相关系数、标准偏差等数据。 根据计算出的回归系数写出回根据计算出的回归系数写出回归方程。归方程。完完5.5.3 多元曲线回归多元曲