1、 3.13.1 回归分析的基本思想回归分析的基本思想 及其初步应用及其初步应用 (第二课时)(第二课时) 1通过典型案例的探究,进一步了解回归分析 的基本思想、方法及其初步应用 2让学生经历数据处理的过程,培养他们对数 据的直观感觉,体会统计方法的特点,认识统计方 法的应用,通过使用转化后的数据,求相关指数, 运用相关指数进行数据分析、处理的方法 3从实际问题中发现已有知识的不足,激发好奇 心,求知欲,通过寻求有效的数据处理方法,开拓 学生的思路,培养学生的探索精神和转化能力,通 过案例的分析使学生了解回归分析在实际生活中的 应用,增强数学取之生活,用于生活的意识,提高 学习兴趣 本节课通过例
2、题线性相关关系知识,通过实 际问题中发现已有知识的不足,引导学生寻找 解决非线性回归问题思想与方法,培养学生化 归数学思想。通过知识的整理,通过例题讲解 掌握解决非线性回归问题。 本节内容学生内容不易掌握,通过知识整理 与比较引导学生进行区分、理解。通过对典型 案例的探究,练习进行巩固解决非线性回归基 本思想方法及初步应用 建立回归模型的基本步骤建立回归模型的基本步骤 (1)确定研究对象,明确哪个变量是解释变量,哪个变量 是预报变量 (2)画出确定好的解释变量和预报变量的散点图,观察它 们之间的关系(如是否存在线性关系等) (3)由经验确定回归方程的类型(如我们观察到数据呈线 性关系,则选用线
3、性回归方程) (4)按一定规则(如最小二乘法)估计回归方程中的参数 (5)得出结果后分析残差图是否有异常(如个别数据对应 残差过大,或残差呈现不随机的规律性等)若存在异 常,则检查数据是否有误,或模型是否合适等 (6)参数R2与相关系数r 提示:它们都是刻画两个变量之间的的相关关系的,区 别是R2表示解释变量对预报变量变化的贡献率,其表 达式为R2=1- ; 相关系数r是检验两个变量相关性的强弱程度, 其表达式为 n 2 ii i 1 n 2 i i 1 yy yy $ nn iiii i 1i 1 nnnn 22 22 22 iiii i 1i 1i 1i 1 xx yyx ynx y r.
4、 xxyy(xnx )(yny ) (7)相关系数r与R2 (1)R2是相关系数的平方,其变化范围为0,1,而相 关系数的变化范围为-1,1. (2)相关系数可较好地反映变量的相关性及正相关 或负相关,而R2反映了回归模型拟合数据的效果. (3)当|r|接近于1时说明两变量的相关性较强,当 |r|接近于0时说明两变量的相关性较弱,而当R2接 近于1时,说明线性回归方程的拟合效果较好. 31表 325115662421117/y 35322927252321C/ 0 个个产卵数产卵数 温度温度 例:一只红铃虫产卵数y和温度x有关,现收集到的一 组数据如下表1-3表,试建立y与x之间的回归方程。
5、画出确定好的解释变量 和预报变量的散点图, 观察它们之间的关系 (1)是否存在线性关系? (2)散点图具有哪种函数特征? (3)以指数函数模型为例,如何设模型函数? 非线性关系非线性关系 指数函数、二次函数、三次函数指数函数、二次函数、三次函数 0 50 100 150 200 250 300 350 202224262830323436 41 . 1图 温度温度 产卵数产卵数 . ,abxy 线性回归方程线性回归方程 我们称之为非我们称之为非时时当回归方程不是形如当回归方程不是形如 c c 2 1 设指数函数曲线 其中 和 是待定参数。 e c y x c 1 2 我们可以通过对数变换把指数
6、关系变为线性关系 ( ) 这样就可以利用线性回归模型来建立z 与x回归模型, 进而找到y与x的非线性回归方程。 * 则变换后样本点分布在直线的周围。 令 ) c b , c ln a ( a bx z 2 1 = = + = y ln z = 现在问题变为如何估计待定参数 和 ? c c 2 1 非线性回归模型非线性回归模型 . , 51 . 1.4151 . 1 用线性回归方程来拟合 因此可以一条直线的附近变换后的样本点分布在看出 中可以从图中数据的散点图给出了表 784.5745.4190.4178.3045.3398.2946.1z 35322927252321x 41表 0 1 2 3
7、 4 5 6 7 202224262830323436 产卵数的对数 温度 51 . 1 图 .843. 3272. 0 41 xz 到线性回归方程 中的数据得由表 图的样本数据表的数据可以得到变换后由表, 4131 (6) e y 0.272x-3.843 (1) 325115662421117y 12251024841729625529441t 51表 另一方面,可以认为图11-4中样本点集中在某二次曲线 因此可以对温度变量做变换,即令 然后建立y与t 之间的线性回归方程,从而得到y与x之间的排线性回 归方程。 , 2 x t 的附近,其中 和 为待定参数. 4 3 c c 4 2 3 c
8、 x c y 表1-5是红铃虫的产卵数和对应的温度的平方,图 1.1-6是相应的散点图. . , , , 61 . 1 4 2 3 下面介绍具体方法到还可以通过残差分析得 这个结论之间的关系与来拟合二次曲线 即不宜用合它 回归方程来拟 此不宜用线性 因直线的周围 不分布在一条 的散点图并 与可以看出 中从图 xycxcy t y 0 50 100 150 200 250 300 350 400500600700800900 1000 1100 1200 1300 温度的平方 数 卵 产 61 . 1图 中用线性回归模型拟合表的二次回归方程关于 下面建立的指数回归方程关于前面已经建立了方程 归需
9、要建立两个相应的回残差为比较两个不同模型的 51. ,. , xy xy 7.54.202x367.0 y xy,54.202t367.0 y ty, 22 2 的二次回归方程为关于即 的线性回归方程关于得到的数据 的残差计算公式分别为 和则回归方程列的数据行第第表示表用 的拟合效果和个回归方程可以通过残差来比较两 7 6,1151 .76 ixi ; 7 , 2 , 1i ,ey y y e 843.3x272.0 i 1 i i 1 i .7 , 2 , 1i ,54.202x367.0y y y e 2 i i 2 i i 2 i .7 6,7 6 .61 的拟合效果好型 的拟合效果比模
10、因此模型的残差的绝对值小模型 的残差的绝对值显然比模型从表中的数据可以看出 残差的两个回归方程的给出了原始数据及相应表 965.77268.58107.4041003835.5397.19693.47 e 928.32153.14889.8149.9760.1617.0518.0 e 325115662421117y 35322927252321x 2 1 61表 .76 .432.15448 ,673.1450 76 61., . ., ., 21 型的拟合效果远远优于模因此模型 的残差平方和分别为和算出模型 容易由表拟合的效果越好残差平方和越小的模型 合效果的大小来判断模型的拟两个模型的残
11、差平方和 这时可以通过比较则相反而另一些样本点的情况的小 型差的绝对值比另一个模的残某些样本点上一个模型 原因是在较困难比较两个模型的残差比在一般情况下 QQ , b , x g y a , x f y 2 1 和和 对于给定的样本点 ,两个含有 未知数的模型 1122 , nn xyxyxy 其中a和b都是未知参数,可以按如下的步骤来比较它们 的拟合效果. . b a 其中 和 分别是参数a、b的估计值 (1)分别建立对应于两个模型的回归方程 , b , x g y 2 a , x f y 1 ; y y Q n 1 i 2 2 i i 2 Q 1 y y n 1 i 2 1 i i 与 (
12、2)分别计算两个回归方程的残差平方和 . b , x g y a , x f y , ; b , x g y a , x f y , Q Q 2 1 2 1 2 1 的好 的效果不如 反之 的好 的效果比 则 (3)若 非线性回归问题的处理方法 (1)两个变量不呈线性关系,不能直接利用线性回归方 程建立两个变量的关系,可以通过变换的方法转化为 线性回归模型,如y= ,我们可以通过对数变换把指 数关系变为线性关系.令z=lny,则变换后样本点应该 分布在直线z=bx+a(a=lnc1,b=c2)的周围. 2 c x 1 c e (2)非线性回归方程的求法 根据原始数据(x,y)作出散点图; 根据
13、散点图,选择恰当的拟合函数; 作恰当的变换,将其转化成线性函数,求线性回归方程; 在的基础上通过相应的变换,即可得非线性回归方程. (3)非线性相关问题中常见的几种线性变换 在实际问题中,常常要根据一批实验数据绘出曲线,当 曲线类型不具备线性相关关系时,可以根据散点分布 的形状与已知函数的图象进行比较,确定曲线的类型, 再作变量替换,将曲线改为直线.下面是几种容易通过 变量替换转化为直线的函数模型: y=a+ ,y=a+ ,令令t= t= ,则有,则有y=a+bty=a+bt; y=axy=axb b,令,令z=ln yz=ln y,t=ln xt=ln x,m=ln am=ln a,则有,则
14、有z=m+btz=m+bt; y=aey=aebx bx,令 ,令z=ln yz=ln y,m=ln a,m=ln a,则有则有z=m+btz=m+bt; y= ,y= ,令令z=ln y,t= z=ln y,t= ,m=ln am=ln a,则有,则有z=m+btz=m+bt; y=a+bln xy=a+bln x,令,令t=ln xt=ln x,则有,则有z=a+btz=a+bt; y=bxy=bx2 2+a,+a,令令t=xt=x2 2,则有,则有y=bt+a.y=bt+a. b x 1 x b x ae 1 x 例例 某种食品每公斤的生产成本y(元)与该食品生产 的重量x(公斤)有关,
15、经生产统计得到以下数据: x 1 2 3 5 10 20 30 50 100 200 y 10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15 通过以上数据判断该食品的成本y(元)与生产的重量 x(公斤)的倒数1/x之间是否具有线性相关关系?若 有,求出y关于1/x的回归直线方程,并借此估计一 下生产该食品500公斤时每公斤的生产成本是多少? (精确到0.01) 分析 本题显然是非线性回归问题,题意通过研究 y 与1 x的 相关性,借助两者的线性相关关系得到 y 关于1 x的回归直线方程, 从而确定 y 与 x 的回归方程 解:设 u1 x,通过
16、数据得到 y 与 u 的相应数据为: u1 x 1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005 y 10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15 于是 y 与 1 x 的回归方程为 y 8.973 x 1.125. 当 x 500( 公斤 ) 时, y 8.973 500 1.125 1.14. 即估计生产该 食品 500 公斤时每公斤的生产成本是 1.14 元 1.设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关系, 根据一组样本数据(xi,yi)(i=1,2,n),用
17、最小二乘法建立的回归方程为 =0.85x-85.71,则下列结论中不正确的是( ). A.y 与 x 具有正的线性相关关系 B.回归直线过样本点的中心(,) C.若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg D.若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg 答案:D 解析:D 选项中,若该大学某女生身高为 170 cm,则可断定其体重约为 0.85170-85.71=58.79(kg). 故 D 不正确. x x 2.为了解儿子身高与其父亲身高的关系,随机抽取 5 对父子的身高数据 如下: 父亲身高 x(cm) 174 176 176 176 1
18、78 儿子身高 y(cm) 175 175 176 177 177 则 y 关于 x 的线性回归方程为( ). A.y=x-1 B.y=x+1 C.y=88+1 2x D.y=176 答案:C 解析:方法一:由线性回归直线方程过样本中心(176,176),排除 A,B 答案, 结合选项可得 C 为正确答案. 方法二:将表中的五组数值分别代入选项验证,可知 y=88+1 2x 最适 合. x x 3.在两个变量 y 与 x 的回归模型中,分别选择了 4 个不同的模型.通过计 算得 R2的值如下,其中拟合效果最好的模型是( ). A.模型 1 的 R2为 0.98 B.模型 2 的 R2为 0.8
19、0 C.模型 3 的 R2为 0.50 D.模型 4 的 R2为 0.25 答案:A 解析:R2越接近于 1,则该模型的拟合效果就越好,精度越高. x x 4.若对于变量 y 与 x 的 10 组统计数据的回归模型中,R2=0.95,又知残差 平方和为 120.53,那么 =1 10 (yi-)2的值为 . 答案:2 410.6 解析:依题意有 0.95=1- 120.53 =1 10 (-)2 , 所以 =1 10 (yi-)2=2 410.6. x x 非线性回归问题有时并不给出经验公式,这时我 们可以画出已知数据的散点图,把它与学过的各种 函数(幂函数、指数函数、对数函数)等图象作比较, 挑选一种跟这些散点拟合得最好的函数,然后采用 适当的变量置换,把问题化为线性回归分析问题,使 之得到解决.