1、 【课标要求】 1.了解随机误差、残差、残差分析的概念. 2.会用残差分析判断线性回归模型的拟合效果. 3.掌握建立回归模型的步骤. 4.通过对典型案例的探究,了解回归分析的基本思想方法和初 步应用. 自主学习自主学习 基础认识基础认识 1线性回归模型 (1)回归方程的相关计算: 对于两个具有线性相关关系的变量的一组数据(x1,y1),(x2, y2),(xn,yn)设其回归直线方程为y bxa,其中a,b是待定 参数,由最小二乘法得b i1 n xi x yi y i1 n xi x 2 i1 n xiyin x y i1 n x2 in x 2 ,a y b x .其中 x1 n i1 n
2、 xi, y 1 n i1 n yi,a ,b分别是 a,b 的估计值 (2)线性回归模型: 线性回归模型 ybxae, Ee0,De2, 其中 a,b 为未知参数, 通常 e 为随机变量,称为随机误差 x 称为解释变量,y 称为预报变量 2线性回归分析 (1)残差: 对于样本点(xi,yi)(i1,2,n)的随机误差的估计值e iyi y i 称为相应于点(xi,yi)的残差, i1 n (yiy i)2 称为残差平方和 (2)残差图: 利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以 选为样本编号,或身高数据,或体重的估计值等,这样作出的图形 称为残差图 (3)K21 i1 n yi
3、y i2 i1 n yi y 2 ,K2越接近于 1,表示回归效果越好 |自我尝试自我尝试| 1 判断下列命题是否正确 (正确的打“”, 错误的打“”) (1)求线性回归方程前可以不进行相关性检验( ) (2)在残差图中,纵坐标为残差,横坐标可以选为样本编 号( ) (3)利用线性回归方程求出的值是准确值( ) 2有下列说法: 线性回归分析就是由样本点去寻找一条直线,使它贴近这些 样本点的数学方法; 利用样本点的散点图可以直观判断两个变量的关系是否可 以用线性关系表示; 通过回归方程y bxa及其回归系数b,可以估计和观测变 量的取值和变化趋势; 因为由任何一组观测值都可以求得一个回归直线方程
4、,所以 没有必要进行相关性检验 其中正确说法的个数是( ) A1 B2 C3 D4 解析:反映的正是最小二乘法思想,故正确反映的是画 散点图的作用,也正确反映的是回归模型 ybxae,其中 e 为随机误差,故也正确是不正确的,在求回归方程之前必须进 行相关性检验,以确定两变量的关系 答案:C 3关于残差图的描述错误的是( ) A残差图的横坐标可以是样本编号 B残差图的横坐标也可以是解释变量或预报变量 C残差点分布的带状区域的宽度越窄相关指数越小 D残差点分布的带状区域的宽度越窄残差平方和越小 解析:残差点分布的带状区域的宽度越窄,说明模型拟合精度 越高,则残差平方和越小,此时,相关指数 R2的
5、值越大,故描述错 误的是选项 C. 答案:C 4为了研究变量 x 和 y 的线性相关性,甲、乙两人分别利用 线性回归方法得到回归直线 l1和 l2,已知两人计算过程中 x , y分 别相同,则下列说法正确的是( ) Al1与 l2一定平行 Bl1与 l2重合 Cl1与 l2相交于点( x , y) D无法判断 l1和 l2是否相交 解析:回归直线一定过样本点的中心( x , y),故 C 正确 答案:C 5已知样本点(x1,y1),(x2,y2),(x5,y5),若 i1 5 xi10, i1 5 y i5,且回归直线为y 2xa,则a_. 解析:样本中心为(2,1), 所以 122a ,所以
6、a3. 答案:3 课堂探究 互动讲练 类型一 线性回归方程 例 1 通过市场调查,得到某产品的资金投入 x(万元)与获得 的利润 y(万元)的数据,如表所示: 资金投入 x 2 3 4 5 6 利润 y 2 3 5 6 9 (1)根据上表提供的数据,用最小二乘法求线性回归方程y bx a ; (2)现投入资金 10 万元,求估计获得的利润为多少万元 【解析】 (1) x 23456 5 4, y 23569 5 5. b i1 5 xiyi5 x y i1 5 x2 i5 x 2 2233455669545 49162536516 1.7, a yb x 1.8,y1.7x1.8. (2)当
7、x10 万元时,y 15.2 万元. 方法归纳 (1)求线性回归方程的三个步骤 算:根据数据计算 x , y, i1 n x2 i, i1 n xiyi. 代:代入公式求b ,a的具体数值 求:由上面的计算结果求方程y bxa. (2)求线性回归方程的三个关键点 跟踪训练 1 某班 5 名学生的数学和物理成绩如下表: 学生 学科成绩 A B C D E 数学成绩 x 88 76 73 66 63 物理成绩 y 78 65 71 64 61 (1)画出散点图; (2)求物理成绩 y 对数学成绩 x 的线性回归方程; (3)一名学生的数学成绩是 96,试预测他的物理成绩(精确到个 位) 解析:(1
8、)散点图如图 (2)因为 x 1 5(8876736663)73.2, y 1 5(7865716461)67.8, i1 5 xiyi8878766573716664636125 054, i1 5 x2 i88 276273266263227 174. 所以b i1 5 xiyi5 x y i1 5 x2 i5 x 2 25 054573.267.8 27 174573.22 0.625, a yb x 67.80.62573.222.05. 所以 y 对 x 的线性回归方程是y 0.625x22.05. (3)因为 x96,所以y 0.6259622.0582, 即可以预测他的物理成绩是
9、 82. 类型二 残差分析 例 2 某运动员训练次数与运动成绩之间的数据关系如下: 次数(x) 30 33 35 37 39 44 46 50 成绩(y) 30 34 37 39 42 46 48 51 (1)作出散点图; (2)求出回归方程; (3)作出残差图; (4)计算相关指数 K2; (5)试预测该运动员训练 47 次及 55 次的成绩 【解析】 (1)作出该运动员训练次数(x)与成绩(y)之间的散点 图,如下图所示,由散点图可知,它们之间具有线性相关关系 (2)列表计算: 次数 xi 成绩 yi x2 i xiyi 30 30 900 900 33 34 1 089 1 122 35
10、 37 1 225 1 295 37 39 1 369 1 443 39 42 1 521 1 638 44 46 1 936 2 024 46 48 2 116 2 208 50 51 2 500 2 550 由上表可求得 x 39.25, y40.875, i1 8 x2 i12 656, i1 8 xiyi 13 180, b i1 8 xi x yi y i1 8 xi x 2 i1 8 xiyi8 x y i1 8 x2 i8 x 2 1.041 5, a yb x 0.003 02. 回归方程为y 1.041 5x0.003 02. (3)残差分析 作残差图如下图所示,由图可知,残
11、差点比较均匀地分布在水 平带状区域中,说明选用的模型比较合适 (4)计算相关指数 K2 计算相关指数 R20.985 5.说明了该运动员的成绩的差异有 98.55%是由训练次数引起的 (5)做出预报 由上述分析可知,我们可用回归方程y 1.041 5x0.003 02 作 为该运动员成绩的预报值 将 x47 和 x55 分别代入该方程可得y 49 和y57. 故预测该运动员训练 47 次和 55 次的成绩分别为 49 和 57. 方法归纳 (1)对于建立的回归模型进行残差分析,一般从以下几方面进 行:残差图;残差平方和;相关指数 (2)相关指数 R2的作用 利用相关指数 R2可以刻画拟合效果的
12、好坏在线性回归模型 中,R2的取值越接近 1,说明残差的平方和越小,即说明模型的拟 合效果越好. 跟踪训练 2 关于 x 与 y 有如下数据: x 2 4 5 6 8 y 30 40 60 50 70 为了对 x,y 两个变量进行统计分析,现有以下两种线性模型: 甲: y 6.5x17.5, 乙: y7x17, 则_(填“甲”或“乙”) 模型拟合的效果更好 解析:设甲模型的相关指数为 K2 1,则 K 2 11 i1 5 yiy i2 i1 5 yi y 2 1 155 1 0000.845; 设乙模型的相关指数为 K 2 2, 则 K 2 21 180 1 0000.82. 因为 0.845
13、0.82,即 K2 1K 2 2,所以甲模型拟合效果更好 答案:甲 类型三 非线性回归分析 例 3 为了研究某种细菌繁殖个数 y 随时间 x 的变化情况, 收 集数据如下: 天数 x/天 1 2 3 4 5 6 繁殖个数 y/个 6 12 25 49 95 190 (1)用天数作解释变量,繁殖个数作预报变量,作出上述数据的 散点图; (2)试求出预报变量对解释变量的回归方程 【解析】 (1)根据数据得散点图,如下图所示 (2)根据数据的散点图可以发现样本点不是分布在某一条直线 附近,而是分布在一条曲线附近根据已学的函数知识,可以发现 样本点分布在某一指数型函数 yc1ec2x(c10, c20
14、)附近, 则将函数 两边取对数得 lnyc2xlnc1,则令 ulny,得 uc2xlnc1,根据 数据可得 x 和 u 的数据表: x 1 2 3 4 5 6 u 1.79 2.48 3.22 3.89 4.55 5.25 由上面 x 和 u 的数据表可得 x 和 u 的散点图,如下图所示 从图中可以发现 x 和 u 之间有很强的线性相关关系,因此可以 用线性回归模型来拟合它们之间的关系根据公式得到回归直线方 程为u 0.690 9x1.112, 即 lny 0.690 9x1.112,则得ye0.690 9x1.112. 故我们可以利用y e0.690 9x1.112 来描述天数x与繁殖个
15、数y之间 的关系. 方法归纳 求非线性回归方程的步骤: 确定变量,作出散点图; 根据散点图,选择恰当的拟合函数; 变量置换,通过变量置换把非线性回归问题转化为线性回归 问题,并求出线性回归方程; 分析拟合效果:通过计算相关指数或画残差图来判断拟合效 果; 根据相应的变换,写出非线性回归方程. 跟踪训练 3 某电容器充电后,电压达到 100 V,然后开始放 电, 由经验知道, 此后电压U随时间t变化的规律用公式UAebt(b0) 表示,现测得时间 t(s)时的电压 U(V)如下表: t/s 0 1 2 3 4 5 6 7 8 9 10 U/V 100 75 55 40 30 20 15 10 1
16、0 5 5 试求:电压 U 对时间 t 的回归方程(提示:对公式两边取自然 对数,把问题转化为线性回归分析问题) 解析:对 UAebt两边取对数得 lnUlnAbt,令 ylnU,a lnA,xt,则 yabx,y 与 x 的数据如下表: x 0 1 2 3 4 5 6 7 8 9 10 y 4.6 4.3 4.0 3.7 3.4 3.0 2.7 2.3 2.3 1.6 1.6 根据表中数据画出散点图,如图所示,从图中可以看出,y 与 x 具有较好的线性相关关系,由表中数据求得 x 5, y3.045, 由公式计算得b 0.313, a yb x 4.61, 所以 y 对 x 的线性回 归方程
17、为y 0.313x4.61. 所以 lnU 0.313t4.61,即U e 0.313t4.61e0.313t e4.61, 因此电压 U 对时间 t 的回归方程为U e 0.313t e4.61. |素养提升素养提升| 1对线性回归方程的理解 (1)从参数计算公式a yb x 中,我们可以看出,回归直线方 程y bxa一定经过点( x,y) 我们把( x,y)称为样本点的中心, 因此,回归直线必过样本点的中心 (2)线性回归方程y bxa中的截距a和斜率b都是通过估计而 得来的,存在着误差,这种误差可能导致预测结果的偏差 (3)线性回归方程y bxa中的b表示 x 增加 1 个单位时, y
18、的平 均变化量为b ,而a表示 y 不随 x 的变化而变化的量 (4)可以用线性回归方程y bxa预测在 x 取某一个值时 y 的估 计值 2随机误差 e 产生的主要原因 (1)所用的确定性函数不恰当引起的误差 (2)忽略了某些因素的影响影响变量 y 的因素不只是变量 x, 可能还包括其他因素(例如, 在描述身高和体重的模型中, 体重不仅 受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素 的影响) (3)存在观测误差由于测量工具等原因,导致 y 的观测值产生 误差 |巩固提升巩固提升| 1某车间为了规定工时定额,需要确定加工零件所花费的时 间,为此进行了 5 次试验,根据收集到的数据
19、(如下表),由最小二 乘法求得回归直线方程y 0.68x54.6,利用下表中数据推断 a 的 值为( ) 零件数 x(个) 10 20 30 40 50 加工时间 y(min) 62 a 75 81 89 A.68.2 B68 C69 D67 解析:由题意得 x 1 5(1020304050)30, y 1 5(62a758189) 307a 5 . 代入回归直线方程得307a 5 0.683054.6. 解得 a68.故选 B. 答案:B 2 在回归分析中, 相关指数R2的值越大, 说明残差平方和( ) A越大 B越小 C可能大也可能小 D以上均错 解析:因为 R21 i1 n yiy i2 i1 n yi y 2 ,所以当 R2越大时, i1 n (yiy i) 2 越小,即残差平方和越小选 B. 答案:B 3若施肥量 x(kg)与小麦产量 y(kg)之间的回归直线方程为y 2504x,当施肥量为 50 kg 时,预计小麦产量为_ 解析:把 x50 代入y 2504x,可求得y450. 答案:450 kg
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。