1、 3.1 回归分析的基本思回归分析的基本思 想想 及其初步应用及其初步应用 (第一课时)(第一课时) 1通过典型案例的探究,进一步了解回归分析的基 本思想、方法及其初步应用 2让学生经历数据处理的过程,培养他们对数据的 直观感觉,体会统计方法的特点,认识统计方法的应 用,通过使用转化后的数据,求相关指数,运用相关 指数进行数据分析、处理的方法 3从实际问题中发现已有知识的不足,激发好奇心, 求知欲,通过寻求有效的数据处理方法,开拓学生的 思路,培养学生的探索精神和转化能力,通过案例的 分析使学生了解回归分析在实际生活中的应用,增强 数学取之生活,用于生活的意识,提高学习兴趣 本节课通过必修3熟
2、悉有例题回顾线性相关关系 知识,通过实际问题中发现已有知识的不足,引出 随机误差、残差、残差分析的概念,进而运用残差 来进行数据分析,通过例题讲解掌握用残差分析判 断线性回归模型的拟合效果。掌握建立回归模型的 步骤。 本节内容学生内容不易掌握,通过知识整理与 比较引导学生进行区分、理解。通过对典型案例的 探究,练习进行巩固了解回归分析的基本思想方法 和初步应用 从某大学中随机选取8名女大学生,其身高和体重数 据如下表所示: 怎样根据一名女大学生的身高预报她的体重,并预 报一名身高为172 cm的女大学生的体重? 编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170
3、175 165 155 170 体重/kg 48 57 50 54 64 61 43 59 n ii i 1 n 2 i i 1 b aybx. xxyy xx $ $ 根据必修根据必修3 2.33 2.3变量相关关系解决这个问题的方法:变量相关关系解决这个问题的方法: 1.先判断是两个变量是否具有线性相关关系 (1)作散点图,如图所示(见课本P82:图3.1-1) 2.根据线性回归的系数公式, 求回归直线方程 0.849x-85.712 y $ 3.由线性回归方程可以估计其位 置值为 60.316(千克)左右。 y $ 具有较好的线性相关关系 性质:回归直线一定过样本中心点. (2)计算相关
4、系数 这些点并不都在同一条直线上,上述直线并不能精确 地反映x与y之间的关系,y 的值不能完全由x 确定, 它们之间是统计相关关系,y 的实际值与估计值之间 存在着误差 因此,在统计学中设它们的线性回归模型为: ybxae 其中a,b为模型的未知参数,e为y与bx+a之间的误差, 称它为随机误差,它是随机变量。且 2 E e0,D e 线性回归模型完整表达式为 2 ybxae E e0,D e, , x x称为称为 变量变量,y,y称为称为 变量变量. . 解释 预报 线性回归模型中随机误差的主要来源线性回归模型中随机误差的主要来源: : 线性回归模型中的预报值 与真实情况y引 起的误差; 观
5、测与计算(用 代替b a)产生的误差; 省略了一些因素的影响(如生活习惯等)产 生的误差. y $ ba $ 在线性回归模型中,e为用bx+a的预报真实值y的随 机误差,它是一个不可观测的量,那么应该怎样研 究随机误差? 在实际应用中,我们用 估计bx+a ybxa $ ey- bxa 所以 的估计量为 eyy $ ii x ,yi1,2,3,nL 对于样本点 iii eybxai1,2,3,nL iiiii eyyybxan1,2,3,n $ L 它们的随机误差为 估计值为 称相应于点 的残差 iii ex ,y 坐标纵轴为残差变量,横轴可以有不同的选择; 若模型选择的正确,残差图中的点应该
6、分布在以 横轴为中心的带形区域; 对于远离横轴的点,要特别注意。 错误数据 模型问题 身 高 与 体 重 残 差 图 异 常 点 残差的作用残差的作用 1.通过残差表或残差图发现原始数据中的可疑数据 残差 -4000 -2000 0 2000 4000 6000 024681012 残差 通过残差 来判断模型拟合的效果这种分 析工作称为残差分析. 1, 2, 3, . n e e ee 通过残差表或残差图判断模型拟合的效果是直观判通过残差表或残差图判断模型拟合的效果是直观判 断,如何精确判断模型拟合的效果?断,如何精确判断模型拟合的效果? 引入参数R2 n 2 ii 2 i 1 n 2 i i
7、 1 yy R1 yy $ n 2 i i 1 yy 来精确该画模型拟合效果 n 2 ii i 1 yy $ 对于己获取的样本数据,在上式子中 是定 值, 越小,即残差平方和越小,R2越大, 说明模型拟合效果越好。 引入例中参数R2计算得约为0.64说明女大学生体重差 异有百分之六十四是由身高引起的. 知识点 线性回归分析 1.1.对线性回归模型的三点说明对线性回归模型的三点说明 (1)非确定性关系:线性回归模型y=bx+a+e与确 定性函数y=bx+a相比,它表示y与x之间是统计相 关关系(非确定性关系),其中的随机误差e提供了 选择模型的准则以及在模型合理的情况下探求最 佳估计值a,b的工
8、具. (2)线性回归方程 中 , 的意义是:以 为 基数,x每增加1个单位,y相应地平均增加 个单位. (3)线性回归模型中随机误差的主要来源 线性回归模型与真实情况引起的误差; 观测与计算产生的误差; 省略了一些因素的影响产生的误差. ybxa $ b $ a $ a $ b $ 2.2.线性回归模型的模拟效果线性回归模型的模拟效果 (1)(1)残差图法残差图法: :观察残差图,如果残差点比较均匀 地落在水平的带状区域中,说明选用的模型比较 合适,这样的带状区域的宽度越窄,说明模型拟合 精度越高,回归方程的预报精度越高. (2)(2)残差的平方和法残差的平方和法: :一般情况下,比较两个模型
9、的残差 比较困难(某些样本点上一个模型的残差的绝对值比另 一个模型的小,而另一些样本点的情况则相反),故通过 比较两个模型的残差的平方和的大小来判断模型的拟 合效果.残差平方和越小的模型,拟合的效果越好. (3)R(3)R2 2法法: :R2的值越大,说明残差平方和越小,也就是说 模型拟合的效果越好. 3.3.相关系数与相关系数与R R2 2 (1)R2是相关系数的平方,其变化范围为0,1,而 相关系数的变化范围为-1,1. (2)相关系数可较好地反映变量的相关性及正相 关或负相关,而R2反映了回归模型拟合数据的效果. (3)当|r|接近于1时说明两变量的相关性较强,当 |r|接近于0时说明两
10、变量的相关性较弱,而当R2接 近于1时,说明线性回归方程的拟合效果较好. 【微思考】 (1)(1)残差与我们平时说的误差是一回事儿吗残差与我们平时说的误差是一回事儿吗? ? 提示:这两个概念在某程度上具有很大的相似性,都 是衡量不确定性的指标,二者的区别是:误差与测量 有关,误差可以衡量测量的准确性,误差越大表示测 量越不准确;残差与预测有关,残差大小可以衡量预 测的准确性,残差越大表示预测越不准确. (2)R(2)R2 2与原来学过的相关系数与原来学过的相关系数r r有区别吗有区别吗? ? 提示:它们都是刻画两个变量之间的的相关关系的,区 别是R2表示解释变量对预报变量变化的贡献率,其表 达
11、式为R2=1- ; 相关系数r是检验两个变量相关性的强弱程度, 其表达式为 n 2 ii i 1 n 2 i i 1 yy yy $ nn iiii i 1i 1 nnnn 22 22 22 iiii i 1i 1i 1i 1 xx yyx ynx y r. xxyy(xnx )(yny ) 建立回归模型的基本步骤建立回归模型的基本步骤 (1)确定研究对象,明确哪个变量是解释变量,哪个变量是 预报变量 (2)画出确定好的解释变量和预报变量的散点图,观察它们 之间的关系(如是否存在线性关系等) (3)由经验确定回归方程的类型(如我们观察到数据呈线性关 系,则选用线性回归方程) (4)按一定规则(
12、如最小二乘法)估计回归方程中的参数 (5)得出结果后分析残差图是否有异常(如个别数据对应残差 过大,或残差呈现不随机的规律性等)若存在异常,则检 查数据是否有误,或模型是否合适等 为研究重量x(单位:克)对弹簧长度y(单位:厘米) 的影响,对不同重量的6个物体进行测量,数据如下表 所示: x 5 10 15 20 25 30 y 7.25 8.12 8.95 9.90 10.9 11.8 (1)作出散点图并求线性回归方程; (2)求出R2; (3)进行残差分析 作残差分析时,一般从以下几个方面予以说明: (1)散点图;(2)相关指数;(3)残差图中的异常点 和样本点的带状分布区域的宽窄 解答解
13、答 (1)(1)散点图如图散点图如图 x 1 6(5 1015202530)17.5, y 1 6(7.25 8.128.959.9010.911.8)9.487, i1 6 x2 i 2 275, i1 6 xiyi1 076.2 0.05 0.005 0.08 0.045 0.04 0.025 2.24 1.37 0.54 0.41 1.41 2.31 计算得,计算得,b 0.183,a 6.285, 所求回归直线方程为所求回归直线方程为y 0.183x6.285. (2)列表如下:列表如下: yiy i yi y 所以所以 i1 6 (yiy i)2 0.013 18, i1 6 (yi
14、 y )2 14.678 4. 所以,所以,R210.013 18 14.678 4 0.999 1, 回归模型的拟合效果较好回归模型的拟合效果较好 (3)由残差表中的数值可以看出第3个样本点的残差 比较大,需要确认在采集这个数据的时候是否有人 为的错误,如果有的话,需要纠正数据,重新建立 回归模型;由表中数据可以看出残差点比较均匀地 落在不超过0.15的狭窄的水平带状区域中,说明选 用的线性回归模型的精度较高,由以上分析可知, 弹簧长度与拉力成线性关系 规律方法 当资料点较少时,也可以利用残差表进 行残差分析,注意计算数据要认真细心,残差分析 要全面 1.判一判(正确的打“”,错误的打“”)
15、 (1)残差平方和越小,线性回归方程拟合效果越好.( ) (2)在画两个变量的散点图时,预报变量在x轴上,解释变 量在y轴上. ( ) (3)R2越接近于1,线性回归方程的拟合效果越好.( ) 2.做一做(请把正确的答案写在横线上) (1)从散点图上看,点散布在从左下角到右上角的 区域内,两个变量的这种相关关系为 . (2)在残差分析中,残差图的纵坐标为 . (3)如果发现散点图中所有的样本点都在一条直 线上,则残差平方和等于 ,解释变量和预报 变量之间的相关系数R等于 . 正相关 残差 0 1或-1 3.已知某种商品的价格x(元)与需求量y(件)之间 的关系有如下一组数据: x 14 16
16、18 20 22 y 12 10 7 5 3 求y对x的回归直线方程,并说明回归模型拟合效果 的好坏 解解 x 1 5(14 16182022)18, y 1 5(12 10753)7.4, i1 5 x2 i 1421621822022221 660, i 1 5 xiyi14121610187205223620, 所以所以b i 1 5 xiyi5 x y i 1 5 x2i5 x 2 620 5187.4 1 6605182 1.15. a 7.41.151828.1, 所以所求回归直线方程是:所以所求回归直线方程是:y 1.15x28.1. 列出残差表:列出残差表: 0 0.3 0.4
17、 0.1 0.2 4.6 2.6 0.4 2.4 4.4 yiy i yi y 所以,所以, i 1 5 (yiy i)2 0.3, i 1 5 (yi y )2 53.2, R21 i 1 5 yiy i 2 i 1 5 yi y 2 0.994, 所以回归模型的拟合效果很好所以回归模型的拟合效果很好 线性相关系数的具体计算公式为: r n i1 (xix)(yiy) n i1 (xix) 2 n i1 (yiy) 2 . 当 r0 时,表明两个变量正相关; 当 r0 时,表明两个变量负相关; |r|越接近于 1,表明两个变量的线性相关性越强; |r|越接近于 0,表明两个变量之间几乎不存在线性相关关系 通常,当 r 的绝对值大于 0.75 时,我们认为两个变量存在着 很强的线性相关关系