1、 通过对必修的学习,我们知道,变量之间存通过对必修的学习,我们知道,变量之间存 在关系时,有两种关系:在关系时,有两种关系: 确确 定定 性性 关关 系系 非确定性关系非确定性关系 函数关系函数关系 相关关系相关关系 函数关系是非常明确的关系,相关关系却是一函数关系是非常明确的关系,相关关系却是一 种变化的,通过种变化的,通过数学数学3的学习我们知道,的学习我们知道, 回归分析回归分析(regression analysis)是相关关系的是相关关系的 一种分析方法,它是对具有相关关系的两个变一种分析方法,它是对具有相关关系的两个变 量进行统计分析一般步骤为:量进行统计分析一般步骤为: 散点图散
2、点图 求回归方程求回归方程 利用回归方程预报利用回归方程预报 下面我们通过实际案例。进一步学习回归下面我们通过实际案例。进一步学习回归 分析的基本思想及其应用分析的基本思想及其应用 例例1.从某大学中随机选取从某大学中随机选取8名女大学生。其身高和体重数据名女大学生。其身高和体重数据 如表所示:如表所示: 编号 1 2 3 4 5 6 7 8 身高cm 165 165 157 170 175 165 155 170 体重kg 48 57 50 54 64 61 43 59 求根据一名大学生的身高预报她的体重的回归方程,并预报一名求根据一名大学生的身高预报她的体重的回归方程,并预报一名 172c
3、m的女大学生的体重。的女大学生的体重。 解解 利用前面的知识我们首先作身高利用前面的知识我们首先作身高x和体重和体重y的散点图:的散点图: 40 45 50 55 60 65 70 150155160165170175180 从图可以看出,样本点的分布有比较好的线性关系,因此从图可以看出,样本点的分布有比较好的线性关系,因此 可以用线性回归来刻画它们之间的关系可以用线性回归来刻画它们之间的关系. 会求它们的方程吗会求它们的方程吗? 事实上事实上,从散点图可以看出从散点图可以看出,样本点并不是分布在这条直线样本点并不是分布在这条直线 上上,而是分布在它的两边而是分布在它的两边,所以严格来说:所以
4、严格来说: y=bx+a 不是真正的表示它们之间的关系,这时我们把身高和体重不是真正的表示它们之间的关系,这时我们把身高和体重 的关系做一下调整来模拟回归关系:的关系做一下调整来模拟回归关系: Y=bx+a+e 其中其中a和和b为模型的未知参数,为模型的未知参数,e称为称为随机误差随机误差 如何产如何产 生的?生的? 身高身高X(cm) 体重体重y(kg) 饮食习惯饮食习惯 运动习惯运动习惯 质量误差质量误差 线性回归模型线性回归模型y=bx+a+e与我们了的一次函数模型不同之与我们了的一次函数模型不同之 处在于多了一个随机误差处在于多了一个随机误差e,y的值有它们一起决定的值有它们一起决定
5、解释变量解释变量x 预报变量预报变量y 随机误差随机误差e 1.a,b的估计:的估计: a,b的估计和最小二乘法估计一样的估计和最小二乘法估计一样 yxy n yx n x n i i n i i , 1 , 1 11 其中其中 称为样本的中心称为样本的中心 2.e的估计的估计 40 45 50 55 60 65 70 150155160165170175180 y=0.849x-85.712 通过通过数学数学3的学习我们知道,它们之间是正相关的,我的学习我们知道,它们之间是正相关的,我 们用它们的们用它们的相关系数相关系数r来衡量它们之间的相关性的强弱来衡量它们之间的相关性的强弱 在上面的例
6、子中我们假设体重与身高没有关系即:体重都为:在上面的例子中我们假设体重与身高没有关系即:体重都为: kgy5 .45 则,她们身高体重的散点图应该在一条水平直线上:则,她们身高体重的散点图应该在一条水平直线上: 40 45 50 55 60 65 70 150155160165170175180 事实上,并非如此,它们和事实上,并非如此,它们和45.5之间存在差别,这时我们就引之间存在差别,这时我们就引 入随机误差,利用随机误差和解释变量共同来预报变量入随机误差,利用随机误差和解释变量共同来预报变量y 2 1 )( n i i yy 把所有的这种效应利用把所有的这种效应利用总体偏差平方和总体偏
7、差平方和合并成一个数合并成一个数 总体偏差平方和总体偏差平方和 解释变量解释变量 随机误差随机误差 ? ? 我们现在要弄清楚这个总的效应中,有多少来自解释变量,我们现在要弄清楚这个总的效应中,有多少来自解释变量, 有多少来自随机误差,即:哪一个效应起决定性作用?有多少来自随机误差,即:哪一个效应起决定性作用? 根根 据据 我我 们们 在在 数数 学学 3 总总 的的 知知 识识 , 我我 们们 知知 道道 : 每每 个个 点点 与与 回回 归归 方方 程程 的的 差差 异异 我我 们们 可可 以以 用用 来来 表表 示示 , 记记 作作 : ( 残残 差差 ( r e s i d u a l
8、) ) 它它 刚刚 好好 可可 以以 表表 示示 随随 机机 误误 差差 的的 效效 应应 。 iiyy iiiyye 为了回归的准确和计算的方便我们引入为了回归的准确和计算的方便我们引入残差平方和残差平方和(residual sum of squares)它代表随机误差的效应它代表随机误差的效应 2 1 )( n i ii yy 求出了随机误差的效应后,我们就比较容易得到解释变量的求出了随机误差的效应后,我们就比较容易得到解释变量的 效应了。同学们知道怎样求吗?效应了。同学们知道怎样求吗? 解释变量的效应解释变量的效应总体偏差平方和总体偏差平方和残差平方和残差平方和 回归平方和回归平方和 (
9、regression sun of squares) 你会计算上面的你会计算上面的总体偏差平方和总体偏差平方和、残差平方和残差平方和、回归平方和回归平方和吗?吗? 354 128.361 225.639 有了这些评估效应的方法,我们就可以利用它们来刻画总体效有了这些评估效应的方法,我们就可以利用它们来刻画总体效 应,事实上,为了将我们的计算简化,我们又引入相关指数应,事实上,为了将我们的计算简化,我们又引入相关指数R2 来刻画回归的效果:来刻画回归的效果: n i i n i i yy yy R 1 2 1 2 2 )( )( 1 残差平方和残差平方和 总体偏差平方和总体偏差平方和 显然,当显
10、然,当R2的值越大,说明残差所占的比例越小,回归效果的值越大,说明残差所占的比例越小,回归效果 约好;反之约好;反之,回归效果越差。一般的,当回归效果越差。一般的,当R2越接近于越接近于1,说明解说明解 释变量和预报变量之间的相关性越强释变量和预报变量之间的相关性越强,如果同一个问题如果同一个问题,采用不采用不 同的回归方法分析同的回归方法分析,我们可以通过我们可以通过选择选择R2大的来作为回归模型大的来作为回归模型 一般方法:一般方法: 1.利用散点图观察两个变量是否线性相关利用散点图观察两个变量是否线性相关 2.利用残差来判断模型拟合的效果利用残差来判断模型拟合的效果(残差分析残差分析)
11、利用利用残差图残差图来分析数据,对来分析数据,对可疑数据可疑数据(残差较大的数据残差较大的数据)进行进行 重新调查,有错误就更正,然后重新利用回归模型拟合,如重新调查,有错误就更正,然后重新利用回归模型拟合,如 果没有错误,则需要找其他原因。果没有错误,则需要找其他原因。 残差图:残差图: 编号 1 2 3 4 5 6 7 8 身高 cm 165 165 157 170 175 165 155 170 体重 kg 48 57 50 54 64 61 43 59 残差 - 6.373 2.627 2.419 -4.618 1.137 6.627 - 2.883 0.382 -8 -6 -4 -2
12、 0 2 4 6 8 0246810 问 题 数 据 问 题 数 据 越 窄 越 好 越 窄 越 好 说 明 说 明 1.回归方程只适合对所研究总体的估计回归方程只适合对所研究总体的估计 2.回归方程是对数据的模拟,数据的改变,可能会导致回归方程的变化回归方程是对数据的模拟,数据的改变,可能会导致回归方程的变化 3.不同的回归样本数据,有不同的回归方程,也适合不同的回归总体,不同的回归样本数据,有不同的回归方程,也适合不同的回归总体, 4.回归方程是预报变量的平均值,而不是精确值回归方程是预报变量的平均值,而不是精确值 5.回归的好坏可以由相关指数来评价回归的好坏可以由相关指数来评价 建立回归
13、方程的一般步骤:建立回归方程的一般步骤: 1.确定变量确定变量 2.制作散点图,观察是否相关制作散点图,观察是否相关 3.确定回归方程的类型确定回归方程的类型(线性回归、指数回归、对数回归等线性回归、指数回归、对数回归等) 4.利用公式确定回归参数利用公式确定回归参数 5.利用残差分析回归是否合理或模型是否合适利用残差分析回归是否合理或模型是否合适 例例2一只红蛉虫的产卵数一只红蛉虫的产卵数y与温度与温度x有关,现收集了有关,现收集了7组数据,请建立组数据,请建立y 与与x建德回归方程建德回归方程 温度x 21 23 25 27 29 32 35 产卵数y/个 7 11 21 24 66 11
14、5 325 解解 1.制作散点图制作散点图 0 50 100 150 200 250 300 350 202224262830323436 个 2.观察模拟观察模拟 样本点不能直接利用线性回归样本点不能直接利用线性回归,根据我们的函数知识根据我们的函数知识,它应该是一个指数模它应该是一个指数模 型型:y=c1ec2x其中其中c1c2为参数为参数或或二次函数模型二次函数模型,根据对数回归知识根据对数回归知识 我们知道我们知道:令令z=lny将其变换到样本点的分布直线将其变换到样本点的分布直线z=a+bx x 21 23 25 27 29 32 35 z 1.94 6 2.39 8 3.04 5
15、3.17 8 4.19 0 4.74 5 5.78 4 0 1 2 3 4 5 6 7 202224262830323436 温度 产卵数的对数 z=0272x-3.843 则则:y=e0.272x-3.843 2.我们认为样本点集中在某二次函数我们认为样本点集中在某二次函数y=c3x2+c4附近,附近,c3c4为参数,则,为参数,则, 令令tx2则:则:y=c5t+c6其中其中c5c6为参数为参数 t 441 529 625 729 841 1024 1225 y 7 11 21 24 66 115 325 0 50 100 150 200 250 300 350 4005006007008
16、009001000 1100 1200 1300 温度的平方 产卵数 y=0.367t-202.54 不适合利用线性回归不适合利用线性回归 为什么这样说?为什么这样说? 4.残差分析:残差分析: X 21 23 25 27 29 32 35 合计合计(残差残差 平方和平方和) R2 Y 7 11 21 24 66 115 329 e(1) 0.518 -0.167 1.760 -9.149 8.889 - 14.153 32.928 1450.673 0.98 e(2) 47.693 19.397 -5.835 - 41.003 - 40.107 - 58.268 77.965 15448.43 2 0.80 由图的对比可以看出,指数模拟由图的对比可以看出,指数模拟优于优于线性模拟线性模拟 回 归 分 析 基 本 思 想 及 其 初 步 应 用 回 归 分 析 基 本 思 想 及 其 初 步 应 用 基本思想基本思想 实际应用实际应用 回归分析回归分析 相关性方法分析相关性方法分析 回归优劣分析回归优劣分析 总偏差平方和总偏差平方和 残差平方和残差平方和 回归平方和回归平方和