1、 必修必修3(3(第二章第二章 统计统计) )知识结构知识结构 收集数据收集数据 ( (随机抽样随机抽样) ) 整理、分析数据整理、分析数据 估计、推断估计、推断 简 单 随 机 抽 样 简 单 随 机 抽 样 分 层 抽 样 分 层 抽 样 系 统 抽 样 系 统 抽 样 用样本估计总体用样本估计总体 变量间的相关关系变量间的相关关系 用样本用样本 的频率的频率 分布估分布估 计总体计总体 分布分布 用样本用样本 数字特数字特 征估计征估计 总体数总体数 字特征字特征 线 性 回 归 分 析 线 性 回 归 分 析 回顾复回顾复 习习 1、两个变量的关系、两个变量的关系 不相关不相关 相关关
2、相关关 系系 函数关系函数关系 线性相关线性相关 非线性相关非线性相关 问题问题1:现实生活中两个变量间的关系有哪些呢?:现实生活中两个变量间的关系有哪些呢? 相关关系:相关关系:对于两个变量,当自变量取值一定对于两个变量,当自变量取值一定 时,因变量的取值带有一定随机性的两个变量时,因变量的取值带有一定随机性的两个变量 之间的关系。之间的关系。 回顾复回顾复 习习 思考:相关关系与函数关系有怎样的不同? 函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系 函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一 般的情况 问题问题2:对于线性相关的两个变量用什么方法
3、:对于线性相关的两个变量用什么方法 来刻画之间的关系呢?来刻画之间的关系呢? 2、最小二乘估计、最小二乘估计 最小二乘估计下的线性回归方程:最小二乘估计下的线性回归方程: ybxa 11 2 22 11 ()() () nn iiii ii nn ii ii xXyYx ynxy b XXxnx a YbX n i i x n x 1 1 n i i y n y 1 1 回归直线必过样本点的中回归直线必过样本点的中 心心 ),( yx 3、回归分析的基本步骤回归分析的基本步骤: 画散点图画散点图 求回归方程求回归方程 预报、决策预报、决策 这种方法称为回归分这种方法称为回归分 析析. 回归分析
4、回归分析是对具有相关关系的两个变量进行统是对具有相关关系的两个变量进行统 计计 分析的一种常用方法分析的一种常用方法. 比数学3中“回归”增加的内 容 数学数学统计统计 1. 画散点图画散点图 2. 了解最小二乘法了解最小二乘法 的思想的思想 3. 求回归直线方程求回归直线方程 ybxa 4. 用回归直线方程用回归直线方程 解决应用问题解决应用问题 选修1-2统计案例 5. 引入线性回归模型引入线性回归模型 ybxae 6. 了解模型中随机误差项了解模型中随机误差项e产产 生的原因生的原因 7. 了解相关指数了解相关指数 R2 和模型拟和模型拟 合的效果之间的关系合的效果之间的关系 8. 了解
5、残差图的作用了解残差图的作用 9. 利用线性回归模型解决一类利用线性回归模型解决一类 非线性回归问题非线性回归问题 10.正确理解分析方法与结果正确理解分析方法与结果 自学指自学指 导导 1:结合例:结合例1得出线性回归模型及随机误差,并且得出线性回归模型及随机误差,并且区分区分 函数模型和回归模型。函数模型和回归模型。 2:在线性回归模型中,:在线性回归模型中,e是用是用bx+a预报真实值预报真实值y的随的随 机误差,它是一个不可观测的量,那么应如何研究随机机误差,它是一个不可观测的量,那么应如何研究随机 误差呢?误差呢? 3:如何发现数据中的错误?如何衡量随机模型的拟合效:如何发现数据中的
6、错误?如何衡量随机模型的拟合效 果?果? 4:结合例:结合例1思考:用回归方程预报体重时应注意什思考:用回归方程预报体重时应注意什 么?么? 5:归纳建立回归模型的基本步骤。:归纳建立回归模型的基本步骤。 阅读课本阅读课本1页页6页思考回答下列问题页思考回答下列问题 (注意:时间(注意:时间12分钟)分钟) 例例1 从某大学中随机选取从某大学中随机选取8名女大学生,其身高和体重数据如表名女大学生,其身高和体重数据如表1-1所示。所示。 59 43 61 64 54 50 57 48 体重/kg 170 155 165 175 170 157 165 165 身高/cm 8 7 6 5 4 3
7、2 1 编号 求根据女大学生的身高预报体重的回归方程,并预报一名身高为求根据女大学生的身高预报体重的回归方程,并预报一名身高为 172cm的女大学生的体重。的女大学生的体重。 问题一:结合例问题一:结合例1得出线性回归模型及随机误差。并且得出线性回归模型及随机误差。并且区分函区分函 数模型和回归模型。数模型和回归模型。 解:解:1、选取身高为自变量、选取身高为自变量x,体重为因变量,体重为因变量y,作散点图:,作散点图: 2.回归方程:回归方程: 172.85849. 0xy 学学身身高高172cm女172cm女大大生生体体重重 y = 0.849y = 0.849172-85.712 = 6
8、0.316(kg)172-85.712 = 60.316(kg) 探究:身高为172cm的女大学生的体重一定是60.316kg吗? 如果不是,你能解析一下原因吗? 答:用这个回归方程不能给出每个身高为答:用这个回归方程不能给出每个身高为172cm的女大学生的体重的女大学生的体重 的预测值,只能给出她们平均体重的估计值。的预测值,只能给出她们平均体重的估计值。 由于所有的样本点不共线,而只是散布在某一直线的附近,由于所有的样本点不共线,而只是散布在某一直线的附近, 所以身高和体重的关系可以用线性回归模型来表示:所以身高和体重的关系可以用线性回归模型来表示: 其中其中a和和b为模型的未知参数,为模
9、型的未知参数,e称为随机称为随机 误差误差. eabxy 思考:函数模型与“回归模型”的关系的区思考:函数模型与“回归模型”的关系的区 别别 函数模型:因变量函数模型:因变量y完全由自变量完全由自变量x确定确定 回归模型:回归模型: 预报变量预报变量y完全由解释变量完全由解释变量x和随机误差和随机误差e确定确定 (1)所用非确定性函数不恰当;所用非确定性函数不恰当; (2)忽略了某些因素的影响;忽略了某些因素的影响; (3)观测误差。观测误差。 思考思考:产生随机误差项产生随机误差项e的原因是什么?的原因是什么? 问题二:在线性回归模型中,问题二:在线性回归模型中,e是用是用bx+a预报真实值
10、预报真实值y的随的随 机误差,它是一个不可观测的量,那么应如何研究随机误差呢?机误差,它是一个不可观测的量,那么应如何研究随机误差呢? ,1,2,. ,1,2,. i iiiiii i ybxa ineyyybxa in e 1122nn i ii 残差:一般的对于样本点(x ,y),(x ,y ),.,(x ,y ),它们的随机误差为 e其估计值为 称为相应于点(x ,y )的残差。 结合例结合例1除了身高影响体重外的其他因素是不可测量的,不除了身高影响体重外的其他因素是不可测量的,不 能希望有某种方法获取随机误差的值以提高预报变量的估计精能希望有某种方法获取随机误差的值以提高预报变量的估计
11、精 度,但却可以估计预报变量观测值中所包含的随机误差,这对度,但却可以估计预报变量观测值中所包含的随机误差,这对 我们查找样本数据中的错误和模型的评价极为有用,因此在此我们查找样本数据中的错误和模型的评价极为有用,因此在此 我们引入残差概念。我们引入残差概念。 e=y-(bx+a) 问题三:如何发现数据中的错误?如何衡量随机模型的拟合效问题三:如何发现数据中的错误?如何衡量随机模型的拟合效 果?果? 法一:我们可以通过残差分析发现原始数据中的可疑数据,法一:我们可以通过残差分析发现原始数据中的可疑数据, 判断建立模型的拟合效果。判断建立模型的拟合效果。 i ii eybxa(1)计算(i=1,
12、2,.n) 残差分析(2)画残差图 查找异常样本数据 (3)分析残差图 残差点分布在以x轴为中心的水平带状区域,并沿 水平方向散点的分布规律相同。 残差图的制作和作用:残差图的制作和作用: 制作:坐标纵轴为残差变量,制作:坐标纵轴为残差变量, 横轴可以有不同的选择横轴可以有不同的选择. .可以为编号;可以为解释变可以为编号;可以为解释变 量量 作用:判断模型的适用性若模型选择的正确,残差图中作用:判断模型的适用性若模型选择的正确,残差图中 的点应该分布在以横轴为中心的水平带状区域的点应该分布在以横轴为中心的水平带状区域. 编号编号 1 2 3 4 5 6 7 8 身高身高 /cm 165 16
13、5 157 170 175 165 155 170 体重体重/kg 48 57 50 54 64 61 43 59 残差残差 -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382 下面表格列出了女大学生身高和体重的原始数据以及相应的残差数据。下面表格列出了女大学生身高和体重的原始数据以及相应的残差数据。 e 残差图的制作及作用。残差图的制作及作用。 坐标纵轴为残差变量,横轴可以有不同的选择;坐标纵轴为残差变量,横轴可以有不同的选择; 若模型选择的正确,残差图中的点应该分布在以若模型选择的正确,残差图中的点应该分布在以 横轴为心的带形区域横轴为心的
14、带形区域; 对于远离横轴的点,要特别注意对于远离横轴的点,要特别注意。 身 高 与 体 重 残 差 图 异 常 点 错误数据 模型问题 几点说明:几点说明: 第第1个样本点和第个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为个样本点的残差比较大,需要确认在采集过程中是否有人为 的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数 据;如果数据采集没有错误,则需要寻找其他的原因。据;如果数据采集没有错误,则需要寻找其他的原因。 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比
15、较合适,这另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这 样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。 1 () n ii i yy 残差平方和(越小,模型的拟合效果越好 显然,显然,R2的值越大,说明残差平方和越小,也就是说模型拟的值越大,说明残差平方和越小,也就是说模型拟 合效果越好。合效果越好。 在线性回归模型中,在线性回归模型中,R2表示解释变量对预报变量变化的贡献率。表示解释变量对预报变量变化的贡献率。 R2越接近越接近1,表示回归的效果越好,表示回归的效果越好(因
16、为(因为R2越接近越接近1,表示解释变量,表示解释变量 和预报变量的线性相关性越强)和预报变量的线性相关性越强)。 如果某组数据可能采取几种不同回归方程进行回归分析,则可以通如果某组数据可能采取几种不同回归方程进行回归分析,则可以通 过比较过比较R2的值来做出选择,即选取的值来做出选择,即选取R2较大的模型作为这组数据的模型。较大的模型作为这组数据的模型。 注:相关指数注:相关指数R R2 2是度量模型拟合效果的一种指标。在线性模是度量模型拟合效果的一种指标。在线性模 型中,它代表自变量刻画预报变量的能力。型中,它代表自变量刻画预报变量的能力。 法二:我们可以用相关指数法二:我们可以用相关指数
17、R2来刻画回归的效果,其计算公式是来刻画回归的效果,其计算公式是 2 2 1 2 1 () 11 () n ii i n i i yy R yy 残差平方和 。 总偏差平方和 1 354 总计 0.36 128.361 残差变量 0.64 225.639 回归变量 比例 平方和 来源 从上中可以看出,解释变量对总效应约贡献了从上中可以看出,解释变量对总效应约贡献了64%,即,即 R2 0.64,可以叙述为“身高解释了,可以叙述为“身高解释了64%的体重变化”,而随的体重变化”,而随 机误差贡献了剩余的机误差贡献了剩余的36%。 所以,身高对体重的效应比随机误差的效应大得多。所以,身高对体重的效
18、应比随机误差的效应大得多。 下面我们用相关指数分析一下例下面我们用相关指数分析一下例1: ; 问题四:结合例问题四:结合例1思考:用回归方程预报体重时应注意什么?思考:用回归方程预报体重时应注意什么? 1.回归方程只适用于我们所研究的样本的总体。回归方程只适用于我们所研究的样本的总体。 2.我们建立的回归方程一般都有时间性。我们建立的回归方程一般都有时间性。 3.样本取值的范围会影响回归方程的适用范围。样本取值的范围会影响回归方程的适用范围。 4.不能期望回归方程得到的预报值就是预报变量的精确值。不能期望回归方程得到的预报值就是预报变量的精确值。 (1)确定研究对象,明确哪个变量是解释变量,哪
19、个变量是预报变量。)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量。 (2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系 (如是否存在线性关系等)。(如是否存在线性关系等)。 (3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,)由经验确定回归方程的类型(如我们观察到数据呈线性关系, 则则 选用线性回归方程选用线性回归方程y=bx+a). (4)按一定规则(如最小二乘法)估计回归方程中的参数。)按一定规则(如最小二乘法)估计回归方程中的参数。 (5)得出结果后分析残差图是否有异常(如个别数据对应残差)得出结果后分析残差图是否有异常(如个别数据对应残差 过大,或残差呈现不随机的规律性等),如存在异常,则检查数过大,或残差呈现不随机的规律性等),如存在异常,则检查数 据是否有误,或模型是否合适等。据是否有误,或模型是否合适等。 问题五:归纳建立回归模型的基本步骤问题五:归纳建立回归模型的基本步骤 相关指数越大,效果越好相关指数越大,效果越好 残差平方和越小,效果越好残差平方和越小,效果越好 小结小结 1.残差平方和与模型拟合效果关系:残差平方和与模型拟合效果关系: 2.相关指数与模型拟合效果关系相关指数与模型拟合效果关系