1、回归分析回归分析 复习课复习课(三三) 统计案例统计案例 (1)变量间的相关关系是高考解答题命题的一个,主变量间的相关关系是高考解答题命题的一个,主 要考查变量间相关关系的判断, 求解回归方程并进行预报要考查变量间相关关系的判断, 求解回归方程并进行预报 估计,题型多为解答题,有时也有小题出现估计,题型多为解答题,有时也有小题出现 (2)掌握回归分析的步骤的是解答此类问题的关键,掌握回归分析的步骤的是解答此类问题的关键, 另外要掌握将两种非线性回归模型转化为线性回归分析另外要掌握将两种非线性回归模型转化为线性回归分析 求解问题求解问题 1一个重要方程一个重要方程 对于一组具有线性相关关系的数据
2、对于一组具有线性相关关系的数据(x1, y1), (x2, y2), , (xn,yn),其线性回归直线方程为,其线性回归直线方程为y b x a 其中其中b i1 n xix yiy i1 n xix 2 ,a yb x 考点精要考点精要 2重要参数重要参数 相关指数相关指数 R2是用来刻画回归模型的回归效果的,其值是用来刻画回归模型的回归效果的,其值 越大,残差平方和越小,模型的拟合效果越好越大,残差平方和越小,模型的拟合效果越好 3两种重要图形两种重要图形 (1)散点图:散点图: 散点图是进行线性回归分析的主要手段,其作用如下:散点图是进行线性回归分析的主要手段,其作用如下: 一是判断两
3、个变量是否具有线性相关关系,如果样本点一是判断两个变量是否具有线性相关关系,如果样本点 呈条状分布,则可以断定两个变量有较好的线性相关关系;呈条状分布,则可以断定两个变量有较好的线性相关关系; 二是判断样本中是否存在异常二是判断样本中是否存在异常 (2)残差图:残差图: 残差图可以用来判断模型的拟合效果,其作用如下:残差图可以用来判断模型的拟合效果,其作用如下: 一是判断模型的精度,残差点所分布的带状区域越一是判断模型的精度,残差点所分布的带状区域越 窄, 说明模型的拟合精度越高, 回归方程的预报精度越高窄, 说明模型的拟合精度越高, 回归方程的预报精度越高 二是确认样本点在采集中是否有人为的
4、错误二是确认样本点在采集中是否有人为的错误 典例典例 (全国卷全国卷)如图是我国如图是我国 2008 年到年到 2014 年生活垃圾年生活垃圾 无害化处理量无害化处理量(单位:亿吨单位:亿吨)的折线图的折线图 (1)由折线图看出,可用线性回归模型拟合由折线图看出,可用线性回归模型拟合 y 与与 t 的关系,请的关系,请 用相关系数加以说明;用相关系数加以说明; (2)建立建立 y 关于关于 t 的回归方程的回归方程(系数精确到系数精确到 001),预测,预测 2016 年我国生活垃圾无害化处理量年我国生活垃圾无害化处理量 附注:附注: 参考数据:参考数据: i1 7 yi932, i1 7 t
5、iyi4017, i1 7 yi y 2055, 7 2646 参考公式:相关系数参考公式:相关系数 r i1 n ti t yi y i1 n ti t 2 i1 n yi y 2 , 回归方程回归方程y a b t 中斜率和截距的最小二乘估计公式分别为: 中斜率和截距的最小二乘估计公式分别为:b i1 n ti t yi y i1 n ti t 2 ,a yb t 解解 (1)由折线图中数据和附注中参考数据得由折线图中数据和附注中参考数据得 t4, i1 7 (tit)228, i1 7 yiy 2055, i1 7 (tit)(yiy) i1 7 tiyit i1 7 yi40 1749
6、 322 89, r 2.89 22.6460.55 099 因为因为 y 与与 t 的相关系数近似为的相关系数近似为 099,说明,说明 y 与与 t 的线性相的线性相 关程度相当高,从而可以用线性回归模型拟合关程度相当高,从而可以用线性回归模型拟合 y 与与 t 的关系的关系 (2)由由y9.32 7 1331 及及(1)得得 b i1 7 tit yiy i1 7 tit 2 2.89 28 0103, a yb t133101034092 所以所以 y 关于关于 t 的回归方程为的回归方程为y 092010t 将将 2016 年对应的年对应的 t9 代入回归方程得代入回归方程得 y 0
7、920109182 所以预测所以预测2016年我国生活垃圾无害化处理量将约为年我国生活垃圾无害化处理量将约为1 82亿吨亿吨 类题通法类题通法 回归分析是对具有相关关系的两个变量进行统计分析的回归分析是对具有相关关系的两个变量进行统计分析的 一种常用方法,其步骤是先画出散点图,并对样本点进行相关一种常用方法,其步骤是先画出散点图,并对样本点进行相关 性检验,在此基础上选择适合的函数模型去拟合样本数据,从性检验,在此基础上选择适合的函数模型去拟合样本数据,从 而建立较好的回归方程,并且用该方程对变量值进行分析;有而建立较好的回归方程,并且用该方程对变量值进行分析;有 时回归模型可能会有多种选择时
8、回归模型可能会有多种选择(如非线性回归模型如非线性回归模型),此时可通,此时可通 过残差分析或利用相关指数过残差分析或利用相关指数 R2来检查模型的拟合效果,从而来检查模型的拟合效果,从而 得到最佳模型得到最佳模型 1 变量 变量 X 与与 Y 相对应的一组数据为相对应的一组数据为(10,1), (11 3,2), (11 8,3), (125,4),(13,5);变量;变量 U 与与 V 相对应的一组数据为相对应的一组数据为(10,5), (113,4),(118,3),(125,2),(13,1)r1表示变量表示变量 Y 与与 X 之间的线性相关系数,之间的线性相关系数,r2表示变量表示变
9、量 V 与与 U 之间的线性相关之间的线性相关 系数,则系数,则 ( ) Ar26635, 故在犯错误的概率不超过故在犯错误的概率不超过 001 的前提下认为的前提下认为“其亲属的其亲属的 饮饮食习惯与年龄有关食习惯与年龄有关” 类题通法类题通法 独立性检验问题的求解策略独立性检验问题的求解策略 (1)等高条形图法:依据题目信息画出等高条形图,依据等高条形图法:依据题目信息画出等高条形图,依据 频率差异来粗略地判断两个变量的相关性频率差异来粗略地判断两个变量的相关性 (2)K2统计量法:通过公式统计量法:通过公式 K2 n adbc 2 ab cd ac bd 先计算观测值先计算观测值 k,再
10、与临界值表作比较,最后得出结论,再与临界值表作比较,最后得出结论 题组训练题组训练 1下表是某地区的一种传染病与饮用水的调查表:下表是某地区的一种传染病与饮用水的调查表: 得病得病 不得病不得病 总计总计 干净水干净水 52 466 518 不干净水不干净水 94 218 312 总计总计 146 684 830 (1)能否在犯错误概率不超过能否在犯错误概率不超过 0 01 的前提下认为这种传染病与饮用的前提下认为这种传染病与饮用 水的卫生程度有关,请说明理由水的卫生程度有关,请说明理由 (2)若饮用干净水得病的有若饮用干净水得病的有 5 人,不得病的有人,不得病的有 50 人,饮用不干净水人
11、,饮用不干净水 得病的有得病的有 9 人,不得病的有人,不得病的有 22 人按此样本数据分析能否在犯错人按此样本数据分析能否在犯错 误概率不超过误概率不超过 0025 的前提下认为这种疾病与饮用水有关的前提下认为这种疾病与饮用水有关 解:解:(1)把表中的数据代入公式得把表中的数据代入公式得 K2的观测值的观测值 k830 5221846694 2 146684518312 5421 54216635, 所以在犯错误的概率不超过所以在犯错误的概率不超过 001 的前提下,认为该地区这的前提下,认为该地区这 种传染病与饮用水不干净有关种传染病与饮用水不干净有关 (2)依题意得依题意得 22 列联
12、表:列联表: 得病得病 不得病不得病 总计总计 干净水干净水 5 50 55 不干净水不干净水 9 22 31 总计总计 14 72 86 此时,此时,K2的观测值的观测值 k86 522509 2 14725531 5785 因为因为 57855024, 所以能在犯错误概率不超过所以能在犯错误概率不超过 0025 的前提下认为该种疾病的前提下认为该种疾病 与饮用水不干净有关与饮用水不干净有关 22016 年第三十一届奥运会在巴西首都里约热内卢举行,为年第三十一届奥运会在巴西首都里约热内卢举行,为 调查某高校学生是否愿意提供志愿者服务, 用简单随机抽样调查某高校学生是否愿意提供志愿者服务, 用
13、简单随机抽样 方法从该校调查了方法从该校调查了 60 人,结果如下:人,结果如下: 是否愿意提供志愿者服务是否愿意提供志愿者服务 性别性别 愿意愿意 不愿意不愿意 男生男生 20 10 女生女生 10 20 (1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取用分层抽样的方法在愿意提供志愿者服务的学生中抽取 6 人,人,其中男生抽取多少人?其中男生抽取多少人? (2)在在(1)中抽取的中抽取的 6 人中任选人中任选 2 人,人,求恰有一名女生的概率求恰有一名女生的概率 (3)你能否在犯错误的概率不超过你能否在犯错误的概率不超过 001 的前提下认为该校高的前提下认为该校高 中生是否愿意提供志
14、愿者服务与性别有关?中生是否愿意提供志愿者服务与性别有关? 下面的临界值表供参考:下面的临界值表供参考: P(K2k0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828 独立性检验统计量独立性检验统计量 K2 n adbc 2 ab cd ac bd ,其中 ,其中 na bcd 解:解: (1)由题意, 男生抽取由题意, 男生抽取 6 20 2010 4(人人), 女生抽取, 女生抽取 6 10 2010 2(人人) (2)在在(1)中抽取的中抽取的6人中任选人中任选2人, 恰有一名女生的概率人, 恰有一名女生的概率PC 1 4C 1 2 C2 6 8 15 (3)K260 20201010 2 30303030 6667,由于,由于 66676635, 所以能在犯错误的概率不超过所以能在犯错误的概率不超过 001 的前提下认为该校高中生的前提下认为该校高中生 是否愿意提供志愿者服务与性别有关是否愿意提供志愿者服务与性别有关 “回扣验收特训回扣验收特训”见见“回扣验收特训(三)回扣验收特训(三)” ( (单击进入电子文档单击进入电子文档) )