1、=【 ;精品教育资源文库 】 = 9.3 变量间的相关关系与统计案例 知识梳理 1相关关系与回归方程 (1)相关关系的分类 正相关:从散点图上看,点散布在从 左下角 到 右上角 的区域内,如图 1; 负相关:从散点图上看,点散布在从 左上角 到 右下角 的区域内,如图 2. (2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在 一条直线 附近,则称这两个变量之间具有线性相关关系,这条直线叫做 回归直线 (3)回归方程 最小二乘法:使得样本数据的点到回归直线的 距离的平方和 最小的方法叫做最小二乘法 回归方程:两个具有线性相关 关系的变量的一组数据 (x1, y1), (x2, y2
2、), ? , (xn,yn),其回归方程为 y bx a,则 b?i 1n?xi x ?yi y ?i 1n?xi x ?2?i 1nxiyi n x y?i 1nx2i n x 2, a y bx .=【 ;精品教育资源文库 】 = 其中, b是回归方程的 斜率 , a是在 y 轴上的 截距 , x 1nni 1xi, y 1nni 1yi, (x, y)称为样本点的中心 说明:回归直线 y bx a必过样本点的中心 (x, y),这个结论既是检验所求回归直线方程是 否准确的依据,也是求参数的一个依据 (4)样本相关系数 r?i 1n?xi x ?yi y ?i 1n?xi x ?2?i 1
3、n?yi y ?2,用它来衡量两个变量间的线性相关关系 当 r0 时,表明两个变量 正相关 ; 当 r0.75 时,认为两个变量有很强的线性相关关系 2独立性检验 (1)分类变量:变量的不同 “ 值 ” 表示个体所属的 不同类别 ,像这类变量称为分类变量 (2)列联表:列出两个分类变量的 频数表 ,称为列联表假设有两个分类变量 X 和 Y,它们的可能取值分别为 x1, x2和 y1, y2,其样本频数列联表 (称为 22 列联表 )为 22 列联表 y1 y2 总计 x1 a b a b x2 c d c d 总计 a c b d a b c d 构造一个随机变量 K2 n?ad bc?2?a
4、 b?c d?a c?b d?,其中 n a b c d 为样本容量 (3)独立性检验 利用随机变量 K2来判断 “ 两个分类变量 有关系 ” 的方法称为独立性检验 诊断自测 1概念思辨 (1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示 ( ) (2)通过回归方程 y bx a可以估计和观测变量的取值和变化趋势 ( ) (3)事件 X, Y 关系越密切,则由观测数据计算得到的 K2的观测值越大 ( ) (4)由独立性检验可知,有 99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有 99%的可能物理优秀 ( ) 答案 (1) (2) (3) (4) =【 ;精品
5、教育资源文库 】 = 2教材衍化 (1)(必修 A3P94A 组 T3)某种产品的广告费用支出 x(单位:万元 )与销售额 y(单位:万元 )之间有如下的对应数据: x 2 4 5 6 8 y 30 40 60 50 70 由最小二乘法得到线性回归直线方程 y bx a,则此直线一定经过点 ( ) A (5,60) B (5,50) C (6,50) D (8,70) 答案 B 解析 回归直线样本点的中心为 (x, y),而 x 15(2 4 5 6 8) 5, y 15(30 40 60 50 70) 50,所以回归直线一定 经过点 (5,50)故选 B. (2)(选修 A1 2P96T2)
6、通过随机询问 72 名不同性别的大学生在购买食物时是否看生产日期,得到如下列联表: 女 男 总计 读生产日期 16 28 44 不读生产日期 20 8 28 总计 36 36 72 则有 _的把握认为性别与是否读生产日期有关 答案 99.5% 解析 由表中数据得 k 72 ?168 2028 ?236364428 8.4167.879 ,所以可知有 99.5%的把握认为性别与是否读生产日期有关 3 小题热身 (1)设回归方程为 y 3 5x,则变量 x 增加一个单位时 ( ) A y 平均增加 3 个单位 B y 平均减少 5 个单位 C y 平均增加 5 个单位 D y 平均减少 3 个单位
7、 答案 B 解析 因为 5 是斜率的估计值,说明 x 每增加一个单位, y 平均减少 5 个单位故选B. (2)(2018 西安模拟 )某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了 5 次试验根据收集到的数据 (如下表 ),由最小二乘法求得回归方程 y 0.67x54.9. 零件数 x(个 ) 1 20 3 40 5=【 ;精品教育资源文库 】 = 0 0 0 加工时间 y(min) 62 75 81 89 现发现表中有一个数据看不清,请你推断出该数据的值为 _ 答案 68 解析 由 x 30,得 y 0.6730 54.9 75. 设表中的 “ 模糊数字 ” 为 a, 则
8、 62 a 75 81 89 755 , a 68. 题型 1 相关关系的判断 典例 1 对变量 x, y 有观测数据 (xi, yi)(i 1,2, ? , 10),得散点图 ;对变量 u,v 有观测数据 (ui, vi)(i 1,2, ? , 10),得散点图 ,由这两个散点图可以判断 ( ) A变量 x 与 y 正相关, u 与 v 正相关 B变量 x 与 y 正相关, u 与 v 负相关 C变量 x 与 y 负相关, u 与 v 正相关 D变量 x 与 y 负相关, u 与 v 负相关 散点分布向右上升为正相关,反之为负相关 答案 C 解析 题图 的散点分布在斜率小于 0 的直线附近,
9、 y 随 x 的增大而减小,故变量 x 与y 负相关;题图 的散点分布在斜率大于 0 的直线附近, u 随 v 的增大而增大,故变量 u 与v 正相关,故选 C. 典例 2 甲、乙、丙、丁四位同学各自对 A, B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数 r 与残差平方和 m 如下表: =【 ;精品教育资源文库 】 = 甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 106 115 124 103 则哪位同学的试验结果体现 A, B 两变量有更强的线性相关性 ( ) A甲 B乙 C丙 D丁 考查 r 的取值与 1 的关系 答案 D 解析 在验证两个变量之间的线
10、性相关关系 时,相关系数的绝对值越接近 1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了 A, B 两个变量有更强的线性相关性,故选 D. 方法技巧 判定两个变量正、负相关性的方法 1画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关见典例 1. 2相关系数: r0 时,正相关; r0 时,正相关; b0,故 2007 年至 2013 年该地区农村居民家庭人均纯收入逐年增加,平均每年增加 0.5 千元 将 2015 年的年份代号 t 9 代入 (1)中的回归方程, 得 y
11、0.59 2.3 6.8, 故预测该地区 2015 年农村居民家庭人均纯收入为 6.8 千元 角度 2 非线性回归模型的应用 典例 (2015 全国卷 )某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位: 千元 )对年销售量 y(单位: t)和年利润 z(单位:千元 )的影响对近 8 年的年宣传费 xi和年销售量 yi(i 1,2, ? , 8)数据作了初步处理,得到下面的散点图及一些统计量的值 =【 ;精品教育资源文库 】 = 表中 wi xi, w 188i 1wi. (1)根据散点图判断, y a bx 与 y c d x哪一个适宜作为年销售量 y 关于年宣传费x 的回
12、归方程类型? (给出判断即可,不必说明理由 ) (2)根据 (1)的判断结果及表中数据,建立 y 关于 x 的回归方程; (3)已知这种产品的年利润 z 与 x, y 的关系为 z 0.2y x.根据 (2)的结果回答下列问题: 年宣传费 x 49 时,年销售量及年利润的预报值是多少? 年宣传费 x 为何值时,年利润的预报值最大? 附:对于一组数据 (u1, v1), (u2, v2), ? , (un, vn),其回归直线 v u 的斜率和截距的最小二乘估计分别为 ni 1?ui u ?vi v ?ni 1?ui u ?2, v u . (1)散点图趋势是曲线,推断 y c d x适宜; (
13、2)将非线性回归方程 y c d x用换元法 w x转化为线性回归方程 y c dw,进而求解 解 (1)由散点图可以判断, y c d x适宜作为年销售量 y 关于年宣传费 x 的回归方程类型 =【 ;精品教育资源文库 】 = (2)令 w x,先建立 y 关于 w 的线性回归方程由于 d8i 1?wi w ?yi y ?8i 1?wi w ?2 108.81.6 68, c y dw 563 686.8 100.6, 所以 y 关于 w 的线性回归方程为 y 100.6 68w,因此 y 关于 x 的回归方程为 y 100.6 68 x. (3) 由 (2)知,当 x 49 时,年销售量
14、y 的预报值 y 100.6 68 49 576.6, 年利润 z 的预报值 z 576.60.2 49 66.32. 根据 (2)的结果知,年利润 z 的预报值 z 0.2(100.6 68 x) x x 13.6 x 20.12. 所以当 x 13.62 6.8,即 x 46.24 时, z取得最大值 故年宣传费为 46.24 千元时,年利润的预报值最大 方法技巧 1利用线性回归方程时的关注点 (1)正确理解计算 b, a的公式和准确的计算是求线性回归方程的关键 (2)回归直线方程 y bx a必过样本点中心 (x, y) (3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测见角 度 1典例 2非线性回归方程的求法 (1)根据原始数据 (x, y)作出散点图 (2)根据散点图选择恰当的拟合函数 (3)作恰当的变换,将其转化成线性函数,求线性回归方程 (4)在 (3)的基础上通过相应变换,即可得非线性回归方程见角度 2 典例 冲关针对训练 (2016 全国卷 )下图是我国 2008 年至 2014 年生活垃圾无害化处理量 (单位:亿吨 )的折线图 =【 ;精品教育资源文库 】 = (1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系