1、=【 ;精品教育资源文库 】 = 第四节 变量间的相关关系与统计案例 考纲传真 (教师用书独具 )1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系 .2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程 (线性回归系数公式不要求记忆 ).3.了解回归分析的基本思想、方法及其简单应用 .4.了解独立性检验 (只要求 22 列联表 )的思想、方法及其初步应用 (对应学生用书第 165 页 ) 基础知识填充 1两个变量的线性相关 (1)正相关 在散点图中,点散布在从 左下角 到 右上角 的区域,对于两个变量的这种相关 关系,我们将它称为正相关 (2)负相关
2、 在散点图中,点散布在从 左上角 到 右下角 的区域,两个变量的这种相关关系称为负相关 (3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在 一条直线附近 ,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线 2回归方程 (1)最小二乘法 求回归直线,使得样本数据的点到它的 距离的平方和最小 的方法叫作最小二乘法 (2)回归方程 方程 y bx a 是两个具有线性相关关系的变量的一组数据 (x1, y1), (x2, y2), ? , (xn,yn)的回归方程,其中 a, b 是 待定参数 ? b ni 1 (xi x )(yi y )ni 1(xi x )2ni 1xiy
3、i nx yni 1x2i n x 2a y b x .3回归分析 (1)定义:对具有 相关关系 的两个变量进行统计分析的一种常用方法 (2)样本点的中心 对于一组具有线性相关关系的数据 (x1, y1), (x2, y2), ? , (xn, yn),其中 (x , y )称为样本点的中心 =【 ;精品教育资源文库 】 = (3)相关系数 当 r 0 时,表明两个变量 正相关 ; 当 r 0 时,表明两个变量 负相关 r 的绝对值越接近于 1,表明两个变量的线性相关性 越强 r 的绝对值越接近于 0,表明两 个变量之间 几乎不存在线性相关关系 通常 |r|大于 0.75 时,认为两个变量有很
4、强的线性相关性 4独立性检验 (1)分类变量:变量的不同 “ 值 ” 表示个体所属的 不同类别 ,像这类变量称为分类变量 (2)列联表:列出两个分类变量的 频数表 ,称为列联表假设有两个分类变量 X 和 Y,它们的可能取值分别为 x1, x2和 y1, y2,其样本频数列联表 (称为 22 列联表 )为 22 列联表 y1 y2 总计 x1 a b a b x2 c d c d 总计 a c b d a b c d 构造一个随机变量 2 n(ad bc)2(a b)(a c)(b d)(c d),其中 n a b c d 为样本容量 (3)独立性检验 利用随机变量 2来判断 “ 两个分类变量
5、有关系 ” 的方法称为独立性检验 知识拓展 1.b 的几何意义:体现平均增加或平均减少 2由回归直线求出的数据是估算值,不是精确值 基本能力自测 1 (思考辨析 )判断下列结论的正误 (正确的打 “” ,错误的打 “”) (1)“ 名师出高徒 ” 可以解释为教师的教学水平与学生的水平成正相关关系 ( ) (2)通过回归直线方程 y bx a 可以 估计预报变量的取值和变化趋势 ( ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验 ( ) (4)事件 X, Y 关系越密切,则由观测数据计算得到的 2的观测值越大 ( ) 答案 (1) (2) (3) (4) 2
6、 (教材改编 )已知变量 x 与 y 正相关,且由观测数据算得样本平均数 x 3, y 3.5,则由该观测数据算得的线性回归方程可能是 ( ) A y 0.4x 2.3 B y 2x 2.4 =【 ;精品教育资源文库 】 = C y 2x 9.5 D y 0.3x 4.4 A 因为变量 x 和 y 正相关,排除选项 C, D又样本中心 (3,3.5)在回归直线上,排除B,选项 A 满足 3下面是一个 22 列联表 y1 y2 总计 x1 a 21 73 x2 2 25 27 总计 b 46 则表中 a, b 处的值分别为 _ 52,54 因为 a 21 73,所以 a 52.又因为 a 2 b
7、,所以 b 54. 4调查了某地若干户家庭的年收入 x(单位:万元 )和年饮食支出 y(单位:万元 ),调查显示年收入 x与年饮食支出 y具有线性相关关系,并 由调查数据得到回归直线方程: y 0.254x 0.321,由回归直线方程可知,家庭年收入每增加 1 万元,年饮食支出平均约增加_万元 0.254 由题意知回归直线的斜率为 0.254, 故家庭年收入每增加 1 万元,年饮食支出平均约增加 0.254 万元 5为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取 50 名学生,得到如下22 列联表: 理科 文科 男 13 10 女 7 20 已知 P( 23.841)0.05 ,
8、P( 25.024)0.025. 根据表中数据,得到 2 的 观测值 k 50 (1320 107 )223272030 4.844. 则认为选修文科与性别有关系出错的可能性为 _ 5% 2的观测值 k4.844 ,这表明小概率事件发生根据假设检验的基本原理,应该断定 “ 是否选修文科与性别之间有关系 ” 成立,并且这种判断出错的可能性约为 5%. (对应学生用书第 166 页 ) 相关关系的判断 (1)已知变量 x 和 y 满足关系 y 0.1x 1,变量 y 与 z 正相关下列结论中正确的是 ( ) =【 ;精品教育资源文库 】 = A x 与 y 正相关, x 与 z 负相关 B x 与
9、 y 正相关, x 与 z 正相关 C x 与 y 负相关, x 与 z 负相关 D x 与 y 负相关, x 与 z 正相关 (2)x和 y的散点图如图 941 所示,则下列说法中所有正确命题的序号为 _. 【导学号: 79140333】 图 941 x, y 是负相关关系; 在该相关关系中,若用 y c1ec2x 拟合时的相关指数为 R21,用 y bx a 拟合时的相关指数为 R22,则 R21 R22; x, y 之间不能建立线 性回归方程 (1)C (2) (1)因为 y 0.1x 1 的斜率小于 0,故 x 与 y 负相关因为 y 与 z正相关,可设 z by a, b0,则 z
10、by a 0.1bx b a,故 x 与 z 负相关 (2)在散点图中,点散布在从左上角到右下角的区域,因此 x, y 是负相关关系,故 正确;由散点图知用 y c1ec2x 拟合比用 y bx a 拟合效果要好,则 R21 R22,故 正确; x, y 之间可以建立线性回归方程,但拟合效果不好,故 错误 规律方法 判定两个变量正 、负相关性的方法 画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关 . 相关系数: r 0 时,正相关; r 0 时,负相关 . 线性回归直线方程中: b0 时,正相关; b0 时,负相关 . 跟踪训练 某公司在 2017
11、 年上半年的月收入 x(单位:万元 )与月支出 y(单位:万元 )的统计资料如表所示: 月份 1 月份 2 月份 3 月份 4 月份 5 月份 6 月份 收入 x 12.3 14.5 15.0 17.0 19.8 20.6 支出 y 5.63 5.75 5.82 5.89 6.11 6.18 根据统计资料,则 ( ) A月收入的中位数是 15, x 与 y 有正线性相关关系 B月收入的中位数是 17, x 与 y 有负线性相关关系 C月收入的中位数是 16, x 与 y 有正线性相关关系 =【 ;精品教育资源文库 】 = D月收入的中位数是 16, x 与 y 有负线性相关关系 C 月收入的中
12、位数是 15 172 16,收入增加,支出增加,故 x 与 y 有正线性相关关系 回归分析 (2017 全国卷 ) 为了监控某种零件的一条生产线的生产过程,检验员每隔 30 min从该生产线上随机抽取一个零件,并测 量其尺寸 (单位: cm)下面是检验员在一天内依次抽取的 16 个零件的尺寸: 抽取次序 1 2 3 4 5 6 7 8 零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序 9 10 11 12 13 14 15 16 零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95 经计算得
13、x 11616i 1xi 9.97, s 11616i 1(xi x )2 116(16i 1x2i 16 x 2)0.212 ,16i 1(i 8.5)218.439 , 16i 1(xi x )(i 8.5) 2.78,其中 xi为抽取的第 i 个零件的尺寸, i 1,2, ? , 16. (1)求 (xi, i)(i 1,2, ? , 16)的相关系数 r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小 (若 |r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小 ); (2)一天内抽检零件中,如果出现了尺寸在 ( x 3s, x 3s)之外
14、的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查 () 从这一天抽检的结果看,是否需对当天的生产过程进行检查? () 在 ( x 3s, x 3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差 (精确到 0.01) 附:样本 (xi, yi)(i 1,2, ? , n)的相关系数 rni 1(xi x )(yi y )ni 1(xi x )2 ni 1(yi y )2,0.0080.09. =【 ;精品教育资源文库 】 = 解 (1)由样本数据得 (xi, i)(i 1,2, ? , 16)的相关系数 r16i 1(
15、xi x )(i 8.5)16i 1(xi x )2 16i 1(i 8.5)2 2.780.212 1618.439 0.18. 由于 |r|0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小 (2)() 由于 x 9.97, s0.212 ,因此由样本数据可以看出抽取的第 13 个零件的尺寸在 ( x 3s, x 3s)以外,因此需对当天的生产过程进行检查 () 剔除离群值,即第 13 个数据,剩下数据的平均数为 115(169.9 7 9.22) 10.02, 这条生产线当天生产的零件尺寸的均值的估计值为 10.02. 16i 1x2i160.212 2 169.97 21 591.134 , 剔除第 13 个数据,剩下数据的样本方差为 115(1 591.13