1、=【 ;精品教育资源文库 】 = 第 56 讲 变量间的相关关系与统计案例 考纲要求 考情分析 命题趋势 1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系 2了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程 3了解常见的统计方法,并能应用这些方法解决一些实际问题 4了解独立性检验 (只要求 22列联表 )的基本思想、方法及其简单应用 5了解回归分析的基本思想、方法及其简单应用 2017 全国卷 , 19 2016 湖北卷, 4 2016 安徽卷,17 1.散点图与相关关系、线性回归方 程与独立性检验在实际生活中的应用 2有关统计内容及方法主要以选择题
2、、填空题的形式呈现,属容易题;抽样方法和各种统计图表与概率的有关内容相结合或与统计案例相结合也会出现在解答题中,属中档题 分值: 5 12 分 1相关关系与回归方程 (1)相关关系的分类 正相关:从散点图上看,点散布在从 _左下角 _到 _右上角 _的区域内 负相关:从散点图上看,点散布在从 _左上角 _到 _右下角 _的区域内 (2)线性相关关系 从散点图上看,如果这些点从整体上看大致分布在一条直线附 近,则称这两个变量之间具有线性相关关系,这条直线叫 _回归直线 _. (3)回归方程 最小二乘法:使得样本数据的点到回归直线的 _距离的平方和 _最小的方法叫最小二乘法 回归方程:两个具有线性
3、相关关系的变量的一组数据: (x1, y1), (x2, y2), ? , (xn,yn) 其 回 归 方 程 为 y bx a ,其中=【 ;精品教育资源文库 】 = ? b ?i 1n?xi x ?yi y ?i 1n?xi x ?2?i 1nxiyi n x y?i 1nx2i n x 2,a y bx ,其中 ( x , y )称为样本点的中心 (4)样本相关系数 r?i 1n?xi x ?yi y ?i 1n?xi x ?2?i 1n?yi y ?2,用它来衡量两个变量间的线性相关关系的强弱 当 r 0 时,表明两个变量 _正相关 _; 当 r 0 时,表明两个变量 _负相关 _;
4、r 的绝对值越接近 1,表明两个变量的线性相关性 _越强 _; r 的绝对值越接近 0,表明两个变量的线性相关性 _越弱 _,通常当 | |r 0.75 时,认为两个变量有很强的线性相关关系 2独立性检验 (1)分类变量:变量的不同 “ 值 ” 表示个体所属的不同类别,像这类变量称为分类变量 (2)列联表:列出两个分类变量的频数表,称为列联表假设有两个分类变量 X 和 Y,它们的可能取值分别为 x1, x2和 y1, y2,其样本频数列联表 (称为 22 列联表 )如下表所示 . y1 y2 总计 x1 a b a b x2 c d c d 总计 a c b d a b c d K2 n?ad
5、 bc?2?a b?a c?b d?c d?(其中 n _a b c d_为样本容量 ),则利用独立性检验判断表来判断 “ X 与 Y 的关系 ” 1思维辨析 (在括号内打 “” 或 “ ”) =【 ;精品教育资源文库 】 = (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系 ( ) (2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示 ( ) (3)通过回归方程 y bx a可以估计和观 测变量的取值和变化趋势 ( ) (4)任何一组数据都对应着一个回归直线方程 ( ) (5)事件 X, Y 关系越密切,则由观测数据计算得到的 K2的观测值越大 ( ) 2
6、观察下列各图: 其中两个变量 x, y 具有相关关系的图是 ( C ) A B C D 解析 由散点图知 具有相关关系 3已知 x, y 的取值如下表,从散点图可以看出 y 与 x 线性相关,且回归方程为 y 0.95x a,则 a ( B ) x 0 1 3 4 y 2.2 4.3 4.8 6.7 A 3.25 B 2.6 C 2.2 D 0 解析 由已知得 x 2, y 4.5,因为回归方程经过点 (x , y ),所以 a 4.5 0.952 2.6. 4若回归直线方程为 y 2 1.5x,则变量 x 增加一个单位, 变量 y( C ) A平均增加 1.5 个单位 B平均增加 2 个单位
7、 C平均减少 1.5 个单位 D平均减少 2 个单位 解析 因为回归直线方程为 y 2 1.5x,所以 b 1.5,则变量 x 增加一个单位, y平均减少 1.5 个单位 5在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( C ) A若 K2的观测值为 k 6.635,我们有 99%的把握认为吸烟与患肺病 有关系,那么在 100个吸烟的人中必有 99 人患有肺病 =【 ;精品教育资源文库 】 = B从独立性检验可知,有 99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有 99%的可能患有肺病 C若从统计量中求出有 95%的把握认为吸烟与患肺病有关系,是指有 5%的可能性使得
8、推断出现错误 D以上三种说法都不正确 解析 根据独立性检验的思想知 C 项正确 一 相关关系的判断 判定两个变量正、负相关性的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关 (2)相关系数: r0 时, 正相关; r0 时,正相关; b0 时,负相关 (4)相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性 【例 1】 (1)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图 (x 轴、 y
9、 轴的单位长度相同 ),用回归直线方程 y bx a近似地刻画其相关关系,根据图形,以下结论最有可能成立的是 ( B ) A线性相关关系较强, b的值为 1.25 B线性相关关系较强, b的值为 0.83 C线性相关关系较强, b的值为 0.87 D线性相关关系较弱,无研究价值 (2)已知变量 x 和 y 满足关系 y 0.1x 1,变量 y 与 z 正相关,下列 结论中正确的是( C ) A x 与 y 正相关, x 与 z 负相关 B x 与 y 正相关, x 与 z 正相关 =【 ;精品教育资源文库 】 = C x 与 y 负相关, x 与 z 负相关 D x 与 y 负相关, x 与
10、z 正相关 解析 (1)由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比 y x 的斜率要小一些,综上可知应选 B. (2)因为 y 0.1x 1, x 的系数为负,故 x 与 y 负相关;而 y 与 z 正相关,故 x 与 z负相关 二 线性回归分析 (1)正确理解 计算 b, a的公式并能准确的计算出结果是求线性回归方程的关键 (2)回归直线方程 y bx a必过样本点中心 ( x , y ) (3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关
11、关系,若具有线性相关关系,则可通过线性回归方程来估计和预测 【例 2】 随着我国经济的发展,居民的储蓄存款逐年增长设某地区城乡居民人民币储蓄存款 (年底余额 )如下表 . 年份 2013 2014 2015 2016 2017 时间代号 t 1 2 3 4 5 储蓄存款 y/千亿元 5 6 7 8 10 (1)求 y 关于 t 的回归方程 y bt a; (2)用所求回归方程预测该地区 2018 年 (t 6)的人民币储蓄存款 附:回归方程 y bt a中, b?i 1ntiyi n t y?i 1nt2i n t 2, a y bt . 解析 (1)列表计算如下 . i ti yi t2i
12、tiyi 1 1 5 1 5 2 2 6 4 1=【 ;精品教育资源文库 】 = 2 3 3 7 9 21 4 4 8 16 32 5 5 10 25 50 15 36 55 120 这里 n 5, t 1n?i 1nti 155 3, y 1n?i 1nyi 365 7.2,又 ?i 1nt2i nt 2 55 53 2 10, ?i 1ntiyi nt y 120 537.2 12,从而 b?i 1ntiyi nt y?i 1nt2i nt 2 1210 1.2, a y bt 7.21.23 3.6,故所求回归方程为 y 1.2t 3.6. (2)将 t 6 代入回归方程可预测该地区 2
13、018 年的人民币储蓄存款为 y 1.26 3.610.8(千亿元 ) 三 独立性检验 (1)独立性检验的关键是 正确列出 22 列联表,并计算出 K2的值 (2)弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答 【例 3】 某学生对其亲属 30 人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示 30 人的饮食指数 (说明:图中饮食指数低于 70 的人,饮食以蔬菜为主;饮食指数高于 70的人,饮食以肉类为主 ). 甲 (50 岁以下 ) 乙 (50 岁以上 ) 1 2 0 1 5 6 6 7 3 2 3 6 7 9 5 3 4 2 4 5 =【 ;精品教育资源文库
14、】 = 8 5 8 6 1 8 7 6 4 7 5 8 5 3 2 8 0 9 (1)根据以上数据完成下列 22 列联表; 主食蔬菜 主食肉类 总计 50 岁以下 50 岁以上 总计 (2)能否有 99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析 参考数据: P(K2 k0) 0.10 0.50 0.025 0.010 0.001 k0 2.706 3.841 5.0254 6.635 10.828 解析 (1)22 列联表如下 . 主食蔬菜 主食肉类 总计 50 岁以下 4 8 12 50 岁以上 16 2 18 总计 20 10 30 (2)因为 K2 30 ?42 168 ?212182010 10 6.635,所以有 99%的把握认为其亲属的饮食习=【 ;精品教育资源文库 】 = 惯与年龄有关 1某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下 . 零件的个数 x/个 2 3 4 5 加工的时间 y/小时 2.5 3 4 4.5 (1)在给定的坐标系中画出表中数据的散点图; (2)求出 y 关于 x 的线性回归方程 y bx a; (3)试预测加工 10 个零件需要多少小时? 解析 (1)散点图如右图 (2)由