1、变量间的相关关系、统计案例变量间的相关关系、统计案例 考试要求 1.会做两个有关联变量的数据的散点图, 并利用散点图认识变量 间的相关关系. 2.了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归 方程(线性回归系数公式不要求记忆). 3.了解回归分析的基本思想、方法及其简单应用. 4.了解独立性检验(只要求 22 列联表)的思想、方法及其初步应用 1两个变量的线性相关 (1)正相关 在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关 关系,我们将它称为正相关 (2)负相关 在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系 称为负相关 (3)
2、线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之 间具有线性相关关系,这条直线叫做回归直线 2回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫 做最小二乘法 (2)回归方程:方程y bxa是两个具有线性相关关系的变量的一组数据(x 1, y1),(x2,y2),(xn,yn)的回归方程,其中a ,b是待定参数 3回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法 (2)样本点的中心 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其中( x , y )称为样本点的中心,
3、即回归直线经过点( x , y ) (3)相关系数 当 r0 时,表明两个变量正相关; 当 r0 时,表明两个变量负相关 r 的绝对值越接近于 1,表明两个变量的线性相关性越强r 的绝对值越接近 于 0,表明两个变量之间几乎不存在线性相关关系通常|r|大于 0.75 时,认为两个 变量有很强的线性相关性 4独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为 分类变量 (2)列联表:列出两个分类变量的频数表,称为列联表假设有两个分类变量 X 和 Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为 22 列 联表)为 22 列联表 y1 y2 总
4、计 x1 a b ab x2 c d cd 总计 ac bd abcd 构造一个随机变量 K2 nadbc2 abacbdcd, 其中 nabcd 为样本 容量 常用结论 1回归直线必过样本点的中心( x , y ) 2当两个变量的相关系数|r|1 时,两个变量呈函数关系 一、易错易误辨析(正确的打“”,错误的打“”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系 ( ) (2)通过回归直线方程y bxa可以估计预报变量的取值和变化趋势( ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行 相关性检验 ( ) (4)事件 X,Y 关系越密切,则由
5、观测数据计算得到的 K2的观测值越大 ( ) 答案 (1) (2) (3) (4) 二、教材习题衍生 1在两个变量 y 与 x 的回归模型中,分别选择了 4 个不同模型,它们的相关 指数 R2如下,其中拟合效果最好的是( ) A模型 1 的相关指数 R2为 0.98 B模型 2 的相关指数 R2为 0.80 C模型 3 的相关指数 R2为 0.50 D模型 4 的相关指数 R2为 0.25 A R2越接近于 1,其拟合效果越好 2下面是 22 列联表: y1 y2 总计 x1 a 21 73 x2 22 25 47 总计 b 46 120 则表中 a,b 的值分别为( ) A94,72 B52
6、,50 C52,74 D74,52 C a2173,a52.又 a22b,b74. 3为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取 50 名 学生,得到如下 22 列联表: 理科 文科 男 13 10 女 7 20 已知 P(K23.841)0.05,P(K25.024)0.025. 根据表中数据,得到 K2的观测值 k501320107 2 23272030 4.844.则认为选 修文科与性别有关系出错的可能性约为 5% K2的观测值 k4.844,这表明小概率事件发生根据独立性检验,应 该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约 为 5%. 4某同
7、学家里开了一个小卖部,为了研究气温对某种冷饮销售量的影响,他 收集了一段时间内这种冷饮每天的销售量 y(杯)与当天最高气温 x()的有关数据, 通过描绘散点图,发现 y 和 x 呈线性相关关系,并求得其回归方程y 2x60.如果 气象预报某天的最高气温为 34 ,则可以预测该天这种饮料的销售量为 杯 128 由题意 x34 时,该小卖部大约能卖出冷饮的杯数y 2 3460128 杯 考点一 相关关系的判断 判定两个变量正、负相关的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左 上角到右下角,两个变量负相关 (2)相关系数:r0 时,正相关;r0 时,负相关 (3)
8、线性回归直线方程中:b 0 时,正相关;b400 空气质量好 空气质量不好 附:K2 nadbc2 abcdacbd, P(K2k) 0.050 0.010 0.001 k 3.841 6.635 10.828 . 解 (1)由所给数据,该市一天的空气质量等级为 1,2,3,4 的概率的估计值如 表: 空气质量等级 1 2 3 4 概率的估计值 0.43 0.27 0.21 0.09 (2)一天中到该公园锻炼的平均人次的估计值为 1 100(100203003550045)350. (3)根据所给数据,可得 22 列联表: 人次400 人次400 空气质量好 33 37 空气质量不好 22 8
9、 根据列联表得 K21003382237 2 55457030 5.820. 由于 5.8203.841, 故有 95%的把握认为一天中到该公园锻炼的人次与该市当 天的空气质量有关 点评:独立性检验是判断两个分类变量之间是否有关系的一种方法在判断 两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量 是否有关系,而独立性检验可以精确地得到可靠的结论 跟进训练 1 党的十九大报告明确提出: 在共享经济等领域培育增长点、 形成新动能 共 享经济是公众将闲置资源通过社会化平台与他人共享,进而获得收入的经济现 象为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门 进行
10、共享经济对比试验,根据四个企业得到的试验数据画出如下四个等高条形图, 最能体现共享经济对该部门的发展有显著效果的图形是( ) A B C D D 根据四个选项中的等高条形图可知,选项 D 中共享与不共享的企业经济 活跃度的差异较大,且最能体现共享经济对该部门的发展有显著效果,故选 D 2(2020 新高考全国卷)为加强环境保护,治理空气污染,环境监测部门对 某市空气质量进行调研,随机抽查了 100 天空气中的 PM2.5 和 SO2浓度(单位: g/m3),得下表: SO2 PM2.5 0,50 (50,150 (150,475 0,35 32 18 4 (35,75 6 8 12 (75,1
11、15 3 7 10 (1)估计事件“该市一天空气中PM2.5浓度不超过75, 且SO2浓度不超过150” 的概率; (2)根据所给数据,完成下面的 22 列联表: SO2 PM2.5 0,150 (150,475 0,75 (75,115 (3)根据(2)中的列联表,判断是否有 99%的把握认为该市一天空气中 PM2.5 浓 度与 SO2浓度有关? 附:K2 nadbc2 abcdacbd, 解 (1)根据抽查数据,该市 100 天空气中的 PM2.5 浓度不超过 75,且 SO2 浓度不超过 150 的天数为 32186864,因此,该市一天空气中 PM2.5 浓度 不超过 75,且 SO2浓度不超过 150 的概率的估计值为 64 1000.64. (2)根据抽查数据,可得 22 列联表: SO2 PM2.5 0,150 (150,475 0,75 64 16 (75,115 10 10 (3)根据(2)的列联表得 K210064101610 2 80207426 7.484. 由于 7.4846.635,故有 99%的把握认为该市一天空气中 PM2.5 浓度与 SO2浓 度有关
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。