1、大一轮复习讲义 第九章统计与统计案例 9.2变量间的相关关系、统计案例 考试要求 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的 相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建 立线性回归方程. 3.了解独立性检验的基本思想、方法及其初步应用. 4.了解回归分析的基本思想、方法及其简单应用. 主干梳理主干梳理 基础落实基础落实 题型突破题型突破 核心核心探究探究 课时精练课时精练 内容 索引 ZHUGANSHULI JICHULUOSHI 主干梳理 基础落实 1 1.相关关系与回归方程相关关系与回归方程 (1)相关关系的分类 正相关 在散点图中,点散布在
2、从左下角到右上角的区域,对于两个变量的这种 相关关系,我们将它称为正相关. 负相关 在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关 关系称为负相关. 知识梳理 (2)线性回归方程 线性相关 线性回归方程 (3)最小平方法是一种求回归直线的方法,用这种方法求得的回归直线能 使样本数据的点到回归直线的距离的平方和最小. _, _. _. 上式还可以表示为 _ _, (5)回归分析 定义:对具有相关关系的两个变量进行统计分析的一种常用方法. 样本点的中心 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其 中 称为样本点的中心. 相关系数 |r|1; 当
3、r0时,表明两个变量 ; 当r ,则否定H0,表明有 的把握认为x与y之 间具有线性相关关系;若|r|r0.05,则 原来的假设H0,即 就目前数据而言,没有充分理由认为y与x之间有线性相关关系. 提出统计假设H0 样本相关系数r r0.05 95% 没有理由拒绝 2.独立性检验独立性检验 (1)22列联表 一般地,对于两个研究对象和,有两类取值,即类A和类B,也 有两类取值,即类1和类2,得到如下列联表所示的抽样数据: 类1类2合计 类Aabab 类Bcdcd 合计acbdabcd 上述表格称为22列联表. |adbc|越小,说明两个分类变量x,y之间的关系越弱; |adbc|越大,说明两个
4、分类变量x,y之间的关系越强. (2)2统计量 用2的大小可判断事件A,B有关联的可信程度. (3)独立性检验 独立性检验的步骤 要判断“与有关系”,可按下面的步骤进行: a.提出假设H0: ; b.根据22列联表及2公式,计算 的值; c.查对临界值,作出判断. 与没有关系 2 其中临界值如表所示: 表示在H0成立的情况下,事件“ ”发生的概率. 推断依据 a.若210.828,则有99.9%的把握认为“与有关系”; b.若26.635,则有99%的把握认为“与有关系”; c.若22.706,则有90%的把握认为“与有关系”; d.若22.706,则认为没有充分的证据显示“与有关系”,但也不
5、 能作出结论“H0成立”,即不能认为与没有关系. 2x0 P(2 x0) 0.500.400.250.150.100.050.025 0.010 0.0050.001 x00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 微思考 1.变量的相关关系与变量的函数关系有什么区别? 提示相同点:两者均是指两个变量的关系. 不同点:函数关系是一种确定的关系,相关关系是一种非确定的关系. 函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是 伴随关系. 2.线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确? 提
6、示(1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进 行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程 才有实际意义,否则,求出的线性回归方程毫无意义. (2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值. 题组一思考题组一思考辨析辨析 基础自测 1.判断下列结论是否正确(请在括号中打“”或“”) (1)散点图是判断两个变量相关关系的一种重要方法和手段.() (3)相关系数的绝对值越接近1,样本数据的线性相关程度越强.() (4)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小. () 题组二教材题组二教材改编改编 2.下列四个散点图中,变量
7、x与y之间具有负的线性相关关系的是 解析观察散点图可知,只有D选项的散点图表示的是变量x与y之间具 有负的线性相关关系. 3.下面是22列联表: y1y2合计 x1a2173 x2222547 合计b46120 则表中a,b的值分别为 A.94,72 B.52,50C.52,74 D.74,52 解析a2173,a52. 又a22b,b74. A.3.25 B.2.6 C.2.2 D.0 x0134 y2.24.34.86.7 解析回归直线过点(2,4.5), 题组三易错自题组三易错自纠纠 A.相关系数r不可能等于1 D.相关系数为r,且|r|越接近1,样本数据的线性相关程度越强;|r|越接近
8、 0,样本数据的线性相关程度越弱 解析相关系数的取值范围是|r|1,故A错; 相关系数r的绝对值越接近1,表示样本数据的线性相关程度越强,越接 近0,样本数据的线性相关程度越弱,故D正确. 6.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二 孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄 妇女,结果如下表. 非一线城市一线城市合计 愿生452065 不愿生132235 合计5842100 参照下表: P(2x0)0.10.050.010.001 x02.7063.8416.63510.828 正确的结论是 A.在犯错误的概率不超过0.1%的前提下,认为“生育意
9、愿与城市级别有关” B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关” C.有99%以上的把握认为“生育意愿与城市级别有关” D.有99%以上的把握认为“生育意愿与城市级别无关” TIXINGTUPO HEXINTANJIU2题型突破 核心探究 题型一相关关系的判断 自主演练 1.(2020昆明诊断)某商家今年上半年各月的人均销售额(单位:千元)与 利润率统计表如下: 月份123456 人均销售额658347 利润率(%)12.610.418.53.08.116.3 月份123456 人均销售额658347 利润率(%)12.610.418.53.08.116.3 根据表
10、中数据,下列说法正确的是 A.利润率与人均销售额成正相关关系 B.利润率与人均销售额成负相关关系 C.利润率与人均销售额成正比例函数关系 D.利润率与人均销售额成反比例函数关系 解析由统计表可得利润率与人均销售额不是正比例关系,也不是反比 例关系,排除C和D; 其属于正相关关系,A正确,B错误. 月份123456 人均销售额658347 利润率(%)12.610.418.53.08.116.3 2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比 较,正确的是 A.r2r40r3r1 B.r4r20r1r3 C.r4r20r3r1 D.r2r40r10,r30,图(2)与图(4)是
11、 负相关,故r20,r40,且图(1)与图(2)的样本点集中在一条直线附近, 因此r2r40r30时,两个变量正相关;当r400 空气质量好 空气质量不好 P(2x0)0.0500.0100.001 x03.8416.63510.828 人次400人次400 空气质量好3337 空气质量不好228 解22列联表如下: 所以有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质 量有关. KESHIJINGLIAN3 课时精练 基础保分练 1.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验, 并用回归分析方法分别求得相关系数r与残差平方和m,如下表: 甲乙丙丁 r0.820.
12、780.690.85 m106115124103 则哪位同学的试验结果体现A,B两个变量有更强的线性相关性? A.甲 B.乙 C.丙 D.丁 解析r越大,m越小,线性相关性越强,故选D. 12345678910 11 12 13 14 15 16 2.根据如下样本数据: x345678 y4.02.50.50.50.40.1 解析根据给出的数据可发现:整体上y与x呈现负相关,所以 0. 12345678910 11 12 13 14 15 16 3.某公司由于改进了经营模式,经济效益与日俱增.统计了2018年10月到 2019年4月的纯收益y(单位:万元)的数据,如下表: 1234567891
13、0 11 12 13 14 15 16 月份十十一十二一二三四 月份代号t3456789 纯收益y66697381899091 得到y关于t的线性回归方程为 4.75t51.36.请预测该公司2019年6月的 纯收益为 A.94.11万元 B.98.86万元C.103.61万元 D.108.36万元 解析将2019年6月代号t11带入题中的线性回归方程, 12345678910 11 12 13 14 15 16 月份十十一十二一二三四 月份代号t3456789 纯收益y66697381899091 4.以下四个命题: 两个随机变量相关性越强,则相关系数的绝对值越接近于1; 在线性回归方程 0
14、.2x12中,当解释变量x每增加1个单位时,预报变量 平均增加0.2个单位; 分类变量X与Y,对它们的随机变量2来说,2越小,“X与Y有关系”的把 握程度越大. 其中假命题为 A. B.C. D. 12345678910 11 12 13 14 15 16 解析分类变量X与Y,对它们的随机变量2来说,2越大,“X与Y有 关系”的把握程度越大. 12345678910 11 12 13 14 15 16 5.(多选)(2020衡水中学调研)已知变量x,y之间的线性回归方程为 0.7x10.3,且变量x,y之间的一组相关数据如下表所示,则下列说 法正确的是 12345678910 11 12 13
15、 14 15 16 x681012 y6m32 A.变量x,y之间成负相关关系 B.可以预测,当x20时,3.7 C.m4 D.该回归直线必过点(9,4) 解析由0.70.75,则线性相关程度很高); 12345678910 11 12 13 14 15 16 12345678910 11 12 13 14 15 16 12345678910 11 12 13 14 15 16 12345678910 11 12 13 14 15 16 12345678910 11 12 13 14 15 16 可用线性回归模型拟合y与x的关系. (2)求y关于x的回归方程,并预测液体肥料每亩使用量为12千克
16、时,西红 柿亩产量的增加量约为多少? 12345678910 11 12 13 14 15 16 预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为 9.9百千克. 12345678910 11 12 13 14 15 16 12.某淘宝店经过对春节七天假期的消费者的消费金额进行统计,发现 在消费金额不超过1 000元的消费者中男女比例为14,该店按此比例抽 取了100名消费者进行进一步分析,得到下表: 女性消费情况: 消费金额/元(0,200)200,400)400,600)600,800)800,1 000 人数51015473 男性消费情况: 消费金额/元(0,200)200,
17、400)400,600)600,800)800,1 000 人数231032 12345678910 11 12 13 14 15 16 若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者 为“非网购达人”. (1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方 “网购达人”出手是否更阔绰? 12345678910 11 12 13 14 15 16 解女性消费者消费的平均数为 (10053001050015700479003)582.5. 男性消费者消费的平均数为 (100230035001070039002)500. “女网购达人”消费的平均数为 (70047
18、9003)712. “男网购达人”消费的平均数为 (70039002)780. 虽然女性消费者平均消费水平较高,但“女网购达人”平均消费水平低 于“男网购达人”平均消费水平,所以“平均消费水平”高的一方“网 购达人”出手不一定更阔绰. 12345678910 11 12 13 14 15 16 (2)根据列表中统计数据填写如下22列联表,并判断能否在犯错误的概 率不超过0.005的前提下认为“是否为网购达人与性别有关”. 12345678910 11 12 13 14 15 16 女性男性合计 “网购达人” “非网购达人” 合计 12345678910 11 12 13 14 15 16 P(
19、2x0)0.100.050.0250.0100.005 x02.7063.8415.0246.6357.879 女性男性合计 “网购达人”50555 “非网购达人”301545 合计8020100 解22列联表如下所示: 因为9.0917.879, 所以能在犯错误的概率不超过0.005的前提下认为“是否为网购达人 与性别有关”. 12345678910 11 12 13 14 15 16 技能提升练 13.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样 本,他们的数学、物理成绩(单位:分)对应如下表: 12345678910 11 12 13 14 15 16 学生编号12345
20、678 数学成绩6065707580859095 物理成绩7277808488909395 12345678910 11 12 13 14 15 16 根据以上信息,判断下列结论: 根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; 根据散点图,可以判断数学成绩与物理成绩具有一次函数关系; 从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学 数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高. 其中正确的为_. 给出散点图如右: 解析由散点图知,各点大致分布在一条直线附近,故可以判断数学成 绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有 一次函数关系
21、,故正确,错误; 若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成 绩可能比乙同学的物理成绩高,故错误. 12345678910 11 12 13 14 15 16 12345678910 11 12 13 14 15 16 12345678910 11 12 13 14 15 16 拓展冲刺练 15.某工厂为了对一种新研究的产品进行合理定价,将该产品按事先拟定 的价格进行试销,得到如下数据: 单价x(元)456789 销量y(件)908483807568 由表中数据,求得线性回归方程为 4x .若在这些样本点中任取一 点,则它在线性回归直线左下方的概率为_. 1234567
22、8910 11 12 13 14 15 16 将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入线性回归方程, 可知有6个样本点, 因为844510686,684910670, 故(5,84)和(9,68)在线性回归直线的左下方,满足条件的只有2个, 12345678910 11 12 13 14 15 16 16.某电视厂家准备在国庆期间举行促销活动,现根据近七年的广告费与 销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量y(万台) 的数据如下: 12345678910 11 12 13 14 15 16 年份20142015201620
23、17201820192020 广告费支出x1246111319 销售量y1.93.24.04.45.25.35.4 (1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程; 12345678910 11 12 13 14 15 16 12345678910 11 12 13 14 15 16 解0.750.88且R2越大,反映残差平方和越小,模型的拟合效果越好, 12345678910 11 12 13 14 15 16 (3)已知利润z与x,y的关系为z200yx.根据(2)的结果回答下列问题: 广告费x20时,销售量及利润的预报值是多少? 12345678910 11 12 13 14 15 16 解由(2)知, 广告费x为何值时,利润的预报值最大?(精确到0.01) 故广告费为9 801万元时,利润的预报值最大. 12345678910 11 12 13 14 15 16 大一轮复习讲义 本课结束 更多精彩内容请登录: