1、9.2变量间的相关关系、统计案例变量间的相关关系、统计案例 考试要求1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关 系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解 独立性检验的基本思想、 方法及其初步应用.4.了解回归分析的基本思想、 方法及其简单应用 1相关关系与回归方程 (1)相关关系的分类 正相关 在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它 称为正相关 负相关 在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关 (2)线性回归方程 能用直线方程y b xa 近似表
2、示的相关关系叫做线性相关关系,该方程叫线性回归方程 (3)最小平方法是一种求回归直线的方法,用这种方法求得的回归直线能使样本数据的点到回 归直线的距离的平方和最小 (4)给出一组数据(x1,y1),(x2,y2),(xn,yn),用最小平方法求得线性回归方程的系数a , b 满足 b n n i1xiyi n i1xi n i1yi n n i1x 2 i n i1xi 2 , a y b x . 上式还可以表示为 b n i1xiyin xy n i1x 2 in x2 n i1 xi x yi y n i1 xi x 2 , a y b x . (5)回归分析 定义:对具有相关关系的两个变
3、量进行统计分析的一种常用方法 样本点的中心 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其中( x , y )称为样本 点的中心 相关系数 |r|1; 当 r0 时,表明两个变量正相关; 当 rr0.05,则否定 H0,表明有 95%的把握认为 x 与 y 之间具有线性相关关 系;若|r|r0.05,则没有理由拒绝原来的假设 H0,即就目前数据而言,没有充分理由认为 y 与 x 之间有线性相关关系 2独立性检验 (1)22 列联表 一般地,对于两个研究对象和,有两类取值,即类 A 和类 B,也有两类取值,即类 1 和类 2,得到如下列联表所示的抽样数据: 类
4、1类 2合计 类 Aabab 类 Bcdcd 合计acbdabcd 上述表格称为 22 列联表 |adbc|越小,说明两个分类变量 x,y 之间的关系越弱; |adbc|越大,说明两个分类变量 x,y 之间的关系越强 (2)2统计量 2 nadbc2 acbdabcd. 用2的大小可判断事件 A,B 有关联的可信程度 (3)独立性检验 独立性检验的步骤 要判断“与有关系”,可按下面的步骤进行: a提出假设 H0:与没有关系; b根据 22 列联表及2公式,计算2的值; c查对临界值,作出判断 其中临界值如表所示: P(2 x0) 0.500.400.250.150.100.050.0250.0
5、100.0050.001 x00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828 表示在 H0成立的情况下,事件“2x0”发生的概率 推断依据 a若210.828,则有 99.9%的把握认为“与有关系”; b若26.635,则有 99%的把握认为“与有关系”; c若22.706,则有 90%的把握认为“与有关系”; d若22.706,则认为没有充分的证据显示“与有关系”,但也不能作出结论“H0成 立”,即不能认为与没有关系 微思考 1变量的相关关系与变量的函数关系有什么区别? 提示相同点:两者均是指两个变量的关系 不同点:函数关系是一种确定的
6、关系,相关关系是一种非确定的关系 函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系 2线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确? 提示(1)不一定都有实际意义回归分析是对具有相关关系的两个变量进行统计分析的方 法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回 归方程毫无意义 (2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值 题组一思考辨析 1判断下列结论是否正确(请在括号中打“”或“”) (1)散点图是判断两个变量相关关系的一种重要方法和手段() (2)回归直线y b xa 至少经过点(x1,y1),(x2
7、,y2),(xn,yn)中的一个点() (3)相关系数的绝对值越接近 1,样本数据的线性相关程度越强() (4)若事件 X,Y 关系越密切,则由观测数据计算得到的 K2的观测值越小() 题组二教材改编 2下列四个散点图中,变量 x 与 y 之间具有负的线性相关关系的是() 答案D 解析观察散点图可知,只有 D 选项的散点图表示的是变量 x 与 y 之间具有负的线性相关关 系 3下面是 22 列联表: y1y2合计 x1a2173 x2222547 合计b46120 则表中 a,b 的值分别为() A94,72B52,50 C52,74D74,52 答案C 解析a2173,a52. 又 a22b
8、,b74. 4已知 x,y 的对应取值如下表,从散点图可以看出 y 与 x 线性相关,且线性回归方程为y 0.95xa ,则a 等于() x0134 y2.24.34.86.7 A.3.25B2.6C2.2D0 答案B 解析回归直线过点(2,4.5), 4.50.952a , a 2.6. 题组三易错自纠 5在统计中,由一组样本数据(x1,y1),(x2,y2),(xn,yn)利用最小二乘法得到两个变量 的回归方程为y b xa ,那么下列说法不正确的是() A相关系数 r 不可能等于 1 B回归直线y b xa 必经过点( x , y ) C回归直线y b xa 表示最接近 y 与 x 之间
9、真实关系的一条直线 D相关系数为 r,且|r|越接近 1,样本数据的线性相关程度越强;|r|越接近 0,样本数据的线 性相关程度越弱 答案A 解析相关系数的取值范围是|r|1, 故 A 错; 回归直线y b xa 必过样本点的中心, 即点( x , y ),故 B 正确;回归直线y b xa 是利用最小二乘法求解出的直线方程,接近真实关系, 故 C 正确;相关系数 r 的绝对值越接近 1,表示样本数据的线性相关程度越强,越接近 0, 样本数据的线性相关程度越弱,故 D 正确 6随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构 用简单随机抽样的方法从不同地区调查了
10、100 位育龄妇女,结果如下表 非一线城市一线城市合计 愿生452065 不愿生132235 合计5842100 由2 nadbc2 abcdacbd, 得210045222013 2 58423565 9.616. 参照下表: P(2x0)0.10.050.010.001 x02.7063.8416.63510.828 正确的结论是() A在犯错误的概率不超过 0.1%的前提下,认为“生育意愿与城市级别有关” B在犯错误的概率不超过 0.1%的前提下,认为“生育意愿与城市级别无关” C有 99%以上的把握认为“生育意愿与城市级别有关” D有 99%以上的把握认为“生育意愿与城市级别无关” 答
11、案C 题型一 相关关系的判断 1(2020昆明诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下: 月份123456 人均销售额658347 利润率(%)12.610.418.53.08.116.3 根据表中数据,下列说法正确的是() A利润率与人均销售额成正相关关系 B利润率与人均销售额成负相关关系 C利润率与人均销售额成正比例函数关系 D利润率与人均销售额成反比例函数关系 答案A 解析由统计表可得利润率与人均销售额不是正比例关系, 也不是反比例关系, 排除 C 和 D; 其属于正相关关系,A 正确,B 错误 2对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比
12、较,正确的是() Ar2r40r3r1Br4r20r1r3 Cr4r20r3r1Dr2r40r10, r30, 图(2)与图(4)是负相关, 故 r20, r40, 且图(1)与图(2)的样本点集中在一条直线附近,因此 r2r40r3r1,故选 A. 3在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图 中,若所有样本点(xi,yi)(i1,2,n)都在直线 y1 2x1 上,则这组样本数据的样本相 关系数为() A1B0C1 2 D1 答案A 4已知变量 x 和 y 满足关系y 0.1x1,变量 y 与 z 正相关下列结论中正确的是() A
13、x 与 y 正相关,x 与 z 负相关 Bx 与 y 正相关,x 与 z 正相关 Cx 与 y 负相关,x 与 z 负相关 Dx 与 y 负相关,x 与 z 正相关 答案C 解析因为y 0.1x1, 0.10), 所以z 0.1b xb a ,0.1b 0 时,两个变量正相关;当 r0 时,两个变量正相关;当b 0 时,两个变量负相关 题型二 回归分析 命题点 1线性回归分析 例 1 (2021福州模拟)随着我国中医学的发展,药用昆虫的使用愈来愈多每年春暖以后至寒 冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫已知一只药用昆虫的产卵数 y(单位: 个)与一定范围内的温度 x(单位:)有关,于是
14、科研人员在 3 月份的 31 天中随机挑选了 5 天 进行研究,现收集了该种药用昆虫的 5 组观测数据如下表: 日期2 日7 日15 日22 日30 日 温度 x/101113128 产卵数 y/个2325302616 科研人员确定的研究方案是:先从这 5 组数据中任选 2 组,用剩下的 3 组数据建立 y 关于 x 的线性回归方程,再对被选取的 2 组数据进行检验 (1)若选取的是 3 月 2 日与 30 日这 2 组的数据, 请根据 3 月 7 日、 15 日和 22 日这 3 组的数据, 求出 y 关于 x 的线性回归方程; (2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均
15、不超过 2 个,则认为得到 的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠? 解(1)由已知数据得 x 12, y 27, 错误错误!(xi x )(yi y )5,错误错误!(xi x )22, 所以b 错误错误!5 2,a y 5 2 x 275 2123. 所以 y 关于 x 的线性回归方程为y 5 2x3. (2)由(1)知,y 关于 x 的线性回归方程为y 5 2x3. 当 x10 时,y 5 210322,|2223|2, 当 x8 时,y 5 28317,|1716|6.635. 又 P(26.635)0.01. 所以有 99%的把握认为“该校学生的每周平均体育运
16、动时间是否优秀与年级有关” 思维升华 独立性检验的一般步骤 (1)根据样本数据制成 22 列联表 (2)根据公式2 nadbc2 abacbdcd计算 2. (3)比较2与临界值的大小关系,作统计推断 跟踪训练 2 (2020全国)某学生兴趣小组随机调查了某市 100 天中每天的空气质量等级和当 天到某公园锻炼的人次,整理数据得到下表(单位:天): 锻炼人次 空气质量等级 0,200(200,400(400,600 1(优)21625 2(良)51012 3(轻度污染)678 4(中度污染)720 (1)分别估计该市一天的空气质量等级为 1,2,3,4 的概率; (2)求一天中到该公园锻炼的平
17、均人次的估计值(同一组中的数据用该组区间的中点值为代表); (3)若某天的空气质量等级为 1 或 2,则称这天“空气质量好”;若某天的空气质量等级为 3 或 4,则称这天“空气质量不好”根据所给数据,完成下面的 22 列联表,并根据列联表, 判断是否有 95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关? 人次400人次400 空气质量好 空气质量不好 附:2 nadbc2 abcdacbd, P(2x0)0.0500.0100.001 x03.8416.63510.828 解(1)由频数分布表可知,该市一天的空气质量等级为 1 的概率为21625 100 0.43; 空气质量等
18、级为 2 的概率为51012 100 0.27; 空气质量等级为 3 的概率为678 100 0.21; 空气质量等级为 4 的概率为720 100 0.09. (2) 由 频 数 分 布 表 可 知 , 一 天 中 到 该 公 园 锻 炼 的 平 均 人 次 的 估 计 值 为 100203003550045 100 350. (3)22 列联表如下: 人次400人次400 空气质量好3337 空气质量不好228 21003383722 2 55457030 5.8203.841, 所以有 95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关 课时精练课时精练 1甲、乙、丙、丁四
19、位同学各自对 A,B 两个变量的线性相关性做试验,并用回归分析方法 分别求得相关系数 r 与残差平方和 m,如下表: 甲乙丙丁 r0.820.780.690.85 m106115124103 则哪位同学的试验结果体现 A,B 两个变量有更强的线性相关性?() A甲B乙C丙D丁 答案D 解析r 越大,m 越小,线性相关性越强,故选 D. 2根据如下样本数据: x345678 y4.02.50.50.50.40.1 得到线性回归方程为y b xa ,则() A.a 0,b 0B.a 0,b 0 C.a 0D.a 0,b 0 答案B 解析根据给出的数据可发现: 整体上 y 与 x 呈现负相关, 所以
20、b 0. 3某公司由于改进了经营模式,经济效益与日俱增统计了 2018 年 10 月到 2019 年 4 月的 纯收益 y(单位:万元)的数据,如下表: 月份十十一十二一二三四 月份代号 t3456789 纯收益 y66697381899091 得到 y 关于 t 的线性回归方程为y 4.75t51.36.请预测该公司 2019 年 6 月的纯收益为() A94.11 万元B98.86 万元C103.61 万元D108.36 万元 答案C 解析将 2019 年 6 月代号 t11 带入题中的线性回归方程,得y 4.751151.36103.61. 4以下四个命题: 两个随机变量相关性越强,则相
21、关系数的绝对值越接近于 1; 回归直线y b xa 必过点( x , y ); 在线性回归方程y 0.2x12 中,当解释变量 x 每增加 1 个单位时,预报变量平均增加 0.2 个单位; 分类变量 X 与 Y,对它们的随机变量2来说,2越小,“X 与 Y 有关系”的把握程度越大 其中假命题为() ABCD 答案D 解析分类变量 X 与 Y,对它们的随机变量2来说,2越大,“X 与 Y 有关系”的把握程 度越大 5(多选)(2020衡水中学调研)已知变量 x,y 之间的线性回归方程为y 0.7x10.3,且变量 x,y 之间的一组相关数据如下表所示,则下列说法正确的是() x681012 y6
22、m32 A变量 x,y 之间成负相关关系B可以预测,当 x20 时,y 3.7 Cm4D该回归直线必过点(9,4) 答案ABD 解析由0.70.75,则线性相关程度很高); (2)求 y 关于 x 的回归方程,并预测液体肥料每亩使用量为 12 千克时,西红柿亩产量的增加 量约为多少? 附:相关系数公式 r错误错误!错误错误!,回归方程y b xa 中斜率和截距的最小二乘估计公式 分别为b 错误错误!错误错误!,a y b x . 解(1) x 24568 5 5, y 34567 5 5. 错误错误!(xi x )(yi y )(3)(2)(1)(1)00113214, 错误错误!(xi x
23、)2(3)2(1)202123220, 错误错误!(yi y )2(2)2(1)202122210. r错误错误! 14 20 10 7 2 10 0.75. 可用线性回归模型拟合 y 与 x 的关系 (2)b 错误错误!14 200.7,a y b x 50.751.5. y 0.7x1.5. 当 x12 时,y 0.7121.59.9. 预测液体肥料每亩使用量为 12 千克时,西红柿亩产量的增加量约为 9.9 百千克 12 某淘宝店经过对春节七天假期的消费者的消费金额进行统计,发现在消费金额不超过 1 000 元的消费者中男女比例为 14,该店按此比例抽取了 100 名消费者进行进一步分析
24、, 得到下表: 女性消费情况: 消费金额/元(0,200)200,400)400,600)600,800)800,1 000 人数51015473 男性消费情况: 消费金额/元(0,200)200,400)400,600)600,800)800,1 000 人数231032 若消费金额不低于 600 元的网购者为“网购达人”, 低于 600 元的网购者为“非网购达人” (1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否 更阔绰? (2)根据列表中统计数据填写如下 22 列联表, 并判断能否在犯错误的概率不超过 0.005 的前 提下认为“是否为网购达人与性别有
25、关” 女性男性合计 “网购达人” “非网购达人” 合计 附:2 nadbc2 abcdacbd,其中 nabcd. P(2x0)0.100.050.0250.0100.005 x02.7063.8415.0246.6357.879 解(1)女性消费者消费的平均数为 1 80(10053001050015700479003) 582.5. 男性消费者消费的平均数为 1 20(100230035001070039002)500. “女网购达人”消费的平均数为 1 50(700479003)712. “男网购达人”消费的平均数为1 5(70039002)780. 虽然女性消费者平均消费水平较高,但“
26、女网购达人”平均消费水平低于“男网购达人”平 均消费水平,所以“平均消费水平”高的一方“网购达人”出手不一定更阔绰 (2)22 列联表如下所示: 女性男性合计 “网购达人”50555 “非网购达人”301545 合计8020100 21005015305 2 80205545 9.091, 因为 9.0917.879, 所以能在犯错误的概率不超过 0.005 的前提下认为“是否为网购达人与性别有关” 13已知某次考试之后,班主任从全班同学中随机抽取一个容量为 8 的样本,他们的数学、 物理成绩(单位:分)对应如下表: 学生编号12345678 数学成绩6065707580859095 物理成绩
27、7277808488909395 给出散点图如下: 根据以上信息,判断下列结论: 根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; 根据散点图,可以判断数学成绩与物理成绩具有一次函数关系; 从全班随机抽取甲、乙两名同学,若甲同学数学成绩为 80 分,乙同学数学成绩为 60 分, 则甲同学的物理成绩一定比乙同学的物理成绩高 其中正确的为_ 答案 解析由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线 性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故正确,错误;若甲 同学数学成绩为 80 分,乙同学数学成绩为 60 分,则甲同学的物理成绩可能比乙同学的物
28、理 成绩高,故错误 14 在一组样本数据(x1, y1), (x2, y2), , (x6, y6)的散点图中, 若所有样本点(xi, yi)(i1,2, , 6)都在曲线 ybx21 2附近波动经计算 6 i1xi12, 6 i1yi14, 6 i1x 2 i23,则实数 b 的值为 _ 答案 17 23 解析令 tx2,则非线性回归方程变为线性回归方程,即 ybt1 2,此时 t 6 i1x 2 i 6 23 6 , y 6 i1yi 6 14 6 ,代入 ybt1 2,得 14 6 b23 6 1 2,解得 b 17 23. 15某工厂为了对一种新研究的产品进行合理定价,将该产品按事先拟
29、定的价格进行试销, 得到如下数据: 单价 x(元)456789 销量 y(件)908483807568 由表中数据,求得线性回归方程为y 4xa .若在这些样本点中任取一点,则它在线性回归 直线左下方的概率为_ 答案 1 3 解析由表中数据得 x 6.5,y80, 由 y 4 x a , 得a 106, 故线性回归方程为y 4x106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入线性回归方程,可知有 6 个样本点, 因为 844510686,684910670, 故(5,84)和(9,68)在线性回归直线 的左下方,满足条件的只有 2 个,故所求
30、概率为2 6 1 3. 16某电视厂家准备在国庆期间举行促销活动,现根据近七年的广告费与销售量的数据确定 此次广告费支出广告费支出 x(万元)和销售量 y(万台)的数据如下: 年份2014201520162017201820192020 广告费支出 x1246111319 销售量 y1.93.24.04.45.25.35.4 (1)若用线性回归模型拟合 y 与 x 的关系,求出 y 关于 x 的线性回归方程; (2)若用 ycdx模型拟合 y 与 x 的关系,可得回归方程y 1.630.99 x,经计算线性回归 模型和该模型的 R2分别为 0.75 和 0.88,请用 R2说明选择哪个回归模型
31、更好; (3)已知利润 z 与 x,y 的关系为 z200yx.根据(2)的结果回答下列问题: 广告费 x20 时,销售量及利润的预报值是多少? 广告费 x 为何值时,利润的预报值最大?(精确到 0.01) 参考公式:回归直线y a b x 的斜率和截距的最小二乘估计值分别为 b 错误错误!错误错误!,a y b x . 参考数据: 52.24. 解(1) x 8, y 4.2,错误错误!iyi279.4,错误错误!2i708, b 错误错误!279.4784.2 708782 0.17, a y b x 4.20.1782.84, y 关于 x 的线性回归方程为y 0.17x2.84. (2)0.750.88 且 R2越大,反映残差平方和越小,模型的拟合效果越好, 选用y 1.630.99x更好 (3)由(2)知, 当 x20 时,销售量的预报值y 1.630.99 206.06(万台), 利润的预报值 z200(1.630.99 20)201 191.48(万元) z200(1.630.99 x)xx198 x326( x)2198 x326 ( x99)210 127, 当 x99,即 x9 801 时,利润的预报值最大, 故广告费为 9 801 万元时,利润的预报值最大