1、第第 3 讲讲变量间的相关关系与统计案例变量间的相关关系与统计案例 一、选择题 1.两个变量 y 与 x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 R2如下,其中拟合效果最好的模型是() A.模型 1 的相关指数 R2为 0.98 B.模型 2 的相关指数 R2为 0.80 C.模型 3 的相关指数 R2为 0.50 D.模型 4 的相关指数 R2为 0.25 解析相关指数 R2越大,拟合效果越好,因此模型 1 拟合效果最好. 答案A 2.已知变量 x 与 y 正相关,且由观测数据算得样本平均数x3,y3.5,则由 该观测数据算得的线性回归方程可能是() A.y 0.4x2.3
2、 B.y 2x2.4 C.y 2x9.5 D.y 0.3x4.4 解析因为变量 x 和 y 正相关,则回归直线的斜率为正,故可以排除选项 C 和 D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标代入检验,A 满足. 答案A 3.设某大学的女生体重 y(单位:kg)与身高 x(单位:cm)具有线性相关关系,根据 一组样本数据(xi, yi)(i1, 2, , n), 用最小二乘法建立的回归方程为y 0.85x 85.71,则下列结论中不正确的是() A.y 与 x 具有正的线性相关关系 B.回归直线过样本点的中心(x,y) C.若该大学某女生身高增加 1 cm,则其体重约增加 0.85
3、 kg D.若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg 解析0.850,y 与 x 正相关,A 正确; 回归直线经过样本点的中心(x,y),B 正确; y0.85(x1)85.71(0.85x85.71)0.85, C 正确. 答案D 4.通过随机询问 110 名性别不同的学生是否爱好某项运动,得到如下的列联表: 男女总计 爱好402060 不爱好203050 总计6050110 由 K2 n(adbc)2 (ab) (cd) (ac) (bd)算得, K2110(40302020) 2 60506050 7.8. 附表: P(K2k0)0.0500.0100.0
4、01 k03.8416.63510.828 参照附表,得到的正确结论是() A.有 99%以上的把握认为“爱好该项运动与性别有关” B.有 99%以上的把握认为“爱好该项运动与性别无关” C.在犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别有关” D.在犯错误的概率不超过 0.1%的前提下,认为“爱好该项运动与性别无关” 解析根据独立性检验的定义,由 K27.86.635,可知我们在犯错误的概率不 超过 0.01 的前提下,即有 99%以上的把握认为“爱好该项运动与性别有关”. 答案A 5.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区 5 户家 庭,得到如下统计
5、数据表: 收入 x(万元)8.28.610.011.311.9 支出 y(万元)6.27.58.08.59.8 根据上表可得回归直线方程y bxa,其中b0.76,a yb x,据此估计, 该社区一户年收入为 15 万元家庭的年支出为() A.11.4 万元B.11.8 万元 C.12.0 万元D.12.2 万元 解析由题意知,x8.28.610.011.311.9 5 10, y6.27.58.08.59.8 5 8, a 80.76100.4, 当 x15 时,y 0.76150.411.8(万元). 答案B 二、填空题 6.若 8 名学生的身高和体重数据如下表: 编号12345678 身
6、高/cm165165157170175165155170 体重/kg485754646143 59 第 3 名学生的体重漏填,但线性回归方程是y 0.849x85.712,则第 3 名学 生的体重估计为_. 解析设第 3 名学生的体重为 a,则 1 8(4857a5464614359)0.849 1 8(165165157170175 165155170)85.712.解之得 a50. 答案50 7.(2017广州模拟)为了判断高中三年级学生选修文理科是否与性别有关, 现随机 抽取 50 名学生,得到 22 列联表如下: 理科文科总计 男131023 女72027 总计203050 已知 P(
7、K23.841)0.05,P(K25.024)0.025. 根据表中数据,得到 K250(1320107) 2 23272030 4.844,则认为选修文理科 与性别有关系出错的可能性约为_. 解析由 K24.8443.841.故认为选修文理科与性别有关系出错的可能性约为 5%. 答案5% 8.某单位为了了解用电量 y(度)与气温 x()之间的关系,随机统计了某 4 天的用 电量与当天气温,并制作了对照表: 气温()1813101 用电量(度)24343864 由表中数据得回归直线方程y bxa中的b2,预测当气温为4 时,用 电量约为_度. 解析根据题意知 x181310(1) 4 10,y
8、24343864 4 40,因 为回归直线过样本点的中心,所以a 40(2)1060,所以当 x4 时,y (2)(4)6068,所以用电量约为 68 度. 答案68 三、解答题 9.(2017郑州调研)某地区 2009 年至 2015 年农村居民家庭人均纯收入 y(单位: 千 元)的数据如下表: 年份2009201020112012201320142015 年份代号 t1234567 人均纯收入 y2.93.33.64.44.85.25.9 (1)求 y 关于 t 的线性回归方程; (2)利用(1)中的回归方程,分析 2009 年至 2015 年该地区农村居民家庭人均纯 收入的变化情况,并预
9、测该地区 2017 年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为: b n i1 (ti t ) (yi y ) n i1 (ti t )2 ,a yb t . 解(1)由所给数据计算得 t 1 7(1234567)4, y 1 7(2.93.33.64.44.85.25.9)4.3, 7 i1 (tit)2941014928, 7 i1 (tit)(yiy)(3)(1.4)(2)(1) (1)(0.7)00.110.520.931.614, b 7 i1 (ti t ) (yi y ) 7 i1 (ti t )2 14 280.5, a yb t 4.30.5
10、42.3,所求回归方程为y 0.5t2.3. (2)由(1)知,b 0.50,故 2009 至 2015 年该地区农村居民家庭人均纯收入逐 年增加,平均每年约增加 0.5 千元. 将 2017 年的年份代号 t9 代入(1)中的回归方程, 得y 0.592.36.8,故 预测该地区 2017 年农村居民家庭人均纯收入为 6.8 千元. 10.(2017西安质检)某省会城市地铁将于 2017 年 6 月开始运营, 为此召开了一个 价格听证会,拟定价格后又进行了一次调查,随机抽查了 50 人,他们的收入 与态度如下: 月收入(单位: 百元) 15,25)25,35)35,45)45,55)55,6
11、5)65, 75 赞成定价 者人数 123534 认为价格偏 高者人数 4812521 (1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成 定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留 2位小 数); (2)由以上统计数据填下面 22 列联表分析是否有 99%的把握认为“月收入 以 55 百元为分界点对地铁定价的态度有差异”. 月收入不低于 55 百元的人数 月收入低于 55 百元的人数 总计 认为价格偏高者 赞成定价者 总计 附:K2 n(adbc)2 (ab) (cd) (ac) (bd) P(K2k0)0.050.01 k03.8416.635 解(
12、1)“赞成定价者”的月平均收入为 x1201302403505603704 123534 50.56. “认为价格偏高者”的月平均收入为 x22043084012505602701 4812521 38.75, “赞成定价者”与“认为价格偏高者”的月平均收入的差距是 x1x2 50.5638.7511.81(百元). (2)根据条件可得 22 列联表如下: 月收入不低于 55 百元的人数 月收入低于 55 百元的人数 总计 认为价格偏高者32932 赞成定价者71118 总计104050 K250(311729) 2 10401832 6.270,b0 B.a 0,b0 C.a 0 D.a 0
13、,b0 解析作出散点图如下: 观察图象可知,回归直线y bxa的斜率b0.故a0,b5.024. 推断犯错误的概率不超过 0.025. 答案0.025 14.(2015全国卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣 传费 x(单位:千元)对年销售量 y(单位:t)和年利润 z(单位:千元)的影响,对 近 8 年的年宣传费 xi和年销售量 yi(i1,2,8)数据作了初步处理,得到 下面的散点图及一些统计量的值. 表中 wi xi,w1 8 8 i1wi. (1)根据散点图判断,yabx 与 ycdx哪一个适宜作为年销售量 y 关于年 宣传费 x 的回归方程类型(给出判断即可,不必
14、说明理由)? (2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程; (3)已知这种产品的年利润 z 与 x,y 的关系为 z0.2yx.根据(2)的结果回答下 列问题: 年宣传费 x49 时,年销售量及年利润的预报值是多少? 年宣传费 x 为何值时,年利润的预报值最大? 附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线 vu 的斜 率和截距的最小二乘估计分别为: n i1 (ui u ) (vi v ) n i1 (ui u )2 ,v u 解(1)由散点图可以判断,ycdx适宜作为年销售量 y 关于年宣传费 x 的 回归方程类型. (2)令 w x
15、,先建立 y 关于 w 的线性回归方程,由于 d 8 i1 (wi w )(yi y ) 8 i1 (wi w )2 108.8 1.6 68, c yd w563686.8100.6, 所以 y 关于 w 的线性回归方程为y 100.668w, 因此 y 关于 x 的回归方程为y 100.668 x. (3)由(2)知,当 x49 时,年销售量 y 的预报值 y 100.668 49576.6, 年利润 z 的预报值z 576.60.24966.32. 根据(2)的结果知,年利润 z 的预报值 z 0.2(100.668 x)xx13.6 x20.12. 所以当 x13.6 2 6.8,即 x46.24 时,z 取得最大值. 故年宣传费为 46.24 千元时,年利润的预报值最大.