1、=【 ;精品教育资源文库 】 = 第 3 讲 相关性、最小二乘估计与统计案例 一、选择题 1两个变量 y 与 x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 R2如下,其中拟合效果最好的模型是 ( ) A模型 1 的相关指数 R2为 0.98 B模型 2 的相关指数 R2为 0.80 C模型 3 的相关指数 R2为 0.50 D模型 4 的相关指数 R2为 0.25 解析 相关指数 R2越大,拟合效果越好,因此模型 1 拟合效果最好 答案 A 2已知变量 x 与 y 正相关,且由观测数据算得样本平均数 x 3, y 3.5,则由 该观测数据算得的线性回归方程可能是 ( ) A y
2、 0.4x 2.3 B y 2x 2.4 C y 2x 9.5 D y 0.3x 4.4 解析 因为变量 x 和 y 正相关,则回归直线的斜率为正,故可以排除选项 C 和 D.因为样本点的中心在回归直线上,把点 (3,3.5)的坐标代入检验, A 满足 答案 A 3设某大学的女生体重 y(单位: kg)与身高 x(单位: cm)具有线性相关关系,根据一组样本数据 (xi, yi)(i 1,2, ? , n),用最小二乘法建立的回归方程为 y 0.85x 85.71,则下列结论中不 正确的是 ( ) A y 与 x 具有正的线性相关关系 B回归直线过样本点的中心 ( x , y ) C若该大学某
3、女生身高增加 1 cm,则其体重约增加 0.85 kg D若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg 解析 0.850, y 与 x 正相关, A 正确; 回归直线经过样本点的中心 ( x , y ), B 正确; y 0.85(x 1) 85.71 (0.85x 85.71) 0.85, C 正 确 答案 D =【 ;精品教育资源文库 】 = 4通过随机询问 110 名性别不同的学生是否爱好某项运动,得到如下的列联表: 男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110 由 2 n ad bc2a b c d a c b d
4、 算得, 2 260506050 7.8. 则得到的正确结论是 ( ) A有 99%的把握认为 “ 爱好该项运动与性别有关 ” B有 99%的把握认为 “ 爱好该项运动与性别无关 ” C有 90%的把握认为 “ 爱好该项运动与性别有关 ” D有 90%的把握认为 “ 爱好该项运动与性别无关 ” 解析 根据独立性检验的定义,由 27.86.635 ,可知有 99%的把握认为 “ 爱好该项运动与性别有关 ” 答案 A 5为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区 5 户家庭,得到如下统计数据表: 收入 x(万元 ) 8.2 8.6 10.0 11.3 11.9 支出 y(万元 )
5、 6.2 7.5 8.0 8.5 9.8 根据上表可得回归直线方程 y bx a,其中 b 0.76, a y b x ,据此估计,该社区一户年收入为 15 万元家庭的年支出为 ( ) A 11.4 万元 B 11.8 万元 C 12.0 万元 D 12.2 万元 解析 由题意知, x 8.2 8.6 10.0 11.3 11.95 10, y 6.2 7.5 8.0 8.5 9.85 8, a 8 0.7610 0.4, 当 x 15 时, y 0.7615 0.4 11.8(万元 ) 答案 B 二 、填空题 =【 ;精品教育资源文库 】 = 6若 8 名学生的身高和体重数据如下表: 编号
6、1 2 3 4 5 6 7 8 身高 /cm 165 165 157 170 175 165 155 170 体重 /kg 48 57 54 64 61 43 59 第 3 名学生的体重漏填,但线性回归方程是 y 0.849x 85.712,则第 3 名学生的体重估计为 _ 解析 设第 3 名学生的体重为 a,则 18(48 57 a 54 64 61 43 59) 0.84918(165 165 157 170 175 165155 170) 85.712. 解之得 a50. 答案 50 7 (2017 南昌模拟 )为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取 50名学生,得到
7、 22 列联表如下: 理科 文科 总计 男 13 10 23 女 7 20 27 总计 20 30 50 根据表中数据,得到 2 223272030 4.844 ,则有 _的把握认为选修文理科与性别有关系 解析 由 2 4.844 3.841.故有 95%的把握认为选修文理科与性别有关系 答案 95% 8某单位为了了解用电量 y(度 )与气温 x() 之间的关系,随机统计了某 4 天的用电量与当天气温,并制作了对照表: 气温 () 18 13 10 1 用电量 (度 ) 24 34 38 64 由表中数据得回归直线方程 y bx a 中的 b 2,预测当气温为 4 时,用电量约为 _度 解析
8、根据题意知 x 18 13 10 4 10, y 24 34 38 644 40,因为回归直线过样本点的中心,所以 a 40 ( 2)10 60,所以当 x 4 时, y ( 2)( 4) 60 68,所以用电量约为 68 度 答案 68 三、解答题 =【 ;精品教育资源文库 】 = 9 (2017 郑州调研 )某地区 2009 年至 2015 年农村居民家庭人均纯收入 y(单位:千元 )的数据如下表: 年份 2009 2010 2011 2012 2013 2014 2015 年份代号 t 1 2 3 4 5 6 7 人均纯收入 y 2.9 3.3 3.6 4.4 4.8 5.2 5.9 (
9、1)求 y 关于 t 的线性回归方 程; (2)利用 (1)中的回归方程,分析 2009 年至 2015 年该地区农村居民家庭人均纯收入的变化情况,并预测该地区 2017 年农村居民家庭人均纯收入 附:回归直线的斜率和截距的最小二乘估计公式分别为: b?i 1nti t yi y?i 1nti t 2, a y bt . 解 (1)由所给数据计算得 t 17(1 2 3 4 5 6 7) 4, y 17(2.9 3.3 3.6 4.4 4.8 5.2 5.9) 4.3, ?i 17(ti t )2 9 4 1 0 1 4 9 28, ?i 17(ti t )(yi y ) ( 3)( 1.4)
10、 ( 2)( 1) ( 1)( 0.7) 00.1 10.5 20.9 31.6 14, b?i 17ti t yi y?i 17ti t 2 1428 0.5, a y b t 4.3 0.54 2.3, 所求回归方程为 y 0.5t 2.3. (2)由 (1)知, b 0.50,故 2009 至 2015 年该地区农村居民家庭人均纯收入逐年增加,平均每年约增加 0.5 千元 将 2017 年的年份代号 t 9 代入 (1)中的回归方程,得 y 0.59 2.3 6.8,故预测该地区 2017 年农村居民家庭人均纯收入为 6.8 千元 =【 ;精品教育资源文库 】 = 10 (2017 西安
11、质检 )某省会城市地铁将于 2017 年 6 月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了 50 人,他们的收入与态度如下: 月收入 (单 位:百元 ) 15,25) 25,35) 35,45) 45,55) 55,65) 65,75 赞成定价 者人数 1 2 3 5 3 4 认为价格偏高者人数 4 8 12 5 2 1 (1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中 “ 赞成定价者 ”与 “ 认为价格偏高者 ” 的月平均收入的差距是多少 (结果保留 2 位小数 ); (2)由以上统计数据填下面 22 列联表分析是否有 99%的把握认为 “ 月
12、收入以 55百元为分界点对地铁定价的态度有差异 ”. 月收入不低于 55 百元的人数 月收入低于 55 百元的人数 总计 认为价格偏高者 赞成定价者 总计 解 (1)“ 赞成定价者 ” 的月平均收入为 x1 201 302 403 505 603 7041 2 3 5 3 4 50.56. “ 认为价格偏高者 ” 的月平均收入为 x2 204 308 4012 505 602 7014 8 12 5 2 1 38.75, “ 赞成定价者 ” 与 “ 认为价格偏高者 ” 的月平均收入的差距是 x1 x2 50.56 38.75 11.81(百元 ) (2)根据条件可得 22 列联表如下: 月收入
13、不低于 55 百元的人数 月收入低于 55 百元的人数 总计 认为价格偏高者 3 29 32 赞成定价者 7 11 18 总计 10 40 50 2 210401832 6.270, b0 B a0, b0 D a0.故 a0, b3.814. 有 95%的把握推断视觉和空间想象能力与性别有关系 答案 95% 14 (2015 全国 卷 )某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千元 )对年销售量 y(单位: t)和年利润 z(单位:千元 )的影响,对近 8 年的年宣传费xi和年销售量 yi(i 1,2, ? , 8)数据作了初步处理,得到下面的散点图及一些统计量的
14、值 x y w ?i 18(xix )2 ?i 18(wiw )2 ?i 18(xix )( yiy ) ?i 18(wiw )( yi y ) 46.6 563 6.8 289.8 1.6 1 469 108.8 表中 wi xi, w 18 ?i 18wi. (1)根据散点图判断, y a bx 与 y c d x哪一个适宜作为年销售量 y 关于年宣传费x 的回归方程类型 (给出判断即可,不必说明理由 )? (2)根据 (1)的判断结果及表中数据,建立 y 关于 x 的回归方程; (3)已知这种产品的年利润 z与 x, y的关系为 z 0.2y x.根据 (2)的结果回答下列问题: 年宣传
15、费 x 49 时,年销售量及年利润的预报值是多少? =【 ;精品教育资源文库 】 = 年宣传费 x 为何值时,年利润的预报值最大? 附:对于一组数据 (u1, v1), (u2, v2), ? , (un, vn),其回归直线 v u 的斜率和截距的最小二乘估计分别为: ?i 1nui u vi v?i 1nui u 2, v u . 解 (1)由散点图可以判断, y c d x适宜作为年销售量 y 关于年宣传费 x 的回归方程类型 (2)令 w x,先建立 y 关于 w 的线性回归方程,由于 d?i 18wi w yi y?i 18wi w 2 108.81.6 68, c y d w 563 686.8 100.6, 所以 y 关于 w 的线性回归方程为 y 100.6 68w,因此 y 关于 x 的回归方程为 y 100.6 68 x. (3) 由 (2)知,当 x 49 时,年销售量 y 的预报值