1、第八章成对数据的统计分析 8.1 成对数据的统计相关性 8.1.1 变量的相关关系变量的相关关系 8.1.2 样本相关系数样本相关系数 8.2 一元线性回归模型及其应用 8.2.1 一元线性回归模型一元线性回归模型 8.2.2 一元线性回归模一元线性回归模 型参数的最小二乘估计型参数的最小二乘估计 课后篇巩固提升 基础达标练 1.(2020 陕西延安第一中学高二月考)在下列散点图中,变量 x,y 不具有相关关系的是( ) 解析由相关关系的定义,如果散点大部分分布在一条曲线附近,那么就说这两个变量具有相关关系,可 知选项 D 的散点没有这一特征,不具有相关关系.故选 D. 答案 D 2.(202
2、0 黑龙江哈九中高二月考)为了研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下 实验数据,并分析可得经验回归方程为 =0.85x-0.25.由以上信息,得到下表中 c的值为( ) 天数 x/天 3 4 5 6 7 繁殖个数 y/千 个 2.5 3 4 4.5 c A.5 B.6 C.7 D.8 解析 =5,且( )在经验回归直线上, =0.85 -0.25=0.855-0.25=4. (2.5+3+4+4.5+c)=45=20,解得 c=6. 故选 B. 答案 B 3.对变量 x,y 进行回归分析时,依据得到的 4 个不同的模型画出残差图,则下列模型拟合精度最高的是 ( ) 解析用残差
3、图判断模型的拟合效果,残差比较均匀地分布在横轴的两边,说明这样的模型比较合适.若 带状区域的宽度越窄,则说明模型的拟合精度越高. 答案 A 4.(2020 山东烟台理工学校高二期中)某咖啡厅为了了解热饮的销售量 y(单位:杯)与气温 x(单位:)之 间的关系,随机统计了某 4天的销售量与气温,并制作了对照表: 气温/ 18 13 10 -1 销售量/ 杯 24 34 38 64 由表中数据分析,可得经验回归方程 =-2x+a.当气温为-4 时,预测销售量约为( ) A.68 杯 B.66 杯 C.72 杯 D.77 杯 解析 - =10, =40,又( )在经验回归直线上, =-2 +a,即
4、a=40+210=60. 经验回归方程为 =-2x+60. 当 x=-4 时, =68.故选 A. 答案 A 5.(2020 江西高二期中)某相关变量 x,y的散点图如图所示,现对这两个变量进行回归分析,方案一,根据 图中所有数据分析,可得到经验回归方程 =b 1x+a1,样本相关系数为 r1;方案二,剔除点(10,32),根据剩 下数据分析,可得到经验回归方程 =b 2x+a2,样本相关系数为 r2.则 ( ) A.0r1r21 B.0r2r11 C.-1r1r20 D.-1r2r10 解析由题中散点图可知,变量 x和 y成正相关,故 0r11,0r21, 在剔除点(10,32)之后, 可看
5、出经验回归直线 =b 2x+a2的线性相关程度更强,故 r1r2. 所以 0r1r21. 故选 A. 答案 A 6.关于残差图的描述错误的是( ) A.残差图的横坐标可以是样本编号 B.残差图的横坐标也可以是解释变量或响应变量 C.残差分布的带状区域的宽度越窄 R2越小 D.残差分布的带状区域的宽度越窄残差平方和越小 解析残差分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时 R2的值越大, 故描述错误的是选项 C. 答案 C 7.(2020 河北高二开学考试)由一组观测数据(x1,y1),(x2,y2),(xn,yn),经分析可得经验回归方程为 =3x+ ,若 =1.5,
6、 =2,则 = . 解析因为 =1.5, =2,经验回归方程为 =3x+ ,所以 2=31.5+ ,解得 =-2.5. 答案-2.5 8.某学校开展研究性学习活动,一组同学获得了下面的一组试验数据: x 1.99 3 4 5.1 8 y 0.99 1.58 2.01 2.35 3.00 现有如下 5 个模拟函数: y=0.58x-0.16;y=2x-3.02;y=x2-5.5x+8;y=log2x;y=( ) +1.74. 请从中选择一个模拟函数,使它能近似地反映这些数据的规律,应选 .(填序号) 解析画出散点图如图所示. 由图可知上述散点大体分布在函数 y=log2x 的图象的附近,故选择
7、y=log2x可以近似地反映这些 数据的规律.故填. 答案 9.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数 据: 单价 x/ 元 8 8.2 8.4 8.6 8.8 9 销量 y/ 件 90 84 83 80 75 68 (1)求销量 y关于单价 x 的经验回归方程 x+ ,其中 =-20, ; (2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是 4元/件,为使工厂获得 最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 解(1)因为 (8+8.2+8.4+8.6+8.8+9)=8.5, (90+84+83+80+
8、75+68)=80. 所以 =80+208.5=250.所以经验回归方程为 =-20 x+250. (2)设工厂获得的利润为 L(单位:元),依题意得 L=x(-20 x+250)-4(-20 x+250) =-20 x2+330 x-1 000 =-20( - ) +361.25. 当且仅当 x= =8.25时,L 取得最大值. 故当单价定为 8.25元时,工厂可获得最大利润. 10.在一段时间内,某网店一种商品的销售价格 x(单位:元)和日销售量 y(单位:件)之间的一组数据如下 表: 价格 x/元 22 20 18 16 14 日销售量 y/ 件 37 41 43 50 56 求出 y
9、关于 x的经验回归方程,并用 R2说明拟合效果. 参考数据: xiyi=3 992, =1 660. 解作出散点图(图略),观察散点图可知这些点散布在一条直线的附近,故可知 x与 y线性相关. 因为 =18, =45.4. 所以 - - - - - - - =-2.35, =45.4-(-2.35)18=87.7. 所以经验回归方程为 =-2.35x+87.7. yi- 与 yi- 的值如下表: yi- 1 0.3 - 2.4 - 0.1 1.2 yi- - 8.4 - 4.4 - 2.4 4.6 10.6 计算得 (yi- ) 2=8.3, (yi- )2=229.2, 所以 R2=1- 0
10、.964. 因为 0.964 很接近于 1,所以该模型的拟合效果比较好. 能力提升练 1.如图,若去掉 D(3,10)后,则下列说法错误的是( ) A.样本相关系数 r变大 B.残差平方和变大 C.R2变大 D.解释变量 x 与响应变量 y 的相关性变强 解析由题中散点图,可知去掉点 D后,x 与 y 的相关性变强,且为正相关,所以 r变大,即 R2变大,残差平 方和变小. 答案 B 2.(2020 四川宜宾第四中学高二月考)已知(x,y)的一组数据为(1,2),(3,5),(6,8),(x0,y0),且 y关于 x 的经验 回归方程为 =x+2,则 x 0-y0的值为( ) A.-3 B.-
11、5 C.-2 D.-1 解析 (10+x0), (15+y0), 经验回归方程为 =x+2, (15+y0)= (10+x0)+2, 解得 x0-y0=-3.故选 A. 答案 A 3.(2020 全国,理 5)某校一个课外学习小组为研究某作物种子的发芽率 y 和温度 x(单位:)的关系, 在 20 个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,20)得到下面的散点图: 由此散点图,在 10 至 40 之间,下面四个函数模型中最适宜作为发芽率 y和温度 x 的经验回归方 程模型的是( ) A.y=a+bx B.y=a+bx2 C.y=a+bex D.y=a+bln x
12、 解析结合题中散点图,由图象的大致走向判断,此函数应该是对数函数模型,故应该选用的函数模型为 y=a+bln x. 答案 D 4.(2020 广东阳山中学高二月考)某工厂为研究某种产品产量 x(单位:吨)与所需某种原材料 y(单位:吨) 的相关关系,在生产过程中收集了 4组对应数据(x,y)如下表所示: x 3 4 5 6 y 2.5 3 4 m 根据表中数据,得出 y 关于 x 的经验回归方程为 =0.7x+a.据此计算出在样本(4,3)处的残差为-0.15,则 表中 m的值为 . 解析由在样本(4,3)处的残差为-0.15,可得 =3.15.故 3.15=0.74+a,解得 a=0.35.
13、 由题意可知产量 x的平均值为 (3+4+5+6)=4.5. 因为经验回归直线过点( ), 所以 =0.7 +0.35=0.74.5+0.35=3.5.又因为 (9.5+m), 所以 m=4.5. 答案 4.5 5.某品牌服装专卖店为了解保暖衬衣的销售量 y(单位:件)与平均气温 x(单位:)之间的关系,随机统 计了连续四旬的销售量与当旬平均气温,其数据如下表: 时间 二月上 旬 二月中 旬 二月下 旬 三月上 旬 旬平均 气温 x/ 3 8 12 17 旬销售 量 y/件 55 m 33 24 由表中数据算出经验回归方程 x+ 中的 =-2, =10, =38. (1)表中数据 m= . (
14、2)气象部门预测三月中旬的平均气温约为 22 ,据此估计,该品牌的保暖衬衣在三月中旬的销售量 约为 件. 解析(1)由 (55+m+33+24)=38,解得 m=40. (2)由 ,得 =58. 故 =-2x+58. 当 x=22 时, =14. 故三月中旬的销售量约为 14 件. 答案(1)40 (2)14 6.(2020 四川高二期末)流行性感冒(简称流感)是流感病毒引起的急性呼吸道感染,是一种传染性强、 传播速度快的疾病.其主要通过空气中的飞沫、人与人之间的接触或与被污染物品的接触传播.流感 每年在世界各地均有传播,在我国北方通常呈冬春季流行,南方有冬春季和夏季两个流行高峰.某幼儿 园将
15、去年春季该园患流感小朋友按照年龄与人数统计,得到如下数据: 年龄 x 2 3 4 5 6 患病人 数 y 22 22 17 14 10 (1)求 y关于 x 的经验回归方程; (2)计算样本相关系数 r(计算结果精确到 0.01),并回答是否可以认为该幼儿园去年春季患流感人数与 年龄负相关很强?(若|r|0.75,1,则 x,y相关性很强;若|r|0.3,0.75),则 x,y相关性一般;若|r| 0,0.25,则 x,y 相关性较弱.) 参考数据: 5.477. 参考公式: - - - - - , 样本相关系数 r= - - - - . 解(1)由题意可得 =4, =17, - - - =
16、- - - - - - =-3.2, =17+3.24=29.8. 故 y关于 x 的经验回归方程为 =-3.2x+29.8. (2)r= - - - - = - - -0.97, 由 rE(Y),故企业要想获得更高利润,产品单价应选择 80 元. (方法二)()若产品单价为 80 元,记企业的产量为 X(单位:千件),其分布列为 X 9 10 P 0.7 0.3 所以 E(X)=90.7+100.3=9.3, 企业的利润为 80- 40+ 9 300=272 000(元). ()若产品单价为 70元,记企业的产量为 Y(单位:千件),其分布列为 Y 10 11 P 0.3 0.7 所以 E(
17、Y)=100.3+110.7=10.7, 企业的利润为 70- 40+ 10 700=221 000(元). 因为 272 000221 000, 所以企业要想获得更高利润,产品单价应选择 80元. 素养培优练 (2020吉林梅河口第五中学高三模拟)2019年的“金九银十”变成“铜九铁十”,各地房价“跳水”严重,但 某地二手房交易却“逆市”而行.该地某小区 2018年 11 月至 2019年 1月期间的在售二手房均价(单位: 万元/平方米)的散点图如图所示.(图中月份代码 113分别对应 2018 年 11月2019年 11 月) 根据散点图选择 y=a+b 和 y=c+dln x两个模型进行
18、拟合,经过数据处理得到两个经验回归方程分 别为 =0.936 9+0.028 5 和 =0.955 4+0.030 6ln x,并得到以下一些统计量的值: 类型 =0.936 9+0.028 5 =0.955 4+0.030 6ln x 0.000 591 0.000 164 0.006 050 (1)请利用 R2判断哪个模型的拟合效果更好. (2)某位购房者拟于 2020年 4月购买这个小区 m(70m160)平方米的二手房(欲购房为其家庭首套 房). 若购房时该小区所有住房的房产证均已满 2年但未满 5年,请你利用(1)中拟合效果更好的模型解决 以下问题: ()估算该购房者应支付的购房金额
19、;(购房金额=房款+税费,房屋均价精确到 0.001 万元/平方米) ()若该购房者拟用不超过 100 万元的资金购买该小区一套二手房,试估算其可购买的最大面积.(精 确到 1 平方米) 附注:根据有关规定,二手房交易需要缴纳若干项税费,税费是按房屋的计税价格(计税价格=房款)进 行征收的. 房产证满 2 年但未满 5 年的征收方式如下:首套面积 90 平方米以内(含 90 平方米)为 1%;首套面积 90 平方米以上且 140平方米以内(含 140 平方米)为 1.5%;首套面积 140平方米以上或非首套为 3%. 参考数据:ln 20.69,ln 31.10,ln 172.83,ln 19
20、2.94, 1.41, 1.73, 4.12, 4.36. 参考公式:R2=1- - - . 解(1) =0.936 9+0.028 5 的 =- 0.923; =0.955 4+0.030 6ln x的 =1- 0.973. 由 ,可知模型 y=c+dln x 拟合的效果更好一些. (2)通过散点图确定 2020年 4月对应的 x=18, 代入(1)中拟合效果更好的模型的经验回归方程,可得 =0.955 4+0.030 6ln 18 =0.955 4+0.030 6(ln 2+2ln 3) =0.955 4+0.030 6(0.69+21.10) 1.044. 故 2020年 4月份二手房均
21、价的预测值为 1.044 万元/平方米. ()设该购房者应支付的购房金额为 h(单位:万元),因为税费中买方只需缴纳契税, 所以当 70m90时,契税为计税价格的 1%, 故 h=m1.044(1%+1)=1.054 44m; 当 90m144时,契税为计税价格的 1.5%, 故 h=m1.044(1.5%+1)=1.059 66m; 当 144m160时,契税为计税价格的 3%, 故 h=m1.044(3%+1)=1.075 32m. 所以 h= 所以当 70m90 时购房金额为 1.054 44m万元, 当 90m144 时购房金额为 1.059 66m万元, 当 144m160 时购房金额为 1.075 32m万元. ()设该购房者可购买该小区二手房的最大面积为 t(单位:平方米), 由()知,当 70m90时,应支付的购房金额为 1.054 44t. 又因为 1.054 44t1.054 4490100, 且房屋均价约为 1.044万元/平方米,所以 t100.所以 90t100. 由 1.059 66t100,解得 t ,且 94.4.所以该购房者可购买该小区二手房的最大面 积约为 94 平方米.