1、章末复习课 第八章成对数据的统计分析 本资料分享自千人QQ群323031380 期待你的加入与分享 内 容 索 引 知识网络 考点突破 真题体验 1知识网络 PART ONE 2考点突破 PART TWO 一、变量的相关性 1.变量的相关关系与样本相关系数是学习一元线性回归模型的前提和基 础,前者可借助散点图从直观上分析变量间的相关性,后者从数量上准 确刻化了两个变量的相关程度. 2.在学习该部分知识时,体会直观想象和数学运算的素养. 例1(1)下列两个变量具有相关关系且不是函数关系的是 A.圆的半径与面积 B.匀速行驶的车辆的行驶距离与时间 C.庄稼的产量与施肥量 D.人的身高与视力 解析对
2、于A,圆的半径与面积是确定的关系,是函数关系; 对于B,匀速行驶的车辆的行驶距离与时间是确定的关系,是函数关系; 对于C,庄稼的产量与施肥量在一定范围内有相关关系,不是函数关系; 对于D,人的身高与视力,不具有相关关系,也不是函数关系.故选C. (2)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,4), (1,6),则y与x的样本相关系数为_.1 方法二观察四个点,发现其在一条单调递减的直线上, 故y与x的样本相关系数为1. 反思 感悟 变量相关性的判断的两种方法 (1)散点图法:直观形象. (2)公式法:可用公式精确计算,需注意特殊情形的样本相关 系数.如点在一条直
3、线上,|r|1,且当r1时,正相关;r 1时,负相关. 跟踪训练1(1)已知变量x和y满足关系y2x1,变量y与z正相关, 下列结论中正确的是 A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关 解析根据题意,变量x和y满足关系y2x1, 其比例系数为20,所以x与y负相关; 又由变量y与z正相关,则x与z负相关.故选C. (2)如图所示,给出了样本容量均为7的A,B两组成对样本数据的散点图, 已知A组成对样本数据的样本相关系数为r1,B组成对样本数据的样本相 关系数为r2,则 A.r1r2 B.r1r2 D.无法判定 解
4、析根据A,B两组成对样本数据的散点图知,A组成对样本数据几乎 在一条直线上,且成正相关, 样本相关系数为r1应最接近1,B组成对样本数据分散在一条直线附近, 也成正相关, 样本相关系数为r2,满足r2r2,故选C. 二、一元线性回归模型及其应用 1.该知识点是具有线性相关关系的两变量的一种拟合应用,目的是借 助函数的思想对实际问题做出预测和分析. 2.主要培养数学建模和数据分析的素养. 例2一商场对每天进店人数和商品销售件数进行了统计对比,得到如 下表格: 人数xi10152025303540 件数yi471215202327 其中i1,2,3,4,5,6,7. (1)以每天进店人数为横坐标,
5、每天商品销售件数为纵坐标,画出散点图; 解由表中数据,画出7个数据点, 可得散点图如图所示. (2)求经验回归方程;(结果保留到小数点后两位) (3)预测进店人数为80时商品销售的件数.(结果保留整数) 反思 感悟 解决回归分析问题的一般步骤 (1)画散点图.根据已知数据画出散点图. (2)判断变量的相关性并求经验回归方程.通过观察散点图, 直观感知两个变量是否具有相关关系;在此基础上,利用最 小二乘法求回归系数,然后写出经验回归方程. (3)回归分析.画残差图或计算R2,进行残差分析. (4)实际应用.依据求得的经验回归方程解决实际问题. 跟踪训练2某地搜集到的新房屋的销售价格(单位:万元)
6、和房屋面积 (单位:m2)的数据如下表: 房屋面积/m211511080135105 销售价格/万元24.821.618.429.222 (1)画出数据对应的散点图; 解设x轴表示房屋的面积,y轴表示销 售价格,数据对应的散点图如图. (2)求经验回归方程; 解由(1)知y与x具有线性相关关系, (3)根据(2)的结果,估计当房屋面积为150 m2时的销售价格. 解由(2)知当x150时,销售价格的估计值为 0.196 21501.814 2 31.244 2(万元). 故当房屋面积为150 m2时,估计销售价格是31.244 2万元. 三、非线性经验回归方程 1.在实际问题中,并非所有的变量
7、关系均满足线性关系,故要选择适当 的函数模型去拟合样本数据,再通过代数变换,把非线性问题线性化. 2.体现数学建模的优劣,提升数据分析的素养. 例3某公司为确定下一年度投入产品的宣传费,需了解年宣传费x(单 位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,于是对 近8年的宣传费xi和年销售量yi(i1,2,8)的数据进行了初步处理, 得到如图所示的散点图及一些统计量的值. (2)根据(1)的判断结果及表中数据,建立y关于x的回归方程; (3)已知这种产品的年利润z与x,y之间的关系为z0.2yx,根据(2)的 结果回答下列问题. 当年宣传费x49时,年销售量及年利润的预报值是
8、多少? 年宣传费x为何值时,年利润的估计值最大? 故当年宣传费为46.24千元时,年利润的估计值最大. 反思 感悟 非线性经验回归方程的求解策略 (1)本例中,y与x不是线性相关关系,但通过wi ,转换为 w与y的线性相关关系,从而可利用线性回归分析间接讨论y 与x的相关关系. (2)可线性化的回归分析问题,画出已知数据的散点图,选 择跟散点图拟合得最好的函数模型进行变量代换,作出变换 后样本点的散点图,用线性回归模型拟合. 跟踪训练3电容器充电达到某电压值时作为时间t的计算原点,此后电 容器串联一电阻放电,测定各时间的电压值(U)所得数据见下表: t(h)012345678 U(V) 100
9、755540302015105 设U与t之间具有近似关系UU0et(U0,为常数,e2.718 28),求 U对t的回归方程. 解对UU0et两边取自然对数, 得ln Uln U0t. 将U的各数据代入zln U,求得: t012345678 z4.6054.317 4.007 3.689 3.401 2.996 2.708 2.3031.609 即ln U4.7140.355 3t,所以Ue4.7140.355 3t. 故所求回归方程为Ue4.7140.355 3t. 四、独立性检验 1.主要考查根据样本制作22列联表,由22列联表计算2,查表分析 并判断相关性结论的可信程度. 2.通过计算
10、2值,进而分析相关性结论的可信程度,提升数学运算、数 据分析素养. 例4奥运会期间,为调查某高校学生是否愿意提供志愿者服务,用简 单随机抽样方法从该校调查了60人,结果如下: 是否愿意提供志愿者服务 性别 愿意 不愿意 男生2010 女生1020 (1)用分层随机抽样的方法在愿意提供志愿者服务的学生中抽取6人,其 中男生抽取多少人? (2)依据小概率值0.01的独立性检验,能否据此推断该校高中生是否 愿意提供志愿者服务与性别有关? 下面的临界值表供参考: 是否愿意提供志愿者服务 性别 愿意 不愿意 男生2010 女生1020 0.100.050.0100.0050.001 x2.7063.84
11、16.6357.87910.828 解零假设H0:该校高中生是否愿意提供志愿者服务与性别无关. 所以依据小概率值0.01的独立性检验, 可以认为该校高中生是否愿意提供志愿者服务与性别有关. 反思 感悟 独立性检验问题的求解策略 (1)等高堆积条形图法:依据题目信息画出等高堆积条形图, 依据频率差异来粗略地判断两个变量的相关性. (2)通过公式2 先计算2,再与临 界值表作比较,最后得出结论. 跟踪训练4考察小麦种子灭菌与否跟发生黑穗病的关系,经试验观察, 得到数据如下表: 种子灭菌种子未灭菌合计 黑穗病26184210 无黑穗病50200250 合计76384460 试分析依据小概率值0.05
12、的独立性检验,能否据此推断种子灭菌与小 麦发生黑穗病有关? 解零假设H0:种子灭菌与小麦发生黑穗病无关. 由列联表的数据可求 所以依据小概率值0.05的独立性检验, 可以认为种子灭菌与小麦发生黑穗病有关系. 3真题体验 PART THREE 12 1.(2020全国)某沙漠地区经过治理,生态系统得到很大改善,野生动 物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相 近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样 区,调查得到样本数据(xi,yi)(i1,2,20),其中xi和yi分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 (
13、1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等 于样区这种野生动物数量的平均数乘以地块数); 从而该地区这种野生动物数量的估计值为6020012 000. 12 (2)求样本(xi,yi)(i1,2,20)的相关系数(精确到0.01); 12 12 (3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本 的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种 你认为更合理的抽样方法,并说明理由. 12 解分层随机抽样,根据植物覆盖面积的大小对地块分层,再对200个 地块进行分层抽样. 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强 的正相关关
14、系. 由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量 差异也很大, 采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高 了样本的代表性, 从而可以获得该地区这种野生动物数量更准确的估计. 12 2.(2020新高考全国改编)为加强环境保护,治理空气污染,环境监测 部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓 度(单位:g/m3),得下表: SO2 PM2.5 0,50(50,150(150,475 0,3532184 (35,756812 (75,1153710 (1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过
15、 150”的概率; 12 解由表格可知,该市100天中,空气中的PM2.5浓度不超过75, 且SO2浓度不超过150的天数为32618864, 所以该市一天中,空气中的PM2.5浓度不超过75, 12 (2)根据所给数据,完成下面的22列联表: SO2 PM2.5 0,150(150,475 0,75 (75,115 12 解由所给数据,可得22列联表: SO2 PM2.5 0,150(150,475 0,756416 (75,1151010 12 (3)根据(2)中的列联表,依据小概率值0.010的独立性检验,分析该市 一天空气中PM2.5浓度与SO2浓度是否有关. 12 解零假设为H0:该市一天空气中PM2.5浓度与SO2浓度无关. 根据列联表中数据,经计算得到 7.4846.635x0.010, 根据小概率值0.010的独立性检验,我们推断H0不成立, 即认为该市一天空气中PM2.5浓度与SO2浓度有关. 12 本课结束 更多精彩内容请登录: