1、2020高考数学大二轮专题突破文科通用-统计与统计案例考向点拨(40张)-2-3-4-5-6-1.样本的数字特征(1)众数:是指出现次数最多的数,体现在频率分布直方图中,是指高度最高的小矩形的宽的中点的横坐标;(2)中位数体现在频率分布直方图中,是指从左往右小矩形的面积之和为0.5处的横坐标;-7-2.变量间的相关关系(1)如果散点图中的点从整体上看大致分布在一条直线的附近,那么我们说变量x和y具有线性相关关系.(2)线性回归方程:若变量x与y具有线性相关关系,有n个样本数据(xi,yi)(i=1,2,n),则回归方程为-8-3.独立性检验对于取值分别是x1,x2和y1,y2的分类变量X和Y,
2、其样本频数列联表是:4.概率的三个基本性质(1)随机事件的概率:0P(A)1;必然事件的概率是1;不可能事件的概率是0.(2)若事件A,B互斥,则P(AB)=P(A)+P(B).(3)若事件A,B对立,则P(AB)=P(A)+P(B)=1.6.2.1统计与统计案例-10-考向一考向二考向三考向四样本的数字特征的应用例1(2019全国卷2,文19)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与
3、标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)-11-考向一考向二考向三考向四-12-考向一考向二考向三考向四解题心得解题心得(1)在预测总体数据的平均值时,常用样本数据的平均值估计,从而做出合理的判断.(2)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定.-13-考向一考向二考向三考向四对点训练对点训练1为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如下表:(1)补全茎叶图,并指出乙队测试成绩的中位数和众数;(2)试用统计学中的平
4、均数、方差知识对甲、乙两个代表队的测试成绩进行分析.-14-考向一考向二考向三考向四-15-考向一考向二考向三考向四利用回归方程进行回归分析例2(2019山东济宁二模,文19)某大型超市公司计划在A市新城区开设分店,为确定在新城区开设分店的个数,该公司对该市已开设分店的其他区的数据统计后得到下列信息(其中x表示在该区开设分店的个数,y表示这x个分店的年收入之和):(1)该公司经过初步判断,可用线性回归模型拟合y与x的关系,求y关于x的回归方程;(2)假设该公司每年在新城区获得的总利润w(单位:万元)与x,y之间的关系为w=y-5x2-140,请根据(1)中的线性回归方程,估算该公司在新城区开设
5、多少个分店时,才能使新城区每年每个分店的平均利润最大.-16-考向一考向二考向三考向四-17-考向一考向二考向三考向四当且仅当x=4时,取得等号,所以,该公司在新城区开设4个分店时,新城区每年每个分店的平均利润最大为45万元.-18-考向一考向二考向三考向四解题心得解题心得在求两变量的回归方程时,由于 的公式比较复杂,求它的值计算量比较大,为了计算准确,可将这个量分成几个部分分别计算,最后再合成,这样等同于分散难点,各个攻破,提高了计算的准确度.-19-考向一考向二考向三考向四对点训练对点训练2某地区2008年至2016年粮食产量的部分数据如下表:(1)求该地区2008年至2016年粮食年产量
6、y与年份x之间的线性回归方程;(2)利用(1)中的回归方程,分析2008年到2016年该地区粮食年产量的变化情况,并预测该地区2018年的粮食年产量.-20-考向一考向二考向三考向四解(1)由所给数据可以看出,粮食年产量y与年份x之间是近似直线上升的,为求线性回归方程,对数据处理如下:-21-考向一考向二考向三考向四-22-考向一考向二考向三考向四样本的相关系数的应用例3(2019山西运城二模,文18)近年来,共享单车在我国各城市迅猛发展,为人们的出行提供了便利,但也给城市的交通管理带来了一些困难,为掌握共享单车在C省的发展情况,某调查机构从该省抽取了5个城市,并统计了共享单车的A指标x和B指
7、标y,数据如表所示:-23-考向一考向二考向三考向四(1)试求y与x间的相关系数r,并说明y与x是否具有较强的线性相关关系(若|r|0.75,则认为y与x具有较强的线性相关关系,否则认为没有较强的线性相关关系).(2)建立y关于x的回归方程,并预测当A指标为7时,B指标的估计值.-24-考向一考向二考向三考向四-25-考向一考向二考向三考向四-26-考向一考向二考向三考向四解题心得解题心得对于样本的相关系数的应用的题目,题目一般都给出样本(xi,yi)(i=1,2,n)的相关系数r的表达式,以及有关的数据,解决这类题的关键是在有关的数据中选择题目需要的数据代入公式即可.-27-考向一考向二考向
8、三考向四对点训练对点训练3下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2018年我国生活垃圾无害化处理量.-28-考向一考向二考向三考向四-29-考向一考向二考向三考向四-30-考向一考向二考向三考向四-31-考向一考向二考向三考向四统计图表与独立性检验的综合例4(2019郑州二模)为推动更多人阅读,联合国教科文组织确定每年的4月23日为“世界读书日”.设立目的是希望居住在世界各地的人,无论你是年老还是年轻,无论你是贫穷还是富裕,都
9、能享受阅读的乐趣,都能尊重和感谢为人类文明做出过巨大贡献的思想大师们,都能保护知识产权.为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查了200名居民,经统计,这200人中通过电子阅读与纸质阅读的人数之比为31.将这200人按年龄分组,其中统计通过电子阅读的居民得到的频率分布直方图如图所示.-32-考向一考向二考向三考向四(1)求a的值及通过电子阅读的居民的平均年龄;(2)把年龄在第1,2,3组的居民称为青少年组,年龄在第4,5组的居民称为中老年组,若选出的200人中通过纸质阅读的中老年有30人,请完成下面22列联表,则是否有97.5%的把握认为阅读方式与年龄有关?-33-考向一
10、考向二考向三考向四-34-考向一考向二考向三考向四解(1)根据频率分布直方图知,10(0.01+0.015+a+0.03+0.01)=1,解得a=0.035,所以通过电子阅读的居民的平均年龄为20100.01+30100.015+40100.035+50100.03+60100.01=41.5.(2)根据题意填写列联表如下,-35-考向一考向二考向三考向四解题心得解题心得有关独立性检验的问题解题步骤:(1)作出22列联表;(2)计算随机变量K2的值;(3)查临界值,检验作答.-36-考向一考向二考向三考向四对点训练4某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方
11、式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:-37-考向一考向二考向三考向四(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?-38-考向一考向二考向三考向四解(1)第二种生产方式的效率更高.理由如下:由茎叶图可知:用第一种生产方式的工人中,有75
12、%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.-39-考向一考向二考向三考向四由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,学生答出其中任意一种或其他合理理由均可)-40-考向一考向二考向三考向四