1、 1 / 13 人教人教 A 版选修版选修 2-3 高二数学下册期末考点完全梳理:高二数学下册期末考点完全梳理:统计统计 1简单随机抽样简单随机抽样 (1)定义:一般地,设一个总体含有 N 个个体,从中逐个不放回地抽取 n 个个体作为样本(nN),且每 次抽取时各个个体被抽到的机会都相等,就称这样的抽样方法为简单随机抽样 (2)常用方法:抽签法和随机数法 2分层抽样分层抽样 (1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的 个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样 (2)适用范围:适用于总体由差异比较明显的几个部分组成时 (
2、3)在分层抽样中: 样本容量n 总体的个数N 该层抽取的个体数 该层的个体数 3简单随机抽样和分层抽样的异同点简单随机抽样和分层抽样的异同点 相同点:等概率性。两种抽样方法的共同点都是等概率不放回抽样若样本容量为 n,总体的个体数为 N,则用这两种方法抽样时,每个个体被抽到的概率都是n N 不同点: (1)简单随机抽样:总体容量较少,尤其是样本容量较少 (2)分层抽样:适用于总体由差异明显的几部分组成的情形 例 1(2019 山东泰安模拟)某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一 600 人、高二 780 人、高三 n 人中,抽取 35 人进行问卷调查已知高二被抽取的人
3、数为 13,则 n( ) A660 B720 C780 D800 练习(2019 山东德州检测) 2018 年 11 月 11 日的“双十一”又掀购物狂潮,淘宝网站对购物情况做了 一项调查,收回的有效问卷共 500 000 份,其中购买下列四种商品的人数统计如下:服饰鞋帽 198 000 人; 家居用品 94 000 人;化妆品 116 000 人;家用电器 92 000 人为了解消费者对商品的满意度,淘宝网站用 分层抽样的方法从中选出部分问卷进行调查, 已知在购买“化妆品”这一类中抽取了 116 人, 则在购买“家 居用品”这一类中应抽取的问卷份数为( ) A92 B94 C116 D118
4、 4常用统计图表常用统计图表 (1)频率分布表的画法: 2 / 13 第一步:求极差,决定组数和组距,组距极差 组数; 第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表 (2)频率分布直方图:反映样本频率分布的直方图 横轴表示样本数据,纵轴表示频率 组距,每个小矩形的面积表示样本落在该组内的频率 频率分布直方图中的常见结论 1)众数的估计值为最高矩形的中点对应的横坐标 2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和 3)中位数的估计值的左边和右边的小矩形的面积和是相等的 例 2. (2018
5、 全国卷)某家庭记录了未使用节水龙头 50 天的日用水量数据(单位:m3)和使用了节水龙头 50 天的日用水量数据,得到频数分布表如下: 未使用节水龙头 50 天的日用水量频数分布表 日用 水量 0,0.1) 0.1, 02) 0.2, 03) 0.3, 04) 0.4, 05) 0.5, 06) 0.6, 07) 频数 1 3 2 4 9 26 5 使用了节水龙头 50 天的日用水量频数分布表 日用 水量 0,0.1) 0.1, 02) 0.2, 03) 0.3, 04) 0.4, 05) 0.5, 06) 频数 1 5 13 10 16 5 (1)在下图中作出使用了节水龙头 50 天的日用
6、水量数据的频率分布直方图; (2)估计该家庭使用节水龙头后,日用水量小于 0.35 m3的概率; (3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按 365 天计算,同一组中的数据以这组数据 所在区间中点的值作代表) 3 / 13 (3)频率分布折线图和总体密度曲线 频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图 总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越 来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线 (4)茎叶图的画法: 第一步:将每个数据分为茎(高位)和叶(低位)两部分; 第二步:将各个数据的
7、茎按大小次序排成一列; 第三步:将各个数据的叶依次写在其茎的右(左)侧 例 3(2019 年武汉月考)为了解某校教师使用多媒体进行教学的情况,采用简单随机抽样的方法, 从该校 400 名授课教师中抽取 20 名,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示如 图所示据此可估计该校上学期 400 名教师中,使用多媒体进行教学次数在16,30)内的人数为( ) 0 7 9 1 3 3 5 6 7 2 1 2 4 5 8 8 3 0 1 4 7 4 1 1 2 A100 B160 C200 D280 5样本的数字特征样本的数字特征 (1)标准差是样本数据到平均数的一种平均距离 (2)标
8、准差:s 1 nx1 x 2x 2 x 2x n x 2 (3)方差:s21 n(x1 x )2(x 2 x )2(x n x )2 (xn是样本数据,n 是样本容量, x 是样本平均数) 6平均数、方差的公式推广平均数、方差的公式推广 (1)若数据 x1,x2,xn的平均数为 x ,那么 mx 1a,mx2a,mx3a,mxna 的平均数是 m x a (2)数据 x1,x2,xn的方差为 s2 数据 x1a,x2a,xna 的方差也为 s2; 数据 ax1,ax2,axn的方差为 a2s2 例 4(2019 山东青州模拟)已知一组数据 4.7,4.8,5.1,5.4,5.5,则该组数据的方
9、差是_ 4 / 13 练习 (1)(2018 江苏卷)已知 5 位裁判给某运动员打出的分数的茎叶图如图所示, 那么这 5 位裁判打出的 分数的平均数为_ (2)(2019 齐鲁名校联考)为比较甲、乙两地某月 14 时的气温状况,随机选取该月中的 5 天,将这 5 天中 14 时的气温数据(单位:)制成如图所示的茎叶图,考虑以下结论: 甲 乙 9 8 6 2 8 9 1 1 3 0 1 2 甲地该月 14 时的平均气温低于乙地该月 14 时的平均气温; 甲地该月 14 时的平均气温高于乙地该月 14 时的平均气温; 甲地该月 14 时的气温的标准差小于乙地该月 14 时的气温的标准差; 甲地该月
10、 14 时的气温的标准差大于乙地该月 14 时的气温的标准差 其中根据茎叶图能得到的统计结论的编号为( ) A B C D 7两个变量的线性相关两个变量的线性相关 (1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将 它称为正相关 (2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关 (3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这 条直线叫做回归直线 8回归方程回归方程 (1)最小二乘法 求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫
11、做最小二乘法 (2)回归方程 方程y bxa是两个具有线性相关关系的变量的一组数据(x 1,y1),(x2,y2),(xn,yn)的回归方程, 其中a ,b是待定参数b= 2 2 1 1 xnx yxnyx n i i n i ii ,a y b x 9回归分析回归分析 (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法 5 / 13 (2)样本点的中心 对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其中( x , y)称为样本点的中心 (3)相关系数 当 r0 时,表明两个变量正相关; 当 r0 时,表明两个变量正相关; 当 r0 时,表明两个变量
12、负相关 r 的绝对值越接近于 1,表明两个变量的线性相关性越强r 的绝对值越接近于 0,表明两个变量之间几 乎不存在线性相关关系.通常|r|大于 0.75 时,认为两个变量有很强的线性相关性 例5 (2019 山东临沂模拟)x和y的散点图如图所示, 则下列说法中所有正确命题的序号为_ x,y 是负相关关系; 在该相关关系中,若用 yc1ec2x 拟合时的相关系数的平方为 r21,用y bxa拟合时的相关系数的平 方为 r22,则 r21r22; x,y 之间不能建立线性回归方程 【答案】【答案】 由相关关系定义知正确 例 6(2019 山东泰安月考)某车间为了规定工时定额,需要确定加工零件所花
13、费的时间,为此进行了 5 12 / 13 次试验根据收集到的数据(如下表),由最小二乘法求得回归方程y 0.67x54.9. 零件数 x(个) 10 20 30 40 50 加工时间 y(min) 62 75 81 89 现发现表中有一个数据看不清,请你推断出该数据的值为_ 【答案】【答案】68 由 x 30,得 y0.673054.975.设表中的“模糊数字”为 a,则 62a7581 89755,a68. 练习. (2018 全国卷)下图是某地区 2000 年到 2016 年环境基础设施投资额 y(单位:亿元)的折线图 为了预测该地区 2018 年的环境基础设施投资额, 建立了 y 与时间
14、变量 t 的两个线性回归模型 根据 2000 年至 2016 年的数据(时间变量 t 的值依次为 1,2, , 17)建立模型: y 30.413.5t; 根据 2010 年至 2016 年的数据(时间变量 t 的值依次为 1,2,7)建立模型:y 9917.5t (1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由 解 (1)利用模型,可得该地区 2018 年的环境基础设施投资额的预测值为y 30.413.519 226.1(亿元) 利用模型,可得该地区 2018 年的环境基础设施投资额的预测值为y 9917.5
15、9256.5(亿元) (2)利用模型得到的预测值更可靠 理由如下: ()从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y30.413.5t 上下, 这说明利用 2000 年至 2016 年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋 势.2010 年相对 2009 年的环境基础设施投资额有明显增加, 2010 年至 2016 年的数据对应的点位于一条直线 的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的 数据建立的线性模型y 9917.5t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利 用模型得到的预测值更可靠 ()从计算结果看, 相对于 2016 年的环境基础设施投资额 220 亿元, 由模型得到的预测值 226.1 亿元 的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠 13 / 13 (以上给出了 2 种理由,考生答出其中任意一种或其他合理理由均可得分)