1、第三讲第三讲 用样本估计总体用样本估计总体 知识梳理 双基自测 知 识 梳 理 知识点一 用样本的频率分布估计总体分布 (1)频率分布表与频率分布直方图 频率分布表和频率分布直方图,是从各个小组数据在样本容量中所占比例大小的角度, 来表示数据分布规律,从中可以看到整个样本数据的频率分布情况 绘制频率分布直方图的步骤为: _求极差_;_决定组距与组数_;_将数据分组_;_列频率分布表_; _画频率分布直方图_ (2)频率分布折线图 顺次连接频率分布直方图中_各小长方形上端的中点_,就得到频率分布折线图 (3)总体密度曲线 总体密度曲线反映了总体在各个范围内取值的百分比,它能提供更加精细的信息 知
2、识点二 茎叶图 (1)茎叶图中茎是指_中间_的一列数,叶是从茎的_旁边_生长出来的数 (2)茎叶图的优点是可以_保留_原始数据,而且可以_随时_记录,这对数据的记录和 表示都能带来方便 知识点三 样本的数字特征 (1)众数:一组数据中出现次数最多的数 (2)中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个 数,则中间两数的平均数是中位数 (3)平均数: x _x1x2xn n _,反映了一组数据的平均水平 (4)标准差: s_ 1 nx1 x 2x 2 x 2x n x 2_,反映了样本数据的离散程度 (5)方差:s2_1 n(x1 x ) 2(x 2 x ) 2(x
3、 n x ) 2_,反映了样本数据的离散程度 归 纳 拓 展 (1)若一组数据 xi(i1,2,n)的平均数为 x ,方差为 s2,则数据组 ax ib(i1,2,n, a,b 为常数)的平均数为 a x b,方差为 a2 s2 (2)频率分布直方图与众数、中位数与平均数的关系 最高的小长方形底边中点的横坐标即是众数 中位数左边和右边的小长方形的面积和是相等的,均为1 2 平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘 以小长方形底边中点的横坐标之和 双 基 自 测 题组一 走出误区 1判断下列结论是否正确(请在括号中打“”或“”) (1)平均数、众数与中位数从不同
4、的角度描述了一组数据的集中趋势( ) (2)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论( ) (3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据 信息就被抹掉了( ) (4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数 据可以只记一次( ) (5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数( ) (6)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的( ) 题组二 走进教材 2 (P81A 组 T1 改编)已知某班级部分同学一次测验的成绩统计如图, 则其中位数和众数分 别为( B ) A95,
5、94 B92,86 C99,86 D95,91 解 析 由 茎 叶 图 可 知 , 此 组 数 据 由 小 到 大 排 列 依 次 76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共 17 个,故 92 为中位数,出现次数最 多的为众数,故众数为 86,故选 B 3(P7T1)如图是 100 位居民月均用水量的频率分布直方图,则月均用水量为2,2.5)范围内 的居民有_25_人 解析 100(0.50.5)25(人) 题组三 走向高考 4(2020 新课标)设一组样本数据 x1,x2,xn的方差为 0.01,则数据 10 x1,10
6、x2, 10 xn的方差为( C ) A0.01 B0.1 C1 D10 解析 样本数据 x1,x2,xn的方差为 0.01,根据任何一组数据同时扩大几倍方 差将变为平方倍增长,数据 10 x1,10 x2,10 xn的方差为:1000.011,故选 C 5(2020 天津)从一批零件中抽取 80 个,测量其直径(单位:mm),将所得数据分为 9 组: 5.31,5.33),5.33,5.35),5.45,5.47),5.47,5.49,并整理得到如下频率分布直方图,则在 被抽取的零件中,直径落在区间5.43,5.47)内的个数为( B ) A10 B18 C20 D36 解析 直径落在区间5
7、.43,5.47)的频率为(6.255)0.02 0.225,则被抽取的零件中, 直径落在区间5.43,5.47)内的个数为 0.22580 18 个,故选 B 考点突破 互动探究 考点一 频率分布直方图自主练透 例 1 (1)(2021 江西赣州十四县联考)中央电视台播出中国诗词大会火遍全国, 下面是组委会在选拔赛时随机抽取的 100 名选手的成绩,按成绩分组,得到的频率分布表如 下所示: 组号 分组 频数 频率 第 1 组 160,165) 0.100 笫 2 组 165,170) 第 3 组 170,175) 20 第 4 组 175,180) 20 0.200 第 5 组 180,18
8、5) 10 0.100 合计 100 1.00 ()请先求出频率分布表中、位置的相应数据,再完成频率分布直方图(用阴影表示) ()为了能选拔出最优秀的选手,组委会决定在笔试成绩高的第 3,4,5 组中用分层抽样抽 取 5 名选手进入第二轮面试,则第 3,4,5 组每组各抽取多少名选手进入第二轮面试? ()在()的前提下,组委会决定在 5 名选手中随机抽取 2 名选手接受考官 A 面试,求第 4 组至少有一名选手被考官 A 面试的概率 (2)(2021 湖北恩施州质检)为了解人们对环保知识的认知情况,某调查机构对 A 地区随机 选取 n 个居民进行了环保知识问卷调查(满分为 100 分),并根据
9、问卷成绩(不低于 60 分记为及 格)绘制成如图所示的频率分布直方图(分为40,50), 50,60), 60,70), 70,80), 80,90), 90,100 六组),若问卷成绩最后三组频数之和为 360,则下列结论正确的是_ n480 问卷成绩在70,80)内的频率为 0.3 a0.030 以样本估计总体,若对 A 地区 5 000 人进行问卷调查,则约有 1 250 人不及格 解析 (1)()第 1 组的频数为 1000.10010, 所以处应填的数为 100(10202010)40, 从而第 2 组的频率为 40 1000.400 处应填的数为 1(0.10.40.20.1)0.
10、200 频率分布直方图如图所示 ()因为第 3,4,5 组共有 50 名选手,所以利用分层抽样在 50 名选手中抽取 5 名选手进入 第二轮面试时,每组抽取的人数分别为: 第 3 组:20 5052,第 4 组: 20 5052,第 5 组: 10 5051, 所以第 3,4,5 组分别抽取 2 人,2 人,1 人进入第二轮面试 ()(理)记“第 4 组至少有一名选手被考官 A 面试”为事件 A, 则 P(A)C 1 2C 1 3C 2 2 C25 7 10 或PA1PA 1C23 C25 7 10 (文)设第 3 组的 2 位选手为 A1,A2,第 4 组的 2 位选手为 B1,B2,第 5
11、 组的 1 位选手为 C1,则从这五位选手中抽取两位选手有(A1,A2),(A1,B1),(A1,B2),(A1,C1),(A2,B1),(A2, B2),(A2,C1),(B1,B2),(B1,C1),(B2,C1),共 10 种情况 其中第 4 组的 2 位选手 B1,B2,中至少有一位入选的有(A1,B1),(A1,B2),(A2,B1),(A2, B2),(B1,B2),(B1,C1),(B2,C1),共有 7 种情况,所以第 4 组至少有一名选手被考官 A 面 试的概率为 7 10 (2) 由 (0.010 0.015 0.015 a 0.025 0.005)10 1 , 得 a 0
12、.030 , n 360 10a0.0250.005600故不正确,正确;成绩在70,80)内的频率为 10a0.3,故 正确;若对 A 地区 5 000 人进行问卷调查,则约有 5 000(0.10.15)1 250 人不及格,故 正确 名师点拨 应用频率分布直方图时的注意事项 用频率分布直方图解决相关问题时,应正确理解图表中各个量的意义,识图掌握信息是 解决该类问题的关键频率分布直方图有以下几个要点:(1)纵轴表示频率/组距;(2)频率分布 直方图中各长方形高的比也就是其频率之比;(3)频率分布直方图中每一个矩形的面积是样本 数据落在这个区间上的频率,所有的小矩形的面积之和等于 1,即频率
13、之和为 1 变式训练 1 (1)(2021 安徽“皖南八校”摸底)某校高三年级有 400 名学生,在一次数学测试中,成绩 都在80,130(单位:分)内,其频率分布直方图如图,则这次测试数学成绩不低于 100 分的人 数为_220_ (2)(2021 山西适应性考试)某病毒引起的肺炎的潜伏期平均为 7 天左右,短的约 23 天, 长的约 1014 天,甚至有 20 余天某医疗机构对 400 名确诊患者的潜伏期进行统计,整理 得到以下频率分布直方图根据该直方图估计:要使 90%的患者显现出明显病状,需隔离观 察的天数至少是( C ) A12 B13 C14 D15 解析 (1)根据频率分布直方图
14、知: (2a0.040.030.02)101a0.005; 计算出数学成绩不低于 100 分的频率为: (0.030.020.005)100.55; 所以这次测试数学成绩不低于 100 分的人数为 0.55400220 人 (2)由题可知,第一,二,三,四,五组的频率分别为 0.16,0.4,0.32,0.08,0.04 因为前三组的频率和为 0.88, 故要使 90%的患者显现出明显病状, 则需隔离观察的天数至少是:130.90.88 0.02 14,故选 C 考点二 茎叶图师生共研 例 2 (2021 四川省乐山市调研)胡萝卜中含有大量的 胡萝卜素,摄入人体消化 器官后,可以转化为维生素
15、A,现从 a,b 两个品种的胡萝卜所含的 胡萝卜素(单位 mg)得 到茎叶图如图所示,则下列说法不正确 的是( C ) a b 6 4 4 2 3 8 6 4 1 4 3.1 3.2 3.3 3.4 2 3 7 1 1 1 1 2 5 7 A xa xb Ba 的方差大于 b 的方差 Cb 品种的众数为 3.31 Da 品种的中位数为 3.27 解析 由茎叶图得: b 品种所含 胡萝卜素普遍高于 a 品种, xa xb,故 A 正确; a 品种的数据波动比 b 品种的数据波动大, a 的方差大于 b 的方差,故 B 正确; b 品种的众数为 3.31 与 3.41,故 C 错误; a 品种的数
16、据的中位数为:3.233.31 2 3.27,故 D 正确 名师点拨 茎叶图的绘制及应用 (1)茎叶图的绘制需注意:“叶”的位置只有一个数字,而“茎”的位置的数字位数一 般不需要统一;重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据 (2)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数 据通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称, 数据分布是否均匀等 变式训练 2 (2019 山东)如图所示的茎叶图记录了甲, 乙两组各 5 名工人某日的产量数据(单位: 件) 若 这两组数据的中位数相等,且平均值也相等,则 x 与 y
17、的值分别为( A ) 甲组 乙组 6 2 5 x 4 5 6 7 9 1 7 y 8 A3,5 B5,5 C3,7 D5,7 解析 甲组数据的中位数为 65,由甲、乙两组数据的中位数相等,得 y5又甲、乙 两组数据的平均值相等, 1 5(5665627470 x) 1 5(5961676578),x3故选 A 考点三,样本数字特征多维探究 角度 1 样本数字特征与频率分布直方图 例 3 (1)如图所示是一样本的频率分布直方图,则由图形中的数据,可以估计众数 与中位数分别是( B ) A12.5,12.5 B12.5,13 C13,12.5 D13,13 解析 由频率分布直方图可知,众数为101
18、5 2 12.5,因为 0.0450.2,0.150.5, 在频率分布直方图中,中位数左边和右边的面积相等,所以中位数在区间10,15)内设中位数 为 x,则(x10)0.10.50.2,解得 x13 角度 2 样本数字特征与茎叶图 (2)将某选手的 9 个得分去掉 1 个最高分,去掉 1 个最低分,7 个剩余分数的平均分为 91, 现场作的 9 个分数的茎叶图后来有 1 个数据模糊,无法辨认,在图中以 x 表示: 8 9 7 7 4 0 1 0 x 9 1 则 7 个剩余分数的方差为_36 7 _ 解析 由图可知去掉的两个数是 87,99,所以 879029129490 x917, 解得 x
19、4,s21 7(8791) 2(9091)2 2(9191)2 2(9491)2 236 7 角度 3 样本数字特征的计算 (3)(2021 湖北武汉、襄阳、荆门、宜昌四地六校考试联盟联考)已知某 7 个数据的平均数 为 5,方差为 4,现又加入一个新数据 5,此时这 8 个数的方差 s2为( C ) A5 2 B3 C7 2 D4 解析 设某 7 个数据分别为 a1,a2,a7, 则由题意得 a1a2a75735, (a15)2(a25)2(a75)24728, 加入新数据 5 后的平均数 x 355 8 5, 方差 s2a15 2a 25 2a 75 2552 8 28 8 7 2故选 C
20、 名师点拨 平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有 着重要的实际意义,平均数,中位数,众数描述其集中趋势,方差和标准差描述其波动大小 变式训练 3 (1)(角度 1)某小区共有 1 000 户居民,现对他们的用电情况进行调查,得到频率分布直方 图如图所示,则该小区居民用电量的中位数为_155_,平均数为_156.8_ (2)(角度 2)(2021 陕西西安八校联考)在一次技能比赛中,共有 12 人参加,他们的得分(百 分制)茎叶图如图,则他们得分的中位数和方差分别为( B ) 7 8 9 8 4 6 7 7 9 1 4 8 8 9 9 A89 54.5 B
21、89 53.5 C87 53.5 D89 54 (3)高铁、扫码支付、共享单车、网购并称中国“新四大发明”,近日对全国 100 个城市 的共享单车和扫码支付的使用人数进行大数据分析,其中共享单车使用的人数分别为 x1,x2, x3,x100,它们的平均数为 x ,方差为 s2:其中扫码支付使用的人数分别为 3x 12,3x22, 3x32,3x1002,它们的平均数为 x ,方差为 s2,则 x,s2 分别为( C ) A3 x 2,3s22 B3 x ,3s2 C3 x 2,9s2 D3 x 2,9s22 解析 (1)中位数为:150(170150) 0.1 0.0220155该组数据的平均
22、数为 x 0.005201200.015201400.020201600.005201800.00320200 0.00220220156.8 (2)由题可知,中位数为:8791 2 89,先求平均数: x 787984868787919498989999 12 90, S2 1 12(12) 2(11)2(6)2(4)2(3)2(3)2124282829292 53.5, 故中位数为:89,方差为 53.5,故选:B (3)显然 x 3 x2,而每个数据上都加上或减去相同数不影响方差,但每个数据都乘 以 a,则方差变为原方差的 a2倍,故选 C 考点四,折线图师生共研 例 4 (2021 河
23、南顶级名校模拟改编)如图是某地某月 1 日至 15 日的日平均温度变 化的折线图,根据该折线图,下列结论正确的是( A ) A连续三天日平均温度的方差最大的是 7 日,8 日,9 日三天 B这 15 天日平均温度的极差为 15 C由折线图能预测 16 日温度要低于 19 D由折线图能预测本月温度小于 25 的天数少于温度大于 25 的天数 解析 A 选项,日平均温度的方差的大小取决于日平均温度的波动的大小,7,8,9 三日的 日平均温度的波动最大,故日平均温度的方差最大,正确;B 选项,这 15 天日平均温度的极 差为 18 ,B 错;C 选项,由折线图无法预测 16 日温度是否低于 19 ,
24、故 C 错误;D 选项, 由折线图无法预测本月温度小于 25 的天数是否少于温度大于 25 的天数,故 D 错误故 选 A 名师点拨 折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相 等时间间隔下数据的趋势 变式训练 4 甲乙两名同学在本学期的六次考试成绩统计如图,甲乙两组数据的平均值分别为 x 甲、 x 乙,则下列结论正确的个数为( B ) 每次考试甲的成绩都比乙的成绩高 甲的成绩比乙稳定 x 甲一定大于 x 乙 甲的成绩的极差大于乙的成绩的极差 A1 B2 C3 D4 解析 第二次考试甲的成绩比乙低,错;由图可知甲的成绩比乙的成绩波动小,正 确,错;甲的平均
25、成绩显然比乙的平均成绩高,正确;故选 B 名师讲坛 素养提升 高考与频率分布直方图 例 5 (理)(2021 安徽省池州市期末)高三年级某班 50 名学生期中考试数学成绩的 频率分布直方图如图所示, 成绩分组区间为: 80,90), 90,100), 100,110), 110,120), 120,130), 130,140),140,150其中 a,b,c 成等差数列且 c2a,物理成绩统计如表(说明:数学满 分 150 分,物理满分 100 分) 分组 50,60) 60,70) 70,80) 80,90) 90,100 频数 6 9 20 10 5 (1)根据频率分布直方图,请估计数学成
26、绩的平均分; (2)根据物理成绩统计表,请估计物理成绩的中位数; (3)若数学成绩不低于 140 分的为“优”,物理成绩不低于 90 分的为“优”,已知本班中 至少有一个“优”同学总数为 6 人,从此 6 人中随机抽取 3 人记 X 为抽到两个“优”的学 生人数,求 X 的分布列和期望值 (文)(2021 河南新乡模拟)甲、乙两人想参加某项竞赛,根据以往 20 次的测试,将样本数 据分成50,60),60,70),70,80),80,90),90,100五组,并整理得到如下频率分布直方图: 已知甲测试成绩的中位数是 75 (1)求 x,y 的值,并分别求出甲、乙两人测试成绩的平均数(假设同一组
27、中的每个数据可用 该组区间中点值代替); (2)从甲、乙两人测试成绩不足 60 分的试卷中随机抽取 3 份,求恰有 2 份来自乙的概率 解析 (理)(1)根据频率分布直方图得, (ab2c0.0240.0200.004)10 1, 又因 ac2b,c2a, 解得 a0.008,b0.012,c0.016, 故数学成绩的平均分 x 850.04950.121050.161150.21250.24 1350.161450.08 117.8(分), (2)总人数 50 分,由物理成绩统计表知,中位数在成绩区间70,80), 所以物理成绩的中位数为 75 分 (3)数学成绩为“优”的同学有 4 人,物
28、理成绩为“优”有 5 人,因为至少有一个“优” 的同学总数为 6 名同学,故两科均为“优”的人数为 3 人,故 X 的取值为 0、1、2、3 P(X0)C 3 3 C36 1 20,P(X1) C13C23 C36 9 20, P(X2)C 2 3C 1 3 C36 9 20,P(X3) C33 C36 1 20, 所以分布列为: X 0 1 2 3 P 1 20 9 20 9 20 1 20 期望值为 E(X)0 1 201 9 202 9 203 1 20 3 2 (文)(1)甲测试成绩的中位数为 75, 0.0110y100.04(7570)0.5,解得 y0.02, 0.0110y10
29、0.0410 x100.005101, 解得 x0.025 同学甲的平均分为 550.0110650.0210750.0410850.02510 950.0051074.5 同学乙的平均分为 550.01510650.02510750.0310850.0210 950.011073.5 (2)甲测试成绩不足 60 分的试卷数为 200.01102, 设为 A,B乙测试成绩不足 60 分的试卷数为 200.015103, 设为 a,b,c从中抽 3 份的情况有(A,B,a),(A,B,b),(A,B,c),(A,a,b),(A, a,c),(A,b,c),(B,a,b),(B,a,c),(B,b
30、,c),(a,b,c),共 10 种情况 满足条件的有(A,a,b),(A,a,c),(A,b,c),(B,a,b),(B,a,c),(B,b,c),共 6 种情况, 故恰有 2 份来自乙的概率为 6 10 3 5 名师点拨 (1)通过统计图可以很清楚地表示出各部分数量同总数之间的关系 (2)准确理解频率分布直方图的数据特点是解题关键 变式训练 5 (2019 高考全国卷)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将 200 只小鼠随机分成 A,B 两组,每组 100 只,其中 A 组小鼠给服甲离子溶液,B 组小鼠给服 乙离子溶液,每只小鼠给服的溶液体积相同、摩尔浓度相同经过一段
31、时间后用某种科学方 法测算出残留在小鼠体内离子的百分比根据试验数据分别得到如下直方图: 记 C 为事件:“乙离子残留在体内的百分比不低于 5.5”,根据直方图得到 P(C)的估计值 为 0.70 (1)求乙离子残留百分比直方图中 a,b 的值; (2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代 表) 解析 (1)由已知得 0.70a0.200.15,故 a0.35 b10.050.150.700.10 (2)甲离子残留百分比的平均值的估计值为 20.1530.2040.3050.2060.1070.054.05, 乙离子残留百分比的平均值的估计值为 30.0540.1050.1560.3570.2080.156.00