1、用样本估计总体用样本估计总体 考试要求 1.了解分布的意义与作用,能根据频率分布表画频率分布直方 图、频率折线图、茎叶图,体会它们各自的特点. 2.理解样本数据标准差的意义和作用,会计算数据标准差. 3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解 释. 4.会用样本的频率分布估计总体分布, 会用样本的基本数字特征估计总体的基 本数字特征理解用样本估计总体的思想,会用样本估计总体的思想解决一些简 单的实际问题 1常用统计图表 (1)作频率分布直方图的步骤: 求极差(即一组数据中最大值与最小值的差) 决定组距与组数 将数据分组 列频率分布表 画频率分布直方图 (2)频率分
2、布直方图:反映样本频率分布的直方图(如图) 横轴表示样本数据,纵轴表示频率 组距,每个小矩形的面积表示样本数据落在该 组内的频率各小矩形的面积和为 1. (3)频率分布折线图和总体密度曲线 频率分布折线图:将频率分布直方图中各相邻的矩形的上底边的中点顺次 连接起来,就得到频率分布折线图 总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小, 相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体 密度曲线 (4)茎叶图的画法步骤: 第一步:将每个数据分为茎(高位)和叶(低位)两部分; 第二步:将最小茎与最大茎之间的数按大小次序排成一列; 第三步:将各个数据的叶依次写
3、在其茎的右(左)侧 2样本的数字特征 (1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数 (2)中位数:把 n 个数据按大小顺序排列,处于最中间位置的一个数据(或最中 间两个数据的平均数)叫做这组数据的中位数 (3)平均数:把 x x 1x2xn n 称为 x1,x2,xn这 n 个数的平均数 (4)标准差与方差:设一组数据 x1,x2,x3,xn的平均数为 x ,则这组数据 的标准差和方差分别是 s 1 nx1 x 2x2 x 2xn x 2; s21 n(x1 x ) 2(x2 x )2(xn x )2 常用结论 1频率分布直方图中的常见结论 (1)众数的估计值为最高矩形的中
4、点对应的横坐标 (2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边 中点的横坐标之和 (3)中位数的估计值的左边和右边的小矩形的面积和是相等的 2平均数、方差的公式推广 (1)若数据 x1,x2,xn的平均数为 x ,那么 mx1a,mx2a,mx3a, mxna 的平均数是 m x a. (2)数据 x1,x2,xn的方差为 s2. 数据 x1a,x2a,xna 的方差也为 s2; 数据 ax1,ax2,axn的方差为 a2s2. 一、易错易误辨析(正确的打“”,错误的打“”) (1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势( ) (2)一组数据的方差越大
5、,说明这组数据越集中. ( ) (3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率 越高 ( ) (4)茎叶图一般左侧的叶按从大到小的顺序写, 右侧的叶按从小到大的顺序写, 相同的数据可以只记一次 ( ) 答案 (1) (2) (3) (4) 二、教材习题衍生 1一个容量为 32 的样本,已知某组样本的频率为 0.25,则该组样本的频数 为( ) A4 B8 C12 D16 B 设频数为 n,则 n 320.25, n320.258. 2 若某校高一年级 8 个班参加合唱比赛的得分分别为 87,89,90,91,92,93,94,96, 则这组数据的中位数和平均数分别是(
6、) A91.5 和 91.5 B91.5 和 92 C91 和 91.5 D92 和 92 A 这组数据为 87,89,90,91,92,93,94,96,中位数是9192 2 91.5, 平均数 x 8789909192939496 8 91.5. 3如图是 100 位居民月均用水量的频率分布直方图,则月均用水量为2,2.5) 范围内的居民有 人 25 0.50.510025. 考点一 样本的数字特征的计算与应用 利用样本的数字特征解决决策问题的依据 (1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平 均数波动的大小标准差、方差越大,数据的离散程度越大,越不稳定;标准差、
7、 方差越小,数据的离散程度越小,越稳定 (2)方差的简化计算公式:s21 n(x 2 1x 2 2x 2 n)n x 2,或写成 s21 n(x 2 1x 2 2 x 2 n) x 2,即方差等于原数据平方的平均数减去平均数的平方 1(2020 济南模拟)已知某 7 个数的平均数为 4,方差为 2,现加入一个新数 据 4,此时这 8 个数的平均数为 x ,方差为 s2,则( ) A x 4,s22 C x 4,s24,s22 A 某 7 个数的平均数为 4,这 7 个数的和为 4728,加入一个新 数据 4, x 284 8 4.又这 7 个数的方差为 2,且加入一个新数据 4,这 8 个数的
8、方差 s27244 2 8 7 42,故选 A 2甲、乙两人在一次射击比赛中各射靶 5 次,两人成绩的条形统计图如图所 示,则( ) 甲 乙 A甲的成绩的平均数小于乙的成绩的平均数 B甲的成绩的中位数等于乙的成绩的中位数 C甲的成绩的方差小于乙的成绩的方差 D甲的成绩的极差小于乙的成绩的极差 C 根据条形统计图可知甲的中靶情况为 4 环、5 环、6 环、7 环、8 环;乙 的中靶情况为 5 环、 5 环、 5 环、 6 环、 9 环. x甲1 5(45678)6,x 乙1 5(53 69)6,甲的成绩的方差为 462562662762862 5 2, 乙的成绩的方差为56 23662962 5
9、 2.4;甲的成绩的极差为 4 环,乙的成绩的极差为 4 环;甲的成绩的中位数为 6 环,乙的成绩的中位数为 5 环,综上可知 C 正确,故选 C 3某人 5 次上班途中所花的时间(单位:分钟)分别为 x,y,10,11,9.已知这组数 据的平均数为 10,方差为 2,则|xy|的值为( ) A1 B2 C3 D4 D 由题意可知 1 5xy1011910, 1 5x10 2y102112, xy20, x2y2208. (xy)2x2y22xy,即 2082xy400,xy96. (xy)2x2y22xy16, |xy|4,故选 D 4(2020 全国卷)某厂接受了一项加工业务,加工出来的产
10、品(单位:件)按 标准分为 A,B,C,D 四个等级加工业务约定:对于 A 级品、B 级品、C 级品, 厂家每件分别收取加工费 90 元,50 元,20 元;对于 D 级品,厂家每件要赔偿原 料损失费 50 元该厂有甲、乙两个分厂可承接加工业务甲分厂加工成本费为 25 元/件,乙分厂加工成本费为 20 元/件厂家为决定由哪个分厂承接加工业务,在 两个分厂各试加工了 100 件这种产品,并统计了这些产品的等级,整理如下: 甲分厂产品等级的频数分布表 等级 A B C D 频数 40 20 20 20 乙分厂产品等级的频数分布表 等级 A B C D 频数 28 17 34 21 (1)分别估计甲
11、、乙两分厂加工出来的一件产品为 A 级品的概率; (2)分别求甲、乙两分厂加工出来的 100 件产品的平均利润,以平均利润为依 据,厂家应选哪个分厂承接加工业务? 解 (1)由试加工产品等级的频数分布表知, 甲分厂加工出来的一件产品为 A 级品的概率的估计值为 40 1000.4; 乙分厂加工出来的一件产品为 A 级品的概率的估计值为 28 1000.28. (2)由数据知甲分厂加工出来的 100 件产品利润的频数分布表为 利润 65 25 5 75 频数 40 20 20 20 因 此 甲 分 厂 加 工 出 来 的100件 产 品 的 平 均 利 润 为 654025205207520 1
12、00 15. 由数据知乙分厂加工出来的 100 件产品利润的频数分布表为 利润 70 30 0 70 频数 28 17 34 21 因此乙分厂加工出来的 100 件产品的平均利润为 702830170347021 100 10. 比较甲、乙两分厂加工的产品的平均利润,应选甲分厂承接加工业务 考点二 茎叶图 1.茎叶图的三个关注点 (1)“叶”的位置只有一个数字, 而“茎”的位置的数字位数一般不需要统一 (2)重复出现的数据要重复记录,不能遗漏 (3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般 “重心”下移者平均数较大,数据集中者方差较小注意“叶”中数不一定按大 小次数排列
13、 2利用茎叶图解题的关键是抓住“叶”的分布特征,准确从中提炼信息 3以茎叶图为载体,一般考查中位数、平均数、方差 1(2020 平顶山模拟)中国诗词大会的播出引发了全民的读书热,某小学语文 老师在班里开展了一次诗词默写比赛,班里 40 名学生得分数据的茎叶图如图所 示若规定得分不小于 85 分的学生得到“诗词达人”的称号,小于 85 分且不小 于 70 分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号, 根据该次比赛的成绩,按照称号的不同进行分层抽样抽选 10 名学生,则抽选的学 生中获得“诗词达人”称号的人数为( ) A2 B4 C5 D6 A 由茎叶图可得,获“诗词达人”称
14、号的有 8 人,据该次比赛的成绩按照 称号的不同进行分层抽样抽选 10 名学生,则抽选的学生中获得“诗词达人”称号 的人数为 810 402(人) 2.(2020 长沙质检)为比较甲乙两地某月 11 时的气温情况,随机选取该月 5 天 11 时的气温数据(单位:)制成如图所示的茎叶图,已知甲地该月 11 时的平均气 温比乙地该月 11 时的平均气温高 1 ,则甲地该月 11 时的平均气温的标准差为 ( ) A2 B 2 C10 D 10 B 甲地该月 5 天 11 时的气温数据(单位:)为 28,29,30,30m,32; 乙地该月 5 天 11 时的气温数据(单位:)为 26,28,29,3
15、1,31, 则乙地该月 11 时的平均气温为(2628293131) 529(), 所以甲地该月 11 时的平均气温为 30 , 故(28293030m32) 530,解得 m1. 则甲地该月 11 时的平均气温的标准差为 1 52830 229302303023130232302 2. 3.空气质量指数 (Air Quality Index,简称 AQI)是定量描述空气质量状况的指 数,空气质量按照 AQI 大小分为六级,050 为优;51100 为良;101150 为 轻度污染; 151200 为中度污染; 201300 为重度污染; 大于 300 为严重污染 从 某地一环保人士某年的 A
16、QI 记录数据中,随机抽取 10 个,用茎叶图记录如图根 据该统计数据,估计此地该年 AQI 大于 100 的天数约为 (该年为 365 天) 146 该样本中 AQI 大于 100 的频数是 4,频率为2 5, 由此估计该地全年 AQI 大于 100 的频率为2 5, 估计此地该年 AQI 大于 100 的天数约为 3652 5146. 考点三 频率分布直方图 频率、频数、样本容量的计算方法 (1)频率 组距组距频率 (2) 频数 样本容量频率, 频数 频率样本容量,样本容量频率频数 典例 (1)为了了解某校九年级 1 600 名学生的体能情况,随机抽查了部分学 生,测试 1 分钟仰卧起坐的
17、成绩(次数),将数据整理后绘制成如图所示的频率分布 直方图,根据统计图的数据,下列结论错误的是( ) A该校九年级学生 1 分钟仰卧起坐的次数的中位数为 26.25 B该校九年级学生 1 分钟仰卧起坐的次数的众数为 27.5 C该校九年级学生 1 分钟仰卧起坐的次数超过 30 的人数约为 320 D该校九年级学生 1 分钟仰卧起坐的次数少于 20 的人数约为 32 (2)(2019 全国卷)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下 试验:将 200 只小鼠随机分成 A,B 两组,每组 100 只,其中 A 组小鼠给服甲离 子溶液,B 组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同、
18、摩尔浓度相 同经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比,根据 试验数据分别得到如下直方图: 甲离子残留百分比直方图 乙离子残留百分比直方图 记 C 为事件:“乙离子残留在体内的百分比不低于 5.5”,根据直方图得到 P(C)的估计值为 0.70. 求乙离子残留百分比直方图中 a,b 的值; 分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中 点值为代表) (1)D 由频率分布直方图可知,中位数是频率分布直方图面积等分线对应的 数值,是 26.25;众数是最高矩形的中间值 27.5;1 分钟仰卧起坐的次数超过 30 的 频率为 0.2,所以估计 1 分钟仰卧起
19、坐的次数超过 30 的人数为 320;1 分钟仰卧起 坐的次数少于 20 的频率为 0.1,所以估计 1 分钟仰卧起坐的次数少于 20 的人数为 160.故选 D (2)解 由已知得 0.70a0.200.15,故 a0.35. b10.050.150.700.10. 甲离子残留百分比的平均值的估计值为 20.1530.2040.3050.2060.1070.054.05. 乙离子残留百分比的平均值的估计值为 30.0540.1050.1560.3570.2080.156.00. 点评:(1)频率分布直方图的纵坐标是频率 组距,而不是频率,切莫与条形图混淆 (2)频率分布直方图考查时,重视求平
20、均数、中位数、方差,计算要准确,解 决突破口是各个矩形面积之和为 1. 跟进训练 1为了了解某校高三学生的视力情况,随机地抽查了该校 100 名高三学生的 视力情况,得到频率分布直方图如图,由于不慎将部分数据丢失,但知道后 5 组 频数和为 62,设视力在 4.6 到 4.8 之间的学生数为 a,最大频率为 0.32,则 a 的值 为( ) A64 B54 C48 D27 B 前两组中的频数为 100(0.050.11)16.因为后五组频数和为 62,所以 前三组为 38.所以第三组频数为 22.又最大频率为 0.32,对应的最大频数为 0.3210032.所以 a223254. 2 (202
21、0 石家庄模拟)“一带一路”是“丝绸之路经济带”和“21 世纪海上丝 绸之路”的简称某市为了了解人们对“一带一路”的认知程度,对不同年龄和 不同职业的人举办了一次“一带一路”知识竞赛,满分为 100 分(90 分及以上为认 知程度高)现从参赛者中抽取了 x 人,按年龄分成 5 组,第一组:20,25),第二 组:25,30),第三组:30,35),第四组:35,40),第五组:40,45,得到如图所 示的频率分布直方图,已知第一组有 6 人 (1)求 x; (2)求抽取的 x 人的年龄的中位数(结果保留整数); (3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层抽样的方 法依次抽取
22、 6 人,42 人,36 人,24 人,12 人,分别记为 15 组,从这 5 个按年 龄分的组和 5 个按职业分的组中每组各选派 1 人参加知识竞赛,分别代表相应组 的成绩,年龄组中 15 组的成绩分别为 93,96,97,94,90,职业组中 15 组的成绩 分别为 93,98,94,95,90. ()分别求 5 个年龄组和 5 个职业组成绩的平均数和方差; ()以上述数据为依据, 评价 5 个年龄组和 5 个职业组对“一带一路”的认知 程度,并谈谈你的感想 解 (1)根据频率分布直方图得第一组的频率为 0.0150.05, 6 x0.05,x120. (2)设中位数为 a,则 0.0150.075(a30)0.060.5, a95 3 32,则中位数为 32. (3)()5 个年龄组成绩的平均数为 x11 5(9396979490)94,方差 为 s 2 11 5(1) 2223202(4)26. 5 个职业组成绩的平均数为 x21 5(9398949590)94, 方差为 s 2 21 5 (1)2420212(4)26.8. ()从平均数来看两组的认知程度相同, 从方差来看年龄组的认知程度更稳定 (感想合理即可)