1、9.2 9.2 用样本估计总体用样本估计总体 9.2.2总体百分位数的估计 讲课人:邢启强 2 (1)绘制步骤:绘制步骤: 求求 ,即一组数据中的最大值与最小值的差,即一组数据中的最大值与最小值的差 决定决定 与与 组距与组数的确定没有固定的标组距与组数的确定没有固定的标 准,一般数据的个数越多,所分组数越准,一般数据的个数越多,所分组数越 当样本当样本 容量不超过容量不超过100时,常分成时,常分成512组为方便起见,组为方便起见, 一般取一般取 组距,并且组距应力求组距,并且组距应力求“ ” 将数据将数据 列列 表计算各小组的频率,第表计算各小组的频率,第i组的频率组的频率 是是 . 画频
2、率分布直方图其中横轴表示分组,纵轴表画频率分布直方图其中横轴表示分组,纵轴表 示示 . 实际上就是频率分布直方图中各小长方实际上就是频率分布直方图中各小长方 形的高度,它反映了各组样本观测数据的形的高度,它反映了各组样本观测数据的 程度程度 画画频频率率分分布布直直方方图图的的一一般般步步骤骤为为: 复习引入复习引入 极差 组距 组数 多 等长 取整 分组 频率分布 疏密 讲课人:邢启强 3 复习引入复习引入 (2)意义:各个小长方形的面积表示相应各组的意义:各个小长方形的面积表示相应各组的 , 频率分布直方图以频率分布直方图以 的形式反映数据落在各个小的形式反映数据落在各个小 组的频率的大小
3、,各小长方形的面积的总和等于组的频率的大小,各小长方形的面积的总和等于 . (3)总体取值规律的估计:我们可以用样本观测数据总体取值规律的估计:我们可以用样本观测数据 的的 估计总体的取值规律估计总体的取值规律 (4)频率分布直方图的特征:当频率分布直方图的组频率分布直方图的特征:当频率分布直方图的组 数少、组距大时,容易从中看出数据整体的分布特数少、组距大时,容易从中看出数据整体的分布特 点,但由于无法看出每组内的数据分布情况,损失点,但由于无法看出每组内的数据分布情况,损失 了较多的了较多的 ;当频率分布直方图的组数多、;当频率分布直方图的组数多、 组距小时,保留了较多的原始数据信息,但由
4、于小组距小时,保留了较多的原始数据信息,但由于小 长方形较多,有时图形会变得非常长方形较多,有时图形会变得非常 ,不容易,不容易 从中看出总体数据的分布特点从中看出总体数据的分布特点 频率频率 面积面积 1 频率分布频率分布 原始数据信息原始数据信息 不规则不规则 讲课人:邢启强 4 复习引入复习引入 频率分布直方图的性质频率分布直方图的性质 (1)因为小矩形的面积组距因为小矩形的面积组距 频率,所以各小矩频率,所以各小矩 形的面积表示相应各组的频率形的面积表示相应各组的频率 这样,频率分布直方图就以面积的形式反映了数据落在这样,频率分布直方图就以面积的形式反映了数据落在 各个小组内的频率大小
5、各个小组内的频率大小 (2)在频率分布直方图中,各小矩形的面积之和等于在频率分布直方图中,各小矩形的面积之和等于1. (3) 样本容量样本容量 (4)在频率分布直方图中,各矩形的面积之比等于频率之在频率分布直方图中,各矩形的面积之比等于频率之 比,各矩形的高度之比也等于频率之比比,各矩形的高度之比也等于频率之比 频率 组距 频数 相应的频率 讲课人:邢启强 5 3.除了频率分布的直方图还有没有类似的统计数据处理方法? 学习新知学习新知 统计图表主要应用(表示数据上的特点) 扇形图直观描述各类数据占总数的比例 条形图和直方图 直观描述不同类别或分组数据的频数和频率 折线图描述数据随时间的变化趋势
6、 在初中学习过条形图、扇形图、折线图、频数分布直方图等. 不同的统计图在表示数据上有不同的特点,不同的统计图适用的数据类型也不同. 例如,条形图适用于描述离散型的数据,直方图适用描述连续型数据等. 在解决问 题的过程中,要根据实际问题的特点,选择恰当的统计图对数据进行可视化描述, 以使我们能通过图形直观地发现样本数据的分布情况,进而估计总体的分布规律 讲课人:邢启强 6 典型例题典型例题 例1已知某市2015年全年空气质量等级如表所示. 空气质量等级(空气质量指数(AQI)频数频率 优(AQI50)8322.8% 良(50AQI100)12133.2 % 轻度污染(100AQI150)6818
7、.6% 中度污染(150AQI200)4913.4% 重度污染(200300)14143.8% 合计365100% 2016年5月和6月的空气质量指数如下: 5月 240 80 56 53 92 126 45 87 56 60 191 62 55 58 56 53 89 90 125 124 103 81 89 44 34 53 79 81 62 116 6月 63 92 110 122 102 116 81 163 158 76 33 102 65 53 38 55 52 76 99 127 120 80 108 33 35 73 82 90 146 95 选择合适的统计图描述数据,并回答下
8、列问题: (1)分析该市2016年6月的空气质量情况 .(2)比较该市2016年5月和6月的空气质量,哪个月的空气质量较好? (3)比较该市2016年6月与该市2015年全年的空气质量,2016年6月的空气质量是否 好于去年? 讲课人:邢启强 7 解:(1)根据该市2016年6月的空气质量指数和空气质量等级分级 标准,可以画出该市这个月的不同空气质量等级的频数与频率分 布表 频数与频率分布表可以直接得到各类数据的频数和频率. 从表中可以看出,“优”“良”的天数达19天,占了整月的63.33%,没有出现 “重度污染”和“严重污染” 我们还可以用折线图展 示空气质量指数随时间 的变化情况,如图.容
9、 易发现,6月的空气质 量指数在100附近波动. 讲课人:邢启强 8 从条形图中可以看出,在 前三个等级的占绝大多数, 空气质量等级为“良”的 天数最多,后三个等级的 天数很少 从扇形图中可以看出,空气 质量为“良”的天数占了总 天数的一半,大约有三分之 二为“优”“良”,大多数 是“良”和“轻度污染”因 此,整体上6月的空气质量 不错. 用条形图和扇形图对数据作出直观的描述 讲课人:邢启强 9 6月 (2)根据该市2016年5月的空气质量指数和空气质量分级标准,可以画出该 市这个月的不同空气质量等级的频数和频率分布表 5月 为了便于比较,我们选用复合 条形图,将两组数据同时反映 到一个条形图
10、上.通过条形图中 柱的高低,可以更直观地进行 两个月的空气质量的比较 从整体上看,5月的空气 质量略好于6月,但5月 有重度污染,而6月没有 讲课人:邢启强 10 (3)把2016年6月和2015年全年的空气质量进行比较,由于 一个月和一年的天数差别很大,所以直接通过频数比较没 有意义,应该转化成频率分布进行比较.可以通过二者的空 气质量指数的频率分布直方图或空气质量等级的频率分布 条形图进行比较 通过图可以看出,虽然 2016年6月的空气质量为 “优”的频率略低于2015 年,但“良”的频率明显 高于2015年,而且2016年 6月中度以上的污染天气频 率明显小于2015年,所以 从整体上看
11、,2016年6月 的空气质量要好于2015年 全年的空气质量. 能得出“2016年的空气质量比为2015年明显改善了”的结论吗?为什么? 讲课人:邢启强 11 例例2 家庭过期药品属于家庭过期药品属于“国家危险废物国家危险废物”,处,处 理不当将污染环境,危害健康某市药监部门理不当将污染环境,危害健康某市药监部门 为了解市民家庭处理过期药品的方式,决定对为了解市民家庭处理过期药品的方式,决定对 全市家庭作一次简单随机抽样调査全市家庭作一次简单随机抽样调査 (1)下列选取样本的方法最合理的一种是下列选取样本的方法最合理的一种是 _(只需填上正确答案的序号只需填上正确答案的序号) 在市中心某个居民
12、区以家庭为单位随机抽取在市中心某个居民区以家庭为单位随机抽取; 在全市医务工作者中以家庭为单位随机抽取在全市医务工作者中以家庭为单位随机抽取; 在全市常住人口中以家庭为单位随机抽取在全市常住人口中以家庭为单位随机抽取. 典型例题典型例题 讲课人:邢启强 12 (2)本次抽样调査发现,接受调査的家庭都有过期药品,本次抽样调査发现,接受调査的家庭都有过期药品, 现将有关数据呈现如图:现将有关数据呈现如图: m_, n_; 补全条形统计图;补全条形统计图; 根据调査数据,你认为根据调査数据,你认为 该市市民家庭处理过期药该市市民家庭处理过期药 品最常见的方式是什么?品最常见的方式是什么? 家庭过期药
13、品的正确处家庭过期药品的正确处 理方式是送回收点,若该理方式是送回收点,若该 市有市有180万户家庭,请估万户家庭,请估 计大约有多少户家庭处理计大约有多少户家庭处理 过期药品的方式是送回收站过期药品的方式是送回收站 典型例题典型例题 20 6 讲课人:邢启强 13 讲课人:邢启强 14 例3某中学初中部共有120名教师,高中部共有150名教 师,其性别比例如图所示,则该校女教师的人数为( ) A.128B.144C.174D.167 解析:初中部女教师有12070%=84(人), 高中部女教师有150(1-60%)=15040%=60(人), 则女教师共有84+60=144(人). 分析根据
14、女教师的百分比, 分别计算初中部和高中部 女教师的人数即可. B 对于折线图、扇形图、条形图一定要注意每种图示的作 用和含义,其次要看清所标记数据和单位,最后要抓住各 种图示中所体现的信息“密码”. 典型例题典型例题 讲课人:邢启强 15 调查机构对某高科技行业进行调查统计,得到该 行业从业者学历分布扇形图、从事该行业岗位 分布条形图,如图所示. 给出下列三种说法: 该高科技行业从业 人员中学历为博士 的占一半以上; 该高科技行业中从 事技术岗位的人数超过总人数的30%; 该高科技行业中从事运营岗位的人员主要是 本科生.其中正确的个数为() A.0个B.1个C.2个D.3个 典型例题典型例题
15、C 讲课人:邢启强 16 典型例题典型例题 如图是根据某市3月1日至3月10日的最低气温(单位:)的情况 绘制的折线统计图,试根据折线统计图反映的信息,绘制该市3 月1日到10日最低气温(单位:)的扇形统计图和条形统计图. 讲课人:邢启强 17 日期12345678910 最低气温 () 3 2 01 1201 22 解:该城市3月1日至10日的最低气温(单位:)情况 如下表: 其中最低气温为3 的有1天,占10%,最低气温为2 的有1天,占10%, 最低气温为1 的有2天,占20%,最低气温为0 的有2天,占20%,最低 气温为1 的有1天,占10%,最低气温为2 的有3天,占30%. 扇形
16、统计图 条形统计图 讲课人:邢启强 18 9.2.2总体百分位数的估计 前面我们用频率分布表、频率分布直方图描述了居民用户 月均用水量的样本数据,通过对图表的观察与分析,得出了一 些样本数据的频率分布规律,并由此推测了该市全体居民用户 月均用水量的分布情况,得出了“大部分居民用户的月均用水 量集中在一个较低值区域”等推断,接下来的问题是,如何利 用这些信息,为政府决策服务呢?下面我们对此进行讨论. 问题: 如果该市政府希望使80%的居民用户生活用水 费支出不受影响,根据9.2.1节中100户居民用户的月 均用水量数据,你能给市政府提出确定居民用户月均 用水量标准的建议吗? 讲课人:邢启强 19
17、 学习新知学习新知 根据市政府的要求确定居民用户月均用水量标准,就是要寻找一个 数a,使全市居民用户月均用水量中不超过a的占80%,大于a的占20%. 把得到的100个样本数据按从小到大排序,得到第80个和81 个数据分别为13.6和13.8.可以发现,区间(13.6,13.8)内的任意一 个数,都能把样本数据分成符合要求的两部分.一般地,我们取这 两个数的平均数()13.6+13.8)/2=13.7,并称此数为这组数据的第80 百分位数(percentile), 或80%分位数. 你认为14t这个标准一定能够保证80%的居民用水不超标吗?如 果不一定,那么哪些环节可能会导致结论的差别? 根据
18、样本数据的第80百分位数,我们可以估计总体数据的第 80百分位数为13.7左右.由于样本的取值规律与总体的取值规律之 间会存在偏差,而在决策问题中,只要临界值近似为第80百分位 数即可,因此为了实际中操作的方便,可以建议市政府把月均用 水量标准定为14t,或者把年用水量标准定为168t. 讲课人:邢启强 20 定义:一般地,一组数据的第p百分位数是这样一个值, 它使得这组数据中至少有p%的数据小于或等于这个 值,且至少有(100-p)%的数据大于或等于这个值. 学习新知学习新知 可以通过下面的步骤计算一组n个数据的第p百分位数: 第1步,按从小到大排列原始数据. 第2步,计算i=np%. 第3
19、步,若i不是整数,而大于i的比邻整数为j,则第p百 分位数为第j项数据; 若i是整数,则第p百分位数为第项与第(i+1)项数据的平 均数. 讲课人:邢启强 21 学习新知学习新知 中位数,相当于是第50百分位数. 常用的分位数还有第25百分位数,第75百分位数. 这三个分位数把一组由小到大排列后的数 据分成四等份,因此称为四分位数. 其中第25百分位数也称为第一四分位数或 下四分位数等, 第75百分位数也称为第三四分位数或上四 分位数等, 第1百分位数第5百分位数,第95百分位数 和第99百分位数在统计中也经常被使用. 概念拓展 讲课人:邢启强 22 典型例题典型例题 163.0 164.0
20、161.0 157.0 162.0 165.0 158.0 155.0 164.0 162.5 154.0 154.0 164.0 149.0 159.0 161.0 170.0 171.0 155.0 148.0 172.0 162.5 158.0 155.5 157.0 163.0 172.0 例2根据下面女生的身高的样本数据,估计树 人中学高一年级女生的第25,50,75百分位数. 解:把27名女生的样本数据按从小到大排序,可得 148.0 149.0 154.0 154.0 155.0 155.0 155.5 157.0 157.0 158.0 158.0 159.0 161.0 16
21、1.0 162.0 162.5 162.5 163.0 163.0 164.0 164.0 164.0 165.0 170.0 171.0 172.0 172.0 由25%27=6.75, 50%27=13.5, 75%27=20.25, 可知样本数据的第25,50,75百分位数为第7, 14,21项数据,分 别为155.5,161,164. 据此可以估计树人中学高一年级女生的第25,50,75百分位数分 别约为155.5,161和164. 讲课人:邢启强 23 典型例题典型例题 例3根据下表或下图,估计月均用水量的样本数据的 80%和95%分位数. 分析:统计表或统计图,与原始数据相比,它们
22、损 失了一些信息,例如由上表中可以知道在16.2,19.2) 内有5个数据,但不知道这5个数据具体是多少.此时, 我们通常把它们看成均匀地分布在此区间上. 讲课人:邢启强 24 解:由表可知,月均用水量在13.2t以下的居民用户所 占比例为23%+32%+13%+9%=77%. 在16.2t以下的居民用户所占的比例为77%+9%=86%. 因此,80%分位数一定位于13.2,16.2)内. 由13.2+3 =14.2, 可以估计月均用水量的样本 数据的80%分位数约为14.2. 类似地,由22.2+3 =22.95, 可以估计月均用水量的样本数据的95%分位数约为 22.95. 0.800.7
23、7 0.860.77 0.95-0.94 0.98-0.94 计算方法和计算中位数是一样的 讲课人:邢启强 25 下表为12名毕业生的起始月薪 : 毕业生起始月薪 毕业生起始月薪 12 85072 890 22 95083 130 33 05092 940 42 880103 325 52 755112 920 62 710122 880 根据表中所给的数据计算第85百分位数. 巩固练习巩固练习 解:计算i1285%10.2, 所以所给数据的第85百分位数是从小到大的第11个数据3 130 讲课人:邢启强 26 1.数据1,3,8,5的中位数是 ,第50百分位数是, 第75百分位数是. 2.判
24、断下列说法是否正确,正确的在后面的括号内 打“”,错误的打“”. 任何一组数据的第50百分位数与中位数的值是 相同的.() 第25百分位数也可以称为第一四分位数或上四 分位数.( ) 巩固练习巩固练习 44 6.5 3.某车间12名工人一天生产某产品(单位:kg) 的数量分别为13.8,13,13.5,15.7,13.6, 14.8,14,14.6,15,15.2,15.8,15.4 , 则所给数据的第25,50,75百分位数分别 是 . 13.7 14.7 15.3 讲课人:邢启强 27 4为了了解一片经济林的生长情况,随机抽测了其中60株 树木的底部周长(单位:cm),所得数据均在区间80
25、,130上, 其频率分布直方图如图所示,你能估计一下60株树木的 第50百分位数和第75百分位数吗? 解:由题意知分别落在各区间上的频数为 在80,90)上有600.15=9, 在90,100)上有600.25=15, 在100,110)上有600.3=18, 在110,120)上有600.2=12, 在120,130上有600.1=6. 从以上数据可知第50百分位数一定落在 区间100,110)上, 巩固练习巩固练习 综上可知,第50百分位数 和第75百分位数分别估计 为103.3 cm,112.5 cm. 讲课人:邢启强 28 5.某公司2018年在各个项目中总投资 500万元,如图是几类
26、项目的投资占比情 况,已知在1万元以上的项目投资中,少于 3万元的项目投资占 ,那么不少于3万 元的项目投资共有() A.56万元B.65万元 C.91万元D.147万元 巩固练习巩固练习 讲课人:邢启强 29 条形统计图、扇形统计图和折线统计图的区别与联系条形统计图、扇形统计图和折线统计图的区别与联系 统计图统计图区别区别联系联系 条形统计图条形统计图 (1)(1)直观反映数据分布的大致情况直观反映数据分布的大致情况 (2)(2)清晰地表示各个区间的具体数目清晰地表示各个区间的具体数目 (3)(3)会丢失数据的部分信息会丢失数据的部分信息 在同一在同一 组数据组数据 的不同的不同 统计图统计
27、图 表中表中, , 计算出计算出 相应组相应组 的频数、的频数、 频率应频率应 该相等该相等. . 扇形统计图扇形统计图 (1)(1)清楚地看出数据分布的总体趋势及各部清楚地看出数据分布的总体趋势及各部 分所占总体的百分比分所占总体的百分比 (2)(2)丢失了原来的具体数据丢失了原来的具体数据 折线统计图折线统计图 (1)(1)表示数据的多少和数量增减变化情况表示数据的多少和数量增减变化情况 (2)(2)制作类似于函数图象的画法制作类似于函数图象的画法, ,侧重体现数侧重体现数 据的变化规律据的变化规律 课堂小结课堂小结 讲课人:邢启强 30 定义:一般地,一组数据的第p百分位数是这样一个值, 它使得这组数据中至少有p%的数据小于或等于这个 值,且至少有(100-p)%的数据大于或等于这个值. 课堂小结课堂小结 可以通过下面的步骤计算一组n个数据的第p百分位数: 第1步,按从小到大排列原始数据. 第2步,计算i=np%. 第3步,若i不是整数,而大于i的比邻整数为j,则第p百 分位数为第j项数据; 若i是整数,则第p百分位数为第项与第(i+1)项数据的平 均数.