1、 9.2.2总体百分位数的估计 海口市第一中学:胡良靖 复习回顾,导入新课 80%20% 问题问题1 1:根据上一节中某市 100 名居民的月均用水量数据,如果该市政府希望使 80% 居民用户 生活用水费用支出不受影响,如何给市政府提出确定居民用户月均用水量标准的建议? 9.013.614.95.94.07.16.45.419.42.0 2.28.613.85.410.24.96.814.02.010.5 2.15.75.116.86.011.11.311.27.74.9 2.310.016.712.012.47.85.213.62.622.4 3.67.18.825.63.218.35.12
2、.03.012.0 22.210.85.52.024.39.93.65.64.47.9 5.124.56.47.54.720.55.515.72.65.7 5.56.016.02.49.53.717.03.84.12.3 5.37.88.14.313.36.81.37.04.91.8 7.128.010.213.817.910.15.54.63.221.6 百分位数的引入 先先将将80%80%换成换成50%50% 1.31.31.82.02.02.02.02.12.22.3 2.32.42.62.63.03.23.23.63.63.7 3.84.04.14.34.44.64.74.94.94.
3、9 5.15.15.15.25.35.45.45.55.55.5 5.55.65.75.75.96.06.06.46.46.7 6.97.07.17.17.17.57.77.87.87.9 8.18.68.89.09.59.910.010.110.210.2 10.510.811.111.212.012.012.413.313.613.6 13.813.814.014.915.716.016.716.817.017.9 18.319.420.521.622.222.424.324.525.628.0 解:解:将将100100个数据按从小到大的顺序排列如下:个数据按从小到大的顺序排列如下: 6.
4、7 6.9 6.8.6.8. 1.31.31.82.02.02.02.02.12.22.3 2.32.42.62.63.03.23.23.63.63.7 3.84.04.14.34.44.64.74.94.94.9 5.15.15.15.25.35.45.45.55.55.5 5.55.65.75.75.96.06.06.46.46.7 6.97.07.17.17.17.57.77.87.87.9 8.18.68.89.09.59.910.010.110.210.2 10.510.811.111.212.012.012.413.313.613.6 13.813.814.014.915.716.
5、016.716.817.017.9 18.319.420.521.622.222.424.324.525.628.0 解:解:将将100100个数据按从小到大的顺序排列如下:个数据按从小到大的顺序排列如下: 我们称我们称13.713.7为这组数据的第为这组数据的第8080百分位数百分位数 13.6 13.8 在区间在区间(13.613.6,13.813.8)内内任意一个数任意一个数都能把样本数据都能把样本数据 分成符合要求的两部分,我们一般取这两个数的分成符合要求的两部分,我们一般取这两个数的平均数平均数13.7.13.7. 由于样本的取值规律与总体的取值规律之间会 存在误差,而在决策问题中,
6、只要临界值近似为第 80百分位数即可,因此,为了实际中操作的方便, 可以建议市政府把月均用水量标准定为14t,或者将 年标准用水量定为168t. 误差误差主要来自于主要来自于抽样的方法抽样的方法和和样本的随机性样本的随机性. . 请阅读课本请阅读课本202202页例页例2 2上方的内容,回答以下问题:上方的内容,回答以下问题: (1 1)什么是第)什么是第p百分位数?百分位数? (2 2)一组数据的中位数和第)一组数据的中位数和第p百分位数有什么关系?百分位数有什么关系? (3 3)你能说说求一组数据的第)你能说说求一组数据的第p百分位数的步骤吗?百分位数的步骤吗? (4 4)什么是四分位数?
7、什么是下四分位数?什么是上四分位数?)什么是四分位数?什么是下四分位数?什么是上四分位数? 一般地,一组数据的第p百分位数是这样一个值, 它使得这组数据中至少有p%的数据小于或等于这个 值,且至少有(100 p) %的数据大于或等于这个值. 第p百分位数(或 p %分位数 )的定义 第第5050百分位数就是中位数,中位数是百分位数的特例百分位数就是中位数,中位数是百分位数的特例. . p%(100-p)% 第p百分位数 百分位数是刻画一组 样本数据百分位置的量. 百分位数定义的理解 为什么要求至少有p%的数据小于或等于这个值,且 至少有(100 p) %的数据大于或等于这个值? 1 5243
8、12 3456 中位数为3,此时有60%(至少有50%)的数小于或 等于3,且有60%(至少有50%)的数大于或等于3. 中位数为3.5,此时有50%(至少有50%)的数小于或 等于3.5,且有50%(至少有50%)的数大于或等于3.5. 练习:练习:求以下数据的第80百分位数: 1,2,3,4,5,6,7,8. 所以第80百分位数为第7项数据,即为7. 实际上,此时有87.5%(至少有80%)的数小于或等于7, 且有25%(至少有20%)的数大于或等于7. 不存在那样的数,使得小于等于它的样本数恰好等于80%. 计算一组n个数据的第p百分位数的步骤 按照从小到大的顺序排列原始数据 大于i的比
9、邻整数为j,则第p百分位数为第j项数据; 第p百分位数为第i项和第i+1项数据的平均数. i不是整数 i是整数 计算 inp% 课本上提供的是一种简单便于计算的方法. 实际上,不同的统计软件计算百分位数的 方法不尽相同,常见的求百分位数的软件 有: Excel、R软件、SPSS等统计软件. (1)一组数据的第0百分位数对应哪个数?第100百分位数对应哪个数? (2)一组数据的第p百分位数一定是这组数据中的数吗?为什么? 思考 (3)一组数据中的各百分位数一定互不相同吗? 例:1,2,3,4,5,6,7,8,9,10这组数据的第72百分位和第79百分位数都是8. 百分位数的特点 (1)第0百分位
10、数是数据组中的最小数,第100百分位数是数据组中的最大数; (2)一组数据的第p百分位数可能是这组数据中的数,也可能不是这组数据中的数; (3)一组数据中的某些百分位数可能是同一个数. 四分位数 25% 第一四分位数 下四分位数 50%75% 中位数 第三四分位数 上四分位数 另外,在后面的学习中,我们也常用到第另外,在后面的学习中,我们也常用到第1 1百分位数,第百分位数,第 5 5百分位数,第百分位数,第9595百分位数,第百分位数,第9999百分位数百分位数. . 例例2 2、以下是树人中学高一年级抽取27名女生的样本数据: 163.0 164.0 161.0 157.0 162.0 1
11、65.0 158.0 155.0 164.0 162.5 154.0 154.0 164.0 149.0 159.0 161.0 170.0 171.0 155.0 148.0 172.0 162.5 158.0 155.5 157.0 163.0 172.0 请估计树人中学高一年级女生的第25,50,75百分位数. 由于女生的样本量比较小,所以这里对总体的估计可能会存在比较大的误差 148.0 149.0 154.0 154.0 155.0 155.0 155.5 157.0 157.0 158.0 158.0 159.0 161.0 161.0 162.0 162.5 162.5 163.
12、0 163.0 164.0 164.0 164.0 165.0 170.0 171.0 172.0 172.0 解:解:把27名女生的样本数据按照由小到大排序(利用Excel排序): 由25%27=6.75,由50%27=13.5,由75%27=20.25, 百分位数的计算方法的巩固训练 155.5 则第25百分位数(下四分位数)为第7项数据, 即为155.5. 则第50百分位数为第14项数据,即为161. 则第75百分位数(上四分位数)为第21项数据, 即为164. 161.0 164.0 在某些情况下,我们只能获得整理好的统计表或统计图,与原始 数据相比,他们损失了一些信息那么该如何根据样
13、本的频率分布 表或频率分布直方图估计总体的百分位数呢? 根据频率分布表或频率分布直方图估计百分位数 分组频数频率 1.2,4.2)230.23 4.2,7.2)320.32 7.2,10.2)130.13 10.2,13.2)90.09 13.2,16.2)90.09 16.2,19.2)50.05 19.2,22.2)30.03 22.2,25.2)40.04 25.2,28.2)20.02 合计1001.00 累计频率 0.23 0.55 0.68 0.77 0.86 0.91 0.94 0.98 1.00 解:解:月均用水量在月均用水量在13.2t13.2t以下以下77%77%, 月均用
14、水量在月均用水量在16.2t16.2t以下以下86%86%, 80%80%分位数一定位于分位数一定位于13.213.2,16.216.2) 表表9. 2-1 例例3 3:根据教材中表9. 2-1或图9.2-1.估计月均用水量的样本数据的80%分位数. 假定区间假定区间 1313. .2 2, , 1616. .2 2) )上的数据是上的数据是均匀均匀分布分布的的 23%98%94%91%86% 16.2 68%55% 80% 所以,可以估计月均用水量的样本数据的所以,可以估计月均用水量的样本数据的80%80%分位数约为分位数约为14.2.14.2. 77% 13.2 77%86% 100% 1
15、.24.210.216.213.27.219.222.225.228.2 解析解析: :由频率分布直方图依次算出各小组的频率为:由频率分布直方图依次算出各小组的频率为:0.2310.231、0.3210.321、0.1290.129、0.090.09、0.090.09 所以月均用水量在所以月均用水量在13.2t13.2t以下的居民所占比例为:以下的居民所占比例为:0.231+0.321+0.129+0.09=0.7710.231+0.321+0.129+0.09=0.771 月均用水量在月均用水量在16.2t16.2t以下的居民所占比例为:以下的居民所占比例为:0.771+0.09=0.861
16、0.771+0.09=0.861 所以,第所以,第8080百分位数一定位于百分位数一定位于13.213.2,16.216.2) 设第设第8080百分位数为百分位数为m,m,则则 0.771+0.771+(m-13.2m-13.2)X0.030=0.80X0.030=0.80 解得解得m14.2m14.2 所以,可以估计月均用水量的样本数据的所以,可以估计月均用水量的样本数据的80%80%分位数约为分位数约为14.2.14.2. 原始数据:原始数据: 13.713.7 频率分布表:频率分布表: 14.214.2 频率分布直方图:频率分布直方图:14.214.2 根据频率分布表或频率分布直方图求百
17、分位数的步骤 计算各小组的累计频率计算各小组的累计频率 确定第确定第p百分位数所在的小组区间百分位数所在的小组区间 按比例算出不足频率部分对应的区间长度按比例算出不足频率部分对应的区间长度 计算得出第计算得出第p百分位数百分位数 特别地,在频特别地,在频 率分布直方图率分布直方图 中,第中,第p百分百分 位数位数左侧左侧的长的长 方形方形面积之和面积之和 等于等于p %.%. 计算的关键:假定样本在区间内是均匀分布的. 小结: 中位数的定义百分位数的定义 由原始数据求百分位数 类比、从特殊到一般的数学思想数学建模 由样本数据的百分位数估计总体的百分位数 百分位数的计算步骤 中位数的计算步骤 由分组数据(频率分布表、 频率分布直方图)求百分位数 适用范围:确定定额、制定标准 课后思考 空空气质量指数气质量指数AQIAQI是反映空气质量状况的指数是反映空气质量状况的指数,AQIAQI指数越小指数越小,表明表明 空气质量越好空气质量越好,图图1 1是经整理后的武汉市是经整理后的武汉市20192019年年2 2月与月与20202020年年2 2月的空气质月的空气质 量指数频率分布直方图量指数频率分布直方图. .估计武汉市估计武汉市20192019年年2 2月与月与20202020年年2 2月的空气重量指月的空气重量指 数的数的60%60%分位数分位数 感谢您的聆听 Thanks