1、9.2.39.2.3总体集中趋势的估计总体集中趋势的估计 讲课人:邢启强 2 :在在一一组组数数据据中中出出现现次次数数最最众众数数多多的的数数据据. . 110( 个个;不不止止 个个;个个) :把把一一组组数数据据从从小小到到大大排排列列,处处在在 中中间间位位置置的的数数(或或最最中中间间两两个个数数的的平平 中中位位数数 均均数数). . (唯唯一一;不不一一定定是是样样本本数数据据中中的的某某个个数数) 12 12 . n n nxxx xxx xn n :一一般般地地,如如果果有有 个个数数,.,. ,平平 那那么么 = =叫叫这这 个个 均均数数 数数的的平平均均数数. . 温故
2、知新温故知新 讲课人:邢启强 3 12 12 . n n nxxx xxx xn n :一一般般地地,如如果果有有 个个数数,.,.,平平 那那么么 = =叫叫这这 个个 均均数数 数数的的平平均均数数. . 12 1 .1 = n n i i xxx xx nn 算算(1 1)= =术术平平均均数数: 12 () ,., kii nk kn xxxxf (2 2)如如果果 个个数数据据中中,不不同同的的值值有有个个, 记记为为其其中中 出出现现的的频频 均均数数: 数数为为 加加权权平平 1122 1 () kk xx fx fx f n 则则 1 1 k ii i x f n , ii x
3、px 若若其其中中 出出现现的的频频率率为为则则 1122kk x px px p 1 k ii i x p 温故知新温故知新 讲课人:邢启强 4 新课引入新课引入 为了了解总体的情况,前面我们研究了如何通过 样本的分布规律估计总体的分布规律,但有时候,我们 可能不太关心总体的分布规律,而更关注总体取值在某 一方面的特征,例如,对于某县今年小麦的收成情况, 我们可能会更关注该县今年小麦的总产量或平均每公顷 的产量,而不是产量的分布;对于一个国家国民的身高 情况,我们可能会更关注身高的平均数或中位数,而不 是身高的分布;等等. 在初中的学习中我们已经了解到,平均数、中位数 和众数等都是刻画“中心
4、位置”的量,它们从不同角度 刻画了一组数据的集中趋势。 下面我们通过具体实例进一步了解这些量的意义, 探究它们之间的联系与区别,并根据样本的集中趋势估 计总体的集中趋势. 讲课人:邢启强 5 100t假假设设通通过过简简单单随随机机抽抽样样,获获得得了了户户居居民民的的月月均均用用水水量量数数据据(单单位位:) 9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0 2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5 2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9 2.3 10.0 16.7
5、 12.0 12.4 7.8 5.2 13.6 2.4 22.4 3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0 22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9 5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7 5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3 5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8 7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6 例题分析例题分析
6、求它们的平均数、中位数 讲课人:邢启强 6 例题分析例题分析 12100 8.79 100 1008.79 . 5051 6.46.8 6.4 6.86.6 2 1006.6 . yyy y t t 解解: :, 即即户户居居民民的的月月均均用用水水量量的的平平均均数数为为 将将样样本本数数据据按按从从小小到到大大排排序序,得得第第个个数数和和第第个个数数分分别别为为 , ,由由中中位位数数的的定定义义,可可得得, 即即户户居居民民的的月月均均用用水水量量的的中中位位数数为为 2000该该市市某某个个小小区区有有户户,你你能能估估计计该该小小区区的的月月用用水水总总量量吗吗? 8.79 200
7、0=17580t 讲课人:邢启强 7 学习新知学习新知 小明用统计软件计算了100户居民用水量的平 均数和中位数,但在录入数据不小心把一个数据7.7录 成了77.请计算录入数据的平均数和中位数. 8.79 1007.777 9.483 ,6.6 100 ytt 中中位位数数没没有有变变化化,还还是是 思考:并与真实的样本平均数和中位数作比较。哪个量 的值变化更大?你能解释其中的原因吗? 平均数由原来的8.79t变为9.483t,中位数没有变化.这是 因为样本平均数与每一个样本数据有关,样本中的任何 一个数据的改变会引起平均数的改变;但中位数只利 用了样本数据中间位置的一个或两个值,并未利他数据
8、, 所以不是任何一个样本数据的改变都会引起中位数的 改变,因此,与中位数较,平均数反映出样本数据中的更平均数反映出样本数据中的更 多信息多信息,对样本中的极端值更加敏感对样本中的极端值更加敏感. 讲课人:邢启强 8 学习新知学习新知中中位位数数和和平平均均数数的的大大小小与与数数据据分分布布形形态态的的关关系系 平均数和中位数都描述了数据的集中趋势,它们的大小关 系和数据分布的形态有关.在下图的三种频率分布直方图形 态中,平均数和中位数的大小存在什么关系? (1 1)单单峰峰,直直方方图图形形状状对对称称:平平均均数数中中位位数数 (2 2)右右边边“拖拖尾尾”:平平均均数数 中中位位数数 (
9、3 3)左左边边“拖拖尾尾”:平平均均数数 中中位位数数 .结结论论:和和中中位位数数相相比比,平平均均数数总总是是在在“长长尾尾巴巴”那那边边 讲课人:邢启强 9 例题分析例题分析 例5.某学校要定制高一年级的校服,学生根据厂家提供的参考 身高选择校服规格,据统计,高一年级女生需要不同规格校服 的频数如下表所示, 校服规格校服规格 155160165170175 合计合计 频数频数 39641679026 386 如果用一个量来代表该校高一年级女生所需校服的规格,那么 在中位数、平均数和数中,哪个量比较合适?试讨论用上表中 的数据估计全国高一年级女生校服规格的合理性. 分析:虽然校服规格是用
10、数字表示的,但它们事实 上是几种不同的类别,对于这样的分类数据,用众 数作为这组数据的代表比较合适. 讲课人:邢启强 10 学习新知学习新知 解:为了更直观地观察数据 的特征,我们用条形图来表 示表中的数据(下图)可以发 现,选择校服规格为“165” 的女生的频数最高,所以用 众数165作为该校高一年级 女生校服的规格比较合适. 由于全国各地的高一年级女生的 身高存在一定的差异,所以用一 个学校的数据估计全国高一年级 女生的校服规格不合理. 讲课人:邢启强 11 学习新知学习新知 众众数数: 出出现现次次数数最最多多; 1 1个个,多多个个,0 0个个; 只只能能传传递递数数据据中中信信息息的
11、的很很少少一一部部分分,对对极极端端值值不不敏敏感感; 依依赖赖于于分分组组,稳稳定定性性差差; 分分类类型型数数据据适适用用于于对对集集中中趋趋势势的的估估计计. . (如如校校服服规规格格,性性别别,质质量量等等级级等等) 对对集集中中趋趋势势的的描描述述:平平均均数数、数数值值型型数数据据中中位位数数. . (如如用用水水量量,身身高高,收收入入,产产量量等等) 讲课人:邢启强 12 学习新知学习新知 探究:样本的平均数、中位数和众数可以分别作为总体 的平均数、中位数和众数的估计,但在某些情况下我 们无法获知原始的样本数据,例如,我们在报纸、网 络上获得的往往是已经整理好的统计表或统计图
12、,这 时该如何估计样本的平均数、中位数和众数? 在频率分布直方图中,我们无法知道每个组内的数 据是如何分布的,此时,通常假设它们在组内均匀 分布,这样就可以获得样本的平均数、中位数和众 数的近似估计,进而估计总体的平均数、中位数和 众数. 讲课人:邢启强 13 例题分析例题分析 你能以下图居民用水的频率分布直方图提供的 信息,估计出样本的平均数、中位数和众数吗? 0.23 0.32 0.13 0.09 0.09 0.05 0.03 0.04 0.02 讲课人:邢启强 14 学习新知学习新知 因为样本平均数可以表示为数据与它的频率的乘积 之和,所以在频率分布直方图中,样本平均数可以 用每个小矩形
13、底边中点的横坐标与小矩形的面积的 乘积之和近似代替.如图所示,可以测出图中每个小 矩形的高度,于是平均数的近似值为 ,这个结果与根据原始数据计算 的样本平均数8.79相差不大 1.24.24.27.225.228.2 0.230.320.02 222 8.96 x 讲课人:邢启强 15 学习新知学习新知 根据中位数的意义,在样本中,有50%的个体小于或等于中 位数,也有50%的个体大于或等于中位数.因此,在频率分布 直方图中,中位数左边和右边的直方图的面积应该相等 这个结果与根据原始数据求 得的中位数6.6相差不大. 50中中位位数数即即: :第第百百分分位位数数 由于0.0773=0.231
14、,(0.077+0.107)3=0.552. 因此中位数落在区间4.2,7.2)内. 设中位数为x,由0.0773+0.107(x-4.2)=0.5 得到x6.71.因此,中位数约为6.71,如图所示. 0.27 2:0.50.230.27,32.5 0.32 4.2+2.5=6.7 法法 中中位位数数为为 0.23 0.32 0.13 0.09 0.09 讲课人:邢启强 16 学习新知学习新知 在频率分布直方图中,月均用水 量在区间4.2,7.2)内的居民最多, 可以将这个区间的中点5.7作为众 数的估计值,如图所示,众数常 用在描述分类型数据中,在这个 实际问题中,众数“5.7”让我们 知
15、道月均用水量在区间4.2,7.2)内 的居民用户最多,这个信息具有 实际意义。 讲课人:邢启强 17 学习新知学习新知 . 平平均均数数:频频率率分分布布直直方方图图中中每每个个小小矩矩形形面面积积 乘乘以以各各个个小小矩矩形形底底边边中中点点的的横横坐坐标标的的和和 .中中位位数数:把把频频率率分分布布直直方方图图分分成成面面积积相相等等的的左左右右两两部部分分 .众众数数:最最高高矩矩形形的的底底边边中中点点的的横横坐坐标标 在频率分布直方图中,我们无法知道每个组内的数 据是如何分布的,此时,通常假设它们在组内均匀 分布,这样就可以获得样本的平均数、中位数和众 数的近似估计,进而估计总体的
16、平均数、中位数和 众数. . 频频率率分分布布直直方方图图损损失失了了一一些些样样本本数数据据,得得到到的的是是一一个个 估估计计值值,且且所所得得估估值值与与数数据据分分组组有有关关,有有随随机机性性 讲课人:邢启强 18 40 40,50 , 50,60, 90,100 40 a 某某高高中中教教师师从从高高一一学学生生的的数数学学成成绩绩中中随随机机抽抽取取名名 学学生生的的成成绩绩,分分成成六六段段:后后得得到到 如如图图所所示示的的频频率率分分布布直直方方图图。 (1 1)求求频频率率分分布布直直方方图图中中实实数数 的的值值; (2 2)估估计计这这名名学学生生的的成成绩绩的的众众
17、数数、中中位位数数 练练习习: 和和平平均均数数. . 0.1 (0.0050.010.020.0250.01) 0.030 75 0.050.10.20.35 0.50.350.15 0.15 5 7057575. 0.310 0.05 450.1 550.2 650.3 750.25 85 0.1 9574 a x x x 解解:(1 1) (2 2)众众数数: 中中位位数数:, ,中中位位数数为为 巩固练习巩固练习 讲课人:邢启强 19 用用数数据据说说话话,防防止止数数据据误误导导 平平均均数数根根据据一一组组数数据据的的全全部部数数据据来来计计算算,会会受受到到那那些些没没有有代代表
18、表性性的的 剔剔除除极极端端值值 极极端端值值影影响响, 可可以以先先,计计算算平平均均数数会会更更有有代代表表性性. . 学习新知学习新知 假设你到人力市场去找工作,有一个企业老板告诉你,假设你到人力市场去找工作,有一个企业老板告诉你,“我们我们 企业员工的年平均收入是企业员工的年平均收入是20万元万元”,你该如何理解这句话?,你该如何理解这句话? 这句话是真实的,但它可能描述的是差异巨大的实际情况,这句话是真实的,但它可能描述的是差异巨大的实际情况, 可能这个企业的工资水平普遍较高,也就是员工年收入的中位可能这个企业的工资水平普遍较高,也就是员工年收入的中位 数、众数与平均数差不多;数、众
19、数与平均数差不多; 也可能是绝大多数员工的年收入较低(如大多数是也可能是绝大多数员工的年收入较低(如大多数是5万元左右)万元左右),而少数员工而少数员工 的年收入很高,甚至达到的年收入很高,甚至达到100万元,在这种情况下年收入的平均数就比中位万元,在这种情况下年收入的平均数就比中位 数大得多数大得多. 尽管在后一种情况下,用中位数或众数比用平均数更合理些,尽管在后一种情况下,用中位数或众数比用平均数更合理些, 但这个企业的老板为了招揽员工,却用了平均数但这个企业的老板为了招揽员工,却用了平均数. 以上我们讨论了平均数、中位数和众数等特征量在刻画一组数据的集中趋势时的各自特以上我们讨论了平均数
20、、中位数和众数等特征量在刻画一组数据的集中趋势时的各自特 点,并研究了用样本的特征量估计总体的特征量的方法,需要注意的是,这些特征量有点,并研究了用样本的特征量估计总体的特征量的方法,需要注意的是,这些特征量有 时也会被利用而产生误导时也会被利用而产生误导,所以,我们要强调所以,我们要强调“用数据说话用数据说话”,但同时又要防止被数据误,但同时又要防止被数据误 导,这就需要掌握更的统计知识和方法导,这就需要掌握更的统计知识和方法. 讲课人:邢启强 20 根据表中的数据,估计该市根据表中的数据,估计该市2015年全年空气质量指数年全年空气质量指数 的平均数、中位数和第的平均数、中位数和第80百分
21、位百分位(注:已知该市属于注:已知该市属于 “严重污染严重污染”等级的空气质量指数不超过等级的空气质量指数不超过400) 巩固练习巩固练习 已知某市已知某市2015年全年空气质量等级如下表所示年全年空气质量等级如下表所示 讲课人:邢启强 21 讲课人:邢启强 22 众数、中位数、平均数的简单应用众数、中位数、平均数的简单应用 某工厂人员及工资构成如下:某工厂人员及工资构成如下: 人员人员经理经理 管理人员管理人员 高级技工高级技工 工人工人学徒学徒 合计合计 周工资周工资2200 250220200100 人数人数16510123 合计合计2200 150011002000 1006900 (
22、1)指出这个问题中周工资的众数、中位数、平均数)指出这个问题中周工资的众数、中位数、平均数 (2)这个问题中,工资的平均数能客观地反映该厂的)这个问题中,工资的平均数能客观地反映该厂的 工资水平吗?为什么?工资水平吗?为什么? 巩固练习巩固练习 讲课人:邢启强 23 1.:. 2. 样样本本的的数数字字特特征征 众众数数、中中位位数数和和平平均均数数 用用样样本本频频率率分分布布直直方方图图估估计计样样本本的的众众数数、中中位位数数、平平均均数数 (1 1)众数规定为频率分布直方图中最高矩)众数规定为频率分布直方图中最高矩 形下端的中点形下端的中点. . (2 2)中位数两边的直方图的面积相等
23、)中位数两边的直方图的面积相等. . (3 3)频率分布直方图中每个小矩形的面积频率分布直方图中每个小矩形的面积 与小矩形底边中点的横坐标之积相加,就是与小矩形底边中点的横坐标之积相加,就是 样本数据的估值平均数样本数据的估值平均数. . 课堂小结课堂小结 讲课人:邢启强 24 1.平均数平均数 平均数是指在一组数据中所有数据之和再除以数据的 个数,特征:平均数的大小与一组数据里的每个数均有关系,其中 任何数据的变动都会相应引起平均数的变动。 2.中位数中位数 将一组数据从小到大(或从大到小)排列,中间的数称为 这组数据的中位数。如果是奇数个数据,中间的数就为这组数 据的中位数,如果是偶数个数据,中间两个数的平均数为这组 数据的中位数,特征:中位数仅与数据的排列有关,部分数据的变 动对中位数可能没有影响。 3.众数众数 一组数据中出现次数最多的数值叫众数,有时在一组数 中有几个,特征:众数着眼于对各数据出现频率的考察,其大小只 与这组数据的部分数据有关。 平均数、中位数、众数的联系平均数、中位数、众数的联系 众数、中位数及平均数都是描述一组数据的集中趋势的量,其 中以平均数最为重要,其应用也最为广泛。 课堂小结课堂小结平均数、中位数和众数的意义平均数、中位数和众数的意义