1、9 9. .2 2 用样本估计总体用样本估计总体9.2.3 总体集中趋势的估计第九章 统计 为了了解总体的情况,前面我们研究了如何通过为了了解总体的情况,前面我们研究了如何通过样本的分布规样本的分布规律估计总体的分布规律律估计总体的分布规律. .但有时候,我们可能不太关心总体的分布但有时候,我们可能不太关心总体的分布规律,而更关注总体取值在某一方面的特征规律,而更关注总体取值在某一方面的特征. .例如例如:对于某县今年小麦的收成情况,我们可能会更关注该县今年:对于某县今年小麦的收成情况,我们可能会更关注该县今年小麦的小麦的总产量总产量或或均每公顷的产量均每公顷的产量,而不是产量的分布,而不是产
2、量的分布; ;对于一个国对于一个国家国民的身高情况,我们可能会更关注身高的家国民的身高情况,我们可能会更关注身高的平均数平均数或或中位数中位数,而,而不是身高的分布;等等不是身高的分布;等等. . 平均数、中位数平均数、中位数和和众数众数等都是刻画等都是刻画“中心位置中心位置”的量的量, ,它们从它们从不同角不同角度刻画了一组数据的度刻画了一组数据的集中趋势集中趋势. .下面我们通过具体实例进一下面我们通过具体实例进一步了解这些量的意义,探究它们之间的联系与区别,并根据步了解这些量的意义,探究它们之间的联系与区别,并根据样本样本的集中趋势估计总体的集中趋势的集中趋势估计总体的集中趋势. .例例
3、1 1 利用利用9.2.19.2.1节中节中100100户居民用户的月均用水量的调查数据户居民用户的月均用水量的调查数据, ,计算计算样本数据的平均数和中位数样本数据的平均数和中位数, ,并据此估计全市居民用户月均用并据此估计全市居民用户月均用 水量水量的的平均数平均数和和中位数中位数. .9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.09.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.02.2 8.61 3.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5 2.2 8.61 3.8 5.4 10.2 4.9
4、6.8 14.0 2.0 10.5 2.1 2.1 5.7 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.94.92.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.6 2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.6 2 22.42.43.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.03.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.022.2 10.8 5.5 2.02 4.3
5、9.9 3.6 5.6 4.4 7.922.2 10.8 5.5 2.02 4.3 9.9 3.6 5.6 4.4 7.95.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.75.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.75.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.35.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.35.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.85.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0
6、4.9 1.87.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.67.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6 将样本数据按从小到大排序,得将样本数据按从小到大排序,得第第5050个数和第个数和第5151个数个数分分别为别为6.46.4,6.86.8,由中位数的定义,可得,由中位数的定义,可得即即100100户居民的月均用水量的中位数是户居民的月均用水量的中位数是6.66.6t.t._6.46.4+ +6.86.82 2= = 6.66.6 因为数据是抽自全市居民户的简单随机样本因为数据是抽自全市居民户的简单随
7、机样本, ,所以我们可所以我们可以据此估计全市居民用户的月均用水量约为以据此估计全市居民用户的月均用水量约为8.79t8.79t,其中位数,其中位数约为约为6.6t.6.6t.由样本平均数的定义由样本平均数的定义, ,可得可得解解: :即即100100户居民的月均用水量的户居民的月均用水量的平均数为平均数为8.79t8.79t. . y=y=_y y1 1+y+y2 2+y+yn n100100= = 8.798.79 小明用统计软件计算了小明用统计软件计算了100100户居民用水量的平均数和中位数,但户居民用水量的平均数和中位数,但在录入数据时,不小心把一个数据在录入数据时,不小心把一个数据
8、7.77.7录成了录成了77. 77. 请计算录入数据的请计算录入数据的平均数和中位数,并与真实的样本平均数和中位数,并与真实的样本平均数平均数和和中位数中位数作比较作比较. .哪个量的哪个量的值变化更大值变化更大? ?你能解释其中的原因吗你能解释其中的原因吗? ?通过简单计算可以发现: 平均数由原来的8.79t变为9.483t, 中位数没有变化,还是6.6t.这是因为样本平均数与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变;但中位数只利用了样本数据中间位置的一个或两个值,并未利用其他数据,所以不是任何一个样本数据的改变都会引起中位数的改变. 因此,与中位数比较,平均数反
9、映出样本数据中的更多信息,对样本中的极端值更加敏感. 平均数和中位数都描述了数据的集中趋势平均数和中位数都描述了数据的集中趋势, ,它们的大它们的大小关系和数据分布的形态有关小关系和数据分布的形态有关. .在下图的三种分布形态中,在下图的三种分布形态中,平均数和中位数的大小存在什么关系平均数和中位数的大小存在什么关系? ?(1)平均数、中位数中位数中位数(2)(3)平均数平均数 一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的(图(1),那么平均数和中位数应该大体上差不多;如果直方图在右边“拖尾”(图(2),那么平均数大于中位数;如果直方图在左边“拖尾”(图(3),那么平均数
10、小于中位数. 也就是说,和中位数相比,平均数总是在“长尾巴”那边.例2 某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示(1)求这次测试数学成绩的众数;(2)求这次测试数学成绩的中位数例2 某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示(3)求这次测试数学成绩的平均数(1)众数众数:一组数据中:一组数据中出现次数最多出现次数最多的数的数(2)中位数中位数:一组数:一组数据按大小顺序排列后,处于据按大小顺序排列后,处于中间中间位置的数如果个数是偶数,位置的数如果个数是偶数,则取则取中间中间两
11、个数据的平均数两个数据的平均数(3)平均数平均数:一组数据的:一组数据的和和除以除以数据个数所得到的数数据个数所得到的数1众数、中位数和平均数的定义众数、中位数和平均数的定义2众数、中位数和平均数的比较众数、中位数和平均数的比较(1)平均数:在频率分布直方图中,样本平均数可以用每个小平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的矩形底边中点的横坐标横坐标与小矩形的与小矩形的面积面积的乘积之和近似代的乘积之和近似代替替(2)中位数:在频率分布直方图中,中位数左边和右边的中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该直方图的面积应该相等相等(3)众数:众数是众数:众数是最高最高小矩形底边的小矩形底边的中点所对应的数据中点所对应的数据3.众数、中位数、平均数与频率分布直方图的关系众数、中位数、平均数与频率分布直方图的关系4某中学举行电脑知识竞赛,现将高一参赛学生的成绩进行整理后某中学举行电脑知识竞赛,现将高一参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图分成五组绘制成如图所示的频率分布直方图.求:求:(1)高一参赛学生成绩高一参赛学生成绩的的众数众数、中位数中位数; (2)高一参赛学生的高一参赛学生的平均成绩平均成绩作业: