1、(2)1、求极差、求极差(即一组数据中最大值与最小值的差即一组数据中最大值与最小值的差)知道这组数据的变动范围知道这组数据的变动范围4.3-0.2=4.12、决定组距与组数(将数据分组)、决定组距与组数(将数据分组)3、将数据分组将数据分组(8.2取整取整,分为分为9组组)画频率分布直方图的步骤画频率分布直方图的步骤4、列出、列出频率分布表频率分布表.(填写频率填写频率/组距一栏组距一栏)5、画出、画出频率分布直方图频率分布直方图。组距组距:指每个小组的两个端点的距离,组距指每个小组的两个端点的距离,组距组数组数:将数据分组,当数据在将数据分组,当数据在100个以内时,个以内时,按数据多少常分
2、按数据多少常分5-12组。组。4.18.20.5极差组数=组距频率分布直方图如下频率分布直方图如下:月均用水量月均用水量/t频率频率组距组距0.100.200.300.400.500.511.5 22.533.544.5小长方形的面小长方形的面积积=该组频率该组频率月均用水量月均用水量/t频率频率组距组距0.100.200.300.400.500.511.5 22.533.544.5连接频率分布直方图连接频率分布直方图中各小长方形上端的中各小长方形上端的中点中点,得到得到频率分布折频率分布折线图线图(3)当样本容量无限增大,组距无限缩小,)当样本容量无限增大,组距无限缩小,那么频率分布直方图就
3、会无限接近于一条光滑那么频率分布直方图就会无限接近于一条光滑曲线曲线总体密度曲线总体密度曲线。(2)样本容量越大,这种估计越精确。)样本容量越大,这种估计越精确。(1)上例的样本容量为)上例的样本容量为100,如果增至,如果增至1000,其频率分布直方图的情况会有什么变化?假如增其频率分布直方图的情况会有什么变化?假如增至至10000呢?呢?频率频率组距组距月均用月均用水量水量/tab (图中阴影部分的面积,表示总体在(图中阴影部分的面积,表示总体在某个区间某个区间(a,b)内取值的百分比)。内取值的百分比)。用样本分布直方图去估计相应的总体分布用样本分布直方图去估计相应的总体分布时,一般样本
4、容量越大,时,一般样本容量越大,频率分布直方图频率分布直方图就就会无限接近会无限接近总体密度曲线总体密度曲线,就越精确地反映,就越精确地反映了总体的分布规律,即越精确地反映了总体了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。在各个范围内取值百分比。总体密度曲线反映了总体在各个范围总体密度曲线反映了总体在各个范围内取值的百分比内取值的百分比,精确地反映了总体的分布精确地反映了总体的分布规律。是研究总体分布的工具规律。是研究总体分布的工具.茎叶图茎叶图某赛季甲、乙两名篮球运动员每场比赛得分的原某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:始记录如下:(1)甲运动员得分:甲运
5、动员得分:13,51,23,8,26,38,16,33,14,28,39(2)乙运动员得分乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39茎叶图茎叶图0123452 55 41 6 1 6 7 94 9 084 6 33 6 83 8 9 1茎叶图茎叶图0123455 25 49 7 6 6 1 19 4083 4 63 6 83 8 9 1例例2:在同等条件下,对:在同等条件下,对30辆同一型号的汽车辆同一型号的汽车进行耗油进行耗油1升所走路程的试验,得到如下数据升所走路程的试验,得到如下数据(单位:(单位:km):):14.1 12.3 13.7
6、14.0 12.8 12.9 13.113.6 14.4 13.8 12.6 13.8 12.6 13.213.3 14.2 13.9 12.7 13.0 13.2 13.513.6 13.4 13.6 12.1 12.5 13.1 13.5 13.2 13.4 以前两位数为茎画出上面数据的茎叶图以前两位数为茎画出上面数据的茎叶图(只有只有单侧有数据单侧有数据),并找出中位数并找出中位数.解解:茎叶图如下茎叶图如下 12.1 3 5 6 6 7 8 9 13.0 1 1 2 2 2 3 4 4 5 5 6 6 6 7 8 8 9 14.0 1 2 4中位数为中位数为13.35 2.2.2用样本
7、的数字特征用样本的数字特征估计估计总总体的数字特征体的数字特征众数、中位数、平均数的概念众数、中位数、平均数的概念 众数、中位数、平均数都是描述一组众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛度不同,其中以平均数的应用最为广泛.一、复习一、复习一、众数、中位数、平均数的概念一、众数、中位数、平均数的概念 中位数中位数:将一组数据按大小依次排列,:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位两个数据的平均数)叫做这
8、组数据的中位数数 众数众数:在一组数据中,出现次数最多:在一组数据中,出现次数最多的数据叫做这组数据的众数的数据叫做这组数据的众数 平均数平均数:一组数据的算术平均数,即一组数据的算术平均数,即 x=)xxx(n1n21 二、练习练习:在一次中学生田径运动会在一次中学生田径运动会上,参加男子跳高的上,参加男子跳高的17名运动员的成绩名运动员的成绩如下表所示:如下表所示:成绩成绩(单单位:位:米米)150 160165170175180185190人数人数23234111分别求这些运动员成绩的众数,中位数与分别求这些运动员成绩的众数,中位数与平均数平均数 解:在解:在17个数据中,个数据中,1.
9、75出现了出现了4次,出现的次,出现的次数最多,即这组数据的众数是次数最多,即这组数据的众数是1.75上面表里的上面表里的17个数据可看成是按从小到大个数据可看成是按从小到大的顺序排列的,其中第的顺序排列的,其中第9个数据个数据1.70是最中间的是最中间的一个数据,即这组数据的中位数是一个数据,即这组数据的中位数是1.70;这组数据的平均数是这组数据的平均数是答:答:17名运动员成绩的众数、中位数、平均数名运动员成绩的众数、中位数、平均数依次是依次是1.75(米)、(米)、1.70(米)、(米)、1.69(米)(米).二、新课二、新课二二、众数、中位数、平均数与频率分、众数、中位数、平均数与频
10、率分 布直方图的关系布直方图的关系 1、众数在样本数据的频率分布直方图众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。中,就是最高矩形的中点的横坐标。例如,在上一节调查的例如,在上一节调查的100位居民的月位居民的月均用水量的问题中,从这些样本数据的频均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众率分布直方图可以看出,月均用水量的众数是数是2.25t.如图所示:如图所示:频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)2、在样本中,有在样本中,有50的个体小于或等于的个体小于或等
11、于中位数,也有中位数,也有50的个体大于或等于中位的个体大于或等于中位数数,因此,在频率分布直方图中,中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由左边和右边的直方图的面积应该相等,由此可以估计中位数的值。下图中虚线代表此可以估计中位数的值。下图中虚线代表居民月均用水量的中位数的估计值,此数居民月均用水量的中位数的估计值,此数据值为据值为2.02t.频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)说明说明:2.02这个中位数的估计值这个中位数的估计值,与样本与样本的中位数值的中位数值2.0
12、不一样不一样,这是因为样本数这是因为样本数据的频率分布直方图据的频率分布直方图,只是直观地表明只是直观地表明分布的形状分布的形状,但是从直方图本身得不出但是从直方图本身得不出原始的数据内容原始的数据内容,所以由频率分布直方所以由频率分布直方图得到的中位数估计值往往与样本的图得到的中位数估计值往往与样本的实际中位数值不一致实际中位数值不一致.3、平均数是频率分布直方图的平均数是频率分布直方图的“重重心心”.是直方图的平衡点是直方图的平衡点.n 个样本数据的平均个样本数据的平均数由公式数由公式:)xxx(n1n21X=给出给出.下图显示了居民月均用水量的平下图显示了居民月均用水量的平均数均数:x=
13、2.02频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)三、三种数字特征的优缺点三、三种数字特征的优缺点 1、众数体现了样本数据的最大集中、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无点,但它对其它数据信息的忽视使得无法客观地反映总体特征法客观地反映总体特征.如上例中众数是如上例中众数是2.25t,它告诉我们它告诉我们,月均用水量为月均用水量为2.25t的的居民数比月均用水量为其它数值的居民居民数比月均用水量为其它数值的居民数多数多,但它并没有告诉我们多多少但它并没有告诉我们多多少.2、中位数是样本数
14、据所占频率的等分、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为设有某一用户月均用水量为10t,那么它,那么它所占频率为所占频率为0.01,几乎不影响中位数几乎不影响中位数,但显但显然这一极端值是不能忽视的。然这一极端值是不能忽视的。3、由于平均数与每一个样本的数据有、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会关,所以任何一个样本数据的改变都会引起平均数的改变,这
15、是众数、中位数引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此都不具有的性质。也正因如此,与众,与众数、中位数比较起来,平均数可以反映数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。使平均数在估计时可靠性降低。四、众数、中位数、平均数的简单应用四、众数、中位数、平均数的简单应用例例1:某工厂人员及工资构成如下:某工厂人员及工资构成如下:人员人员经理经理 管理人员管理人员 高级技工高级技工 工人工人学徒学徒 合计合计周工资周工资2200
16、 250220200100人数人数16510123合计合计2200 150011002000 1006900(1)指出这个问题中周工资的众数、中)指出这个问题中周工资的众数、中位数、平均数。位数、平均数。(2)这个问题中,工资的平均数能客观)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么?地反映该厂的工资水平吗?为什么?分析分析:众数为:众数为200,中位数为,中位数为220,平均数为平均数为300。因平均数为因平均数为300,由表格中所列,由表格中所列出的数据可见,只有经理在平均数以出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用上,其余的人都在平均数以下,故用
17、平均数不能客观真实地反映该工厂的平均数不能客观真实地反映该工厂的工资水平。工资水平。想一想:想一想:平均数受极端值影响较大,结平均数受极端值影响较大,结合实际情况,想一想合实际情况,想一想能用什么办法解决这个问题呢?能用什么办法解决这个问题呢?去掉一个最大值,去掉一个最小值去掉一个最大值,去掉一个最小值四、阅读课本四、阅读课本73页的思考,举例分析对极端值页的思考,举例分析对极端值不敏感的利与弊。不敏感的利与弊。五、练习五、练习 应该采用平均数来表示每一个国家项目的平均金额,应该采用平均数来表示每一个国家项目的平均金额,因为它能反映所有项目的信息。但平均数会受到极端数因为它能反映所有项目的信息。但平均数会受到极端数据据2200万元的影响,所以大多数项目投资金额都和平均万元的影响,所以大多数项目投资金额都和平均数相差比较大。数相差比较大。