1、2.2 用样本估计总体2.2.1 用样本的频率分布估计总体分布1.通过实例体会分布的意义和作用.2.在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图.(重点)3.通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计.(难点)为了节约生活用水,某市政府计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超过a的部分按议价收费.(1)如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?(2)为了较合理地确定这个标准,你认为需要做哪些工作?我国是世
2、界上严重缺水的国家之一,城市缺水问题较为突出.3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6 3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4 3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8 3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.1 3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3 3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0 2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2
3、.3 2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4 2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4 2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2 假设通过抽样,我们获得了100位居民某年的月平均用水量(单位:t),如下表:很容易发现的是一个居民月均用水量的最小值是0.2t,最大值是4.3t,其他在0.2t4.3t之间.频率分布表和频率分布直方图(1)求极差(一组数据中的最大值与最小值的差).例如,4.3-0.2=4.1,说明样本数据的变化范围是4.1 t.(2)决定组距与组数.设k=极差组距,若
4、k为整数,则组数=k,否则,组数=k+1.【课堂探究1】为方便起见,组距的选择应力求“组数取整”.在本问题中,组数=极差组距=4.1 0.5=8.2,因此可以将数据分为9组,这个组数是比较合适的,于是取组距为0.5,组数为9.(4)列频率分布表.计算各小组的频率,作出下面的频率分布表.(频数=样本数据落在各小组内的个数,频率=频数样本容量)(3)将数据分组.以组距为0.5将数据分组时,可以分成以下9组:0,0.5),0.5,1),4,4.5.列频率分布表:分组分组频数累计频数累计频数频数频率频率0,0.5)0.5,1)1,1.5)1.5,2)2,2.5)2.5,3)3,3.5)3.5,4)4,
5、4.5合计合计48152225146420.040.080.150.220.250.140.060.041001.00频率频率=样本容量样本容量频数频数注意:频数的合计应是样本容量,频率合计应是1.0.02频率/组距0.080.160.300.440.500.280.120.080.04 频率分布表一般分“分组”,“频数累计”(可省),“频数”,“频率”,“频率/组距”(可省)五列,最后一行是合计(5)画频率分布直方图.根据频率分布表可以得到如图所示的频率分布直方图:月均用水量/t0.100.200.300.400.50O频率/组距0.511.52.53.54.5234 频率分布是指一个样本数
6、据在各个小范围内所占比例的大小.一般用频率分布直方图来反映样本的频率分布.【提升总结】频率分布直方图第一步:画平面直角坐标系.第二步:在横轴上均匀标出各组分点,在纵轴上标出单位长度.第三步:以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形.各组的频率在图中哪里显示出来?各小长方形的面积=频率.各小长方形的面积之和是否为定值?各小长方形的面积之和为1.宽度:组距高度:高度:频率频率组距组距月均用水量/t0.100.200.300.400.50O频率/组距0.511.52.53.54.5234 你能根据上述频率分布直方图指出居民月均用水量的一些数据特点吗?【课堂探究2】月均用水量/
7、t0.100.200.300.400.50O频率/组距0.511.52.53.54.5234 如果市政府希望85%以上的居民每月的用水量不超过标准,根据上述频率分布表,你对制定居民月用水量标准(即a的取值)有何建议?88%的居民在3t以下,标准可定为3t.在实际中,取a=3t一定能保证85%以上的居民用水不超标吗?在实际中,对统计结论是需要进行评价的.【课堂探究3】频率分布直方图如下:月均用水量/t0.100.200.300.400.500.51 1.5 22.5 33.5 44.5连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图.o频率/组距频率分布折线图:月均用水量月均用水量/
8、t/t0.100.200.300.400.500.511.522.533.544.5o频率频率/组距组距利用样本频率分布对总体分布进行相应估计:(1)上例的样本容量为100,如果增至1 000,其频率分布直方图的情况会有什么变化?假如增至10 000呢?(2)样本容量越大,这种估计越精确.(3)当样本容量无限增大,组距无限缩小,那么频率折线图就会无限接近于一条光滑曲线总体密度曲线.总体密度曲线月均用水量/tab(图中阴影部分的面积,表示总体在某个区间(a,b)内取值的百分比).o频率/组距总体密度曲线和横轴围成的面积之和为1!总体密度曲线总体密度曲线反映了总体在各个范围内取值的百分比,精确地反
9、映了总体的分布规律,是研究总体分布的工具.用样本频率分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值的百分比.茎叶图某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.【课堂探究4】茎叶图甲乙0123452 55 41 6 1 6 7 94 9 084 6 36 83 8 9 1叶就是从茎的旁边生长出来的数,表示得
10、分的个位数字(低位)茎是指中间的一列数,表示得分的十位数字(高位)甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.从运动员的成绩的分布来看,该如何评价运动员甲和乙?茎叶图的优、缺点:在样本数据较少时,用茎叶图表示数据的效果较好.它不但可以保留所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便.但当样本数据较多时,茎叶图就显得不太方便.因为每一个数据都要在茎叶图中占据一个空间,如果数据很多,枝叶就会很长.1.将样本容量为100的数据按从大到小的顺序分为8组如下表:9
11、12131514141310频数87654321组号则第三组的频率为()A.0.14 B.1/14 C.0.03 D.3/142.(2013辽宁高考)某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为若低于60分的人数是15,则该班的学生人数是()A.45 B.50 C.55 D.6020,40,40,60,60,80,80,100频率组距成绩成绩/分分BC4.某地区为了了解知识分子的年龄结构,随机抽样50名,其年龄分别如下:42,38,29,36,41,43,54,43,34,44,40,59,39,42,44,50,37,44,45,29,48,45,53,48,37,
12、28,46,50,37,44,42,39,51,52,62,47,59,46,45,67,53,49,65,47,54,63,57,43,46,58.(1)列出样本频率分布表.(2)画出频率分布直方图.(3)估计年龄在32岁52岁的知识分子所占的比例约是多少.解:(1)极差为67-28=39,取组距为5,分为8组.分 组 频数 频率 27,32)3 0.06 32,37)3 0.06 37,42)9 0.18 42,47)16 0.32 47,52)7 0.14 52,57)5 0.10 57,62)4 0.08 62,67 3 0.06 合 计 50 1.00样本频率分布表:(2)样本频率分布直方图:年龄0.060.050.040.030.020.0127 32 37 42 47 52 57 62 67O(3)因为0.06+0.18+0.32+0.14=0.7,故年龄在32岁52岁的知识分子约占70%.频率/组距1.总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布.2.总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布(保留原始数据);当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图.