1、9.2 9.2 用样本估计总体用样本估计总体9.2.1总体取值规律的估计本资料分享自高中数学同步资源大全QQ群483122854 专注收集同步资源期待你的加入与分享联系QQ309000116加入百度网盘群2500G一线老师必备资料一键转存,自动更新,一劳永逸讲课人:邢启强2“”二二战战 期期间间,为为了了加加强强对对战战机机的的防防护护,英英美美军军方方调调查查了了作作战战后后幸幸存存飞飞机机上上弹弹痕痕的的分分布布,决决定定哪哪里里弹弹痕痕多多就就加加强强哪哪里里。然然而而统统计计学学家家沃沃德德力力排排众众议议,指指出出更更应应该该注注意意弹弹痕痕少少的的部部位位,因因为为这这些些部部位位
2、受受到到重重创创的的战战机机,很很难难有有机机会会返返航航,而而这这部部分分数数据据被被忽忽略略了了。事事实实证证明明,沃沃德德是是正正确确的的。800要要求求:综综合合材材料料内内容容及及含含意意,选选好好角角度度,确确定定立立意意,明明确确文文体体,自自拟拟标标题题;不不要要套套作作,不不得得抄抄袭袭;不不少少于于字字。2018 全全国国二二卷卷 作作文文新课引入新课引入讲课人:邢启强3这位统计学家在分析问题的时候,能够做到不被表面现象所迷惑,在获取数据之后,择合适的工具对数据进行整理和直观描述,在此基础上,通过数据分析,找出数据蕴含的信息,进而得到了正确的统计分析结果。新课引入新课引入收
3、集数据是为了寻找数据中蕴含的信息,因为实际问题中数据多而且杂乱,往往无法直接从原始数据中发现规律所以需要根据问题的背景特点,选择合适的统计图表对数据进行整理和直观描述,在此基础上,通过数据分析,找出数据中蕴含的信息,就可以用这些信息来解决实际问题了下面我们讨论对随机抽样获取的数据的处理方法.讲课人:邢启强41.1.随机抽样有哪几种基本的抽样方法?随机抽样有哪几种基本的抽样方法?简单随机抽样、分层抽样简单随机抽样、分层抽样.温故知新温故知新 前面研究学习了两种抽样方法来收集数据,还知道了一些常见的获取数据的途径,数据收集后,必须从中寻找包含的信息,以使我们能通过样本的规律估计总体的规律,解决相应
4、的实际问题。但由于数据多而杂,所以需要通过一定的方法去处理数据。可以通过表、图、计算方法来分析数据,进而对总体做出相应的估计。讲课人:邢启强5学习新知学习新知问题1我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了减少水资源的浪费,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望确定一个比较合理的标准,以使大部分居民如果希望确定一个比较合理的标准,以使大部分居民用户的水费支出不受影响,用户的水费支出不受影响,你认为需要做哪些工作?你认为需要做哪些工作?全全面面调调查查(普普查查):时时间间
5、、经经费费允允许许.抽抽样样调调查查:总总体体:该该市市的的全全体体居居民民用用户户;个个体体:每每户户居居民民用用户户;调调查查的的变变量量:居居民民用用户户的的月月均均用用水水量量.讲课人:邢启强6假设通过简单随机抽样,获得了100户居民用户的月均用水量数据(单位:1):学习新知学习新知9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.02.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.52.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.92.3 10.0 16.7 12.0 12.4 7.8
6、 5.2 13.6 2.4 22.43.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.022.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.95.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.75.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.35.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.87.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6从这组数据你能发现什么信息呢?如果将这组数据从小到大排序,容
7、易发现,这组数据的最小值是1.3t,最大值是28.0t,其他在1.3t至28.0t之间.讲课人:邢启强7学习新知学习新知1.2.分分析析数数据据的的基基本本方方法法:用用图图将将它它们们画画出出来来:.用用表表提提取取信信息息、传传递递信信息息用用紧紧凑凑的的表表格格改改变变数数据据的的排排列列形形式式,提提供供解解释释数数据据格格:的的新新方方式式.我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.在这个实际问题中,因为我们更关心月均用水量在不同范围内的居民用户占全市居民用户的比例,所以选择频率分布表(frequency distrib
8、ution table)和频率分布直方图(frequency distribution histogram)来整理和表示数据,与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图(1 1)求求极极差差;(2 2)决决定定组组距距和和组组数数;(3 3)将将数数据据分分组组;(4 4)列列频频率率分分布布表表;(5 5)画画频频率率分分布布直直方方图图.画画频频率率分分布布直直方方图图的的一一般般步步骤骤为为:讲课人:邢启强8学习新知学习新知1.求极差:极差为一组数据中最大值与最小值的差.样本观测数据的最小值是1.3t,最大值是28.0t,极差为28.0-1.3=26.7这
9、说明样本观测数据的变化范围是26.7t.非非负负数数;它它反反映映了了一一组组数数据据的的最最大大幅幅度度,对对极极端端值值敏敏感感;描描述述数数据据的的离离散散程程度度.讲课人:邢启强9学习新知学习新知2.决定组距与组数:合适的组距与组数对发现数据分布规律有重要意义.数太多或太少,都会影响我们了解数据的分布情况.数据分组可以是等距的,也可以是不等距的,要根据数据的特点而定。有时为了方便,往往按等距分组,或者除了第一和最后的两段,其余各段按等距分组 是是指指每每个个小小组组的的两两个个端端点点之之组组距距间间的的距距离离.=1.极极差差极极差差若若为为整整数数,则则组组数数;组组距距组组距距极
10、极差差极极差差若若不不为为整整数数极极差差、组组距距、组组数数之之,则则间间的的关关系系距距组组距距:组组数数组组.yxx 注注:取取整整函函数数,表表示示不不超超过过 的的最最大大整整数数讲课人:邢启强10组距与与组数的确定没有固定的标准.数据分组的组数与数据的个数有关,一般数据的个数越多,所分组数也越多,当样本容量不超过100时,常分成512组.为方便起见,一般取等长组距,并且组距应力求“取整”分组时可以先确定组距,也可以先确定组数,如果我们取所有组距为3,则26.78.93极差组距9即即可可将将数数据据分分为为 组组;学习新知学习新知2思思考考:组组距距为为4 4时时分分几几组组?26.
11、7=6.74 极极差差组组距距7.可可以以将将数数据据分分成成 组组讲课人:邢启强11学习新知学习新知3.将数据分组:由于组距为3,9个组距的长度超过极差,我们可以使第一组的左端点略小于数据中的最小值,最后一组的右端点略大于数据中的最大值,例如,可以取区间为1.2,28.2,按如下方式把样本观测数据以组距3分为9组:1.2,4.2),4.2,7.2),.,25.2,28.2.左左闭闭 通通右右开开常常对对组组内内,最最后后一一数数据据所所在在组组取取区区间间:闭闭区区间间.4.列频率分布表计算各小组的频率,例如第一小组的频率作出频率分布表23=0.23100第一组频数样本容量=小小组组频频数数
12、频频率率样样 本本容容量量.频频率率之之和和为为1 1.讲课人:邢启强12学习新知学习新知讲课人:邢启强13横横轴轴表表示示;纵纵轴轴表表示示频频率率月月均均用用水水量量组组距距.月均用水量月均用水量/t0.020.040.060.080.101.24.2 7.2 10.2 13.2 16.219.2 22.2 25.2 28.2 00.12频率频率/组距组距0.0770.1070.0430.0300.0300.0170.0100.0130.007=频频率率小小长长方方形形的的面面积积 组组距距频频率率.组组距距1各各小小长长方方形形的的面面积积和和为为.学习新知学习新知5.画频率分布直方图根
13、据频率分布表画出如图所示的频率分布直方图频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度讲课人:邢启强14样本数据的频率分布直方图是根据频率分布表画出来的样本数据的频率分布直方图是根据频率分布表画出来的,一般地一般地,频率分布直方图的作图步骤如何?频率分布直方图的作图步骤如何?第一步,画平面直角坐标系第一步,画平面直角坐标系.第二步,在横轴上均匀标出各组分点,在纵第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度轴上标出单位长度.第三步,以组距为宽,各组的频率与组距的商为第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形高,分别画出各组对应的小长方
14、形.学习新知学习新知讲课人:邢启强15学习新知学习新知频率分布直方图与频数分布直方图有什么区别?通过调查或实验收集到的数据一般数量较大且无序,为了得到有用的信息,就需要对数据进行分类(组)整理,利用统计表(或图)表示数据的特征.数据是对客观现象计量的结果,按照计量的精确程度可以大致分为两类.第一类,只能对事物的属性进行分类第一类,只能对事物的属性进行分类.例如,性别分男、女,商品分不同品牌,等级成绩分为优、良、及格和不及格,民意调查中对某观点的态度分为同意、中立、不同意,视力情况分为正常、轻度近视、中度近视、重度近视等.各类别可以用字母表示或数字表示,对此类数据的整理就是列频数分布表,记录各类
15、别出现的频数,计算百分比.用条形图直观表示各类数据的频数,用扇形图表示各类数据所占的百分比大小.第二类,计量结果表现为数值第二类,计量结果表现为数值,例如,考试成绩,中学生的身高或体重,居民家庭的收入,居民家庭月用电量等.对这类连续数据的整理需要按数据个数的多少,进行适当的分组(不重不漏),统计各组的频数,计算百分比,用直方图表示数据的分布状况.讲课人:邢启强16学习新知学习新知 观察频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能从图表中发现居民用户月均用水量的哪些分布规律?(1)从频率分布表中可以清楚地看出,样本观测数据落在各个小组的比例大小,例如,月均用水量在区间4
16、.2,7.2)内的居民用户最多,在区间1.2,4.2)内的次之,而月均用水量超过16.2的各区间内数据所占比例较小,等等.讲课人:邢启强17学习新知学习新知 观察频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能从图表中发现居民用户月均用水量的哪些分布规律?(2)从频率分布直方图能直观的表明数据分布的形状和总体趋势.从上图容易看出,居民用户月均用水量的样本观测数据的分布是不对称的,图形的左边高、右边低,右边有一个较长的“尾巴”,这表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在区间1.2,7.2)最为集中,少数居民用户的月均用水量偏多,而且随着月均用水量的增加,居
17、民用户数呈现降低趋势.有了样本观测数据的频率分布,我们可以用它估计总体的取值规律讲课人:邢启强18学习新知学习新知 根据100户居民用户的月均用水量的频率分布,可以推测该市全体居民用户月均用水量也会有类似的分布,即大部分居民用户月均用水量集中在较低值区域.这使我们确定用水量标准时,可以定一个合适的值,以达到既不影响大多数居民用户的水费支出,又能节水的目的.需要注意的是,由于样本的随机性,这种估计可能会存在一定误差,但这一误差一般不会影响我们对总体分布情况的大致了解.分别以3和27为组数,对数据进行等距分组,画出100户居民用户月均用水量的频率分市直方图.观察图形,你发现不同的组数对于直方图呈现
18、数据分市规律有什么影响?讲课人:邢启强19学习新知学习新知分别以3和27为组数,对数据进行等距分组,画出100户居民用户月均用水量的频率分市直方图.观察图形,你发现不同的组数对于直方图呈现数据分市规律有什么影响?从图中可以看出,同一组数据,组数不同,得到的直方图形状也不尽相同,会给人以不同的频率分布印象有时会影响人们对总体的判断当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原始数据信息当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,会依赖样本数据,稳定性差,由于小长方形较多,有时图形会变得非常不规则,不容易从中
19、看出总体数据的分布特点.讲课人:邢启强20学习新知学习新知讲课人:邢启强21 例例 某地区为了了解知识分子的年龄结构,某地区为了了解知识分子的年龄结构,随机抽样随机抽样5050名,其年龄分别如下:名,其年龄分别如下:4242,3838,2929,3636,4141,4343,5454,4343,3434,4444,4040,5959,3939,4242,4444,5050,3737,4444,4545,2929,4848,4545,5353,4848,3737,2828,4646,5050,3737,4444,4242,3939,5151,5252,6262,4747,5959,4646,45
20、45,6767,5353,4949,6565,4747,5454,6363,5757,4343,4646,58.58.(1)(1)列出样本频率分布表;列出样本频率分布表;(2)(2)画出频率分布直方图;画出频率分布直方图;(3)(3)估计年龄在估计年龄在32325252岁的知识分子所占的比例约是多少岁的知识分子所占的比例约是多少.典型例题典型例题讲课人:邢启强22(1)(1)极差为极差为67-28=3967-28=39,取组距为,取组距为5 5,分为,分为8 8组组.分分 组组 频数频数 频率频率 2727,3232)3 0.063 0.06 32 32,3737)3 0.063 0.06 3
21、7 37,4242)9 0.189 0.18 42 42,4747)16 0.3216 0.32 47 47,5252)7 0.147 0.14 52 52,5757)5 0.105 0.10 57 57,6262)4 0.084 0.08 62 62,6767)3 0.063 0.06 合合 计计 50 1.0050 1.00样本频率分布表:样本频率分布表:讲课人:邢启强23(2 2)样本频率分布直方图:)样本频率分布直方图:年龄年龄0.060.060.050.050.040.040.030.030.020.020.010.0127 32 37 42 47 52 57 62 6727 32
22、37 42 47 52 57 62 67频率频率组距组距O(3 3)因为)因为0.06+0.18+0.32+0.14=0.70.06+0.18+0.32+0.14=0.7,故年龄在故年龄在32325252岁的知识分子约占岁的知识分子约占70%.70%.讲课人:邢启强24巩固练习巩固练习1.知知识识辨辨析析(1 1)在在频频率率分分布布直直方方图图中中得得不不到到原原始始的的数数据据内内容容,把把数数据据表表示示成成直直方方图图后后,原原有有的的具具体体数数据据信信 息息就就被被抹抹掉掉了了.()(2 2)在在频频率率分分布布直直方方图图中中,纵纵轴轴可可以以用用频频率率来来表表示示.()(3
23、3)样样本本量量越越大大,估估计计得得越越准准确确.()(4 4)在在频频率率分分布布直直方方图图中中,各各小小长长方方形形的的面面积积为为1.1.()(5 5)在在频频率率分分布布直直方方图图中中,各各小小长长方方形形的的面面积积之之比比 等等于于各各组组频频率率之之比比.()频频率率组组距距面面积积和和为为1 1讲课人:邢启强252.320.125,一一个个容容量量为为 的的样样本本,已已知知某某组组样样本本的的频频率率为为那那么么该该组组样样本本的的频频数数为为()A.2B.4C.6D.83.725829一一个个样样本本的的容容量量为为,分分成成 组组,已已知知第第一一、五五组组的的频频
24、数数都都为为,第第二二、四四组组的的频频率率都都为为,则则第第三三组组的的频频数数为为()A.16B.20C.24D.36BC=小小组组频频数数频频率率样样本本容容量量巩固练习巩固练习讲课人:邢启强260.030.050.07体重体重(kg)频率频率/组距组距54.5 58.5 62.5 66.5 70.5 74.5 4.10014-15kg为为了了解解某某地地高高一一学学生生的的身身体体发发育育情情况况,抽抽查查了了该该地地区区名名年年龄龄在在岁岁的的男男生生体体重重(),得得到到频频率率分分布布直直方方图图如如下下:10056.5,64.5A.20B.30C.40D.50根根据据上上图图可
25、可得得这这名名学学生生中中体体重重在在 的的学学生生人人数数是是()C0.03+0.05+0.05+0.072=0.4 频频率率:()0.4100=40 频频数数:巩固练习巩固练习讲课人:邢启强275.10050350kw h 从从某某小小区区抽抽取取户户居居民民进进行行月月用用电电量量调调查查,发发现现他他们们的的用用电电量量都都在在之之间间,进进行行适适当当分分组组后后(每每组组为为左左闭闭右右开开的的区区间间),画画出出频频率率分分布布直直方方图图如如图图所所示示._.x(1 1)直直方方图图中中 的的值值为为100,250)_.(2 2)在在被被调调查查的的用用户户中中,用用电电量量落
26、落在在区区间间内内的的户户数数为为0.120.180.30.120.06(1)1(0.12 0.18 0.3 0.12 0.06)0.22 0.22 500.0044 0.0044(2)(0.18 0.3 0.22)10070 70巩固练习巩固练习讲课人:邢启强286.960.如如图图,胡胡晓晓统统计计了了他他和和爸爸爸爸 月月的的手手机机通通话话明明细细单单,发发现现他他爸爸爸爸该该月月共共通通话话次次胡胡晓晓按按每每次次通通话话时时间间长长短短进进行行分分组组(每每组组为为左左闭闭右右开开区区间间),画画出出了了频频率率分分布布直直方方图图.15,20),20,30)20,30)15,20
27、)(1 1)通通话话时时长长在在区区间间内内的的次次数数分分别别为为多多少少?(2 2)在在区区间间上上的的小小长长方方形形高高度度低低于于上上的的小小长长方方形形的的高高度度,说说明明什什么么?0.30.230.120.150.2912,20,30)15,20)/20,30)15,20)20,30)15,20)(2 2)即即区区间间上上的的频频率率/组组距距小小于于区区间间上上的的频频率率 组组距距,说说明明在在平平均均意意义义上上,区区间间上上每每单单位位区区间间长长度度内内的的通通话话次次数数少少于于区区间间上上的的,或或者者通通话话时时长长出出现现在在区区间间上上的的比比出出现现在在上
28、上更更稀稀疏疏.频频率率反反映映了了各各组组样样本本观观测测数数据据的的疏疏密密程程度度.组组距距巩固练习巩固练习讲课人:邢启强29巩固练习巩固练习 7为了让学生了解环保知识,增强环保意识,为了让学生了解环保知识,增强环保意识,某中学举行了一次某中学举行了一次“环保知识竞赛环保知识竞赛”,共有,共有900名学生参加了名学生参加了这次竞赛为了解本次竞赛成绩情况,从中抽取了部分学生这次竞赛为了解本次竞赛成绩情况,从中抽取了部分学生的成绩的成绩(得分均为整数,满分为得分均为整数,满分为100分分)进行统计请你根据尚进行统计请你根据尚未完成的频率分布表和频率分布直方图,解答下列问题:未完成的频率分布表
29、和频率分布直方图,解答下列问题:分组分组频数频数频率频率50.5,60.5)40.0860.5,70.5)0.1670.5,80.5)1080.5,90.5)160.3290.5,100.5合计合计50(1)填充频率分布表的空格填充频率分布表的空格(将答案直接填在表格内将答案直接填在表格内);(2)补全频率分布直方图补全频率分布直方图讲课人:邢启强30分组分组频数频数频率频率50.5,60.5)40.0860.5,70.5)80.1670.5,80.5)100.2080.5,90.5)160.3290.5,100.5120.24合计合计501.00频率分布直方图频率分布直方图频率分布表频率分布
30、表讲课人:邢启强318.对“小康县”的经济评价标准如下:年人均收入不小于7 000元;年人均食品支出不大于收入的35%.某县有40万人,调查数据如下:巩固练习巩固练习年人均收入/元)02 0004 0006 0008 00010 00012 00016 000人数/万人63556753则该县()A.是小康县B.达到标准,未达到标准,不是小康县C.达到标准,未达到标准,不是小康县D.两个标准都未达到,不是小康县B讲课人:邢启强32用用数数学学眼眼光光观观察察世世界界;用用数数学学思思维维思思考考世世界界;用用数数学学语语言言表表达达世世界界(1 1)求求极极差差;(2 2)决决定定组组距距和和组
31、组数数;(3 3)将将数数据据分分组组;(4 4)列列频频率率分分布布表表;(5 5)画画频频率率分分布布直直方方图图.画画频频率率分分布布直直方方图图的的一一般般步步骤骤为为:频频率率分分布布表表与与频频率率分分布布直直方方图图:课堂小结课堂小结讲课人:邢启强331.1.频率分布是指一个样本数据在各个小范围内所占比例频率分布是指一个样本数据在各个小范围内所占比例的大小,总体分布是指总体取值的频率分布规律的大小,总体分布是指总体取值的频率分布规律.我们我们通常用样本的频率分布表或频率分布直方图去估计总体通常用样本的频率分布表或频率分布直方图去估计总体的分布的分布.2.2.频率分布表和频率分布直
32、方图,是对相同数据的两种不频率分布表和频率分布直方图,是对相同数据的两种不同表达方式同表达方式.用紧凑的表格改变数据的排列方式和构成形用紧凑的表格改变数据的排列方式和构成形式,可展示数据的分布情况式,可展示数据的分布情况.通过作图既可以从数据中提通过作图既可以从数据中提取信息,又可以利用图形传递信息取信息,又可以利用图形传递信息.3.3.样本数据的频率分布表和频率分布直方图,是通过样本数据的频率分布表和频率分布直方图,是通过各小组数据在样本容量中所占比例大小来表示数据的各小组数据在样本容量中所占比例大小来表示数据的分布规律,它可以让我们更清楚的看到整个样本数据分布规律,它可以让我们更清楚的看到整个样本数据的频率分布情况,并由此估计总体的分布情况的频率分布情况,并由此估计总体的分布情况.课堂小结课堂小结