1、人 教 A 版 高 中 数 学 必 修 第 二 册9.2 用样本估计总体用样本估计总体 9.2.1 总体取值规律的估计总体取值规律的估计课堂引入课堂引入 收集数据是为了寻找数据中蕴含的信收集数据是为了寻找数据中蕴含的信息。因为实际问题中数据多而杂乱,往往息。因为实际问题中数据多而杂乱,往往无法直接从原始数据中发现规律,所以需无法直接从原始数据中发现规律,所以需要根据问题的背景特点,选择合适的统计要根据问题的背景特点,选择合适的统计图表对数据进行整理和直接描述。在此基图表对数据进行整理和直接描述。在此基础上,通过数据分析,找出数据中蕴含的础上,通过数据分析,找出数据中蕴含的信息,就可以用这些信息
2、来解决实际问题信息,就可以用这些信息来解决实际问题了。了。提出问题提出问题 问题问题1 1:我国是世界上严重缺水的国家之一,城市缺水我国是世界上严重缺水的国家之一,城市缺水问题较为突出。某市政府为了节约生活用水,计划对居问题较为突出。某市政府为了节约生活用水,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准月均用水量标准 ,用水量不超过,用水量不超过 的部分按平价收的部分按平价收费,超出费,超出 的部分按议价收费。如果希望确定一个比的部分按议价收费。如果希望确定一个比较合理的标准,以使大部分居民用水的水费支出不受影较合理的标
3、准,以使大部分居民用水的水费支出不受影响,你认为需要做那些工作?响,你认为需要做那些工作?aaa为了确定一个较为合理的用水标准,必须先了解在全市所有居为了确定一个较为合理的用水标准,必须先了解在全市所有居民用户中,月用水量在不同范围内的居民所占的比例情况。民用户中,月用水量在不同范围内的居民所占的比例情况。解决问题解决问题 由于全市居民用户很多,通常采用抽样调查的方由于全市居民用户很多,通常采用抽样调查的方式,通过分析样本观测数据,来估计全市居民用式,通过分析样本观测数据,来估计全市居民用户月均用水量的分布情况。户月均用水量的分布情况。这个问题中,这个问题中,总体总体是该市的全体居民用户,是该
4、市的全体居民用户,个体个体是每户居民用户,是每户居民用户,调查的变量调查的变量是居民用户的均用是居民用户的均用水量。水量。解决问题解决问题 假设通过随机抽样,获得了假设通过随机抽样,获得了100100户居民用户的月均用户居民用户的月均用水量数据水量数据:( (单位:单位:t t) )从这组数据我们能发现什么信息呢?从这组数据我们能发现什么信息呢? 很容易发现的是一个居民月平均用水量的最小值时很容易发现的是一个居民月平均用水量的最小值时1.3t1.3t,最大值是,最大值是28.0t28.0t,其他在,其他在1.3t1.3t28.0t28.0t之间之间. . 分析数据的一种基本方法是分析数据的一种
5、基本方法是用图将它们画出来,或者用用图将它们画出来,或者用紧凑的表格改变数据的排列方式紧凑的表格改变数据的排列方式. .(一)从数据中提取信息,(二)利用图形传递信息。解决问题解决问题 初中我们曾经学过初中我们曾经学过频数分布图频数分布图和和频数分布表频数分布表,这使我们能够清楚地知道数据分布在各个小组的个这使我们能够清楚地知道数据分布在各个小组的个数数. . 下面将要学习下面将要学习的频率分布表和频率分布图的频率分布表和频率分布图,则是,则是从各个从各个小组数据在样本容量中所占比例大小的角度,小组数据在样本容量中所占比例大小的角度,来表示数据分布来表示数据分布的规律的规律. .它可以使我们看
6、到整个样本数据的它可以使我们看到整个样本数据的频率分布频率分布情况情况. .复习复习 频率分布相关概念频率分布相关概念 频率:频率:样本中某个组的频数和样本容量的比,样本中某个组的频数和样本容量的比,叫做该数据的叫做该数据的频率频率。频率分布的表示形式有:频率分布的表示形式有:样本频率分布表样本频率分布表样本频率分布直方图样本频率分布直方图样本频率分布折线图样本频率分布折线图样本容量频数频率 频数:频数:在统计学中,将样本按照一定的方法分成若干在统计学中,将样本按照一定的方法分成若干组,每组内含有这个样本的个体的数目叫做组,每组内含有这个样本的个体的数目叫做频数频数频率分布频率分布是指一个样本
7、数据在各个小范围内所是指一个样本数据在各个小范围内所占比例的大小。占比例的大小。复习复习 第一步第一步: 求极差求极差(一组数据中的最大值与(一组数据中的最大值与最小值的差)最小值的差). .知识探究(一):样本频率分布表知识探究(一):样本频率分布表思考思考1 1:上述上述100100个数据中的个数据中的最大值和最小值分别是什么?最大值和最小值分别是什么?由此说明样本数据的变化范围由此说明样本数据的变化范围是什么?是什么?1.31.328.028.0思考思考2:分成多少组合适呢?分成多少组合适呢?第二步第二步: 决定组距与组数决定组距与组数: 组距组距:指每个小组的两个端点的距离;指每个小组
8、的两个端点的距离;组数组数:k=k=极差极差组距,若组距,若k k为整数,为整数,则组数则组数=k=k,否则,组数,否则,组数=k+1.=k+1.将数据分组,当数据在将数据分组,当数据在100个以个以内时,内时, 按数据多少常分按数据多少常分5-12组。组。(28.01.3)38.9.将8.9取整故,可取组距=3,组数=9如果将上述如果将上述100个数据按组个数据按组距为距为3进行分组,那么这进行分组,那么这些数据共分为多少组?些数据共分为多少组?引入新知引入新知 第四步:列频率分布表第四步:列频率分布表. . 计算各小组的频率,作出计算各小组的频率,作出下面的下面的频率分布表频率分布表. .
9、第三步:确定分点,将数据分组第三步:确定分点,将数据分组. .以组距为以组距为3 3将数据分组时,将数据分组时,可以分成以下可以分成以下9 9组:组:1.2,4.2),4.2,7.2),1.2,4.2),4.2,7.2),25.2.28.2.,25.2.28.2.知识探究(一):频率分布表知识探究(一):频率分布表思考思考3:各组数据的取值各组数据的取值范围可以如何设定?范围可以如何设定?各组均为左闭右开区间,最后一组是闭区间 思考思考4: 如何统计上述如何统计上述100100个数据在各个数据在各组中的频数组中的频数? ?如何计算样本数据在如何计算样本数据在各组中的频率各组中的频率? ?你能将
10、这些数据用你能将这些数据用表格反映出来吗表格反映出来吗? ?引入新知引入新知 频率分布表一般分五列频率分布表一般分五列1 1、“分组分组”,2 2、“频数累计频数累计(可省),(可省),3 3、“频数频数”,4 4、“频率频率”, , 5 5、“频率频率/ /组距组距” 最后一行是合计最后一行是合计频率频率/组距组距0.0770.1070.0430.0300.0300.0170.0100.0130.007引入新知引入新知 频率分布直方图频率分布直方图引入新知引入新知 注:注:1、横轴表示月均用水量,纵轴表示:、横轴表示月均用水量,纵轴表示: 。频率频率组距组距这里,这里, 实际上就是频率分布直
11、方图中各小长方实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度。形的高度,它反映了各组样本观测数据的疏密程度。频率频率组距组距2、小长方形的面积、小长方形的面积=组距组距 =频率频率。频率频率组距组距所以各小长方形的面积表示相应各组的频率。各小长方所以各小长方形的面积表示相应各组的频率。各小长方形的面积的总和等于形的面积的总和等于1.引入新知引入新知 1).1).求极差求极差( (即一组数据中最大值与最小值的差即一组数据中最大值与最小值的差) )2).2).决定组距与组数决定组距与组数(将数据分组)(将数据分组)3). 3). 将数据分组将数据分组方法小结:画频率
12、分布直方图的步骤方法小结:画频率分布直方图的步骤4).4).列出列出频率分布表频率分布表.(.(填写频率填写频率/ /组距一栏组距一栏) )5).5).画出频率分布直方图画出频率分布直方图. .组距:组距:指每个小组的两个端点的距离,指每个小组的两个端点的距离,组数:组数:将数据分组,当数据在将数据分组,当数据在100100个以内时,个以内时, 按数据多少常分按数据多少常分5-125-12组组. .引入新知引入新知 思考思考 观察频率分布表和频率分布直方图,你觉得这组数据中蕴含观察频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能从图表中发现居民用户月均用水量了哪些有用的信
13、息?你能从图表中发现居民用户月均用水量的哪些分布规律?你能给出适当的语言描述吗?的哪些分布规律?你能给出适当的语言描述吗? 从频率分布表中可以看出,样本观测数据落在各个小组从频率分布表中可以看出,样本观测数据落在各个小组的比例大小。例如,月均用水量在区间的比例大小。例如,月均用水量在区间4.24.2,7.2)7.2)内的居民内的居民用户最多,在区间用户最多,在区间1.21.2,4.2)4.2)内的次之,而月均用水量超过内的次之,而月均用水量超过16.216.2的各区间内数据所占比例较小,等等。的各区间内数据所占比例较小,等等。 从频率分布直方图可以看出,居民用户月均用水量的样从频率分布直方图可
14、以看出,居民用户月均用水量的样本观测数据的分布是不对称的,图形的左边高、右边低,右本观测数据的分布是不对称的,图形的左边高、右边低,右边有一个较长的边有一个较长的“尾巴尾巴”。这表明大部分居民用户的月均用。这表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在水量集中在一个较低值区域,尤其在1.21.2,7.2)7.2)最为集中,最为集中,少数用户居民的月均用水量偏多,而且随着月均用水量的增少数用户居民的月均用水量偏多,而且随着月均用水量的增加,居民用户数呈现降低趋势。加,居民用户数呈现降低趋势。数据分析数据分析 有了样本观测数据的频率分布,我们可以用它估计总体的取有了样本观测数据的频率
15、分布,我们可以用它估计总体的取值规律。根据值规律。根据100100户居民用户的月均用水量的频率分布,可以推户居民用户的月均用水量的频率分布,可以推测该市全体居民用户月均用水量也会有类似的分布,即大部分居测该市全体居民用户月均用水量也会有类似的分布,即大部分居民用户月均用水量集中在较低值区域。民用户月均用水量集中在较低值区域。 这使我们确定用水量标准时,可以定一个合适的值,以达到这使我们确定用水量标准时,可以定一个合适的值,以达到既不影响大多数居民用户的水费支出,又能节水的目的。既不影响大多数居民用户的水费支出,又能节水的目的。 需要注意的是,由于样本的随机性,这种估计可能会存在一需要注意的是,
16、由于样本的随机性,这种估计可能会存在一定误差,但这一误差一般不会影响我们对总体分布情况的大致了定误差,但这一误差一般不会影响我们对总体分布情况的大致了解。解。数据分析数据分析 课堂探究课堂探究 分别以分别以3 3和和2727为组数,对数据进行等距分组,画出频率分布直方图为组数,对数据进行等距分组,画出频率分布直方图,发现不同的组数对直方图呈现数据分布规律有什么影响?,发现不同的组数对直方图呈现数据分布规律有什么影响?从上图可以看出,同一组数据,组数不同,得到的直方图形上图可以看出,同一组数据,组数不同,得到的直方图形状也不尽相同。状也不尽相同。 图(图(1 1)中直方图的组数少、组距大,从图中
17、容易看出,)中直方图的组数少、组距大,从图中容易看出,数据分布的整体规律是随着月均用水量的增加,居民用户数数据分布的整体规律是随着月均用水量的增加,居民用户数的频率在降低,而且月均用水量在区间的频率在降低,而且月均用水量在区间1.21.2,10.2)10.2)内的居民内的居民用户数的频率,远大于在另两个区间用户数的频率,远大于在另两个区间10.210.2,19.2)19.2)和和19.219.2,28.2)28.2)内的频率,这说明大部分居民用户的月均用水量都少于内的频率,这说明大部分居民用户的月均用水量都少于10.2t10.2t。 图(图(2)中直方图的组数多、组距小,从图中可以看出,)中直
18、方图的组数多、组距小,从图中可以看出,数据主要集中在低值区,尤其在区间数据主要集中在低值区,尤其在区间5.2,6.2)内最为集中,内最为集中,从总体上看,随着月均用水量的增加,居民用户数的频率呈下从总体上看,随着月均用水量的增加,居民用户数的频率呈下降趋势,但存在个别区间频率变大或者缺少的现象。降趋势,但存在个别区间频率变大或者缺少的现象。数据分析数据分析 从上述分析可见,当频率分布直方图的组数少、组距大时,从上述分析可见,当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的
19、原始数据信息;据分布情况,损失了较多的原始数据信息; 当频率分布直方图的组数多、组距小时,保留了较多的原始当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点。不容易从中看出总体数据的分布特点。 再次指出,对于同一组数据,因为组距、组数不同而得到再次指出,对于同一组数据,因为组距、组数不同而得到不同形状的直方图,会给人以不同的频率分布印象,这种印不同形状的直方图,会给人以不同的频率分布印象,这种印象有时会影响人们对总体的判断。象有时会影响人们对总体的判
20、断。 因此,我们要注意积累数据分组、合理使用图表的经验。因此,我们要注意积累数据分组、合理使用图表的经验。数据分析数据分析 课堂引入课堂引入 除频率分布直方图外,我们在初中还学习过条形图、扇形图、除频率分布直方图外,我们在初中还学习过条形图、扇形图、折线图、频数分布直方图等。折线图、频数分布直方图等。 不同的统计图在表示数据上有不同的特点。例如,扇形不同的统计图在表示数据上有不同的特点。例如,扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折图主要用于直观描述不同类别或分组数据的频数和
21、频率,折线图主要用于描述数据随时间的变化趋势。不同的统计图适线图主要用于描述数据随时间的变化趋势。不同的统计图适用的数据类型也不同。例如,条形图适用于描述离散型的数用的数据类型也不同。例如,条形图适用于描述离散型的数据,直方图适用于描述连续型的数据等。据,直方图适用于描述连续型的数据等。 因此,在解决问题的过程中,要根据实际问题的特点,因此,在解决问题的过程中,要根据实际问题的特点,选择恰当的统计图对数据进行可视化描述,以使我们通过图选择恰当的统计图对数据进行可视化描述,以使我们通过图形直观地发现样本数据的分布情况,进而估计总体的分布规形直观地发现样本数据的分布情况,进而估计总体的分布规律。律
22、。课堂典例课堂典例 例例1、 已知某市已知某市2015年全年空气质量等级如表年全年空气质量等级如表9.2-2所示所示 选择合适的统计图描述数据,并回答下列问题:选择合适的统计图描述数据,并回答下列问题: (1 1)分析该市)分析该市20162016年年6 6月的空气质量情况;月的空气质量情况; (2 2)比较该市)比较该市20162016年年5 5月和月和6 6月的空气质量,哪个月的空气月的空气质量,哪个月的空气质量较好?质量较好? (3 3)比较该市)比较该市20162016年年6 6月与该市月与该市20152015年全年的空气质量,年全年的空气质量,20162016年年6 6月的空气质量是
23、否好于去年?月的空气质量是否好于去年?课堂典例课堂典例 解:(解:(1)作出)作出2016年年6月的不同空气质量等级的频数与频率分布表月的不同空气质量等级的频数与频率分布表 从表中可以看出,从表中可以看出,“优优“”“”良良“的天数达的天数达19天,占了整月的天,占了整月的63.33%,没有出现,没有出现”重度污染重度污染“和和”严重污染严重污染“。课堂典例课堂典例 我们可以用条形图和扇形图对数据作出直观的描述。我们可以用条形图和扇形图对数据作出直观的描述。从条形图可以看出,在前三个等级的占绝大多数,空气质从条形图可以看出,在前三个等级的占绝大多数,空气质量等级为量等级为”良良“的天数最多,后
24、三个等级的天数很少。的天数最多,后三个等级的天数很少。 从扇形图中可以看出,空气质量为从扇形图中可以看出,空气质量为“良良”的天数占了的天数占了总天数的一半,大约有三分之二为总天数的一半,大约有三分之二为“优优”“”“良良”,大多数,大多数“良良”和和“轻度污染轻度污染”。因此,整体上因此,整体上6月的空气质量不错。月的空气质量不错。课堂典例课堂典例 我们还可以用折线图展示空气质量指数随时间的变化情况我们还可以用折线图展示空气质量指数随时间的变化情况课堂典例课堂典例 解、解、(2) 5月月的不同空气质量等级的频数与频率分布表的不同空气质量等级的频数与频率分布表课堂典例课堂典例 为了便于比较,我
25、们选用复合条形图,将两组数据同时反映到为了便于比较,我们选用复合条形图,将两组数据同时反映到一个条形图上。通过条形图中柱的高低,可以更直观地进行两一个条形图上。通过条形图中柱的高低,可以更直观地进行两个月的空气质量的比较。个月的空气质量的比较。由上图和上表发现,由上图和上表发现,5月空气质量为月空气质量为“优优”和和“良良”的总的总天数比天数比6月多。所以,从整体上看,月多。所以,从整体上看,5月的空气质量略好于月的空气质量略好于6月,但月,但5月有重度污染,而月有重度污染,而6月没有。月没有。课堂典例课堂典例 (3)把)把2016年年6月和月和2015年全年的空气质量进行比较,由于年全年的空
26、气质量进行比较,由于一个月和一年的天数差别很大,所以直接通过频数比较没有意一个月和一年的天数差别很大,所以直接通过频数比较没有意义,应该转化成频率分布进行比较。可以通过二者的空气质量义,应该转化成频率分布进行比较。可以通过二者的空气质量指数的频率分布直方图或空气质量等级的频率分布条形图进行指数的频率分布直方图或空气质量等级的频率分布条形图进行比较。比较。课堂典例课堂典例 通过上图可以看出,虽然通过上图可以看出,虽然2016年年6月的空气质量为月的空气质量为“优优”的频率略低于的频率略低于2015年,但年,但“良良”的频率明显的频率明显高于高于2015年,而且年,而且2016年年6月中度以上的污
27、染天气月中度以上的污染天气频率明显小于频率明显小于2015年。所以从整体上看,年。所以从整体上看,2016年年6月的空气质量要好于月的空气质量要好于2015年全年的空气质量。年全年的空气质量。课堂典例课堂典例 总结:总结:1、不同的统计图在表示数据上有不同的特点、不同的统计图在表示数据上有不同的特点. 条形图条形图适用于描述离散型的数据;适用于描述离散型的数据; 直方图直方图适用描述连续型数据等适用描述连续型数据等. 2、不同的统计图适用的数据类型也不同、不同的统计图适用的数据类型也不同.扇形图扇形图主要用于直观描述各类数据占总数的比例;主要用于直观描述各类数据占总数的比例;条形图和直方图条形图和直方图主要用于直观描述不同类别或分组数据的主要用于直观描述不同类别或分组数据的频数和频率;频数和频率;折线图折线图主要用于描述数据随时间的变化趋势主要用于描述数据随时间的变化趋势.课堂小结课堂小结