1、本章回顾本章回顾 本章介绍了从总体中抽取样本的常用方法,并通过本章介绍了从总体中抽取样本的常用方法,并通过实例,研究了如何利用样本对总体的分布规律、整体实例,研究了如何利用样本对总体的分布规律、整体水平、稳定程度及相关关系等特性进行估计和预测水平、稳定程度及相关关系等特性进行估计和预测总体总体抽样抽样分析分析估计估计简单随机抽样简单随机抽样 系系 统统 抽抽 样样 分分 层层 抽抽 样样 样样 本本 分分 布布样样 本本 特特 征征 数数 总总 体体 分分 布布 总总 体体 特特 征征 数数 当总体容量大或检测具有一定的破坏性时,可以从总体当总体容量大或检测具有一定的破坏性时,可以从总体中抽取
2、适当的样本,通过对样本的分析、研究,得到对总体中抽取适当的样本,通过对样本的分析、研究,得到对总体的估计,这就是统计分析的基本过程而用样本估计总体就的估计,这就是统计分析的基本过程而用样本估计总体就是统计思想的本质是统计思想的本质 要准确估计总体,必须合理地选择样本,我们学习的是要准确估计总体,必须合理地选择样本,我们学习的是最常用的三种抽样方法获取样本数据后,将其用频率分布最常用的三种抽样方法获取样本数据后,将其用频率分布表、频率直方图、频率折线图或茎叶图表示后,蕴含于数据表、频率直方图、频率折线图或茎叶图表示后,蕴含于数据之中的规律得到直观的揭示运用样本的平均数可以对总体之中的规律得到直观
3、的揭示运用样本的平均数可以对总体水平作出估计,用样本的极差、方差(标准差)可以估计总水平作出估计,用样本的极差、方差(标准差)可以估计总体的稳定程度体的稳定程度 对两个变量的样本数据进行相关性分析,可发现存在于对两个变量的样本数据进行相关性分析,可发现存在于现实世界中的回归现象用最小二乘法研究回归现象,得到现实世界中的回归现象用最小二乘法研究回归现象,得到的线性回归方程可用于预测和估计,为决策提供依据的线性回归方程可用于预测和估计,为决策提供依据 总之,统计的基本思想是从样本数据中发现统计规律,总之,统计的基本思想是从样本数据中发现统计规律,实现对总体的估计实现对总体的估计说明:说明:1.抽样
4、公平性原则抽样公平性原则等概率等概率随机性;随机性;2.抽签法适用与总体中个数抽签法适用与总体中个数N不大的情形不大的情形.1.将总体中的所有个体编号(号码可以从到将总体中的所有个体编号(号码可以从到);2.将到将到 这这 个号码写在形状、大小相同的号签上个号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等制作);(号签可以用小球、卡片、纸条等制作);3.将号签放在同一箱中,并搅拌均匀;将号签放在同一箱中,并搅拌均匀;4.从箱中每次抽出个号签,并记录其编号,连续抽从箱中每次抽出个号签,并记录其编号,连续抽取次;取次;5.从总体中将与抽到的签的编号相一致的个体取出从总体中将与抽到的签的
5、编号相一致的个体取出.2.1 2.1 抽样方法抽样方法1.简单随机抽样简单随机抽样()抽签法()抽签法例题例题1 系统抽样(等距抽样)系统抽样(等距抽样)例子例子.为了解高一年级为了解高一年级500名同学的视力情况,试用系名同学的视力情况,试用系统抽样从中抽取统抽样从中抽取50名同学进行检查。名同学进行检查。S1:把:把500人从人从1到到500编号;编号;S3:在第一段:在第一段110号中用的号中用的 的方法的方法 抽取一个号码,比如抽取一个号码,比如3;S4:依次抽取:依次抽取 这这50个号码。个号码。这样就得到了一个容量为这样就得到了一个容量为50的样本。的样本。S2:计算分段间隔为:计
6、算分段间隔为 k=人。把编号从小人。把编号从小 到大依次分成到大依次分成 段,每段段,每段 人;人;编号编号分段分段定首号定首号取余号取余号501050050=102.1 抽样方法(2).随机数表法:随机数表法:将总体中的将总体中的N个个体编号时可以从个个体编号时可以从0开始,例如当开始,例如当N=100时时,编号可以是编号可以是00,01,02,99.这样,总体中的所有个体均可用两位这样,总体中的所有个体均可用两位数字号码表示,便于使用随机数表数字号码表示,便于使用随机数表 当随机地选定开始的数后,读数的方向可以向右,也可以向当随机地选定开始的数后,读数的方向可以向右,也可以向左、向上、向下
7、等由此可见,用随机数表法抽取样本的步骤是:左、向上、向下等由此可见,用随机数表法抽取样本的步骤是:()对总体中的个体进行编号(每个号码位数一致);()对总体中的个体进行编号(每个号码位数一致);()在随机数表中任选一个数作为开始;()在随机数表中任选一个数作为开始;()从选定的数开始按一定的方向读下去,得到的数码()从选定的数开始按一定的方向读下去,得到的数码若不在编号中,则跳过;若在编号中,则取出;如果得到若不在编号中,则跳过;若在编号中,则取出;如果得到的号码前面已经取出,也跳过;如此继续下去,直到取满的号码前面已经取出,也跳过;如此继续下去,直到取满为止;为止;()根据选定的号码抽取样本
8、()根据选定的号码抽取样本将总体中的将总体中的N个个体编号时可以从个个体编号时可以从0开始,例如当开始,例如当N=100时时,编号可以是编号可以是00,01,02,99.这样,总体中的所有个体均可用两位这样,总体中的所有个体均可用两位数字号码表示,便于使用随机数表数字号码表示,便于使用随机数表 当随机地选定开始的数后,读数的方向可以向右,也可以向当随机地选定开始的数后,读数的方向可以向右,也可以向左、向上、向下等由此可见,用随机数表法抽取样本的步骤是:左、向上、向下等由此可见,用随机数表法抽取样本的步骤是:()对总体中的个体进行编号(每个号码位数一致);()对总体中的个体进行编号(每个号码位数
9、一致);()在随机数表中任选一个数作为开始;()在随机数表中任选一个数作为开始;()从选定的数开始按一定的方向读下去,得到的数码()从选定的数开始按一定的方向读下去,得到的数码若不在编号中,则跳过;若在编号中,则取出;如果得到若不在编号中,则跳过;若在编号中,则取出;如果得到的号码前面已经取出,也跳过;如此继续下去,直到取满的号码前面已经取出,也跳过;如此继续下去,直到取满为止;为止;()根据选定的号码抽取样本()根据选定的号码抽取样本例子:下面我们用随机数表法求解本节开头的问题下面我们用随机数表法求解本节开头的问题()对()对50个同学进行编号,编号分别为个同学进行编号,编号分别为01,02
10、,03,50;()在随机数表中随机地确定一个数作为开始,如第行第()在随机数表中随机地确定一个数作为开始,如第行第29列的列的数开始为便于说明,我们将附表中的第行至第行摘录如下:数开始为便于说明,我们将附表中的第行至第行摘录如下:16 22 77 94 39 49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 6484 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 7663 01 63 78 59 16 95 55 67 19 98 10 5
11、0 71 75 12 86 73 58 07 44 39 52 38 7933 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54 57 60 86 32 44 09 47 27 96 54 49 17 46 09 62 90 52 84 77 27 08 02 73 43 28 第第29列列第行第行()从数开始向右读下去,每次读两位,凡不在()从数开始向右读下去,每次读两位,凡不在01到到50中的数跳过中的数跳过去不读,遇到已经读过的数也跳过去,便可依次得到去不读,遇到已经读过的数也跳过去,便可依次得
12、到12,07,44,39,38,33,21,34,29,42这这10个号码,就是所要抽取的个号码,就是所要抽取的10个样本个体的号码个样本个体的号码小结:小结:1.抽样无放回;抽样无放回;2.抽样公平性;抽样公平性;3.抽签法,随机数表法抽签法,随机数表法简单的随机抽样简单的随机抽样.系统抽样的步骤为:系统抽样的步骤为:()采用随机的方式将总体中的个体编号;()采用随机的方式将总体中的个体编号;()将整个的编号按一定的间隔(设为()将整个的编号按一定的间隔(设为k)分段,)分段,当当 (N为总体中的个体数,为总体中的个体数,n为样本容量)是整数为样本容量)是整数时,时,k=;当;当 不是整数时
13、,从总体中剔除一些个不是整数时,从总体中剔除一些个体,使剩下的总体中个体的个数体,使剩下的总体中个体的个数能被能被 整除,这整除,这时时k=,并将剩下的总体重新编号;,并将剩下的总体重新编号;()在第一段中用简单随机抽样确定起始的个体编()在第一段中用简单随机抽样确定起始的个体编号号l;()将编号为()将编号为l l,l l+k,l l+2k,l l+(n-1)k的个的个体抽出体抽出NnNnNn1Nn2.系统抽样:系统抽样:第四步将编号为第四步将编号为 ,+10,+20,+610 的个体抽出,组成样本的个体抽出,组成样本第三步在第一段第三步在第一段000,001,002,009这十这十个编号中
14、用简单随机抽样确定起始号码个编号中用简单随机抽样确定起始号码 ;因为因为624的的10约为约为62,624不能被不能被62整除,整除,为了保证为了保证“等距等距”分段,应先剔除人分段,应先剔除人例;例;某单位在岗职工共某单位在岗职工共624人,为了调查工人用于上班途人,为了调查工人用于上班途中的时间,决定抽取中的时间,决定抽取10的工人进行调查如何采用系统的工人进行调查如何采用系统抽样方法完成这一抽样?抽样方法完成这一抽样?0i分析分析:第一步将第一步将624名职工用随机方式进行编号;名职工用随机方式进行编号;解:解:第二步从总体中剔除人(剔除方法可用随机数第二步从总体中剔除人(剔除方法可用随
15、机数表法),将剩下的表法),将剩下的620名职工重新编号(分别为名职工重新编号(分别为000,001,002,619),并分成),并分成62段;段;0i0i0i0i小结:小结:1.适用与总体中个体无明显的层次差异适用与总体中个体无明显的层次差异;2.系统抽样系统抽样等距抽样等距抽样.一般地,当总体由差异明显的几个部分组成时,一般地,当总体由差异明显的几个部分组成时,为了使样本更客观地反映总体情况,我们常常将总体为了使样本更客观地反映总体情况,我们常常将总体中的个体按不同的特点分成层次比较分明的几部分,中的个体按不同的特点分成层次比较分明的几部分,然后按各部分在总体中所占的比实施抽样,这种抽样然
16、后按各部分在总体中所占的比实施抽样,这种抽样方法叫方法叫分层抽样分层抽样(stratified sampling),其中所分),其中所分成的各个部分称为成的各个部分称为“层层”分层抽样的步骤是:分层抽样的步骤是:()将总体按一定标准分层;()将总体按一定标准分层;()计算各层的个体数与总体的个体数的()计算各层的个体数与总体的个体数的比;比;()按各层个体数占总体的个体数的比确定()按各层个体数占总体的个体数的比确定各层应抽取的样本容量;各层应抽取的样本容量;()在每一层进行抽样(可用简单随机抽样()在每一层进行抽样(可用简单随机抽样或系统抽样)或系统抽样)3.分层抽样分层抽样例某电视台在因特
17、网上就观众对某一节目的喜爱例某电视台在因特网上就观众对某一节目的喜爱程度进行调查,参加调查的总人数为程度进行调查,参加调查的总人数为1200人,其中人,其中持各种态度的人数如下表所示:持各种态度的人数如下表所示:很喜爱喜爱一般不喜爱2435456739261072电视台为进一步了解观众的具体想法和意见,打算从电视台为进一步了解观众的具体想法和意见,打算从中抽取中抽取60人进行更为详细的调查,应怎样进行抽样?人进行更为详细的调查,应怎样进行抽样?分析:分析:因为总体中人数较多,所以不宜采用简单随机因为总体中人数较多,所以不宜采用简单随机抽样又由于持不同态度的人数差异较大,故也不宜抽样又由于持不同
18、态度的人数差异较大,故也不宜用系统抽样方法,而以分层抽样为妥用系统抽样方法,而以分层抽样为妥说明:说明:1.适用与总体中个体有明显的层次差异,层次适用与总体中个体有明显的层次差异,层次分明的特点;分明的特点;2.总体中个体数总体中个体数 N较大时,系统抽样,分层抽样较大时,系统抽样,分层抽样二者选其一二者选其一.类别类别特点特点相互联系相互联系适用范围适用范围共同点共同点简单随简单随机抽样机抽样l从总体中逐个从总体中逐个抽取抽取l总体中总体中的个体个的个体个数较少数较少l抽样抽样过程中过程中每个个每个个体被抽体被抽到的可到的可能性相能性相同同系统系统抽样抽样l将总体平均分将总体平均分成几部分,
19、按事成几部分,按事先确定的规则分先确定的规则分别在各部分中抽别在各部分中抽取取l在起始部在起始部分抽样时,分抽样时,采用采用 简简 单随单随机抽样机抽样l总体中总体中的的 个体个体个数较多个数较多分层分层抽样抽样l将总体分成几将总体分成几层,按各层个体层,按各层个体数之比抽取数之比抽取l各层抽样时各层抽样时采用简单随采用简单随机抽样或系机抽样或系统抽样统抽样l总体由总体由差差 异明异明显的显的 几几部分组成部分组成 以上我们学习了三种抽样方法,这些抽样方法以上我们学习了三种抽样方法,这些抽样方法的特点及适用范围可归纳如下:的特点及适用范围可归纳如下:1.现有以下两项调查:现有以下两项调查:某装
20、订厂平均每某装订厂平均每小时大约装订图书小时大约装订图书362册,要求检验员每册,要求检验员每小时抽取小时抽取40册图书册图书,检查其装订质量状况;检查其装订质量状况;某市有大型、中型与小型的商店共某市有大型、中型与小型的商店共1500家家,三者数量之比为三者数量之比为1 5 9为了调查全为了调查全市商店每日零售额情况,抽取其中市商店每日零售额情况,抽取其中15家进家进行调查行调查.完成完成、这两项调查宜采用的这两项调查宜采用的抽样方法依次是抽样方法依次是 ()A、简单随机抽样法,分层抽样法、简单随机抽样法,分层抽样法 B、分层抽样法,简单随机抽样法、分层抽样法,简单随机抽样法C、分层抽样法,
21、系统抽样法、分层抽样法,系统抽样法 D、系统抽样法,分层抽样法、系统抽样法,分层抽样法D2.要从已编号(要从已编号(160)的)的60枚最新枚最新研制的某型导弹中随机抽取研制的某型导弹中随机抽取6枚来进枚来进行发射试验行发射试验,用每部分选取的号码间用每部分选取的号码间隔一样的系统抽样方法确定所选取隔一样的系统抽样方法确定所选取的的6枚导弹的编号可能是枚导弹的编号可能是 ()A5,10,15,20,25,30 B3,13,23,33,43,53 C1,2,3,4,5,6 D2,8,14,20,26,32B3.某校有行政人员、教学人员和教辅某校有行政人员、教学人员和教辅人员共人员共200人,其中
22、教学人员与教辅人,其中教学人员与教辅人员的比为人员的比为10 1,行政人员有,行政人员有24人,人,现采取分层抽样容量为现采取分层抽样容量为50的样本,那的样本,那么行政人员应抽取的人数为么行政人员应抽取的人数为 ()A 3 B 4 C 6 D 8C教学人员和教辅人员应抽取的人数教学人员和教辅人员应抽取的人数分别为分别为_和和_.404用样本估计总体用样本估计总体 1.作样本频率分布直方图的步骤作样本频率分布直方图的步骤:(1 1)求极差;)求极差;(2 2)决定组距与组数)决定组距与组数;(;(组数极差组数极差/组距组距)(3 3)将数据分组;)将数据分组;(4 4)列频率分布表(分组,频数
23、,频率);)列频率分布表(分组,频数,频率);(5 5)画频率分布直方图。)画频率分布直方图。例子:例子:2009年义乌小商品博览会共设国际标准展位年义乌小商品博览会共设国际标准展位5000个。为了解展览期间成交状况,现从中抽取个。为了解展览期间成交状况,现从中抽取100展展位的成交额(万元),制成如下频率分布表和频率分布位的成交额(万元),制成如下频率分布表和频率分布直方图:直方图:频率频率/组距组距150 170 190 210 230 2500.0060.0100.0140.0180.0220.026万元万元0.040.050.360.500.05例子:例子:2009年义乌小商品博览会共
24、设国际标准展位年义乌小商品博览会共设国际标准展位5000个。为了解展览期间成交状况,现从中抽取若干展个。为了解展览期间成交状况,现从中抽取若干展位的成交额(万元),制成如下频率分布表和频率分布位的成交额(万元),制成如下频率分布表和频率分布直方图:直方图:频率频率/组距组距150 170 190 210 230 2500.0060.0100.0140.0180.0220.026万元万元0.040.050.360.500.05(1 1)众数;)众数;(2 2)中位数;)中位数;(3 3)平均数;)平均数;最高矩形区间中点最高矩形区间中点面积相等(概率面积相等(概率0.5)区间中点与相应概率区间中
25、点与相应概率之积的和之积的和小结:小结:1.频率直方图中矩形条的面积频率直方图中矩形条的面积=组距组距=频率;频率;2.频率分布表频率分布表 频率直方图频率直方图 后者更直观后者更直观形象地反映样本的分布规律形象地反映样本的分布规律.频率组距2.3 总体特征数的估计1.平均数平均数12naaaan2.方差,标准差方差,标准差设一组样本数据设一组样本数据 ,其平均数为其平均数为 ,则称,则称12,nxxxx2211()niisxxn211()niisxxn为这个样本的方差,其算术平方根为这个样本的方差,其算术平方根 为样本的标准差为样本的标准差,分别简称样本方差、样本标准差分别简称样本方差、样本
26、标准差小结:小结:1.方差,标准差是用来刻画样本的稳定性;方差,标准差是用来刻画样本的稳定性;2.比较的标准比较的标准越小越好。越小越好。例:甲、乙两种冬水稻试验品种连续例:甲、乙两种冬水稻试验品种连续5年的平均单位年的平均单位面积产量如下(单位:面积产量如下(单位:t/hm2),试根据这组数据),试根据这组数据估计哪一种水稻品种的产量比较稳定估计哪一种水稻品种的产量比较稳定品种第1年第2年第3年第4年第5年甲9.89.910.11010.2乙9.410.310.89.79.82.4线性相关关系线性相关关系:能用直线方程能用直线方程 ybxa近似表示的相关关系叫做近似表示的相关关系叫做线性相关
27、关系线性相关关系.x1x2x3xnxy1y2y3yny线性回归方程线性回归方程:一般地一般地,设有设有n个观察数据如下:个观察数据如下:2221122()().()nnQybxaybxaybxa ybxa当当a,b使使取得最小值时取得最小值时,就称就称这这n对数据的对数据的线性回归方程线性回归方程,该方程所表该方程所表示的直线称为示的直线称为回归直线回归直线.为拟合为拟合._y25x81.05x.0y.1的估计值为的估计值为时,时,则,则已知回归方程已知回归方程 ._a_,_b.2 数数用最小二乘法求回归系用最小二乘法求回归系11.697.7.小王记录了产量小王记录了产量x x(吨)和能耗(吨
28、)和能耗y y(吨标准煤)对应(吨标准煤)对应的四组数据,用最小二乘法求出了的四组数据,用最小二乘法求出了 ,不慎将一滴墨水滴于表内,表中第二行第四列的数据不慎将一滴墨水滴于表内,表中第二行第四列的数据已无法看清,据您判断这个数据应该是多少?已无法看清,据您判断这个数据应该是多少?x3456y2.5344.5x3456y2.5344.5解:解:所以线性回归方程为所以线性回归方程为 y=0.7x+0.355.3,5.4yx7.05.44865.35.445.662b35.0297.05.3a由系数公式可知,由系数公式可知,.D.Cyx.Byx.A.3性关系性关系相关关系是一种非确定相关关系是一种非确定;变量之间有无相关关系变量之间有无相关关系点图,可判断点图,可判断由两个变量所对应的散由两个变量所对应的散唯一确定;唯一确定;不能由不能由么么确定关系,那确定关系,那变量之间的关系若是非变量之间的关系若是非都是变量;都是变量;和和在线性回归分析中,在线性回归分析中,)下列说法不正确的是(下列说法不正确的是(CA.5.75 1.75yxB.1.755.75yxC.1.755.75yxD.5.75 1.75yx4.4.三点三点(3,10),(7,20),(11,24)(3,10),(7,20),(11,24)的的线性回归方程是线性回归方程是 ()()D