1、第六章第六章 抽样分布与参数估计抽样分布与参数估计第六章第六章 抽样分布与参数估计抽样分布与参数估计 学习目标学习目标:1、理解抽样分布的特点;2、理解抽样估计的概念、特点、作用以及几个基本概念;3、掌握抽样误差的含义和影响抽样误差的主要因素素;4、熟练掌握抽样平均误差的计算;5、熟练掌握总体均值和总体成数的区间估计方法;6、掌握必要抽样数目的确定方法;7、能够正确选择抽样组织方式。6.1 抽样推断的概述 6.1.1 抽样推断的概念、特点和作用 6.1.2 抽样推断相关的几个基本概念 6.1.3 抽样误差 6.1.4 抽样调查的理论依据6.1.1 抽样推断的概念、特点和作用抽样推断的概念、特点
2、和作用 1、抽样推断的概念、抽样推断的概念 抽样推断抽样推断是按随机原则从全部研究对象中抽取一部分单位进行是按随机原则从全部研究对象中抽取一部分单位进行观察,根据样本资料计算样本的特征值,然后以样本的特征值,对观察,根据样本资料计算样本的特征值,然后以样本的特征值,对总体的特征值做出具有一定可靠性的估计和判断,以反映总体的数总体的特征值做出具有一定可靠性的估计和判断,以反映总体的数量特征和数量表现的一种统计方法。量特征和数量表现的一种统计方法。所谓所谓随机原则随机原则,即是在抽取样本时,排除人们主观意图的作,即是在抽取样本时,排除人们主观意图的作用,使得总体中的各单位均以相等的机会被抽中。随机
3、原则又称为用,使得总体中的各单位均以相等的机会被抽中。随机原则又称为等可能性原则。等可能性原则。2、抽样推断的特点、抽样推断的特点 (1)调查单位的确定是按随机原则从全部总体单位中抽取的。)调查单位的确定是按随机原则从全部总体单位中抽取的。(2)用部分单位的指标数值去推断和估计总体指标数值。)用部分单位的指标数值去推断和估计总体指标数值。(3)抽样调查中的抽样误差是不可避免的,事先是可以计算并)抽样调查中的抽样误差是不可避免的,事先是可以计算并加以控制的。加以控制的。6.1.1 抽样推断的概念、特点和作用抽样推断的概念、特点和作用 3、抽样推断的作用、抽样推断的作用 (1)有些现象是无法进行全
4、面调查的,为了测算全面资料,必)有些现象是无法进行全面调查的,为了测算全面资料,必须采用抽样调查的方法。须采用抽样调查的方法。(2)从理论上讲,有些现象虽然可以进行全面调查,但实际上)从理论上讲,有些现象虽然可以进行全面调查,但实际上没有必要或很难办到,也要采用抽样调查。没有必要或很难办到,也要采用抽样调查。(3)抽样调查的结果可以对全面调查的结果进行检查和修正。)抽样调查的结果可以对全面调查的结果进行检查和修正。(4)抽样调查可以用于工业生产过程的质量控制。)抽样调查可以用于工业生产过程的质量控制。(5)利用抽样调查原理,可以对某些总体的假设进行检验,来)利用抽样调查原理,可以对某些总体的假
5、设进行检验,来判别这种假设的真伪,依决定行动的取舍。判别这种假设的真伪,依决定行动的取舍。6.1.2.1 全及总体和抽样总体全及总体和抽样总体 1、全及总体也称为总体或母体,全及总体也称为总体或母体,是指所要认识的研究对象的是指所要认识的研究对象的全体,它是由所研究范围内具有某种共同性质的全体单位所组成的全体,它是由所研究范围内具有某种共同性质的全体单位所组成的集合体。集合体。在本章用大写的字母在本章用大写的字母N代表全及总体的单位数。代表全及总体的单位数。2、抽样总体抽样总体就是按随机原则从全及总体中抽取的一部分单位就是按随机原则从全及总体中抽取的一部分单位组成的小总体。组成的小总体。抽样总
6、体简称抽样总体简称样本样本,它也是由许多性质相同的单位,它也是由许多性质相同的单位组成的。本章中用小写组成的。本章中用小写n代表样本的单位数,样本单位数代表样本的单位数,样本单位数n也称为样也称为样本容量,即一个样本中所包含的单位数。组成样本的每个单位称为本容量,即一个样本中所包含的单位数。组成样本的每个单位称为样本单位。样本单位。注意:作为抽样推断对象的注意:作为抽样推断对象的全及总体是唯一确定的全及总体是唯一确定的,但作为观,但作为观察对象的察对象的样本就不是唯一的样本就不是唯一的。从一个全及总体中可以抽取很多个样。从一个全及总体中可以抽取很多个样本,每次抽到哪个样本是不确定的。本,每次抽
7、到哪个样本是不确定的。6.1.2.2 全及指标和抽样指标全及指标和抽样指标 1、全及指标又称总体指标或总体参数、全及指标又称总体指标或总体参数 根据总体各单位的标志值或标志属性计算的反映总体数量特征根据总体各单位的标志值或标志属性计算的反映总体数量特征的综合指标称为全及指标,又称总体指标。的综合指标称为全及指标,又称总体指标。常用的常用的全及指标全及指标主要有四个:全及平均数、全及成数、总体数主要有四个:全及平均数、全及成数、总体数量标志的标准差及方差、总体是非标志的标准差及方差。量标志的标准差及方差、总体是非标志的标准差及方差。2、抽样指标又称样本指标或样本统计量、抽样指标又称样本指标或样本
8、统计量 根据样本总体各单位标志值计算的反映样本特征的综合指标称根据样本总体各单位标志值计算的反映样本特征的综合指标称为抽样指标,又称样本指标或样本统计量。它是用来估计总体参数为抽样指标,又称样本指标或样本统计量。它是用来估计总体参数的。的。与总体参数相对应,常用的与总体参数相对应,常用的抽样指标抽样指标也有四个指标:抽样平均也有四个指标:抽样平均数、抽样成数、样本数量标志标准差及方差、样本是非标志标准差数、抽样成数、样本数量标志标准差及方差、样本是非标志标准差及方差。及方差。6.1.2.3 样本容量与样本个数样本容量与样本个数 1、样本容量、样本容量 样本是从总体中抽出的部分单位的集合,这个集
9、合的大小称为样本是从总体中抽出的部分单位的集合,这个集合的大小称为样本容量样本容量,一般用,一般用n表示,它表明一个样本中所包含的单位数。样表示,它表明一个样本中所包含的单位数。样本容量大,样本误差会小,但调查费用必须增加,反之,样本容量本容量大,样本误差会小,但调查费用必须增加,反之,样本容量过小,又将导致抽样误差增大,甚至失去抽样推断的价值。过小,又将导致抽样误差增大,甚至失去抽样推断的价值。样本按照样本容量的大小可以分为大样本和小样本。一般地样本按照样本容量的大小可以分为大样本和小样本。一般地说,说,n30为为大样本大样本,n30为为小样本小样本。在对社会经济现象进行抽。在对社会经济现象
10、进行抽样调查时,多数采用大样本。样调查时,多数采用大样本。2、样本个数、样本个数 样本可能数目又称样本个数样本可能数目又称样本个数,是指从全及总体中可能抽取多少,是指从全及总体中可能抽取多少个样本。它既和每个样本的容量有关,也和抽样的方法有关。当样个样本。它既和每个样本的容量有关,也和抽样的方法有关。当样本容量给定时,样本的可能数目便由抽样方法决定。本容量给定时,样本的可能数目便由抽样方法决定。6.1.2.4 重复抽样和不重复抽样重复抽样和不重复抽样 1、重复抽样、重复抽样 重复抽样重复抽样是从全及总体中抽取样本时,随机抽取一个样本单是从全及总体中抽取样本时,随机抽取一个样本单位,记录该单位有
11、关标志表现以后,把它放回到全及总体中去,再位,记录该单位有关标志表现以后,把它放回到全及总体中去,再从全及总体中随机抽取第二个单位,记录它有关标志表现以后,也从全及总体中随机抽取第二个单位,记录它有关标志表现以后,也把它放回全及总体中去,照此下去直到抽选把它放回全及总体中去,照此下去直到抽选n个样本单位。个样本单位。一般地说,从总体一般地说,从总体N个单位中,随机重复抽取个单位中,随机重复抽取n个单位构成样个单位构成样本,则共有样本个数为:本,则共有样本个数为:NNNN=Nn个。个。可见,重复抽样时全及总体单位数在抽选过程中始终没有减可见,重复抽样时全及总体单位数在抽选过程中始终没有减少,而且
12、各单位有被重复抽中的可能。少,而且各单位有被重复抽中的可能。6.1.2.4 重复抽样和不重复抽样重复抽样和不重复抽样 2、不重复抽样、不重复抽样 不重复抽样不重复抽样是从全及总体中抽取第一个样本单位,记录该单位是从全及总体中抽取第一个样本单位,记录该单位有关标志表现后,这个样本单位不再放回全及总体中参加下一次抽有关标志表现后,这个样本单位不再放回全及总体中参加下一次抽选。然后,从总体选。然后,从总体N-1个单位中随机抽选第二个样本单位,记录了个单位中随机抽选第二个样本单位,记录了该单位有关标志表现以后,该单位也不再放回全及总体中去,再从该单位有关标志表现以后,该单位也不再放回全及总体中去,再从
13、全及总体全及总体N-2单位中抽选第三个样本单位,照此下去直到抽选出单位中抽选第三个样本单位,照此下去直到抽选出n个个样本单位。样本单位。一般地说,要从总体一般地说,要从总体N个单位中随机不重复抽取个单位中随机不重复抽取n个单位为:个单位为:N(N1)(N2)(Nn+1)=N!/(Nn)!由此可见,在相同的样本容由此可见,在相同的样本容量要求下,不重复抽样的样本总是比重复抽样的样本个数少量要求下,不重复抽样的样本总是比重复抽样的样本个数少 可见,不重复抽样时,总体单位数在抽选过程中是逐渐减少可见,不重复抽样时,总体单位数在抽选过程中是逐渐减少的,而且各单位没有重复被抽中可能。的,而且各单位没有重
14、复被抽中可能。两种抽样方法会产生三个差别:抽取的样本可能数目不同;两种抽样方法会产生三个差别:抽取的样本可能数目不同;抽样误差的计算公式不同;抽样误差的大小不同。抽样误差的计算公式不同;抽样误差的大小不同。6.1.3 抽样误差抽样误差 1、抽样误差的一般概念、抽样误差的一般概念 抽样误差抽样误差是指根据样本数据计算而得的样本统计量值与被它是指根据样本数据计算而得的样本统计量值与被它估计的未知的总体参数真值之间的偏差。估计的未知的总体参数真值之间的偏差。具体地是指样本平均数具体地是指样本平均数 与总体平均数与总体平均数 的差的差(-),样本成数,样本成数p与总体成数与总体成数P的差的差(p-P)
15、。2、影响抽样误差的因素、影响抽样误差的因素 1)总体内各单位被研究标志的变异程度。)总体内各单位被研究标志的变异程度。2)样本容量的大小,即样本单位数的多少。)样本容量的大小,即样本单位数的多少。3)抽样的组织形式。)抽样的组织形式。4)抽样的方法。)抽样的方法。XxxX 对一个全及总体进行抽样调查时,可以抽出很多个样本。而每对一个全及总体进行抽样调查时,可以抽出很多个样本。而每一个样本都可以计算抽样的平均数和抽样成数,这样,样本的平均一个样本都可以计算抽样的平均数和抽样成数,这样,样本的平均数与总体的平均数,样本的成数与总体的成数之间的误差,也有多数与总体的平均数,样本的成数与总体的成数之
16、间的误差,也有多种多样。因此,必须用抽样平均误差来反映抽样误差的一般水平。种多样。因此,必须用抽样平均误差来反映抽样误差的一般水平。抽样平均误差抽样平均误差为抽样平均数(或抽样成数)对总体平均数(或为抽样平均数(或抽样成数)对总体平均数(或总体成数)的标准差。总体成数)的标准差。为了区别于通常的标准差,我们分别用为了区别于通常的标准差,我们分别用 表表示抽样平均数的平均误差,用示抽样平均数的平均误差,用 表示抽样成数的平均误差。用表示抽样成数的平均误差。用M表表示样本的可能数目。则有:示样本的可能数目。则有:在实际中,作为总体的平均数在实际中,作为总体的平均数 和总体成数和总体成数P是未知的。
17、同时是未知的。同时也不可能把所有样本的平均数和成数都计算出来。所以,按照上述也不可能把所有样本的平均数和成数都计算出来。所以,按照上述计算抽样平均误差的方法,实际上也是办不到的。计算抽样平均误差的方法,实际上也是办不到的。xpMPpMXxpx22)(,)(6.1.3.3 抽样平均误差抽样平均误差X6.1.3.3 抽样平均误差抽样平均误差A、抽样平均数的抽样平均误差、抽样平均数的抽样平均误差 a.在重复抽样的条件下在重复抽样的条件下 nnx2(6-3)b.在不重复抽样条件下在不重复抽样条件下)1(2Nnnx(6-4)6.1.3.3 抽样平均误差抽样平均误差B、抽样成数的抽样平均误差、抽样成数的抽
18、样平均误差 a.在重复抽样的条件下在重复抽样的条件下 nPPP)1(6-5)b.在不重复抽样的条件下在不重复抽样的条件下)1()1(NnnPPp(6-6)6.1.3.4 抽样极限误差抽样极限误差 抽样平均误差是所有可能样本指标与总体指标之间的平均离抽样平均误差是所有可能样本指标与总体指标之间的平均离差。差。但是在进行抽样推断时,我们实际只抽取一个样本,用一个样但是在进行抽样推断时,我们实际只抽取一个样本,用一个样本指标去推断总体指标。由于抽样是按随机原则进行的,所有不同本指标去推断总体指标。由于抽样是按随机原则进行的,所有不同的样本组合都可能抽到,这样所得到的每个样本实际误差可能大于的样本组合
19、都可能抽到,这样所得到的每个样本实际误差可能大于抽样平均误差,也可能小于抽样平均误差,因此包括在抽样平均误抽样平均误差,也可能小于抽样平均误差,因此包括在抽样平均误差范围内的只有一部分样本,而不是所有的样本组合。但对于某一差范围内的只有一部分样本,而不是所有的样本组合。但对于某一项调查来说,根据客观要求一般应有一个允许的误差范围,也就是项调查来说,根据客观要求一般应有一个允许的误差范围,也就是说若抽样误差在这个范围之内就认为是可行的。这一允许的误差范说若抽样误差在这个范围之内就认为是可行的。这一允许的误差范围就称作抽样的极限误差。围就称作抽样的极限误差。抽样极限误差抽样极限误差是抽样指标与总体
20、指标之间,在一定概率保证程是抽样指标与总体指标之间,在一定概率保证程度下的,抽样误差的最大可能范围。度下的,抽样误差的最大可能范围。总体指标虽然是一个确定的总体指标虽然是一个确定的量,但它是未知的,而样本指标是一个随机变量,其取值是不定量,但它是未知的,而样本指标是一个随机变量,其取值是不定的,它是围绕着总体指标左右变动的,因此,我们只能在一定的概的,它是围绕着总体指标左右变动的,因此,我们只能在一定的概率保证程度下,用一定的范围来控制误差。率保证程度下,用一定的范围来控制误差。6.1.3.4 抽样极限误差抽样极限误差 通常用通常用表示抽样极限误差,设表示抽样极限误差,设x和和p分别表示抽样平
21、均数分别表示抽样平均数和抽样成数的可能误差范围,则有:和抽样成数的可能误差范围,则有:x=-(6-7)p=p-P (6-8)根据概率论数理统计原理,样本平均数和样本成数分别渐进地根据概率论数理统计原理,样本平均数和样本成数分别渐进地服从于服从于N(X,)和和N(P,p(1-p)的正态分布。因此有:的正态分布。因此有:P -2 =0.9545 Pp-P2 =0.9545 即抽样极限误差在即抽样极限误差在2倍的抽样平均误差范围内的可能性为倍的抽样平均误差范围内的可能性为95.45%。也就是说,我们有。也就是说,我们有95.45%的可靠性程度来判断,样本指的可靠性程度来判断,样本指标与总体指标之间的
22、误差不超过标与总体指标之间的误差不超过2 或者或者2 。xpxXpxxX2xu6.1.3.4 抽样极限误差抽样极限误差 抽样极限误差的计算公式为:抽样极限误差的计算公式为:=t (6-9)即有:即有:x=t (6-10)p=t (6-11)式中的式中的t表示极限误差范围为抽样平均误差的若干表示极限误差范围为抽样平均误差的若干倍,倍,t称为称为概率度概率度。xp6.1.3.5 抽样估计的置信度抽样估计的置信度 抽样极限误差的估计总是要和一定的概率保证程度联系在一起抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。因为既然抽样误差是一个随机变量,我们就不能期望抽样平均的。因为既然抽样误差是
23、一个随机变量,我们就不能期望抽样平均数(成数)落在一个区间内是一个必然事件,而只能给予一定的概数(成数)落在一个区间内是一个必然事件,而只能给予一定的概率保证程度。所以在进行抽样估计时,不但要考虑抽样误差的可能率保证程度。所以在进行抽样估计时,不但要考虑抽样误差的可能范围有多大,而且还必须考虑到落在这一范围内的概率有多少。前范围有多大,而且还必须考虑到落在这一范围内的概率有多少。前者我们称为者我们称为抽样估计的精确程度抽样估计的精确程度,后者则是,后者则是抽样估计的可靠程度抽样估计的可靠程度,也是在概率上的保证程度问题。我们称之为抽样估计的置信度。也是在概率上的保证程度问题。我们称之为抽样估计
24、的置信度。抽样估计的置信度和抽样的极限误差有着密切联系。抽样估计的置信度和抽样的极限误差有着密切联系。根据中心根据中心极限定理,当抽样误差范围增大时,抽样估计的置信度也增大,抽极限定理,当抽样误差范围增大时,抽样估计的置信度也增大,抽样估计的精确程度则降低,反之亦然。实质上,样估计的精确程度则降低,反之亦然。实质上,抽样估计的精确度抽样估计的精确度与置信度是一对反方向运动的矛盾。与置信度是一对反方向运动的矛盾。科学的调查方法要合理地协调科学的调查方法要合理地协调它们之间的矛盾。它们之间的矛盾。6.1.4 抽样调查的理论依据抽样调查的理论依据 抽样调查是建立在抽样调查是建立在概率论大数定律概率论
25、大数定律基础上的。大数定基础上的。大数定律的一系列定理为抽样调查提供了数学依据。律的一系列定理为抽样调查提供了数学依据。大数定律大数定律是阐明大量随机现象平均结果的稳定性的一是阐明大量随机现象平均结果的稳定性的一系列定理的总称。系列定理的总称。它说明如果被研究的总体是由大量的相它说明如果被研究的总体是由大量的相互独立的随机因素所构成,而且每个因素对总体的影响都互独立的随机因素所构成,而且每个因素对总体的影响都相对的小。那么将这些大量因素加以平均,因素的个别影相对的小。那么将这些大量因素加以平均,因素的个别影响将相互抵消,而呈现出共同作用的影响,使总体具有稳响将相互抵消,而呈现出共同作用的影响,
26、使总体具有稳定的性质。定的性质。6.2 抽样分布抽样分布 6.2.1 样本空间 6.2.2 重复抽样分布 6.2.3 不重复抽样分布6.2.1 样本空间样本空间 样本分布就是样本统计量的概率分布样本分布就是样本统计量的概率分布,在一个抽样框,在一个抽样框里可以抽取多套样本,组成样本空间,每一个样本空间可里可以抽取多套样本,组成样本空间,每一个样本空间可以构造出多个统计量,如样本均值、样本成数、样本方差以构造出多个统计量,如样本均值、样本成数、样本方差等。由随机抽样抽到的各个样本单位不同,其数据表现不等。由随机抽样抽到的各个样本单位不同,其数据表现不同,统计量的取值也不同。在同一个总体中抽出样本
27、容量同,统计量的取值也不同。在同一个总体中抽出样本容量相同的所有可能样本后,计算每个样本统计量的值和相应相同的所有可能样本后,计算每个样本统计量的值和相应的概率,就组成样本统计量的概率分布,简称的概率,就组成样本统计量的概率分布,简称抽样分布抽样分布。在进行随机抽样时,按样本抽取方法的不同,可分为在进行随机抽样时,按样本抽取方法的不同,可分为放回的重复抽样和不放回的不重复抽样,从而形成重复抽放回的重复抽样和不放回的不重复抽样,从而形成重复抽样的样本分布和不重复抽样的样本分布。样的样本分布和不重复抽样的样本分布。6.2.2 重复抽样分布重复抽样分布 1、样本平均数的抽样分布、样本平均数的抽样分布
28、 样本平均数分布样本平均数分布是由所有组合样本平均数的值与其相应的概率是由所有组合样本平均数的值与其相应的概率表示。表示。例例6-5某工作班组有某工作班组有4个工人,其小时工资分别为个工人,其小时工资分别为1、2、3、4元,则:元,则:总体平均数:总体平均数:总体方差:总体方差:(元)5.244321NXXi(元)454)5.34()5.03()5.22()5.21()()(222222NXXXi 现用重复抽样的方法从现用重复抽样的方法从4人中随机抽取人中随机抽取2人样本,用样本的平均人样本,用样本的平均工资来推断总体的平均工资。按重复抽样所组成的样本平均数的空工资来推断总体的平均工资。按重复
29、抽样所组成的样本平均数的空间分布列表如下:间分布列表如下:表表6-1 重复抽样样本小时平均工资组合重复抽样样本小时平均工资组合 (单位:元)(单位:元)样本变量值样本变量值123411.01.52.02.521.52.02.53.032.02.53.03.542.53.03.54.0 根据上表整理的样本频数分布及样本统计量,根据上表整理的样本频数分布及样本统计量,计算如下:计算如下:表表6-2 样本均值及频数分布样本均值及频数分布样本均值()频数()111-1.52.252.251.523-112236-0.50.250.752.54100003390.50.250.753.527112414
30、1.52.252.25合计164010 x xxffxxx 2)(xx fxx2)(根据以上资料,计算样本平均数的数学期望和抽样方差如下:根据以上资料,计算样本平均数的数学期望和抽样方差如下:抽样方差的开平方即为抽样误差,用符号抽样方差的开平方即为抽样误差,用符号表示,表示,重复抽样的样本统计量与总体参数之间存在的关系:重复抽样的样本统计量与总体参数之间存在的关系:1、重复抽样的样本平均数的数学期望(样本总平均数)恒等、重复抽样的样本平均数的数学期望(样本总平均数)恒等于总体平均数。于总体平均数。即即 2、随机变量的抽样方差等于总体方差的、随机变量的抽样方差等于总体方差的1/n,即,即 即即5
31、.21640)(ffxxxEXxxE)(5.25.2XxnXx)()(228524585)(2x851610)()(22ffxxx85)(2x6.2.2 重复抽样分布重复抽样分布 2、抽样成数的抽样分布、抽样成数的抽样分布 成数是指具有某种特征现象的数量占总体数量的比重,则成数是指具有某种特征现象的数量占总体数量的比重,则 现用重复抽样方法抽取现用重复抽样方法抽取n个单位,计算样本成数个单位,计算样本成数p,应用样本平,应用样本平均数分布的性质推广到成数的分布,则有均数分布的性质推广到成数的分布,则有 Pxp其方差其方差)1()(2PPPQPPXpEp)((6-14)nPPnPpp)1()()
32、()(2(6-15)6.2.3 不重复抽样分布不重复抽样分布 1.样本平均数的抽样分布样本平均数的抽样分布 例例6-7仍用前述的例子,按不重复抽样所组成的样本平均数的仍用前述的例子,按不重复抽样所组成的样本平均数的空间分布如下:空间分布如下:表表6-3 不重复抽样的样本小时平均工资组合不重复抽样的样本小时平均工资组合样本变量值123411.522.521.52.53322.53.542.533.5根据上表整理的样本频数分布及样本统计量计算如下:根据上表整理的样本频数分布及样本统计量计算如下:表表6-4 样本均值及频数分布样本均值及频数分布样本均值()频数()1.523-112224-0.50.
33、250.52.541000033260.50.250.53.527112合计12305xffxxx 2)(xxfxx2)(根据以上资料,计算样本平均数和抽样方差如下:根据以上资料,计算样本平均数和抽样方差如下:不重复抽样的不重复抽样的样本统计量与总体参数样本统计量与总体参数之间存在的关系:之间存在的关系:1、不重复抽样的样本平均数的数学期望(样本总平均数)恒等于总体平均、不重复抽样的样本平均数的数学期望(样本总平均数)恒等于总体平均数数 即即 2、样本变量的抽样方差等于总体方差的、样本变量的抽样方差等于总体方差的1/n,再乘以一个不重复抽样时的,再乘以一个不重复抽样时的调节系数调节系数(N-n
34、)/(N-1)即即 不重复抽样与重复抽样相比,其抽样方差多了一个调节系数不重复抽样与重复抽样相比,其抽样方差多了一个调节系数:(N-n)/(N-1)(N-n)/N=(1-n/N)由此可见不重复抽样的抽样方差都是比重复抽样的抽样方差小。由此可见不重复抽样的抽样方差都是比重复抽样的抽样方差小。5.21230)(ffxxxEXxxE)(5.25.2Xx)1()()(22NnNnXx12532851424245)(2x125)()(22ffxxx125)(2x6.2.3 不重复抽样分布不重复抽样分布 2、抽样成数的抽样分布、抽样成数的抽样分布 不重复抽样的成数统计量,比照前述的公式,有不重复抽样的成数
35、统计量,比照前述的公式,有:PxpEp)()1()1()1()1()()(NnnPPNnNnPPpp 例例6-8引用前述例子,在不重复抽样情况下,产品合格率的抽引用前述例子,在不重复抽样情况下,产品合格率的抽样平均误差为:(样平均误差为:(N=10000)022.002168.0)100001001(100)95.01(95.0)(p 上述计算也可看出,当上述计算也可看出,当N相对相对n很大时,不重复抽样的抽样误差很大时,不重复抽样的抽样误差与重复抽样的抽样误差很接近。与重复抽样的抽样误差很接近。在重复抽样和不重复抽样的情况下,抽样平均数在重复抽样和不重复抽样的情况下,抽样平均数和抽样成数的抽
36、样平均误差的公式列表和抽样成数的抽样平均误差的公式列表表表6-5 抽样平均误差公式抽样平均误差公式统计量统计量重复抽样重复抽样不重复抽样不重复抽样抽样平均数抽样平均数抽样成数抽样成数nn2)1()1(22NnnNnNnnPP)1()1()1()1()1(NnnPPNnNnPP6.3 总体参数估计总体参数估计 6.3.1 总体参数估计概述 6.3.2 总体参数的点估计 6.3.3 总体参数的区间估计 6.3.4 样本容量的确定 6.3.5 使用计算公式求必要样本容量时应注意的问题6.3.1 总体参数估计概述总体参数估计概述 总体参数估计总体参数估计就是用样本统计量去估计未知的总体参数。就是用样本
37、统计量去估计未知的总体参数。总体总体参数是一个常量,样本统计量是一个随机变量,用样本统计量去估参数是一个常量,样本统计量是一个随机变量,用样本统计量去估计总体参数时,必然会产生一个随机误差。总体参数估计有两种方计总体参数时,必然会产生一个随机误差。总体参数估计有两种方法法:点估计和区间估计。点估计和区间估计。点估计:点估计:即直接用样本统计量的值直接估计总体参数的值。即直接用样本统计量的值直接估计总体参数的值。区间估计:区间估计:即用样本统计量去估计总体参数的值时存在的误即用样本统计量去估计总体参数的值时存在的误差范围有多大,它要解决的是估计的精确度问题,误差范围越小,差范围有多大,它要解决的
38、是估计的精确度问题,误差范围越小,其估计的精确程度也就越高。同时还要考虑可靠性问题,即参数估其估计的精确程度也就越高。同时还要考虑可靠性问题,即参数估计的正确性概率有多大。计的正确性概率有多大。在进行参数估计时,应根据所要解决问题的重要性和工作需要,在进行参数估计时,应根据所要解决问题的重要性和工作需要,综合考虑参数估计的精确度(可允许的误差区间,亦称置信区间)综合考虑参数估计的精确度(可允许的误差区间,亦称置信区间)和可接受的估计概率(置信概率)。和可接受的估计概率(置信概率)。精确度和精确程度是一对矛盾。精确度和精确程度是一对矛盾。6.3.2 总体参数的点估计总体参数的点估计 点估计又称定
39、值估计,点估计又称定值估计,它是直接用样本统它是直接用样本统计量的值来估计总体参数的值,计量的值来估计总体参数的值,其其特点特点是简易是简易直观,但它并不考虑估计的误差范围和估计的直观,但它并不考虑估计的误差范围和估计的可靠程度。可靠程度。6.3.2.1 点估计的三个优良标准点估计的三个优良标准 1、无偏性。即样本统计量的值的数字期望(平均数)等于被估计的总体参、无偏性。即样本统计量的值的数字期望(平均数)等于被估计的总体参数,用符号表示为数,用符号表示为 。2、一致性。即随着样本单位、一致性。即随着样本单位 n的不断增大,样本统计量的值与被估计总体的不断增大,样本统计量的值与被估计总体参数的
40、值之间的误差越来越小,亦即原本统计量的值接近总体参数的值的可能性参数的值之间的误差越来越小,亦即原本统计量的值接近总体参数的值的可能性越来越大。越来越大。一致性要求可以从大数定律的角度来理解,用公式表示:一致性要求可以从大数定律的角度来理解,用公式表示:公式中公式中 为任意小的一个数。上式公式表明,样本统计量为任意小的一个数。上式公式表明,样本统计量 与总体参数与总体参数 之之间差的绝对值小于一个任意小的数,当间差的绝对值小于一个任意小的数,当n趋于无穷大时,其发生的概率是肯定存趋于无穷大时,其发生的概率是肯定存在的,或者说这一事实肯定会发生的。在的,或者说这一事实肯定会发生的。3、有效性。即
41、作为优良估计量的方差应该比其它方差小。、有效性。即作为优良估计量的方差应该比其它方差小。例如,用随机抽样计算的统计量的值与用非随机抽样计算的统计量的值,分例如,用随机抽样计算的统计量的值与用非随机抽样计算的统计量的值,分别估计总体参数的值,因为随机抽样的误差更小,则前者的估计比后者更有效。别估计总体参数的值,因为随机抽样的误差更小,则前者的估计比后者更有效。又如,用随机抽样统计量的样本平均数和中位数分别估计总体参数的值,由于样又如,用随机抽样统计量的样本平均数和中位数分别估计总体参数的值,由于样本平均数的抽样误差更小,则用前者的估计比后者更有效。本平均数的抽样误差更小,则用前者的估计比后者更有
42、效。XxEx)(1limXxPnxX6.3.2.2 矩估计法 矩估计法也称数字特征法。矩估计法也称数字特征法。它是用样本各阶原点矩它是用样本各阶原点矩的函数来估计总体各阶原点矩的同一个函数,的函数来估计总体各阶原点矩的同一个函数,相应的总体相应的总体估计量称为矩估计量。估计量称为矩估计量。“矩矩”又称为又称为“动量动量”,它本来是一个物理学中力学,它本来是一个物理学中力学的概的概念,表示作用力、力臂和与其平衡点之间的数量关系。念,表示作用力、力臂和与其平衡点之间的数量关系。统计学借用统计学借用“矩矩”这概念,通过计算一系列这概念,通过计算一系列“矩矩”指数的指数的数值来描述数据的分布特征。数值
43、来描述数据的分布特征。算术平均数、方差及平均差等都可以看成是算术平均数、方差及平均差等都可以看成是“矩矩”的特例。的特例。矩的表现形式矩的表现形式naxwnikik1或或 niiniikikffaxw11当取当取 1,0ka时,其一阶原点的矩就是算术平均数。时,其一阶原点的矩就是算术平均数。当取当取 2,kxa时,其二阶矩就是变量分布的方差。时,其二阶矩就是变量分布的方差。当取当取 1,kxa时,其一阶矩的绝对离差之和就是时,其一阶矩的绝对离差之和就是变量分布的平均差。变量分布的平均差。通过样本数量特征的计算来估计与之相应的总体数量特征是最通过样本数量特征的计算来估计与之相应的总体数量特征是最
44、常用的矩估计法。常用的矩估计法。6.3.2.2 顺序统计量法顺序统计量法 顺序统计量即是前面有关章节已讲过的位置平均数的统计量,它用中位数来表示。样本中位数和极差 R都是重要的统计量。当样本数值中含有极端数值时,样本中位数比平均数更适宜作为总体参数值的统计量,计算更简便直观。对于正态总体 的样本中位数 渐进地服从正态分布 因而对于正态总体,用 估计总体 是适宜的。对于总体标准差的估计,可以用样本极差来估计。与R有如下关系:一般情况下,可近似地取为:用样本极差R来估计总体标准差 时,其缺点是不如用样本标准差来得可靠,当n越大,两者差别越大。当n10时,可直接用样本标准差来估计总体标准差。Rdn1
45、2111nndn102 n(6-20)2,NdM22,nNdM6.3.3 总体参数的区间估计总体参数的区间估计 区间估计是指由样本统计量的值来估计总体未知参数的值的时区间估计是指由样本统计量的值来估计总体未知参数的值的时候,其误差的区间范围有多大,并给出可靠程度的估计概率。候,其误差的区间范围有多大,并给出可靠程度的估计概率。在正态分布的情况下,估计概率(亦称置信概率)是由概率度在正态分布的情况下,估计概率(亦称置信概率)是由概率度(置信度)(置信度)和相应的概率函数和相应的概率函数 来表示,常用的数值如下来表示,常用的数值如下(双侧):(双侧):表表6-6 在正态分布下估计概率常用数值在正态
46、分布下估计概率常用数值 2Z2Zf,概率度概率度 11.6451.9622.583概率函数概率函数 ,0.68270.900.950.95450.990.9973显著性水平显著性水平 0.100.050.012Z2Zf1 正态分布图正态分布图 在进行区间估计时,根据研究目的和数据分布的特征,给定估在进行区间估计时,根据研究目的和数据分布的特征,给定估计的概率保证程度(概率度)来推算抽样误差范围,或根据给定的计的概率保证程度(概率度)来推算抽样误差范围,或根据给定的允许误差范围(亦称极限误差)来推断相应的概率保证程度。允许误差范围(亦称极限误差)来推断相应的概率保证程度。抽样极限误差、抽样平均误
47、差和概率度三者之间有如下关系:抽样极限误差、抽样平均误差和概率度三者之间有如下关系:抽样极限误差概率度抽样极限误差概率度抽样平均误差抽样平均误差重复抽样:重复抽样:nZ2(6-21)不重复抽样:不重复抽样:)1(22NnnZ(6-22)6.3.3.1 总体平均数的区间估计总体平均数的区间估计 1、总体方差已知时、总体方差已知时 当总体方差已知,或样本容量当总体方差已知,或样本容量n充分大(充分大(n30)时,样本数据)时,样本数据可用正态分布的概率来估计。可用正态分布的概率来估计。2、总体方差未知时、总体方差未知时 当总体服从正态分布但总体方差未知时,可用样本标准差当总体服从正态分布但总体方差
48、未知时,可用样本标准差s来来代替总体标准差,但这要应用代替总体标准差,但这要应用t分布的统计量进行总体参数的区间分布的统计量进行总体参数的区间估计。同时,样本容量是小样本(估计。同时,样本容量是小样本(n30)时,也要应用)时,也要应用t统计量。统计量。其区间估计的公式为:其区间估计的公式为:重复抽样:重复抽样:(6-23)不重复抽样:不重复抽样:(6-24)nsntx)1(2)1()1(22Nnnsntx 例例6-9某地区从某地区从10000亩水稻面积中,以不重复抽样方法随机亩水稻面积中,以不重复抽样方法随机抽取抽取100亩耕地进行调查,实测计算平均亩产亩耕地进行调查,实测计算平均亩产600
49、公斤,标准差为公斤,标准差为72.6公斤,求(公斤,求(1)以)以0.9973的概率可靠程度进行其平均亩产和总的概率可靠程度进行其平均亩产和总产量的区间估计。(产量的区间估计。(2)若要求极限误差不超过)若要求极限误差不超过14.4公斤,则其估公斤,则其估计的概率可靠程度是多少?计的概率可靠程度是多少?解:已知解:已知 公斤,公斤,公斤,公斤,N=10000亩,亩,n=100亩,亩,=14.4公斤公斤 抽样平均误差:抽样平均误差:(公斤)(公斤)抽样极限误差:抽样极限误差:(公斤)(公斤)平均产量的区间估计平均产量的区间估计 (公斤)(公斤)总产量的区间估计(万公斤)总产量的区间估计(万公斤)
50、当公斤时,当公斤时,则,则600 x6.729973.02Zf32Z2.72236.71000010011006.72122Nnn6.212.732Z6.621,4.5786.21600 x)6.21600(6.21600(10000)(xN22.74.142Z9545.02Zf 例例6-10对某电视节目进行收视率调查,在随机抽样调查的对某电视节目进行收视率调查,在随机抽样调查的100人中,有人中,有20人经常看该节目,求该电视节目收视率的置信度为人经常看该节目,求该电视节目收视率的置信度为95%的估计区间?的估计区间?解:已知解:已知 100n201n%2010020p95.02Zf96.1