1、抽样调查的抽样调查的意义意义抽样调查是按照随机原则,从总体中抽抽样调查是按照随机原则,从总体中抽取一部分单位进行调查,根据样本资料的估计取一部分单位进行调查,根据样本资料的估计值,然后用样本的估计值,对总体待估参数做值,然后用样本的估计值,对总体待估参数做出具有一定可靠程度的估计和推断,以反映总出具有一定可靠程度的估计和推断,以反映总体的数量特征或数量表现。体的数量特征或数量表现。节省人力、物力和财力节省人力、物力和财力第一节第一节 抽样调查概述抽样调查概述 所谓随机原则,则完全排除主观意识所谓随机原则,则完全排除主观意识的作用,而在被研究的总体中随机抽取调的作用,而在被研究的总体中随机抽取调
2、查单位,使每个单位都有同等被抽中的机查单位,使每个单位都有同等被抽中的机会,抽中与否,完全是偶然机会的结果。会,抽中与否,完全是偶然机会的结果。这个原则也叫同等可能性原则。这个原则也叫同等可能性原则。抽样调查的主要任务是通过对部分单抽样调查的主要任务是通过对部分单位的调查,计算出抽样指标,进而推断总位的调查,计算出抽样指标,进而推断总体指标,确定总体的数量特征体指标,确定总体的数量特征 保证抽样推断的结果达到事先预定的保证抽样推断的结果达到事先预定的可靠程度可靠程度(1)对某些现象不可能或不必要进行全面调查,而)对某些现象不可能或不必要进行全面调查,而又要了解现象总体数量特征时采用抽样调查方法
3、又要了解现象总体数量特征时采用抽样调查方法(2)应用抽样调查,可以检查全面调查资料的质量,)应用抽样调查,可以检查全面调查资料的质量,并对全面调查资料进行修订并对全面调查资料进行修订(3)抽样调查可用于生产管理,进行产品质量控制)抽样调查可用于生产管理,进行产品质量控制1简单随机抽样(纯随机抽样)简单随机抽样(纯随机抽样)方法:将总体单位编成抽样框,而后用抽签或方法:将总体单位编成抽样框,而后用抽签或 随机数表抽取样本单位。随机数表抽取样本单位。适用:总体规模不大;总体内部差异小适用:总体规模不大;总体内部差异小2类型抽样(分层抽样)类型抽样(分层抽样)方法:将总体全部单位分类,形成若干个类型
4、组,后从方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。各类型中分别抽取样本单位,合成样本。12knnn iiNnnN iiiiiNnnN 1kiinn 3等距抽样(机械抽样)等距抽样(机械抽样)方法:将总体单位按某一标志排序,而后按一方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。定的间隔抽取样本单位。排序依据的标志:(排序依据的标志:(1)无关标志;()无关标志;(2)有关标志)有关标志(总体单位按某一标志排序)(总体单位按某一标志排序)4整群抽样整群抽样方法:方法:将总体全部单位分为许多个将总体全部单位分为许多个“群群”,然后,然后随机抽
5、取若干随机抽取若干“群群”,对被抽中的各,对被抽中的各“群群”内的所内的所有单位登记调查。有单位登记调查。总体群数总体群数R=16 样本群数样本群数r=4 样本容量样本容量例:例:ABCDEFGHIJKLMNOPLHPDhlpdnnnnn例:例:在某省在某省100多万农户抽取多万农户抽取1000户调查农户生产户调查农户生产性投资情况。性投资情况。5多阶段抽样多阶段抽样第一阶段:从省内部县中抽取第一阶段:从省内部县中抽取5个县个县第二阶段:从抽中的第二阶段:从抽中的5个县中各抽个县中各抽4个乡个乡 第三阶段:从抽中的第三阶段:从抽中的20个乡中各抽个乡中各抽5个村个村 第四阶段:从抽中的第四阶段
6、:从抽中的100个村中各抽个村中各抽10户户样本样本n=10010=1000(户户)是指根据调查目的所确定的研究对象全体是指根据调查目的所确定的研究对象全体.简简称为总体称为总体.是指根据随机原则从总体中抽取一部分单位是指根据随机原则从总体中抽取一部分单位所组成的整体所组成的整体.对于某一研究对象,当研究目的确定时,全及总体是确定的,对于某一研究对象,当研究目的确定时,全及总体是确定的,样本全体是不确定的。样本全体是不确定的。/n N 一般一般 时,称为大样本;时,称为大样本;时,称为小样本时,称为小样本30n 30n (二)总体指标与样本指标(二)总体指标与样本指标1 1、总体指标、总体指标
7、:根据总体中各单位的标志值计算出来的用于反:根据总体中各单位的标志值计算出来的用于反映总体的数量特征的指标。又称为全及指标或母体参数。映总体的数量特征的指标。又称为全及指标或母体参数。总体平均数(总体均值):总体平均数(总体均值):总体成数:总体成数:总体标准差:总体标准差:NXXNii1NNP1NXX2)()1(PP 1N总体中具有某种总体中具有某种特性个体数目特性个体数目针对数量标志针对数量标志针对是否标志针对是否标志2 2、样本指标:、样本指标:根据样本中各单位的标志值计算出来的用于反根据样本中各单位的标志值计算出来的用于反映样本数量特征的指标称为样本指标,也称样本参数。映样本数量特征的
8、指标称为样本指标,也称样本参数。样本平均数(样本均值):样本平均数(样本均值):样本成数:样本成数:样本标准差:样本标准差:nxxnii1nnp1样本中具有某种样本中具有某种特性个体数目特性个体数目1n1)(2nxxs)1(pps对于某一研究对象,当研究目的确定时,总体指标是确定的,对于某一研究对象,当研究目的确定时,总体指标是确定的,样本指标是不确定的。样本指标是不确定的。()由于总体参数一般未知,对每一个具体样本,其实际抽样由于总体参数一般未知,对每一个具体样本,其实际抽样误差是无法计算的。只能从所有可能样本的角度,根据样误差是无法计算的。只能从所有可能样本的角度,根据样本估计量的抽样分布
9、来计算其抽样的平均误差程度。本估计量的抽样分布来计算其抽样的平均误差程度。现从该总体中抽取现从该总体中抽取n2的简单随机样本,在重复抽样条的简单随机样本,在重复抽样条件下,共可能抽取件下,共可能抽取42=16个样本。所有样本的结果见表个样本。所有样本的结果见表4-2。1.样本均值的均值(数学期望)等于总体均值(式中:样本均值的均值(数学期望)等于总体均值(式中:M为样本数目);为样本数目);2.抽样误差是随样本不同而不同的随机变量。抽样抽样误差是随样本不同而不同的随机变量。抽样误差均值等于误差均值等于0;3.样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/n。0 xX0当总体服从正
10、态分布当总体服从正态分布N (,2)时,来自该总体时,来自该总体的所有容量为的所有容量为n的样本的均值的样本的均值 也服从正态分布,也服从正态分布,的数学期望为的数学期望为,方差为,方差为2/n。即:。即:N(,2/n)。中心极限定理:中心极限定理:设从均值为设从均值为,方差为,方差为2的一个任的一个任意总体中抽取容量为意总体中抽取容量为n的样本,当的样本,当n充分大时,样本均值充分大时,样本均值的抽样分布的抽样分布近似近似 服从均值为服从均值为、方差为、方差为2/n的正态分布的正态分布。xxxn抽样平均误差指样本估计量的标准差。抽样平均误差指样本估计量的标准差。均值的抽样平均误差常常记为均值
11、的抽样平均误差常常记为 比率的抽样平均误差常常记为比率的抽样平均误差常常记为n它反映所有可能样本估计值与中心(相它反映所有可能样本估计值与中心(相应总体参数)的平均差异程度,衡量样应总体参数)的平均差异程度,衡量样本对总体的代表性大小。本对总体的代表性大小。n抽样平均误差的平方称为抽样平均误差的平方称为“抽样方差抽样方差”。x p xsn 1pppn2(1)xsnnN (1)(1)PpPnnN 其它条件不变时,总其它条件不变时,总体单位的差异程度大,体单位的差异程度大,抽样平均误差大,成正比抽样平均误差大,成正比。其它条件不变时,抽样数目多,其它条件不变时,抽样数目多,抽抽样平均误差小,与样本
12、数目的平方根成反比。样平均误差小,与样本数目的平方根成反比。相同条件下,重复抽样的相同条件下,重复抽样的抽样平均误抽样平均误差大差大比不重复抽样的比不重复抽样的抽样平均误差大抽样平均误差大。由于不同抽样组织方式有不同的由于不同抽样组织方式有不同的抽样误差,所以,在误差要求相同的情况下,不同抽抽样误差,所以,在误差要求相同的情况下,不同抽样组织方式所必需的抽样数目也不同。样组织方式所必需的抽样数目也不同。xxX ppP (1)/2U 2u 2xsun 21pppun 2(1)xsnunN 2(1)(1)PpPnunN 2U 置信水平()置信水平()95.095.01.961.9695.4595.
13、452 299.7399.733 32U 12(,)nXXX 12(,)nxxx xxxXx 在在1-置信度下,置信度下,总体成数总体成数 的置信区间为:的置信区间为:,pppp 1,ppNNp NNp N 解:解:230587 1.640.016532ppN u (人人)1305870.392512005NNp(人人)吸烟者人数的置信区间为(吸烟者人数的置信区间为(12005532),即),即(11473,12537)人)人 设样本均值与总体均值之间的允许误差为设样本均值与总体均值之间的允许误差为 ,在在 的置信度下,估计总体均值时的样本容量为:的置信度下,估计总体均值时的样本容量为:重复抽
14、样下:重复抽样下:不重复抽样下:不重复抽样下:1 2222Xu sn 2222222XNu snNu s x 2、估计总体成数时的样本容量、估计总体成数时的样本容量设设 为估计总体成数的允许误差,在为估计总体成数的允许误差,在 的置信度下,样本容量的置信度下,样本容量 n 为:为:重复抽样下:重复抽样下:不重复抽样下:不重复抽样下:p 1 222(1)puppn 22222(1)(1)pu pp NnNu pp 1 1、总体的变异程度高低、总体的变异程度高低(总体方差的大小)(总体方差的大小)其它条件不变的条件下,总体单位的差异程度大,其它条件不变的条件下,总体单位的差异程度大,则应多抽,反之
15、可少抽一些。则应多抽,反之可少抽一些。怎样估计总体方差呢?怎样估计总体方差呢?通常是用以前同类调查的资料代替,或用同类地区的资通常是用以前同类调查的资料代替,或用同类地区的资料代替,若有多个方差数值供参考时,应选其中最大的方料代替,若有多个方差数值供参考时,应选其中最大的方差。差。允许误差增大,意味着推断的精度要允许误差增大,意味着推断的精度要求降低,在其他条件不变的情况下,必要求降低,在其他条件不变的情况下,必要的抽样数目可减少。反之,缩小允许误差,的抽样数目可减少。反之,缩小允许误差,就要增加必要的抽样数目。就要增加必要的抽样数目。因置信度与置信区间是同方向变化的,因置信度与置信区间是同方
16、向变化的,所以在其它条件不变的情况下,要提高所以在其它条件不变的情况下,要提高推断的置信程度,就必须增加抽样数目。推断的置信程度,就必须增加抽样数目。相同条件下,采用重复抽样应比相同条件下,采用重复抽样应比不重复抽样多抽一些样本单位。不重复抽样多抽一些样本单位。由于不同抽样组织方式有不同的抽样误由于不同抽样组织方式有不同的抽样误差,所以,在误差要求相同的情况下,不同差,所以,在误差要求相同的情况下,不同抽样组织方式所必需的抽样数目也不同。抽样组织方式所必需的抽样数目也不同。首先将总体单位按某一个标志分层;然后首先将总体单位按某一个标志分层;然后在各层按随机抽样的方法分别抽出各层的样本。在各层按
17、随机抽样的方法分别抽出各层的样本。:分层可使样本的构成充分接近总体构成,从而增大样本的分层可使样本的构成充分接近总体构成,从而增大样本的代表性代表性;不仅能够满足推断总体的需要,也能够满足推断各子总体不仅能够满足推断总体的需要,也能够满足推断各子总体的需要(满足分层次管理需要)的需要(满足分层次管理需要)。通常采用按比例分配法。即:通常采用按比例分配法。即:NNnnii1,2,iK 21121iinnijijijjiiiixxxxsnn 2221111KKKKiiiiiiiiiiiiN xn xN sn sxsNnNn2Xsn 21XsnnN 则样本总体的平均数和方差分别为:则样本总体的平均数
18、和方差分别为:因此,可以计算抽样平均误差:因此,可以计算抽样平均误差:或或 P282例例10-51MijjixxM 1,2,ir 111rMrijiijixxxrrM 我们主要讨论我们主要讨论等群体整群抽样等群体整群抽样的抽样平均误差的抽样平均误差计算。计算。设全及总体划分为设全及总体划分为R群,每个群包含的单位数群,每个群包含的单位数均相等,为均相等,为M;从全及总体中随机抽取;从全及总体中随机抽取r群组成一群组成一个样本,对抽中的个样本,对抽中的r群中所有的总体单位进行调查群中所有的总体单位进行调查。根据样本数据,可以计算各群体的平均数。根据样本数据,可以计算各群体的平均数则样本总体平均数为则样本总体平均数为21XRrrR 2 2211riixxr 由于整群抽样都采用不重复抽样方法,且总体由于整群抽样都采用不重复抽样方法,且总体群数群数R通常不是很大,所以样本平均数的抽样平通常不是很大,所以样本平均数的抽样平均误差为均误差为其中,其中,表示样本各群平均数间的方差,称为样本群间表示样本各群平均数间的方差,称为样本群间方差,即方差,即P284例例10-6