1、第一节 抽样调查概述一、抽样调查的含义(二)抽样推断的特点1抽样推断是非全面调查2抽样推断是按随机原则抽选调查单位。3抽样推断是用样本的指标数值去推算总体的指标数值。4抽样推断中产生的抽样误差,可以事先计算并加以控制。二、抽样调查的主要内容(一)随机抽样:按照随机原则从总体中抽取部分单位构成样本的过程。(二)统计估计:根据随机抽取的部分单位的特性来对总体的分布函数、分布参数或数字特征等进行推测估算的过程。(三)假设检验:根据经验或认识,提出某一假设,并判断该假设正确性的过程。三、抽样推断的作用(一)解决了无法进行全面调查或很难进行全面调查的问题(二)可以补充或修正全面调查的数据(三)可以节省调
2、查费用和调查时间四、抽样推断涉及的基本概念(一)总体和样本1全及总体(总体、母体)它是指调查对象的全部单位,是由具有某种共同性质的许多单位组成的。总体既是我们所要研究的对象,又是样本所赖以抽取的母体。组成总体的单位称为总体单位,总体的单位数通常用N表示。2抽样总体(样本、子样)是指在总体中按随机原则抽取的那一部分单位所构成的集合体。组成样本的单位称为样本单位,样本单位数亦称样本容量,通常用n表示。样本单位数总是大于1而小于总体单位数N的,即1nN。(二)总体指标和抽样指标1总体指标总体指标是指根据总体各单位的标志值计算出来的,反映总体某种属性或特征的综合指标,亦称为总体参数。由于总体是惟一确定
3、的,因此,根据总体计算的总体指标也是惟一确定的。常用的总体指标有:总体平均数、总体成数、总体标准差和总体方差。X(1)总体平均数代表总体单位数量标志一般水平的指标,它表明变量变动的集中趋势,通常用 表示。NXNXXXXXniin11.其中:X1,X2,Xn为总体中每一 个调查单位的取值 N是总体单位数 是总和符号NNp1NNQ0(2)总体成数当总体的一个现象有两种表现时,其中具有某一种表现的单位数占总体单位数目的比重,叫总体成数,用P或Q表示。其计算公式为:N代表总体单位数;N1代表具有某一种表现的总体单位数;No代表具有另一种表现的总体单位数;P、Q代表成数。PQNNNQPNNN110101
4、则N1NXX2NXX22nxnxxxxxniin1321.nnp1nnq0p1q1)(0101则nnnqpnnn%510051nnp%95%511pqnxxs2nxxs22(三)重复抽样和不重复抽样1重复抽样(重置抽样)采用这种方法抽取样本单位的特点是:同一单位有多次重复被抽中的机会,并且总体单位数目始终不变,每个单位抽中或抽不中的机会在各次都是相同的。2不重复抽样(不重置抽样)采用这种方法抽取样本单位的特点是:同一单位只有一次被抽中的机会,并且总体单位数目随着样本单位数目抽取的次数的增多而愈变愈少。每个单位抽中或抽不中的机会在各次是不同的。第二节 抽样推断的一般原理一、抽样推断的理论依据1)
5、1(lim1niinxnp二、抽样推断的原理 抽样估计就是以样本的实际资料为依据,计算一定的样本指标,并以此对总体做出数量上的估计和判断。其原理是:(一)抽样推断运用的是归纳推理方法抽样推断的方法是归纳法,而归纳法推断结论的正确性必须过事实的验证。(二)抽样推断运用的是概率原理 抽样推断的结论,其可靠性究竟是多少,需要运用概率的原理加以说明。(三)抽样推断的结论存在着一定的抽样误差抽样误差是抽样调查所特有的,而且是不可避免的。三、抽样推断的优良标准(一)无偏性用抽样指标推断总体指标要求抽样指标的平均数等于被估计的总体指标。就是说,虽然每个可能样本的抽样指标不一定等于未知的总体指标,但在多次反复
6、估计中,要求各个抽样指标的平均数应该等于总体指标,亦即从平均来说,抽样指标的估计是没有偏误的,叫做无偏性。XxEnxEnxExE)()()()(1)(limxExnXxE)(1)(limXxpn证明:设 为任意正数,根据大数定律有:抽样平均数的期望值等于总体平均数,即一、抽样误差的概念 1.由样本得到的估计值与被估计的总体未知真实特征值之差,就是误差。或样本指标数值与总体指标数值之间的差数。2.抽样误差就是指按随机原则抽样时,单纯由不同的随机样本得出不同的估计量而产生的误差。3.由于总体平均数和成数是惟一确定的,抽样平均 数和成数则是随机变量,因而抽样误差也不是惟 一确定的,而是随机变量。抽样
7、误差愈小,表示样本的代表性愈高;反之,样本的代表性就愈低。同样,抽样误差还说明样本指标与总体指标的相差范围,因此,它也是推算总体的依据。4.抽样误差是抽样调查自身所固有的不可避免的误差,虽然不能消除这种误差,但可以用数理统计方法进行计算确定其数量界限并加以控制,也就是根据研究的需要,把它控制出所允许的范围以内。所有可能的样本个数望值)(各种样本统计量期抽样平均误差2上式表明了抽样平均误差的含义,并不能作为计算公式。因为:1.在现实的抽样中,我们只能取得一个样本,不可能也没必要获得全部所有可能样本,所以抽样平均误差也不可能通过所有样本来直接计算。2.统计量的分布律中我们已经知道:统计量是以总体相
8、应指标为期望值,抽样平均误差实质上就是该统计量在其概率分布中的标准差。(二)抽样平均误差的计算 1抽样平均数的平均误差(1)在重复抽样的条件下总体方差已知,样本平均数服从正态分布,其抽样平均数的平均误差计算公式为:nnx2由上式可以看出,抽样平均数的平均误差就是抽样平抽样平均数的平均误差就是抽样平均数均数 的标准差。的标准差。抽样平均误差和总体标准差是成正比的,与样本单位数的平方根成反比。因此,要想减少抽样平均误差以提高抽样指标的代表性,只能增大样本单位数n,因为总体标准差是不能改变的。(2)在不重复抽样的条件下,抽样平均数的平均误差计算公式为:当总体单位数N很大时,公式中的N1可以用N代替。
9、)1(2NnNnx)1(2Nnnx 2成数的平均误差统计成数(比重)是一种结构相对数,它实际属于是非标志平均数的特例。统计上习惯以1表示“是”,以0表示“非”。p为1的概率,q1p为0的概率。成数的方差是P(1P)其特点为,最大值为025(0.50.5),即当两种表现的总体单位各占一半时,它的变异程度最大。)1()1(Nnnpppnppp)1(在不重复抽样条件下,其计算公式为:)1()1(NnNnppp(小时)61006022nsx小时)(69.5)10001001(10060)1(22Nnnsx解:p5010000.05按重复抽样计算:%69.0100095.005.0)1(nppp%65.
10、0)1000010001(100095.005.0)1()1(Nnnppp1.抽样平均数的极限误差:xXxxXXxxPpppPPppppppPxxXxxxXxxX同理:pptxxt;ntntxtXxx2nPPtptPpp)1(9545.0)2(20500X20500p210500480t102550nsxxx)(解:F(一)抽样估计的现实意义 社会经济统计的认识对象是现象总体的数量方面,理应搜集现象总体的全面资料,再依据统计目的研究其总体的数量特征,以获得总体本质及其规律性的认识。但在实际工作中,由于受客观条件或环境的限制,往往不可能或没必要搜集总体的全面资料,只可能或只需要利用样本资料估计总
11、体的数量特征或推算总体的总量指标,这就是抽样估计。(二)抽样估计的方法 、抽样估计有两种方法:点估计和区间估计。点估计也叫定值估计,它是以抽样得到的样本指标作为总体指标的估计值,同时给出极限误差和相应的可靠程度的一种估计方法。在实践中,对总体的特征值(如平均数、成数等)估计,主要借助于点估计,具体表示点估计是用样本数据计算出估计值,同时给出估计精度和相应的可靠程度。区间估计是根据一定的精确度和可靠程度的要求,用样本指标和抽样误差去推断总体指标的可能范围的一种估计方法。由于点估计量与总体的未知参数并不完全相等,故它们之间必然存在着一定的误差,并且不能确知误差的大小、估计精度的高低以及估计的可信程
12、度等信息。为此区间估计将考虑这些因素,即根据样本统计量及估计的可能误差,找出在一定保证程度下的估计区间,即置信区间。对总体平均数(或总体成数)的估计有两种情形:(一)根据已经给定的极限抽样误差范围,求概率保证程度F(t),进而进行点估计和区间估计。1.抽取样本,计算样本平均数(或样本成数),作为总体平均数(或总体成数)的估计值,并计算样本标准差S,以此推算抽样平均误差。XXPPXXPP349.03066.31.503015032ffxxsfxfx98.4912.01.50 x22.5012.01.50 xxx下限上限9545.02p206.012.0t06.030349.0nsxxx)(,F)
13、(33.190040402.08.0p1ps80900720nnpp1%5.76%5.3%80%5.83%5.3%80下限上限PPPP)(992.58(p58.233.15.3t3F3.01000010011003n1ns3s160 x122xN,)已知解:(6.03.02txX1简单随机抽样的含义 简单随机抽样又称为纯随机抽样,它是不对总体做任何加工整理,直接从总体中抽取调查单位的抽样方式。必须满足下列两条要求:代表性,即要求样本分布与总体分布相同;独立性,即要求样本各个单位相互独立。(1)抽签法。适合用于总体单位数较少的总体。(2)随机数表法。适合用于大规模的社会经济调查。(3)简单随机抽
14、样的平均误差nnx2nppp)1(1类型抽样的含义 类型抽样又称为分层抽样或分类抽样,它是将总体单位先按一定标志分组,然后在各组中随机抽取样本的抽样组织方式。类型抽样是应用于总体内各单位在被研究标志上有明显差别的抽样。主要原则是:分组时应使组内差异尽可能小,使组间差异尽可能大。(1)等比例抽样:按同样的抽样比nN,确定各组中应抽的样本单位数,如各组单位数为N,则从中抽取的样本单位为N1(其nN相等),各组样本单位数确定后,按随机原则从各组中抽取各类单位组成样本。(2)不等比例抽样多指某类单位在总体中占的比重过小时,对其按比例抽不到或只能抽到很少数量,为了保证样本中各类单位的代表性而采取不等比例
15、抽样的方法。1等距抽样的概念 等距抽样又称为机械抽样或系统抽样。它是先将总体各单位按有关标志或无关标志进行排列,再按照固定的顺序和间隔来抽选样本单位的一种抽样组织形式。等距抽样是不重复抽样,通常可以保证被抽取的单位在总体中均匀分布,缩小各单位之间的差异程度,提高样本的代表性。(1)无关标志排队法:就是指总体单位采用与调查项目没有关系的标志进行排队的方法。(2)有关标志排队法:就是总体单位采用与调查项目有关的 标志进行排队的方法。1.整群抽样的含义 是先将总体各单位划分成若干群,再以群为单位从中随机地抽取出若干群来,对被抽中群的所有单位进行调查的一种抽样组织形式。由于抽样单位比较集中,限制了样本
16、单位在总体分配中的均匀性,所以有时代表性较低,抽样误差较大。一般采用整群抽样通常都要增加一些样本单位,以缩小抽样误差,提高估计的准确性。首先对所要研究的总体根据需要划分出群的单位;其次把各群按时间顺序或空间顺序排列编号;最后可按筒单随机抽样或等距抽样的方法抽取样本群。抽样调查中,如果抽出的样本单位直接就是总体单位叫做单阶段抽样,如简单随机抽样,类型抽样。如果先将总体进行分组,从中随机抽出一些组,然后再从中选的组中随机抽取总体单位,叫两阶段抽样。如果将整体进行多层次分组,然后依次在各层次中随机抽取,直到抽取到总体单位,称为多阶段抽样。1.便于组织抽样。它可以直接按现行的行政区划或地理区域划分阶段
17、的抽样单元,从而简化抽样框的编制。2.可以获得各阶段单元的调查资料,根据最初级资料进行逐级抽样推断,得到各级的调查资料。3.多阶段抽样的方式比较灵活,各阶段抽样的组织方式应以前述四种方式为依据进行选择。(一)确定抽样样本容量的必要性 样本容量就是抽样的数目。根据大数定律,在抽样调查中样本容量越多,样本对总体的代表性越大,抽样误差越小;样本容量减少,抽样误差就要增大。但同时,抽样数目越多,抽样调查的费用也越高,而且还会影响到调查的时效性。因此,确定样本容量时,应在保证满足抽样调查对数据的估计精确度和概率把握程度(置信度)下,尽量缩小抽样数目,即确定必要抽样数目。1总体被研究标志的变异程度 总体被
18、研究标志的变异程度大,则应抽取较多的样本单位;总体被研究标志的变异程度小,则可抽取较少的样本单位。ntxtxnPPtptp)1(在简单随机抽样中,必要抽样数目的计算公式有:1重复抽样条件下 (1)平均数的必要抽样数目公式:222222)()(xtnntxntxtxpPPtnnPPtptp22)1()1(例5.9 对某型号电子元件10000只进行耐用性能调查。根据以往抽样测定,求得耐用时数的标准为600小时。试在重复抽样条件下:概率保证程度为6827,元件平均耐用时数的误差范围不超过150小时,要抽取多少元件做检查?只)(161506001)(222222xtn只)268919.26704.0218.03)1(22222pPPtn(1)平均数的必要抽样数目公式:222222)(1tNxNtnNnntxNPPtpNPPtnNnnPPtp)1()1()1()1(222