1、第七章抽样与抽样分布本章内容本章内容第一节第一节 抽样方法抽样方法第二节第二节 三种不同性质的分布三种不同性质的分布第三节第三节 单个总体参数推断的抽样分布单个总体参数推断的抽样分布 第一节抽样方法 一、简单随机抽样一、简单随机抽样 简单随机抽样有两种抽取调查单位的具体方法,即重复简单随机抽样有两种抽取调查单位的具体方法,即重复抽样和不重复抽样。抽样和不重复抽样。 简单随机抽样是指从含有简单随机抽样是指从含有N N个单位的总体中,随机个单位的总体中,随机抽取抽取n n个单位作为样本,使得每一个容量为个单位作为样本,使得每一个容量为n n的样的样本都有相同的机会本都有相同的机会( (概率概率)
2、)被抽中,这样的抽样方式被抽中,这样的抽样方式也称纯随机抽样。简单随机抽样是是最基本的抽样也称纯随机抽样。简单随机抽样是是最基本的抽样方法。方法。(1 1)抽签法。)抽签法。 当给总体单位编号后,把号码写在当给总体单位编号后,把号码写在结构无效的签上,将签混合均匀后结构无效的签上,将签混合均匀后即可以从中抽取。采用这种方法简即可以从中抽取。采用这种方法简便易行,然而对较大的总体来说,便易行,然而对较大的总体来说,编号作签工作量很大,而且混匀有编号作签工作量很大,而且混匀有困难,所以,这种方法的应用具有困难,所以,这种方法的应用具有一定局限性。一定局限性。 (2 2)随机数字法。)随机数字法。
3、随机数字可以借助于计算机获得,也随机数字可以借助于计算机获得,也可应用随机数表,其中随机数表方法可应用随机数表,其中随机数表方法应用较为普遍。表中数字是按照完全应用较为普遍。表中数字是按照完全随机的方法排列的。如表随机的方法排列的。如表7-17-1是多种随是多种随机数表中的一种。机数表中的一种。 表表7-1 7-1 随机数字表(部分随机数字表(部分) 0 03 39 97 71 16 61 12 25 55 54 47 77 74 47 76 65 56 65 59 94 43 32 24 46 62 28 85 55 56 67 73 36 67 72 27 79 99 93 35 58 8
4、6 66 62 26 66 62 26 66 64 43 36 64 42 25 56 69 96 63 38 89 96 68 81 15 50 09 96 65 54 44 47 71 14 42 26 66 68 88 82 23 36 65 57 77 71 12 27 74 46 66 61 12 20 00 07 73 31 12 22 21 16 68 84 46 63 33 33 35 57 72 22 24 42 20 01 12 21 16 60 07 77 71 17 76 63 31 12 28 86 69 94 45 53 37 78 83 34 43 32 23 3
5、9 93 31 15 59 92 29 94 44 44 49 95 57 71 16 67 78 80 09 95 54 42 24 49 95 56 64 44 47 74 43 35 55 55 55 55 56 62 27 75 54 40 06 66 67 70 07 79 96 68 82 28 88 81 19 98 82 25 54 4随机抽样可借助于随机抽样可借助于ExcelExcel来操作。来操作。例例1 1:某班有四十名同学(见表:某班有四十名同学(见表7-27-2),试借助于),试借助于ExcelExcel从中随机抽取从中随机抽取1010名。名。表表7 72 2 某班某
6、班4040名同学名单名同学名单解:解: 将上述名单输入将上述名单输入ExcelExcel工作表中,并进行编号。设工作表中,并进行编号。设 A1A1A40A40为名单,为名单,B1B1B40B40为编号。为编号。 点击点击“工具工具”/“/“数据分析数据分析”,在出现的对话框中选择,在出现的对话框中选择 “ “抽样抽样”,然后,然后“确定确定”,出现,出现“抽样抽样”对话框(见图对话框(见图7-17-1)。)。 在在“抽样抽样”对话框中的对话框中的“输入区域输入区域”填入编号所在区域填入编号所在区域 B1B1B40B40,样本数一栏填入样本数量,样本数一栏填入样本数量“10”10”,“输出区域输
7、出区域” ” 填入抽样结果放置的区域(这里填填入抽样结果放置的区域(这里填C1C1),然后),然后“确定确定”,出,出 现如图现如图7-27-2所示的抽样结果。所示的抽样结果。 图图7-1 “7-1 “抽样抽样”对话框对话框 图图7-2 7-2 随机抽样结果随机抽样结果即抽中的编号为即抽中的编号为“9 9,1 1,28”28”,分别是朱建华、王,分别是朱建华、王峰、董轩等同学。峰、董轩等同学。这种方法是重复抽样,如果希望采取不重复抽样,则当这种方法是重复抽样,如果希望采取不重复抽样,则当出现重复结果的时候可删除掉一个,再随机抽取出一个出现重复结果的时候可删除掉一个,再随机抽取出一个新的样本单位
8、。此外,重复上述步骤就会发现,每次抽新的样本单位。此外,重复上述步骤就会发现,每次抽样的结果是不一样的,如图样的结果是不一样的,如图7-37-3所示。所示。图图7-3 7-3 两次抽样的结果比较两次抽样的结果比较 二、分层抽样二、分层抽样 分层抽样,也称分类抽样,是指在抽样之前分层抽样,也称分类抽样,是指在抽样之前先将总体划分为若干层先将总体划分为若干层( (类类) ),然后从各个层,然后从各个层中抽取一定数量的单位组成样本的抽样方式中抽取一定数量的单位组成样本的抽样方式称为分层抽样。称为分层抽样。 分层抽样是一种常用的抽样方式。它主要具有以下优点:分层抽样是一种常用的抽样方式。它主要具有以下
9、优点:(1)分层抽样既可以对总体进行估计,也可以对各层的)分层抽样既可以对总体进行估计,也可以对各层的子总体进行估计。子总体进行估计。(2)分层抽样既按自然区域分层,也可以按行政区域进)分层抽样既按自然区域分层,也可以按行政区域进行分层,这样使抽样的组织和实施都比较方便;行分层,这样使抽样的组织和实施都比较方便;(3)分层抽样的样本分布在各个层内,从而使样本在总)分层抽样的样本分布在各个层内,从而使样本在总体中的分布比较均匀;体中的分布比较均匀;(4)分层抽样可以提高估计的精度。)分层抽样可以提高估计的精度。 分层时要遵循的原则:分层时要遵循的原则:(1)根据研究目的分层。)根据研究目的分层。
10、(2)分层时要遵循)分层时要遵循“层内同质、层间差异层内同质、层间差异”的原则,即的原则,即使层内各单位之间的差异尽可能小,而使层与层(或使层内各单位之间的差异尽可能小,而使层与层(或类与类)之间的差异尽可能大。类与类)之间的差异尽可能大。 样本容量在各层内的分配方法:样本容量在各层内的分配方法:(1)等数分配分层抽样。)等数分配分层抽样。(2)等比例分层抽样。)等比例分层抽样。(3)不等比例分层抽样。)不等比例分层抽样。三、系统抽样三、系统抽样系统抽样也是一种常用的抽样方式,它主要具有以下优点:系统抽样也是一种常用的抽样方式,它主要具有以下优点:(1 1)简便易行。)简便易行。(2 2)系统
11、抽样的样本在总体中的分布一般也比较均匀,由)系统抽样的样本在总体中的分布一般也比较均匀,由此抽样误差通常要小于简单随机抽样。此抽样误差通常要小于简单随机抽样。 系统抽样也称等距抽样或机械抽样,是指系统抽样也称等距抽样或机械抽样,是指先将总体各单位按某种顺序排列,并按某先将总体各单位按某种顺序排列,并按某种规则确定一个随机起点,然后,每隔一种规则确定一个随机起点,然后,每隔一定的间隔抽取一个单位,直至抽取定的间隔抽取一个单位,直至抽取n n个单位个单位形成一个样本的抽样方式。形成一个样本的抽样方式。 四、整群抽样四、整群抽样 整群抽样也称集团抽样或分群随机抽整群抽样也称集团抽样或分群随机抽样,是
12、将总体划分成若干群,然后以群样,是将总体划分成若干群,然后以群作为抽样单位,从中抽取部分群,再对作为抽样单位,从中抽取部分群,再对抽中的各个群中所包含的所有单位进行抽中的各个群中所包含的所有单位进行观察的抽样方式。观察的抽样方式。第二节三种不同性质的分布 一、一、 总体分布总体分布 总体是由总体单位组成的,总体中每个单总体是由总体单位组成的,总体中每个单位的数据(即标志值或变量值)是不同的,位的数据(即标志值或变量值)是不同的,这些数据所形成的分布就是总体分布。换这些数据所形成的分布就是总体分布。换句话说,总体分布就是总体中各单位的观句话说,总体分布就是总体中各单位的观察值所形成的分布。察值所
13、形成的分布。 二、样本分布二、样本分布 样本是指从总体中随机抽取样本是指从总体中随机抽取n n个单个单位组成的总体。在样本中,由这位组成的总体。在样本中,由这n n个样本单位的数据形成的分布就是个样本单位的数据形成的分布就是样本分布。样本分布。 三、抽样分布三、抽样分布 抽样分布是指由样本抽样分布是指由样本n n个观察值个观察值所计算的统计量的概率分布。所计算的统计量的概率分布。例如,样本均值的分布、样本比例如,样本均值的分布、样本比例的分布、样本方差的分布等都例的分布、样本方差的分布等都称为抽样分布。称为抽样分布。第三节单个总体参数推断的单个总体参数推断的抽样分布抽样分布一、样本均值的抽样分
14、布一、样本均值的抽样分布样本均值的抽样分布是指在样本均值的抽样分布是指在重复选取容量为重复选取容量为n n的样本时,的样本时,由样本均值的所有可能取值由样本均值的所有可能取值而形成的概率分布,即的概而形成的概率分布,即的概率分布。率分布。 1. 1. 样本均值的抽样分布的形成过程样本均值的抽样分布的形成过程例例2 2:设一个不透明的盒子里放置:设一个不透明的盒子里放置4 4个乒乓球,分别标个乒乓球,分别标以以1 1,2 2,3 3,4 4号,现从盒子中采取重复抽样方法号,现从盒子中采取重复抽样方法抽取容量为抽取容量为n n=2=2的随机样本,写出样本均值(样的随机样本,写出样本均值(样本的平均
15、号码)的抽样分布。本的平均号码)的抽样分布。解:这个例子可以被视为一个包含了解:这个例子可以被视为一个包含了4 4个单位的总体,个单位的总体,即总体单位个数即总体单位个数N=4N=4,4 4个单位的取值分别为:个单位的取值分别为:x x1 1=1=1,x x2 2=2=2,x x3 3=3=3,x x4 4=4=4 我们先来看看总体的分布状况,如图我们先来看看总体的分布状况,如图7-47-4所示。所示。012340.10.20.3(x)P图图7-4 7-4 总体分布总体分布可以看出:总体的分布为均匀分布,即每一个观察值可以看出:总体的分布为均匀分布,即每一个观察值xixi的概的概率相同。这样,
16、可以按下面的公式计算总体均值和方差。率相同。这样,可以按下面的公式计算总体均值和方差。从总体中采取重复抽样方法抽取容量为从总体中采取重复抽样方法抽取容量为n=2n=2的随机样本,即先的随机样本,即先取出一个乒乓球,记下其号码后放回箱子中再取第二个,共取出一个乒乓球,记下其号码后放回箱子中再取第二个,共有有42=1642=16个可能的样本。然后计算出每一个样本的均值个可能的样本。然后计算出每一个样本的均值 ,结果如表结果如表7 73 3所示:所示:2.5410Nx41ii总体均值:总体均值:总体方差:总体方差:1.254i41i2)(x2ix样样 本本样本单位样本单位 样本均值样本均值样本方差样
17、本方差 S S2 21 12 23 34 45 56 67 78 89 91010111112121313141415151616(1 1,1 1)(1 1,2 2)(1 1,3 3)(1 1,4 4)(2 2,1 1)(2 2,2 2)(2 2,3 3)(2 2,4 4)(3 3,1 1)(3 3,2 2)(3 3,3 3)(3 3,4 4)(4 4,1 1)(4 4,2 2)(4 4,3 3)(4 4,4 4)1.01.01.51.52.02.02.52.51.51.52.02.02.52.53.03.02.02.02.52.53.03.03.53.52.52.53.03.03.53.54
18、.04.00 00.50.52 24.54.50.50.50 00.50.52 22 20.50.50 00.50.54.54.52 20.50.50 0表表7 73 163 16个可能的样本及其均值和方差个可能的样本及其均值和方差由于每个样本被抽中的概率相同,均为由于每个样本被抽中的概率相同,均为1/161/16。将样本均值经。将样本均值经整理后如表整理后如表7-47-4所示。所示。表表7-4 7-4 样本均值的分布样本均值的分布的取值的取值频频 数数概概 率率1.01.01.51.52.02.02.52.53.03.03.53.54.04.01 12 23 34 43 32 21 11/1
19、61/162/162/163/163/164/164/163/163/162/162/161/161/16把分布绘成图把分布绘成图7-57-5。通过比较总体积和样本均值的抽样分布,。通过比较总体积和样本均值的抽样分布,不难看出它们的区别。尽管总体分布为均匀分布,但样本均不难看出它们的区别。尽管总体分布为均匀分布,但样本均值的抽样分布在形状上却是对称的。值的抽样分布在形状上却是对称的。图样本均值的抽样分布 7-2 XP( ) 0 1. 0 1. 5 2. 0 2. 5 3. 0 3. 5 4.00.30.20.1图图7-5 7-5 样本均值的抽样分布样本均值的抽样分布样本均值抽样分布的形成过程如
20、图样本均值抽样分布的形成过程如图7-67-6所示。所示。的抽样分布X图抽样分布的形成过程 7 -3 总体计算出每一个样本的均值容量为 的所有样本 nN图图7-6 7-6 抽样分布的形成过程抽样分布的形成过程1. 1. 样本均值的抽样分布的形成过程样本均值的抽样分布的形成过程2. 2. 样本均值的抽样分布的形式样本均值的抽样分布的形式抽样分布的形式与原有总体的分布和样本容量抽样分布的形式与原有总体的分布和样本容量n n的大小有关。的大小有关。总体总体 总体总体的分布f(x)0f(x)0f (x)0 n ( =2)的抽样分布XXXXf(x)0f(x)0f(x)0 n ( =5)的抽样分布XXXXf
21、(x)0f(x)0f(x)0图的抽样 分布趋于正态分布的过程 7- 4 n ( = 30)的抽样分布XXXXXf(x)0f(x)0f(x)0图图7-7 7-7 样本均值样本均值 的抽样分布趋于正态分布的过程的抽样分布趋于正态分布的过程3. 3. 样本均值的抽样分布的特征样本均值的抽样分布的特征均值均值 E E( )=重复抽样重复抽样 不重复抽样不重复抽样 n22xn22x)1NnN(2x N()n,2N nx N nN 1,即即即即 二、样本比例的抽样分布二、样本比例的抽样分布样本比例的抽样分布是指在重复选取容量为样本比例的抽样分布是指在重复选取容量为n n样本时,样样本时,样本比例的所有可能
22、取值形成的概率分布。本比例的所有可能取值形成的概率分布。重复抽样重复抽样不重复抽样不重复抽样2p 1n()即即 1p Nn,2p 1N n()nN 1()即即 1Nnp Nnn1, 三、样本方差的抽样分布三、样本方差的抽样分布样本方差的抽样分布是指在重复选取容量为样本方差的抽样分布是指在重复选取容量为n n的样本时,的样本时,样本方差的所有可能取值形成的概率分布。样本方差的所有可能取值形成的概率分布。1)(ni)x(x22n1i2 2 2分布具有如下性质和特点:分布具有如下性质和特点:(1 1)2 2分布的变量值始终为正。分布的变量值始终为正。(2 2)2 2(n n)分布的形状取决与其自由度
23、)分布的形状取决与其自由度n n的大小,通常为不对称的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称,如图的正偏分布,但随着自由度的增大逐渐趋于对称,如图7-27-2所所示。示。(3 3) 2 2分布的期望为分布的期望为E E(2 2)n n,方差为,方差为D D(2 2)2 2n n(n n为自为自由度)。由度)。(4 4) 2 2分布具有可加性。若分布具有可加性。若U U和和V V为两个独立的为两个独立的2 2分布随机变量,分布随机变量,U U2 2 (n n1 1),),V V2 2 (n n2 2),则随机变量),则随机变量U UV V服从自由度服从自由度为为n n1 1n n2 2的的2 2分布。分布。图图7-8 7-8 不同自由度的不同自由度的2 2分布分布图样本 统计量的 抽样分布 7- 7 正态分布非正态分布正态分布分布 样本均值样本比例样本方差 正态总体或非正态总体大样本 非正态总体(小样本 )大样本样本统计量XsPX图7-9