1、1样本对总体的代表性,既涉及到样本对总体的代表性,既涉及到,又涉及到又涉及到。2运用运用及数据处理的准确性及数据处理的准确性3样本对总体的样本对总体的在收集数据的过程中控制选择恰当的方法通过抽样设计控制1 1抽样设计的意义抽样设计的意义 使研究节省人力及费用;使研究节省人力及费用;使研究节省时间,提高时效性;使研究节省时间,提高时效性;保证研究结果的准确性。保证研究结果的准确性。2抽样设计的原则抽样设计的要求是样本对研究总体有良好抽样设计的要求是样本对研究总体有良好的的,即样本的构成与总体保持一致。为,即样本的构成与总体保持一致。为了 保 证 这 一 点,抽 样 时 必 须 遵 循了 保 证
2、这 一 点,抽 样 时 必 须 遵 循(randomizationrandomization)的基本原则。)的基本原则。所谓随机化原则,是指在抽样时,样本中所谓随机化原则,是指在抽样时,样本中的每一个体都是按照随机的原理被抽取的,总的每一个体都是按照随机的原理被抽取的,总体中每一个体被抽到的可能性是相等的。体中每一个体被抽到的可能性是相等的。1 1简单随机抽样(simple random sampling)简单随机抽样就是按照随机原则直接从总体中简单随机抽样就是按照随机原则直接从总体中抽取出若干个单位作为样本。抽取出若干个单位作为样本。简单随机抽样法能保证总体中的每一个对象都简单随机抽样法能保
3、证总体中的每一个对象都有同等的被抽取到的可能性,并且个体之间都相互有同等的被抽取到的可能性,并且个体之间都相互独立。这是在总体异质性不是很大而且所抽取的样独立。这是在总体异质性不是很大而且所抽取的样本较小时经常采用的一种形式。本较小时经常采用的一种形式。简单随机抽样法的局限是:当样本规简单随机抽样法的局限是:当样本规模小时,样本的代表性较差。模小时,样本的代表性较差。简单随机取样有两种基本方式:抽签法(drawing lots)随机数字表法(random number table)等距抽样等距抽样(interval sampling)也称为机也称为机械抽样或系统抽样。实施时,先把总体中的械抽样
4、或系统抽样。实施时,先把总体中的所有个体按一定顺序编号,然后依固定的间所有个体按一定顺序编号,然后依固定的间隔取样。隔取样。等距抽样可以保证样本的成分与总体一等距抽样可以保证样本的成分与总体一致,但随机性不如单纯随机抽样法。应用中致,但随机性不如单纯随机抽样法。应用中可将两种方法结合使用。可将两种方法结合使用。分层随机取样简称分层抽样分层随机取样简称分层抽样(stratified sampling 或或 hierarchical sampling),是进行大规模研究时常),是进行大规模研究时常常使用的抽样方法。常使用的抽样方法。先将总体按照一定标准分先将总体按照一定标准分为若干类型(统计上称为
5、层),再根据各层对象为若干类型(统计上称为层),再根据各层对象的数量在总体数量中所占的比例,确定从每一种的数量在总体数量中所占的比例,确定从每一种类型(层)中抽取样本的数量,然后按随机原则类型(层)中抽取样本的数量,然后按随机原则和所确定的各层取样的数量,从各层中取样。和所确定的各层取样的数量,从各层中取样。分类的标准要科分类的标准要科学,要符合实际情况。各层内的差别要小,而层学,要符合实际情况。各层内的差别要小,而层与层之间的差异则越大越好。与层之间的差异则越大越好。NNnnii公式中,公式中,ni为第为第i i层中被抽取的个体数量层中被抽取的个体数量 n为整个研究样本中个体的总数量为整个研
6、究样本中个体的总数量 Ni i为第为第i i层中对象的数量层中对象的数量 N为总体内个体的数量为总体内个体的数量 (221):为了调查某区重点中学为了调查某区重点中学720720名高一名高一学生的视力,首先按视力的情况将他们分学生的视力,首先按视力的情况将他们分成成(108(108人人)、(360360人)、人)、(252252人)人)三种水平。若用分层抽样法抽取三种水平。若用分层抽样法抽取120120人进行人进行调查,问各层应抽多少人?调查,问各层应抽多少人?计算:18720108120NNnn好好60720360120NNnn中中42720252120NNnn差差最佳配置法不仅考虑各层的人
7、数比例,而最佳配置法不仅考虑各层的人数比例,而且考虑到了各层的标准差。当各层内的标准差且考虑到了各层的标准差。当各层内的标准差已知,应该在标准差大的层内多分配而在标准已知,应该在标准差大的层内多分配而在标准差小的层内少分配抽样数量。差小的层内少分配抽样数量。最佳配置法可以使得到的样本具有较好的最佳配置法可以使得到的样本具有较好的。在各层内应抽取个体数计算公式中,公式中,ni i表示从某一层所抽个体数表示从某一层所抽个体数 n表示样本容量表示样本容量 Ni i表示某层个体总数表示某层个体总数 i i表示某层标准差表示某层标准差 iiiiiNNnn(222)当各个当各个没有现成资料可以应用时,可没
8、有现成资料可以应用时,可以先从该层抽一个小样本,由这一小样本以先从该层抽一个小样本,由这一小样本计算出的样本标准差计算出的样本标准差S对对进行估计。进行估计。iiiiiSNSNnn(223)分层随机取样法的分层随机取样法的是代表性和推是代表性和推论的精确性较好。它适用于总体单位数量论的精确性较好。它适用于总体单位数量较多,并且内部差异较大的研究对象。较多,并且内部差异较大的研究对象。分层随机取样法的分层随机取样法的性是要求对总性是要求对总体各单位的情况有较多的了解,否则就难体各单位的情况有较多的了解,否则就难以作出科学的分类。以作出科学的分类。当总体容量很大时,直接以总体中的当总体容量很大时,
9、直接以总体中的所有个体为对象,从中进行抽样,在实际所有个体为对象,从中进行抽样,在实际调查或研究中存在很大困难。调查或研究中存在很大困难。采用分阶段的抽样方法,可以缩小实采用分阶段的抽样方法,可以缩小实际抽样的范围,使实际抽样工作能够按研际抽样的范围,使实际抽样工作能够按研究设计的要求顺利进行。究设计的要求顺利进行。两阶段随机抽样(两阶段随机抽样(two-stages random two-stages random samplingsampling)的一般过程是:先将总体分成)的一般过程是:先将总体分成个部分;个部分;从这从这个部分中随机抽取个部分中随机抽取m个个部分作为第一阶段样本部分作为
10、第一阶段样本;是分别从这是分别从这m个部分中抽取一个部分中抽取一定数量(定数量(ni i)的个体构成第二阶段样本。)的个体构成第二阶段样本。整群随机抽样是先将整群随机抽样是先将总体各单位按一定的标准总体各单位按一定的标准分成许多群(小组),然分成许多群(小组),然后按随机原则从这些群中后按随机原则从这些群中抽取若干群作为样本。抽取若干群作为样本。整群随机取样法的整群随机取样法的是样本比较集中,是样本比较集中,适宜于某些特定的研究,尤其是在教育实验适宜于某些特定的研究,尤其是在教育实验中常用此法。此外,在规模较大的调查研究中常用此法。此外,在规模较大的调查研究中,整群随机取样易于组织,可节省人力
11、、中,整群随机取样易于组织,可节省人力、物力和时间。物力和时间。整群随机抽样法的整群随机抽样法的是样本分布不均匀,是样本分布不均匀,代表性较差。代表性较差。在应用中应根据研究所要求的精确度及经费在应用中应根据研究所要求的精确度及经费情况确定样本容量。如果样本容量过小,会影响情况确定样本容量。如果样本容量过小,会影响样本对总体的代表性,增大抽样误差而降低研究样本对总体的代表性,增大抽样误差而降低研究推论的精确性;样本容量过大,虽然减小了抽样推论的精确性;样本容量过大,虽然减小了抽样误差,但可能增大过失误差,并且增加不必要的误差,但可能增大过失误差,并且增加不必要的人力物力资源的浪费。人力物力资源
12、的浪费。样本容量与抽样误差并不是样本容量与抽样误差并不是直线关系。直线关系。确定容量的基本原则是:在确定容量的基本原则是:在尽量节省人力、经费和时间的尽量节省人力、经费和时间的条件下,确保用样本推断总体条件下,确保用样本推断总体达到预定的可行度及准确性。达到预定的可行度及准确性。nXZ222dZn其中,最大允许误差为其中,最大允许误差为 ,可信度为,可信度为1。Xd由由有有(224)可以看到,当可以看到,当确定之后,总体标准差和确定之后,总体标准差和最大允许误差最大允许误差d d是决定样本容量的两个因素。是决定样本容量的两个因素。由nSXt222dStn有当样本容量当样本容量n n 未确定时,
13、未确定时,t t 值无法确定,值无法确定,因此一般采用尝试法。因此一般采用尝试法。(225)尝试法求样本容量的过程.将将df的的 t 值代入公式求出值代入公式求出n1 1,.将将n1 1 的的 t 值代入公式求出值代入公式求出n2 2,.直至前后两次求出的直至前后两次求出的n 相同为止。相同为止。也可据也可据S/dS/d查附表查附表2020求出样本容量求出样本容量 拟估计某市高校四级英语考试成拟估计某市高校四级英语考试成绩的总体平均分数。以往考试成绩的标准绩的总体平均分数。以往考试成绩的标准差为差为13,这次的估计最大允许误差为,这次的估计最大允许误差为2分,分,可信度为可信度为95%,问应抽
14、取多大的样本?,问应抽取多大的样本?221396.11633.16222dZn拟对某市初中升入高中入学考试语拟对某市初中升入高中入学考试语文成绩的总体平均数进行估计。根据以同等文成绩的总体平均数进行估计。根据以同等难度的试题对同等教育水平的另一城市部分难度的试题对同等教育水平的另一城市部分初中升入高中入学考试语文成绩算出的初中升入高中入学考试语文成绩算出的S=11.4。若要求估计的最大允许误差为。若要求估计的最大允许误差为d=d=3,可信度为可信度为99%,问样本容量应为多少?,问样本容量应为多少?1.由由t分布表查得分布表查得 自由度自由度df=时,时,t1 1=2.576 968.9534
15、.11576.22221dStn2.由由t分布表查得分布表查得 自由度自由度df=96-1-1时,时,t2 2=2.629 1008.9934.11629.22222dStn3.由由t分布表查得分布表查得 自由度自由度df=100-1=100-1时,时,t3 3=2.627 1007.9934.11627.22221dStn前后两次算出的样本容量相等,因此前后两次算出的样本容量相等,因此 n=100当估计出的样本容量比较大时,可以直接按公式当估计出的样本容量比较大时,可以直接按公式(22.4)计算而不必采用尝试法。)计算而不必采用尝试法。2平均数显著性检验时样本容量的确定在假设检验中,要同时考
16、虑在假设检验中,要同时考虑错误和错误和错误,因此错误,因此 nXZ02nXZ将以上两式相加为:将以上两式相加为:ZZn20若令若令0 0,则,则ZZn2单侧检验:2ZZn双侧检验:22ZZn(226)(227)式中的式中的和和由研究者预先确定,由研究者预先确定,值值要比要比值小。一般值小。一般为为0.05或或0.01,而,而值值一般确定为一般确定为0.10、0.20或或0.30。对同一个。对同一个值,单侧和双侧时的值,单侧和双侧时的Z Z临界值是不一样的。临界值是不一样的。当样本容量已知,当样本容量已知,值及其他条件也已值及其他条件也已确定,则确定,则就是确定值。这时可以利用有关就是确定值。这
17、时可以利用有关公式计算公式计算值,从而对检验的统计力作出评值,从而对检验的统计力作出评价。价。可以看到,在平均数的假设检验中,可以看到,在平均数的假设检验中,当确定了当确定了和和之后,样本的容量之后,样本的容量n取决于取决于总体标准差总体标准差和假设的总体差异和假设的总体差异。与参数。与参数估计相比,多考虑了一个估计相比,多考虑了一个因子,并且因子,并且与与参数估计中的参数估计中的d d具有不同的涵义。具有不同的涵义。某市高中入学考试数学平均分数某市高中入学考试数学平均分数历年来的标准差为历年来的标准差为8.6分。某校欲估计今年分。某校欲估计今年该校学生入学考试数学成绩是否与全市一致,该校学生
18、入学考试数学成绩是否与全市一致,希望可信度达到希望可信度达到95%,估计误差不超过,估计误差不超过3分,分,而而为为0.050.05,问需抽取多大的样本?,问需抽取多大的样本?22ZZn108095.10736.865.196.12单侧检验:2Sttn双侧检验:22Sttn(228)(229)用尝试法求出用尝试法求出n n,也可查附表,也可查附表2222求出样本容量。求出样本容量。3两平均数差异显著性检验时样本容量的确定对两个独立样本平均数差异进行显著性检验对两个独立样本平均数差异进行显著性检验时,两个相应总体标准差一般为未知,需要由样时,两个相应总体标准差一般为未知,需要由样本的标准差进行估
19、计。其联合方差的计算公式为本的标准差进行估计。其联合方差的计算公式为2212222112nnSnSnSp221222211nnSnSnSp单侧检验:单侧检验:2212pSttnn双侧检验:双侧检验:22212pSttnn(2210)(2211)用尝试法求出用尝试法求出n n。相关样本的数据是成对的,每一对数相关样本的数据是成对的,每一对数据之差记为据之差记为d,则,则 d=X1 1-X2 2Sd d即每一对数据之差的标准差,也是即每一对数据之差的标准差,也是由样本数据对总体数据之差标准差的估计由样本数据对总体数据之差标准差的估计值。可以由同类的数据进行估计。值。可以由同类的数据进行估计。单侧检
20、验:2212dSttnn双侧检验:22212dSttnn(2212)(2213)用尝试法求出用尝试法求出n n。在一个月之内每天进行半小时英语在一个月之内每天进行半小时英语听力训练,为了考查其效果,拟对随机抽取听力训练,为了考查其效果,拟对随机抽取的一组学生在训练前后用同一听力内容进行的一组学生在训练前后用同一听力内容进行测验,并进行平均数差异的显著性检验。同测验,并进行平均数差异的显著性检验。同类实验结果表明,实验前后成绩之差的标准类实验结果表明,实验前后成绩之差的标准差差Sd=10,若确定可信度为,若确定可信度为95%,=0.10,最,最大允许误差大允许误差=4.2,问应抽取多少人的样本?
21、,问应抽取多少人的样本?212dSttn22.410282.1645.129814.972122dSttn22.410282.196.1212017.1195相关系数显著性检验时样本容量的确定可直接从附表可直接从附表2525查查出相关系数显著性检验出相关系数显著性检验所需样本容量表。所需样本容量表。为了解初一学生智力水平(=15),误差不超过2分,=0.01,应取多大样本?往年新生儿体重超过2500g,母亲分娩时平均年龄为26.5岁,今欲检验体重2500g以下新生儿母亲的分娩年龄与此是否有差异,若规定=0.05,1-=0.90,=6.5,则至少应取多大样本?据往年资料可假设u=26.5,=0.2。今欲检验体重超过2500g与2500g以下的新生儿的母亲的分娩年龄是否有差异,若规定=0.01,1-=0.80,=6.5,估计两者的标准差均为5岁,则至少应取多大样本?据估计,两变量相关系数为0.40,为了验证,规定=0.05,1-=0.80,则样本容量多大为宜?