1、第第6 6章章 抽样设计抽样设计22023-5-13本章的几个基本问题本章的几个基本问题n是否进行抽样?是否进行抽样?n采用什么样的方法抽样?采用什么样的方法抽样?n选择什么类型的样本?选择什么类型的样本?n样本大小如何确定?样本大小如何确定?n如何控制和调整样本误差?如何控制和调整样本误差?一、抽样设计概述一、抽样设计概述6.1抽样的基本概念抽样的基本概念6.1.1抽样的基本概念抽样的基本概念 市场调研工作的目标是获取研究总体的各市场调研工作的目标是获取研究总体的各类信息及其特征。一般来说,有两种方法类信息及其特征。一般来说,有两种方法可以采用:一是普查,二是抽样。普查是可以采用:一是普查,
2、二是抽样。普查是穷举调查总体的各类信息及其特征。抽样穷举调查总体的各类信息及其特征。抽样是按照随机原则从调查总体中抽取一部分是按照随机原则从调查总体中抽取一部分单位作为样本而进行的一种非全面调查。单位作为样本而进行的一种非全面调查。1、什么是抽样调查、什么是抽样调查n日常生活的例子日常生活的例子n抽样调查:抽样调查:按照一定方式,从调查总体中抽取能代表总体按照一定方式,从调查总体中抽取能代表总体的一部分(即样本)进行调查,然后用样本所的一部分(即样本)进行调查,然后用样本所包含信息对总体的状况进行估计和推算的一种包含信息对总体的状况进行估计和推算的一种调查方法。调查方法。n相对于普查相对于普查
3、62023-5-132、抽样调查相关概念、抽样调查相关概念n总体总体n样本样本n总体指标总体指标n抽样指标抽样指标n抽样单元与抽样框抽样单元与抽样框n抽样误差抽样误差72023-5-13 总体总体n总体总体指所要调查对象的全体,其中每个被调查对象指所要调查对象的全体,其中每个被调查对象叫做个体。叫做个体。n实际调查中总体的定义要精确和具体。实际调查中总体的定义要精确和具体。样本样本n样本:是从调查总体中被选择研究的对总样本:是从调查总体中被选择研究的对总体具有代表性的一些个体体具有代表性的一些个体n样本容量:样本中个体的数目样本容量:样本中个体的数目n大样本、小样本(大样本、小样本(30)抽样
4、单元、样本单位和样本框抽样单元、样本单位和样本框n抽样单元抽样单元为方便实行随机抽样,将总体划分为有限个互为方便实行随机抽样,将总体划分为有限个互不重叠的部分,每个部分就是一个抽样单元不重叠的部分,每个部分就是一个抽样单元n样本单位(样本元素)样本单位(样本元素)组成总体或样本的基本单位组成总体或样本的基本单位抽样单元不一定是样本单位抽样单元不一定是样本单位n样本框:总体中所有样本单位的完整列表样本框:总体中所有样本单位的完整列表102023-5-13总体指标和样本指标总体指标和样本指标n总体指标:总体参数总体指标:总体参数总体平均数和总体成数总体平均数和总体成数总体方差和均方差总体方差和均方
5、差n样本指标样本指标样本平均数和样本成数样本平均数和样本成数样本方差和均方差样本方差和均方差n抽样的价值:抽样的价值:用样本指标估计、推算总体指标用样本指标估计、推算总体指标抽样误差抽样误差n抽样误差:指样本指抽样误差:指样本指标值与被推断的总体标值与被推断的总体指标值之差。主要包指标值之差。主要包括:括:样本平均数与总体平均样本平均数与总体平均数之差数之差样本成数与总体成数之样本成数与总体成数之差差n抽样误差的主要来源抽样误差的主要来源抽样方法抽样方法样本容量样本容量总体单位的标志值的差总体单位的标志值的差异程度异程度 122023-5-133、为什么要开展抽样调查、为什么要开展抽样调查n普
6、查不可行普查不可行总体太大总体太大有些个体难以接触有些个体难以接触破坏性破坏性费用高昂费用高昂时间与时效问题时间与时效问题n抽样调查的必要性和可行性抽样调查的必要性和可行性132023-5-134、抽样调查适用范围、抽样调查适用范围n对一些不可能或不必要进行全面调查的项目;对一些不可能或不必要进行全面调查的项目;n经费、人力、物力和时间有限的情况;经费、人力、物力和时间有限的情况;n运用抽样调查对全面调查或普查进行验证;运用抽样调查对全面调查或普查进行验证;n对某种总体的假设进行检验,判断这种假设的真对某种总体的假设进行检验,判断这种假设的真伪,以决定行为的取舍。伪,以决定行为的取舍。1420
7、23-5-136.1.2抽样调查的流程抽样调查的流程定义总体定义总体n根据研究目标识别目标总体;根据研究目标识别目标总体;n根据人口统计学特征,将目标总体明确化根据人口统计学特征,将目标总体明确化n进一步明晰样本单位。进一步明晰样本单位。识别抽样框(样本框)识别抽样框(样本框)n抽样框的常见形式:电话号码本、名单、手册、抽样框的常见形式:电话号码本、名单、手册、地图、数据包等地图、数据包等n抽样框的要求抽样框的要求抽样框应是有序的(抽样单元有编号,且按某抽样框应是有序的(抽样单元有编号,且按某种顺序排列);种顺序排列);抽样框中包含的抽样单元应抽样框中包含的抽样单元应“不重不漏不重不漏”。n评
8、估抽样框误差评估抽样框误差设计样本计划设计样本计划n考虑数据收集成本考虑数据收集成本n确定具体抽样方法确定具体抽样方法n确定样本容量确定样本容量样本抽取与检验样本抽取与检验(实施调查与测算结果)(实施调查与测算结果)n样本抽取的步骤样本抽取的步骤选择样本单位选择样本单位从样本单位获取信息从样本单位获取信息n样本抽取中的问题样本抽取中的问题受访者替代:舍弃、过多抽样、再抽样受访者替代:舍弃、过多抽样、再抽样样本有效性:检验样本的代表性样本有效性:检验样本的代表性6.2 抽样技术的分类及选择抽样技术的分类及选择 202023-5-131、什么是抽样技术、什么是抽样技术n抽样技术抽样技术对抽样的方法
9、、操作技巧和工作程序的总称。对抽样的方法、操作技巧和工作程序的总称。n抽样技术分为两大类型抽样技术分为两大类型:概率抽样:总体元素均有一定概率入选样本概率抽样:总体元素均有一定概率入选样本非概率抽样:无法估计总体元素的选样概率非概率抽样:无法估计总体元素的选样概率212023-5-132、概率抽样技术、概率抽样技术n特点:特点:每个总体元素都有一个每个总体元素都有一个已知的、非零的机会已知的、非零的机会(概率)入选为样本。(概率)入选为样本。这个概率不一定相等,这个概率不一定相等,其大小取决于样本选择其大小取决于样本选择程序。程序。保证了样本的代表性保证了样本的代表性n类型类型简单随机抽样简单
10、随机抽样系统抽样技术系统抽样技术分层随机抽样技术分层随机抽样技术分群随机抽样技术分群随机抽样技术222023-5-13简单随机抽样简单随机抽样n例子:抽签法、随机数表法例子:抽签法、随机数表法n特点:特点:每个总体元素入选为样本的概率相等;每个总体元素入选为样本的概率相等;能得到总体特征的无偏估计值;能得到总体特征的无偏估计值;要求有总体元素的完整列表。要求有总体元素的完整列表。n适应情况:适应情况:调研总体中各个体之间差异较小调研总体中各个体之间差异较小调查对象不明,难以分组、分类调查对象不明,难以分组、分类232023-5-13系统抽样系统抽样n系统抽样:系统抽样:先将总体的各个体按一定的
11、标志排列起来,然后,按先将总体的各个体按一定的标志排列起来,然后,按照固定顺序和一定间隔来抽取样本个体。照固定顺序和一定间隔来抽取样本个体。n跳跃区间(间隔):跳跃区间(间隔):总体数(总体数(N N)样本数(样本数(n n)n抽样标志抽样标志按与调查项目无关的标志排队,如门牌号;按与调查项目无关的标志排队,如门牌号;按与调查项目有关的标志排队,如住户月均收入按与调查项目有关的标志排队,如住户月均收入n避免自然周期的影响避免自然周期的影响242023-5-13分层抽样分层抽样n分层抽样:分层抽样:先将总体的所有个体按某一重要标志进行分类(层),先将总体的所有个体按某一重要标志进行分类(层),然
12、后在各类(层)中采用简单随机抽样或系统抽样。然后在各类(层)中采用简单随机抽样或系统抽样。n分层抽样的理由:分层抽样的理由:抽样误差更小抽样误差更小可以对特定群体进行研究可以对特定群体进行研究n分层抽样方法:分层抽样方法:等比例分层等比例分层分等比例分层分等比例分层252023-5-13整群抽样整群抽样n整群抽样整群抽样将总体分为若干子群体,随机抽取一个群体,以此推断将总体分为若干子群体,随机抽取一个群体,以此推断总体的一般特性。总体的一般特性。n适应于:适应于:大规模市场调查中,群体内各个体的差异大,但各群之大规模市场调查中,群体内各个体的差异大,但各群之间的差异较小的情况。间的差异较小的情
13、况。如产品质量检验如产品质量检验概率抽样技术比较概率抽样技术比较优点优点缺点缺点简单随机抽简单随机抽样样易于理解易于理解成本高,精确度较低,不成本高,精确度较低,不能确保代表性,难以构建能确保代表性,难以构建抽样框抽样框系统抽样系统抽样可增加代表性,比简单抽可增加代表性,比简单抽样容易执行,不需抽样框样容易执行,不需抽样框会降低代表性会降低代表性分层抽样分层抽样精确精确难以选择相关的分层难以选择相关的分层变量变量整群抽样整群抽样容易执行容易执行不精确,难以计算和不精确,难以计算和解释结果解释结果272023-5-133、非概率抽样技术、非概率抽样技术n特点特点不是基于概率,但努力抽取代表性样本
14、不是基于概率,但努力抽取代表性样本n类型类型方便抽样(任意抽样)方便抽样(任意抽样)判断抽样判断抽样配额抽样配额抽样参考抽样(滚需求抽样)参考抽样(滚需求抽样)固定样本连续法固定样本连续法282023-5-13方便抽样方便抽样(偶然抽样)(偶然抽样)n方便抽样:方便抽样:以偶然的方式获得样本以偶然的方式获得样本n具体方式具体方式街头拦截法街头拦截法n特点特点方便方便代表性无法保证代表性无法保证n应用应用适合探测性研究适合探测性研究不适合描述性研究、因不适合描述性研究、因果性研究果性研究292023-5-13判断抽样(目的性抽样)判断抽样(目的性抽样)n专家判断选择样本专家判断选择样本平均型:是
15、在调查总体中挑选代表平均水平的个体作平均型:是在调查总体中挑选代表平均水平的个体作为样本,以此作为典型样本来推断总体。为样本,以此作为典型样本来推断总体。多数型:是在调查总体中挑选占多数的个体作为样本多数型:是在调查总体中挑选占多数的个体作为样本来推断总体。来推断总体。n利用统计资料判断选择样本利用统计资料判断选择样本利用调查总体的全面统计资料,按照一定的标准选择利用调查总体的全面统计资料,按照一定的标准选择样本样本。302023-5-13配额抽样配额抽样n配额抽样:按照一定的标准分配样本数额,并配额抽样:按照一定的标准分配样本数额,并在规定数额内由调查人员任意抽选样本。在规定数额内由调查人员
16、任意抽选样本。n配额抽样配额抽样 vsvs 分层抽样分层抽样分层抽样是按随机原则在层内抽样。分层抽样是按随机原则在层内抽样。配额则是由调查人员在配额内主观判断选定样本配额则是由调查人员在配额内主观判断选定样本n配额抽样配额抽样 vsvs 判断抽样判断抽样配额抽样是分别从总体的各控制特性的层次中抽取若干个样本,配额抽样是分别从总体的各控制特性的层次中抽取若干个样本,复杂,注重复杂,注重“量量”;判断抽样是从总体的某一层次抽取若干符合条件的典型样本,判断抽样是从总体的某一层次抽取若干符合条件的典型样本,简单,注重简单,注重“质质”。312023-5-13参考抽样参考抽样(滚雪球抽样)(滚雪球抽样)
17、n先随机方式选择一组调查对象或个体,在对他们先随机方式选择一组调查对象或个体,在对他们进行调查后,根据他们所提供的信息或由他们推进行调查后,根据他们所提供的信息或由他们推荐选择下一组调查对象或个体。荐选择下一组调查对象或个体。n可以分析调研总体中的稀有特征可以分析调研总体中的稀有特征,如如3535岁的单身贵岁的单身贵族。族。非概率抽样技术比较非概率抽样技术比较优点优点缺点缺点方便抽样方便抽样成本最低,耗时少,成本最低,耗时少,最方便最方便有选择偏差,无代表有选择偏差,无代表性性判断抽样判断抽样低成本,方便低成本,方便结论不支持推广,主结论不支持推广,主观观配额抽样配额抽样可以就确定的特征对可以
18、就确定的特征对样本进行控制样本进行控制有选择偏差,不能确有选择偏差,不能确保代表性保代表性滚雪球抽样滚雪球抽样可以估计稀缺特征可以估计稀缺特征较耗时较耗时4、抽样技术的选择、抽样技术的选择非概率抽样非概率抽样概率抽样概率抽样研究性质研究性质探索性探索性归纳性归纳性误差误差非抽样误差较大时非抽样误差较大时抽样误差较大时抽样误差较大时总体的变异程度总体的变异程度同质同质异质异质统计上的考虑统计上的考虑不要求精确时不要求精确时要求精确时要求精确时操作上的考虑操作上的考虑人员人员/费用费用/时间有时间有限制时限制时人员人员/费用费用/时间允时间允许时许时6.3 抽样误差分析抽样误差分析n6.3.1调查
19、误差的分类1.非抽样误差2.抽样误差n6.3.2抽样误差的控制1、准确选定抽样方法2、正确确定样本数目3、加强组织领导6.4 样本容量的确定样本容量的确定n6.4.1影响抽样数目的因素影响抽样数目的因素n1、总体各单位间的标志变异程度、总体各单位间的标志变异程度n2、极限抽样误差的大小、极限抽样误差的大小n3、调查结果的概率保证程度、调查结果的概率保证程度n4、抽取样本单位的方法、抽取样本单位的方法n6.4.2样本量的确定样本量的确定n1)经验法)经验法n2)可支配预算法)可支配预算法n3)置信度法)置信度法 1、初始样本量的计算、初始样本量的计算以简单随机抽样为例以简单随机抽样为例n给定均值
20、,计算样本量给定均值,计算样本量n给定成数,计算样本量给定成数,计算样本量样本容量的确定:均值样本容量的确定:均值 简单随机抽样下,通常使用误差限和估计量的标准差来确简单随机抽样下,通常使用误差限和估计量的标准差来确定所需的样本量。定所需的样本量。其中,其中,z为置信区间的值,为置信区间的值,为估计量的标准差,为估计量的标准差,e为调查为调查误差,误差,N为总体大小为总体大小 样本容量的确定:成数样本容量的确定:成数n对于简单随机抽样,给定成数估计对于简单随机抽样,给定成数估计n若在以往调查中可得总体比例的一个较好估计若在以往调查中可得总体比例的一个较好估计 ,那么直,那么直接将它代入上面的公
21、式就可以得到所需的样本量;否则可接将它代入上面的公式就可以得到所需的样本量;否则可以用以用 ,因为这时总体的方差最大。,因为这时总体的方差最大。则公式简化成则公式简化成常用的样本量:经验数据常用的样本量:经验数据容许的抽样误差容许的抽样误差e(%)样本量样本量n容许的抽样误差容许的抽样误差e(%)样本量样本量n1.0100005.53201.545006.02772.025006.52372.516007.02043.011007.51783.58168.01564.06258.51384.54949.01235.04009.5110 10.01002、系数修正、系数修正n当目标样本相对于目标
22、总体较大时(占当目标样本相对于目标总体较大时(占10%10%以上),以上),会高估总体参数的方差,这时使用修正系数:会高估总体参数的方差,这时使用修正系数:3、考虑设计效应、考虑设计效应n如果抽样设计不是简单随机抽样,则用下面公式如果抽样设计不是简单随机抽样,则用下面公式对样本量进行调整对样本量进行调整 :其中,其中,B B是设计效应。是设计效应。简单随机抽样设计,设计效应等于简单随机抽样设计,设计效应等于1 1;分层抽样设计,设计效应一般小于等于分层抽样设计,设计效应一般小于等于1 1;整群或多阶抽样设计,设计效应一般大于等于整群或多阶抽样设计,设计效应一般大于等于1 1。4、确定最终样本量
23、、确定最终样本量n根据回答率根据回答率/发生率再对样本量进行调整,以确定发生率再对样本量进行调整,以确定最终的样本量最终的样本量 r r为预计回答率或发生率为预计回答率或发生率例子:样本量计算例子:样本量计算n某杂志出版商希望得到读者对该杂志综合满意度某杂志出版商希望得到读者对该杂志综合满意度的估计值。通过邮寄调查,出版商可以联系到所的估计值。通过邮寄调查,出版商可以联系到所有有25002500个订户。但由于时间的限制,出版商决定个订户。但由于时间的限制,出版商决定使用简单随机抽样进行电话调查。请问应访问多使用简单随机抽样进行电话调查。请问应访问多少个订户?少个订户?n我们假定:可接受的误差限
24、我们假定:可接受的误差限e e为为0.100.10;调查估计值;调查估计值的置信度为的置信度为95%95%,因此,因此Z=1.96Z=1.96;使用简单随机抽样;使用简单随机抽样;预计回答率预计回答率 =0.65=0.65;n由于事先没有关于顾客满意度的估计由于事先没有关于顾客满意度的估计 ,方差应取最大,即方差应取最大,即 。n样本量的计算步骤如下:样本量的计算步骤如下:n第第1 1步:计算初始样本量步:计算初始样本量 :n第第2 2步:根据总体大小调整样本量步:根据总体大小调整样本量(这一步这一步只需对中小规模的总体只需对中小规模的总体):n第第3 3步:根据抽样的设计效应来调整样本量:步
25、:根据抽样的设计效应来调整样本量:在本例中,由于假定采用简单随机抽样设计,在本例中,由于假定采用简单随机抽样设计,所以所以B=1B=1。n第第4 4步:根据无回答情况进行调整,确定最步:根据无回答情况进行调整,确定最终的样本量终的样本量 :522023-5-133、抽样平均数的标准误差、抽样平均数的标准误差n重复抽样重复抽样n不重复抽样不重复抽样当N很大nx:为平均数抽样标准误差为平均数抽样标准误差np:为成数抽样标准误差为成数抽样标准误差 n2:为总体方差:为总体方差n:为总体均方差:为总体均方差nN:为总体的个体数:为总体的个体数nn:为样本的个体数为样本的个体数532023-5-134、抽样成数的标准误差、抽样成数的标准误差n重复抽样重复抽样n不重复抽样不重复抽样当N很大nx:为平均数抽样标准误差为平均数抽样标准误差np:为成数抽样标准误差为成数抽样标准误差 nP:为总体成数:为总体成数nN:为总体的个体数:为总体的个体数nn:为样本的个体数为样本的个体数