1、抽样及其控制 定量研究的第一步speaker:朱永明v抽样设计过程v抽样方法v样本量计算v抽样误差计算与控制(抽样加权控制)v访问信度计算与控制目 录抽 样 方 法(sampling method)F非随机抽样(Nonprobability sampling)F随机抽样(probability sampling)抽样设计过程定义抽样总体决定抽样框选择抽样技术决定抽样规模执行抽样过程非随机抽样非随机抽样Nonprobability Sampling TechniqueConvenienceSamplingJudgmentalSamplingQuotaSamplingSnowballSamplin
2、gProportionateDisproportionateMultistageSamplingOne-stageSamplingTwo-stageSamplingSimple ClusterSamplingProbabilityProportionateto SizeSampling随机抽样随机抽样Probability Sampling TechniquesSimple Random SamplingSystematicSamplingStratifiedSamplingClusterSampling Other Sampling在12个居委中,共有6000户,分布情况为:12345678
3、9101112420 180 120 600 240 36070 50 720 18601140240将12个居委在16000内编号,然后抽选居委的方法为:一、随机抽选两个数,如696和1812,则选出居委3和4二、计算间距K=6000/2,然后在1k之间选取一个随机数R,最终抽选的号码为R,R+K。如R=705,选样号码为:705,705+3000=3705,则第3、10居委中选。项目中抽样工作流程项目中抽样工作流程定义抽样总体决定抽样框定义抽样总体决定抽样框确定抽样方法确定抽样方法确定样本量确定样本量抽样实施抽样实施常常见见抽抽样样方方法法概率抽样方法概率抽样方法非概率抽样方法非概率抽样方
4、法简单随机抽样简单随机抽样系统抽样系统抽样整群抽样整群抽样分层抽样分层抽样多阶段抽样多阶段抽样方便抽样方便抽样判断抽样判断抽样配额抽样配额抽样滚雪球抽样滚雪球抽样抽样实施入户访问入户访问拦截访问拦截访问 电话访问电话访问入入 户户 访访 问问按人口比例确定各行政区的样本居委会数量确定每一个居委会样本户数量确定样本居委会数量一个居委会的成功样本不能超过执行样本量的3抽取样本居委会及样本户 递递 补补 原原 则则按居委会抽样按居委会抽样:递补时访问样本户右手递补时访问样本户右手 边的下一户边的下一户划地块抽样划地块抽样:递补时按原有抽样原则继续抽样,递补时按原有抽样原则继续抽样,即采用一定的抽样间
5、距从最后即采用一定的抽样间距从最后 一个样本户开始继续抽样。一个样本户开始继续抽样。确定调查区域租赁确定调查区域租赁访问地点访问地点确定样本量确定样本量采用方便抽样选采用方便抽样选取样本取样本遴选合格受访者带遴选合格受访者带至访问地点进行访至访问地点进行访问问街头定点访问街头定点访问电电 话话 访访 问问 确定抽样框确定抽样框确定抽样方法确定抽样方法抽取样本抽取样本访问时的控制访问时的控制如何确定样本量要求推断的置信程度要求推断的置信程度研究类型、研究的性质研究类型、研究的性质样本的变动程度样本的变动程度调查精度调查精度抽样方法抽样方法研究目的研究目的费用、时间与可行性费用、时间与可行性分析要
6、求分析要求同类项目经验同类项目经验t2 s22=nt2 p(1 p)=n2一个二阶段等规模抽样的例子:VAR(Y2s)=(1 a/A)(Sa2/a)+a/A(1-b/B)Sb2/ab其中,Sa2=1/(a-1)*(Y Y)2 Sb2=1/(a(b-1)(Y Y)2)=1a=1 a b 比例抽样案例计算 在广州进行一项抽样调查以了解某种新服务方式的接受度,根据厂家反映,接受度为 30,厂家要求在 95 的置信度下统计误差范围不超过正负 4,因此简单随机抽样的样本量为:1.96 1.96 30(1 30)/(4 4)504标准差标准差=差、方、均(差、方、均(Root-Mean-Square)如:
7、20,10,15,15的标准差为:平均值=(20+10+15+15)/4=15 标准差=(20-15)2+(-5)2+02+02)/4 =3.5均值抽样案例计算均值抽样案例计算例如:要了解某城市的居民收入,假定 我们知道该市居民收入的标准差 为1500元,要求的调查误差不超 过100元,则在95%的置信水平下,所需的样本量为:n=1.962*15002/1002=864均值抽样案例计算均值抽样案例计算分析要求 全国性的还是分城市的或者是分区的 城市内是否要进一步按职业或企业类型等 变量细分,分析是否详尽(三层至四层)是否用高级统计分析方法 80%以上的细胞中不少于 30 个样本量 是否要做预测
8、 是否使用模型同类项目经验研究类型研究类型 最小规模最小规模 典型规模典型规模问题识别研究(如市场潜力)500 1000 2500问题解决研究(如产品定价)200 300 500产品测试研究 200 300 500广告效果研究 150 200 300产品市场跟踪研究 10 个商店 10 20 个商店集体访谈(Focus Group)2组 412组样本量的误区q有人回答不准确,所以样本量再大也没有用q电视上只调查几十个人就够了,我们也可以q样本量越大越好q这么大的城市,怎么也要好几千人才行q大城市多抽,小城市少抽q上次调查这么多人,这次也这么多吧q能省钱就省钱,先这么着吧,估计差不多吧q我们做了
9、这么大量的问卷,结果肯定准确 抽样误差(也叫系统误差或代表性误差主要由抽样总体、抽样方法、抽样数量的确定等方面造成)非抽样误差(也叫调查误差,主要由问卷的设计、实地访问、问卷的数据录入等方面造成)市场调查误差种类t*s=n参数估计点估计:点估计:例1.抽样调查的使用率为25%例2.使用寿命 2.4万字 区间估计:区间估计:例1.21%到29%的区间是95%的误差 置信区间 例2.真实的平均使用寿命在2.1万到 2.7万之 间的概率为95%抽样误差的控制 总体的确定 抽样方法的确定 样本量的确定 保证样本均匀性 加权控制 保证样本随机性抽样加权-增加抽样代表性的方法公式:抽样比例公式:抽样比例*
10、权重权重=实际比例实际比例*1例如:抽样 300 样本,男性 120 个,女性 180 个,则抽样比例为男性 40%,女性 60%。而普查实际情况是男性占 70%,女性占 30%。因此,代入加权公式:男性:40%*male_weight=70%*1 女性:60%*female_weight=30%*1得到男女的加权数为:male_weight=1.75 female_weight=0.25抽样加权-增加抽样代表性的方法SPSS中实现加权方法:1.加权数据可以直接对应填写 或者使用Compute For 命令 2.加权时要选取:Data/Weight Case 在复核完成后,剔除作废/作弊问卷,只保留有效 复核问卷。将复核问卷题目统计结果与原问卷相应 题目统计 结果对照,从而获得一个差异比值,我们称这个 比值为该题目的访问信度。通过全部可计算信度的题目,进而推断该项目问 卷的访问信度。调查题目访问信度的计算公式 其中:q Yi 为原问卷调查题目的第 i 个选项统计频数q Fi 为复核问卷调查题目的第 i 个选项统计频数q n 为调查题目的选项总数结果信度计算:信度计算:总体 96.3%广州 97.3%武汉 93.0%厦门 92.3%提高访问信度的途径问卷设计的科学性访问文件的完备性访问员的选取与培训加强实地督导复核的有效性数据录入的准确性