1、抽样技术及样本计算方法抽样技术及样本计算方法什么是抽样什么是抽样 从所有客户中抽选出一部分作为样本(即被调查对象),对样本进行调查。 根据对样本调查的结果推断总体(即所有客户)此种对样本的抽选过程即为抽样。什么是普查什么是普查 与抽样调查对应的是普查(对总体的所有客户展开调查)。 优点: 一般来说,在理想状态下,普查不受抽样误差影响且能够得到最为全面的信息。 缺点: 完成一项普查需要的时间长,可能影响最终得到数据的可比性; 可能导致高的非抽样误差; 涉及费用高。相对而言,通过严密的设计和实施控制,抽样调查也可用相对低廉的费用获得比较准确的相近似的数据。什么是误差什么是误差 在CSI中,由于各方
2、面因素的作用,调查结果总会存在误差。通常,调查误差分为两种主要类型: 抽样误差抽样误差 非抽样误差非抽样误差 误差=抽样误差+非抽样误差 总的来说,普查不存在抽样误差,但可能存在较大的非抽样误差;而抽样调查会产生抽样误差和非抽样误差。 因此,选择合适的科学的抽样方法和样本显得非常重要。抽样误差抽样误差 指通过调查部分客户,而非全部客户,来估计总体特征所产生的误差,形成原因在于所选择的特定样本不能完美地代表总体。这是由于抽样的偶然性造成的、是不可避免的误差。抽样误差与样本量的关系抽样误差与样本量的关系样本量抽样误差非抽样误差非抽样误差 指在所有调查活动过程中所产生的除去抽样误差以外的所有误差,主
3、要是由于人为的差错造成的。 由调研人员引起的 由访问员引起的 由被访者引起的非抽样误差与样本量的关系非抽样误差与样本量的关系样本量非抽样误差样本量误差抽样方法抽样方法随机抽样简单随机抽样等距抽样(系统抽样)分层随机抽样整群抽样多级抽样非随机抽样1、方便取样;2、判断取样;3、配额取样两种抽样方法的比较两种抽样方法的比较 随机抽样:运用统计学方法可以对总体给出很准确的估计。 非随机抽样:不能代表总体的情况,也无法运用统计学方法为调查结果提供准确度。随机抽样随机抽样简单随机抽样简单随机抽样 总体中的每一个元素都有一个相等的被抽中概率。简单随机抽样可以通过抽签法、随机数字表法和EXCEL随机函数来实
4、现。先确定或搜集一个抽样框,将抽样框中的每个元素都编上号。然后把所有抽签抽中的号码的元素或随机数字对应的号码的元素做为样本进行调查。例如:应用随机数表进行抽样。若想从500名中抽100名,则从数字表上取出500个数字依次记在卡上,再按随机数目大小排列成序,以其中连续100名为样本。此法只能用于数目不大的情况,如想从几万人中抽样调查,就很难用单纯随机抽样法了。 随机抽样随机抽样等距抽样等距抽样 按照某种顺序给总体中所有单元编号,然后随机地抽取一个编号作为样本的第一个单元,样本的其它单元则按照某种确定的规则抽取(如等距原则),这种抽样方法称为系统抽样。其中最常用最简单的系统抽样叫等距抽样。 例如:
5、某地有5000户,今欲抽取1/5家庭作健康调查,则每5户抽1户,或逢“5”抽,抽到的户即作为调查单位。 随机抽样随机抽样分层随机抽样分层随机抽样 分层抽样的特点是先将总体按照某种特征或指标分成几个排斥的又是穷尽的子总体,或层,然后在每个层内按照随机的方法抽取元素。其原则是子总体内元素间差异可能小,而不同子总体间差异大。 这种抽样方法使得样本的代表性加强 。随机抽样随机抽样整群抽样整群抽样 整群抽样首先将总体划成许多相互排斥的子总体或群,然后以群为初级抽样单元,按某种概率抽样技术,如简单随机抽样,从中抽取若干个群,对抽中的群内的所有单元都进行调查。 例如:从100个乡中抽出10个乡中的全体居民全
6、部调查。 随机抽样随机抽样多级抽样多级抽样 也叫多阶段抽样。它是在第一阶段从所有群中抽取若干群,在每个抽中的群中,再抽取若干单元进行调查。例:按地理,经济,人口分层从全国抽几个省,按大、中、小城市分层,从抽到的省中抽几个市,从抽出的市中,抽出有代表性的区,从抽出的区中,抽出若干有代表性的户,调查其居民。 抽样的可靠性抽样的可靠性 抽样的可靠性是用可重复性来评判的。 即随机选取的一组样本再做完全一样的调查,你会得到同样的结果吗? 抽样是否可靠主要由样本量大小决定的。而样本量的大小除了与调查的目的相关,主要由以下五个方面决定。影响样本量大小的六个因素影响样本量大小的六个因素抽样误差置信水平方差客户
7、总数抽样方法资金抽样误差由于样本不同而导致的偏差被称为抽样误差,抽样本身会导致抽样误差。为了保证抽样调查的准确性,我们希望抽样误差越小越好。一般调查研究时,抽样一般误差控制在3%-7%之间。例:你调查了100个人,询问他们是否应该早办奥运会,其中66%的人说“是”。如果你的调查精确度为3%,这也就是说,如果你对不同的样本展开同样的调查,最后结果中选“是”的比例会在63%-69%之间。样本量抽样误差抽样误差随着样本量的增加而减少,但当样本量增加到一定程度之后,样本量的增加对抽样误差几乎没有影响了。抽样误差与样本量关系曲线样本量误差置信水平你可以在不同的置信水平上计算样本的精确度。非常重要的研究,
8、比如药物的研究一般都会选择99%的置信水平。在一般调查的研究中,置信水平通常取为90%-95%.例:如果我们的奥运会调查样本要求90%的置信水平下,精确度为3%,这也就是说,如果你做100次调查,将有90次结果的精确度小于等于3%.方差,即变异程度 在一个给定的置信水平和特定的样本大小下,你所期望的精确度仍然会有很大的变化,这取决于被调查者所持有的不同观点。在顾客满意度指数的调查中,方差表示被调查者对调查问题给出答案的分散程度。方差越大,表示答案越不一致;方差越小,表示答案越趋于一致。所以,当总体方差越大时,为了保证获得数据的准确性,样本量也应该越大;反之,总体方差越小,样本量也可以相应减小。
9、例:如果你调查一个问题而几乎所有的人都持有相同的观点,比如(谋杀违法吗?)那么无论做多少次调查,你实际上都期望能够得到一个确切的结果。所以方差(观点的类别)越小,任何大小的样本在任何置信水平下的可靠性就越高。客户总数当客户总数很大时,样本量与客户总数几乎没有关系。当客户总数较小时,样本量随客户总数的增加而增加。样本量客户总数抽样方法在其他条件相同时,重复抽样比不重复抽样要求样本容量大些。如果将客户划分的区域越多,则总样本人数越多才能真实代表每个区域的客户情况。样本量的计算样本量的计算样本量的计算公式样本量的计算公式 当客户总数很大时,简单样本量的计算公式: n代表所需要的样本量; Z表示置信水
10、平下的Z统计量,如95%置信水平的Z统计量为1.96; S代表总体的标准差; d代表置信区间的1/2,在实际应用中就是容许误差,或者抽样调查误差。 222ndSZ95%置信度与样本量对照表误差d置信水平Z统计量样本大小n0.070.91.65139 0.060.91.65190 0.050.951.96385 0.040.951.96601 0.030.951.961068 0.020.951.962401 0.0150.951.9642680.010.951.969604 多少才算是客户总数很大?多少才算是客户总数很大? 多少才算是客户总数较小?多少才算是客户总数较小? 在总体比较小时,总体对样本规模会产生较大影响,就要考虑总体对样本规模的影响。这时可以用如下公式进行转换:n=n1/(1+n1/N)n表示在总体较小时需要计算的样本量n1表示在总体很大时计算所得的样本量N表示客户总数。 在95%的置信水平,3%的抽样误差下,n1=1068:试算试算客户总数N120050010001000050000100000 1000000样本量n?n=n=n1/(1+/(1+n1/N)/N)n1=1000客户总数N1200500100010000500001000001000000样本量n1 167 333 500 909 980 990 999