1、第十二章第十二章抽样估计与样本容量确定抽样估计与样本容量确定抽样估计的基本思路抽样估计的基本思路v市场调查的目的就是通过样本的数据来推测总体参数,从而估计总体特征。例如我们想知道总体的平均值就可以用样本的平均值来估计。v用样本均值来代替总体均值就是点估计,然而点估计虽然计算很简单,却只有在很少的情况下才完全正确,因此人们更偏向于区间估计。所谓区间估计就是对总体值落在某一范围内的可能性的推断。v实例:路,工作日日人流总量定值估计值为771356人,在95%的概率保证程度下的区间估计值为726235人816478人;非工作日日人流总量定值估计值为712113人,在95%的概率保证程度下的区间估计值
2、为652891人771335人。v要实现对总体的估计必须要了解一些基本的信息,包括总体的标准差情况、置信度、抽样分布等等内容。v下来我们以对总体均值的估计为研究对象,对这些基础知识进行一个简单的回顾。v一、正态分布重要的统计分布v正态分布是一种钟形的、相对于其平均值对称的连续性分布。正态分布的统计特征在于:v1.只有一个众数。v2.相对于其平均值对称。v3.正态分布由其平均值和标准差唯一确定。v4.正态分布曲线下方的总面积等于1,正态分布曲线下任意两个变量值之间的区域面积等于观察值处于这两个变量值之间的概率。v5.任何正态分布都可以通过简单的转化,变为标准正态分布。其转化公式为XZ变量标准差变
3、量平均值变量值 v正态分布具有良好的统计性质,如果一个变量符合正态分布就可以很方便的对它进行估计。v举例,利用标准正态分布进行区间估计:v设待估的总体参数为 ,样本的平均值为 假设 符合标准正态分布,则:v 即Xxx1Zx-XP21ZxXZ-xP22v正态分布在统计推断中处于特别重要的地位。原因在于:v1.许多变量的概率分布都接近正态分布,如消费者消费掉的软饮料数量、爱吃快餐的人平均每月去快餐店的次数等。v2.正态分布在理论上重要,根据中心极限定理,任何总体不论其分布如何,随着样本容量的增加,样本均值趋近于正态分布v3.许多离散性概率分布也近似于正态分布。总体分布、样本分布和抽样分布总体分布、
4、样本分布和抽样分布v总体分布是总体中所有单位的频率分布,总体的分布存在多种形式,一般情况下总体分布是未知的。总体分布的平均值用 表示,总体分布的标准差用 表示。v样本分布是单个样本所有单位的频率分布。样本分布是已知的。样本均值用 表示,标准差用S表示。v样本均值的抽样分布是从一个特定总体中抽取的给定容量的所有可能样本的平均值的概率分布。xv总体的分布、样本分布可能不一定是正态分布,但是根据中心极限定理,样本平均值的抽样分布必定是正态分布。v对于正态分布来说 管的是曲线的位置,管的是曲线的胖瘦。v不同的样本量确定的样本平均值抽样分布其 和 不同,所以对于规定的置信区间来说,大样本的平均值的抽样分
5、布更“集中”,误差也小;从另一方面,如果误差确定,大样本的平均值的置信度更高。v计算总体均值的区间估计,就是想获得样本均值抽样分布的 和 ,从而根据置信度确定置信区间,然后在点估计的基础上确定区间估计。v例:从一个500人的总体中,采用简单随机抽样抽出一个10人的样本,每个入样单元的年龄见下表。求平均年龄估计值的抽样方差、标准差,并计算在95%的置信水平下的误差限于相应的置信区间。样本单元年龄估计值-平均数 离差的平方121-13.4179.56226-8.470.56327-7.454.76432-2.45.76534-0.40.166372.66.767383.612.968405.631
6、.369427.657.76104712.6158.76合计578.4v1.计算点估计值:=(21+26+47)/10=34.4v2.计算抽样方差的估计值:计算每个人的年龄与其平均数的差;计算离差的平方;以离差的平方和除以样本量减1的值作为总体方差的估计值(64.27);以总体方差的估计值处以样本量得到抽样方差的估计值(6.4)。v3.标准差为抽样方差的平方根(2.5)v4.95%置信度下的误差限为1.96*2.5=4.9v5.置信区间为(34.4-4.9,34.4+4.9)即(29.5,39.3)x样本量的确定样本量的确定v在确定概率抽样样本容量的过程中涉及财务、统计和管理3个方面的问题。在
7、其它条件相同的情况下,样本越大,抽样误差就越小。但样本越大,耗费的资金也越多。v而且,虽然抽样成本随着样本容量的增加呈线性递增(样本容量增加一倍,成本也增加一倍),抽样误差却只以相当于相应样本容量增长幅度的平方根的速度递减。v换句话说,如果样本容量增加到原来的4倍,数据收集成本也将增加到原来的4倍,但抽样误差将只减少1/2.v最后,样本容量的确定还必须考虑管理问题:要求多高的估计精确度(抽样误差)?样本容量样本容量找出在规定误差找出在规定误差范围内的最小样范围内的最小样本容量本容量找出在限定费用找出在限定费用范围内的最大样范围内的最大样本容量本容量v确定样本容量的方法:v可支配预算v单凭经验的
8、做法v要分析的子群数v传统的统计方法影响样本容量的因素影响样本容量的因素v1.误差限v2.总体的变异程度v3.总体大小(如果样本容量占总体比例较小则影响不大)v4.抽样设计v5.调查的回答率给定均值精度,计算简单随机抽样样给定均值精度,计算简单随机抽样样本量本量v总体方差的计算公式为:v对于简单随机样本,S2的一个无偏估计量是:v 其中 是样本均值。1N)YY(SN1i2i21n)YY(Sn1i2i2Yv对于不放回简单随机抽样,可以证明样本均值的抽样方差公式为:当总体方差未知时,它可以用下式来估计:)Nn1(nS22)Nn1(nS22v设e为误差则:v 其中Z依赖于置信水平 v从上式中可以解得
9、:v )Nn1(nSZe222NSZeSZn22222v在通常情况下,总体规模比较大,则可以将以上计算公式简化为:v如果使用的不是简单随机抽样,则可以通过设计系数调整样本量。v如果回答率小于100%,也可以对回答率进行调整。222eSZn 给定估计比率精度,计算简单随机抽给定估计比率精度,计算简单随机抽样样本量样样本量v对于二元指标的总体,其总体方差的估计为:v与给定均值一样的道理,其样本量的计算公式为:)P1(PS2N)P1(PZe)P1(PZn222v如果总体N很大,则计算公式可以简化为:v容易观察到当P=0.5时,总体方差存在最大值。因此在计算样本量时,如果总体方差未知,可以从统计稳健性
10、出发算出一个保守的样本量。22e)P1(PZnv例:某杂志出版商希望得到读者对该杂志综合满意度的估计值。通过邮寄调查,出版商可以联系到所有2500个订户,但由于时间限制,出版商决定使用简单随机抽样进行电话调查。出版商希望真实总体比例落在总体比例的样本估计值的正负0.1范围内;希望估计值的置信度为0.95;预计回答率为65%。则:请计算样本量。v解析:由于事先没有顾客满意度的估计比例,因此为留有余地,访查应取最大值,即P=0.5。v计算出样本量为n1=92v由于采用简单随机抽样所以不需要经过设计调整v进行无回答调整得n=92/0.65=142q决定样本规模的决定样本规模的“信息价值信息价值”法法
11、v置信区间法是计算样本规模的传统统计学方法。v这种方法在营销调研中有明显的缺点:v不能区分公司用自己的未来押赌的研究和只花一小部分费用的研究,不能区分对新产品的研究和对老产品的研究,不能区分每一项观测需要花费200美元的项目和只需要花费5美元的项目。v诸如研究的成本和决策的价值等因素并不包括在计算中v信息价值方式是决策导向型,它和“问题解决”研究配合最为恰当。1.为什么信息有价值为什么信息有价值v信息价值就在于它可以使得经理能给做出更多正确的决定,从而提高公司的总体利润。v与信息价值相关的因素:不确定性:确信的信息没有任何价值;决策中的收益或损失:信息的价值不取决于支付能力,而是它能从好的决策中获得更多的利润,从坏的决策中遭受更大的损失。2.信息价值和样本规模信息价值和样本规模v信息是有价值的,但它也是要花钱来获得的。v对所有经济商品而言,有必要使扣除成本后从信息中所得的净收益最大化。如何最大化?MR=MC