MRAFC10抽样估计与样本量确定课件.pptx

上传人(卖家):晟晟文业 文档编号:5167632 上传时间:2023-02-15 格式:PPTX 页数:64 大小:7.68MB
下载 相关 举报
MRAFC10抽样估计与样本量确定课件.pptx_第1页
第1页 / 共64页
MRAFC10抽样估计与样本量确定课件.pptx_第2页
第2页 / 共64页
MRAFC10抽样估计与样本量确定课件.pptx_第3页
第3页 / 共64页
MRAFC10抽样估计与样本量确定课件.pptx_第4页
第4页 / 共64页
MRAFC10抽样估计与样本量确定课件.pptx_第5页
第5页 / 共64页
点击查看更多>>
资源描述

1、MRAFC10抽样估计与样本抽样估计与样本量确定量确定七、抽样误差七、抽样误差 调查结果的准确性无疑是调查组织者十分调查结果的准确性无疑是调查组织者十分重视的问题。其准确性通常用抽样误差的重视的问题。其准确性通常用抽样误差的高低来反映,高低来反映,在抽样方式和总体既定的前在抽样方式和总体既定的前提下,抽样误差的大小主要取决于抽样数提下,抽样误差的大小主要取决于抽样数目的多少目的多少。对抽样误差的控制主要是通过对抽样误差的控制主要是通过控制抽样数目来实现的。因此,控制抽样数目来实现的。因此,抽样误差抽样误差与抽样数目与抽样数目的确定,是随机抽样市场调查的确定,是随机抽样市场调查中两个重要的问题。

2、中两个重要的问题。(一)抽样误差的估算方法(一)抽样误差的估算方法 1.抽样误差大小的影响因素抽样误差大小的影响因素(1)总体各单位之间的差异程度)总体各单位之间的差异程度。总体变量存。总体变量存在变异是客观的,差异程度愈大,其分布就愈分在变异是客观的,差异程度愈大,其分布就愈分散,抽样误差就愈大;反之,愈小。这种差异程散,抽样误差就愈大;反之,愈小。这种差异程度,在统计上叫做标志变异度,通常用方差或标度,在统计上叫做标志变异度,通常用方差或标准差来表示。准差来表示。(2)样本数目,即样本容量有多少。)样本数目,即样本容量有多少。当样本容当样本容量达到与总体容量一样时,抽样调查就变成全面量达到

3、与总体容量一样时,抽样调查就变成全面市场调查了,抽样误差随即消失。市场调查了,抽样误差随即消失。(3)抽样方式。)抽样方式。一般地说,等距随机抽样和分一般地说,等距随机抽样和分层随机抽样的抽样误差要小于简单随机抽样和分层随机抽样的抽样误差要小于简单随机抽样和分群随机抽样的误差。不重复抽样的误差要小于重群随机抽样的误差。不重复抽样的误差要小于重复抽样的误差。因此,要根据不同的抽样方式分复抽样的误差。因此,要根据不同的抽样方式分别估算抽样误差。别估算抽样误差。样本量的确定(二)必要抽样数目的确定(二)必要抽样数目的确定 抽样数目过多,使得抽样调查所需成本费抽样数目过多,使得抽样调查所需成本费用提高

4、,从而带来不经济;抽样数目过少,用提高,从而带来不经济;抽样数目过少,又会使调查结果存在较大误差,达不到要又会使调查结果存在较大误差,达不到要求的精度。求的精度。所谓所谓必要抽样数目,就是在事先给定的抽必要抽样数目,就是在事先给定的抽样误差范围内所确定的、能够达到对调查样误差范围内所确定的、能够达到对调查结果精确度要求的样本单位数。结果精确度要求的样本单位数。样本量的确定 1.影响合理的必要抽样数目的因素影响合理的必要抽样数目的因素(1)总体各单位之间的标志差异程度。)总体各单位之间的标志差异程度。总体单总体单位之间的差异越小,一定数目的总体单位对总体位之间的差异越小,一定数目的总体单位对总体

5、的代表性就越高。当总体单位的标志值都相等时,的代表性就越高。当总体单位的标志值都相等时,一个总体单位的标志值就足以代表总体的平均水一个总体单位的标志值就足以代表总体的平均水平。平。(2)允许误差的大小。)允许误差的大小。一般来说,调查的准确一般来说,调查的准确度要求高、调查力强、调查经费充足,允许误差度要求高、调查力强、调查经费充足,允许误差就可以定得小一些。就可以定得小一些。(3)不同的抽样方式和方法。)不同的抽样方式和方法。一般情况下,简一般情况下,简单随机抽样和分群随机抽样比等距随机抽样和分单随机抽样和分群随机抽样比等距随机抽样和分层随机抽样所需的样本单位数要多,重复抽样比层随机抽样所需

6、的样本单位数要多,重复抽样比不重复抽样的样本单位数要多。不重复抽样的样本单位数要多。总体参数的点估计总体参数的点估计 点估计就是用样本的估计量直接作为总体点估计就是用样本的估计量直接作为总体参数的估计值参数的估计值。例如,用样本均值直接作。例如,用样本均值直接作为总体均值的估计,或者用两个样本均值为总体均值的估计,或者用两个样本均值之差直接作为总体均值之差的估计。之差直接作为总体均值之差的估计。点估计是容易做到的,但是,点估计没有点估计是容易做到的,但是,点估计没有给出估计值接近总体参数程度的信息。给出估计值接近总体参数程度的信息。当样本均值与总体均值不完全相同时,样当样本均值与总体均值不完全

7、相同时,样本均值与实际总体均值就存在着差距,形本均值与实际总体均值就存在着差距,形成抽样误差。成抽样误差。总体参数的区间估计总体参数的区间估计 区间估计:在点估计的基础上,对总体参数的区区间估计:在点估计的基础上,对总体参数的区间或范围进行估计。间或范围进行估计。区间估计不仅要说明区间大小,还要说明点估计区间估计不仅要说明区间大小,还要说明点估计值在区间内的概率,即置信度。置信度是一个百值在区间内的概率,即置信度。置信度是一个百分比,用来说明结果正确的长期概率。被估计的分比,用来说明结果正确的长期概率。被估计的区间则被称为置信区间。区间则被称为置信区间。根据样本统计量的抽样分布理论,总体参数的

8、区根据样本统计量的抽样分布理论,总体参数的区间范围是在一定的概率度下,由样本统计量加减间范围是在一定的概率度下,由样本统计量加减抽样误差而得到。抽样误差而得到。训练题训练题(P237238)4.假设某快餐馆想要为一个新的菜单项目估计平假设某快餐馆想要为一个新的菜单项目估计平均销售量,这个餐馆观察了一个类似地点的销量,均销售量,这个餐馆观察了一个类似地点的销量,连续观测到如下结果:样本容量为连续观测到如下结果:样本容量为25,样本标准,样本标准差为差为100,每日平均销售量为,每日平均销售量为500。试估计这个餐。试估计这个餐馆启用新菜单后每天在馆启用新菜单后每天在95%的时间内销售量的范的时间

9、内销售量的范围。围。训练题训练题5.一家电器连锁商店正在进行空调的季节性降价促销。被抽取的一家电器连锁商店正在进行空调的季节性降价促销。被抽取的10个个样本商店销售出的空调数量如下(单位:台):样本商店销售出的空调数量如下(单位:台):82,113,2,41,71,83,99,52,84,30。那么,根据这些数据能否说明这次促销。那么,根据这些数据能否说明这次促销期间每家商店平均销售空调数量多于期间每家商店平均销售空调数量多于50台(台(95%)?)?训练题训练题 6.假设你正计划对某市养狗的家庭进行抽样,假设你正计划对某市养狗的家庭进行抽样,以确定他们每月购买的狗食的平均数量。以确定他们每月

10、购买的狗食的平均数量。已经制定了下面的标准:已经制定了下面的标准:95%的置信度,的置信度,小于小于5个单位的误差。以前的调研说明了标个单位的误差。以前的调研说明了标准差应该是准差应该是6个单位。那么,该项调查需要个单位。那么,该项调查需要多大的样本容量?多大的样本容量?训练题训练题 7.在一项涉及在一项涉及400人的调查中,人的调查中,60%的人都对一个的人都对一个问题持积极态度。试在问题持积极态度。试在95%的置信度下确定比例的置信度下确定比例的区间估计。的区间估计。8.在一个全国性的调查中,调研人员期望总体中在一个全国性的调查中,调研人员期望总体中有有30%的人将会同意某个态度陈述,要求

11、误差小的人将会同意某个态度陈述,要求误差小于于2个百分点,并且具有个百分点,并且具有95%的把握性,那么,需的把握性,那么,需要多大的样本容量?假设调查总体为要多大的样本容量?假设调查总体为12000人,人,事先预计调查的回答率约为事先预计调查的回答率约为55%,那么,样本容,那么,样本容量又应该为多少?量又应该为多少?开篇案例开篇案例“百脑汇”调研中的样本计划问题 “百脑汇百脑汇”在中国华北几个省市经营连锁电脑超市,它希望在中国华北几个省市经营连锁电脑超市,它希望获得更多关于其现有客户特点方面的信息。接受调研委托获得更多关于其现有客户特点方面的信息。接受调研委托的李文博士指派班上的王洪同学为

12、样本计划小组的负责人。的李文博士指派班上的王洪同学为样本计划小组的负责人。通过与通过与“百脑汇百脑汇”的市场部经理乔兰的初次会谈,王洪了解的市场部经理乔兰的初次会谈,王洪了解到调研的一个主要目的是分别按人口和心理因素来估计到调研的一个主要目的是分别按人口和心理因素来估计“百脑汇百脑汇”的客户构成和比例。此外,确认总体估计值不超的客户构成和比例。此外,确认总体估计值不超过实际值的过实际值的50,可靠度为,可靠度为95。为了达到这些要求,王洪和他的小组正努力寻找计算所需为了达到这些要求,王洪和他的小组正努力寻找计算所需样本容量的方法。样本容量的方法。101 引言引言就是根据从样本中收集的信息对就是

13、根据从样本中收集的信息对总体未知量进行推断的过程。总体未知量进行推断的过程。抽样估计涉及的重要问题:抽样估计涉及的重要问题:一个样本单元的一个样本单元的问题问题。,包括总体总量、均值和比例以及抽包括总体总量、均值和比例以及抽样误差的估计。样误差的估计。构成抽样设计程序的重要步骤和构成抽样设计程序的重要步骤和内容。同时,样本量的确定与样本估计值的精内容。同时,样本量的确定与样本估计值的精度密不可分。度密不可分。102 加权及权数调整加权及权数调整 设计权数是指每个样本单元所代表的调查总体的单元设计权数是指每个样本单元所代表的调查总体的单元数,它是由抽样设计所决定的,通常以数,它是由抽样设计所决定

14、的,通常以wd表示。确定表示。确定设计权数是估计的第一步。设计权数是估计的第一步。设计权数其实就是样本单元的入样概率的倒数。假如设计权数其实就是样本单元的入样概率的倒数。假如入样概率是入样概率是1/10,那么每个入选样本代表总体中的,那么每个入选样本代表总体中的10个单元,此时设计权数即为个单元,此时设计权数即为10。不同样本单元的设计权数可能不同,这取决于抽样设不同样本单元的设计权数可能不同,这取决于抽样设计。因此,加权估计应区分等概率抽样的加权和不等计。因此,加权估计应区分等概率抽样的加权和不等概率抽样的加权。概率抽样的加权。等概率抽样的加权等概率抽样的加权 当每个单元都有相同的入样概率时

15、,所有样当每个单元都有相同的入样概率时,所有样本单元的设计权数都相同,这种抽样就是本单元的设计权数都相同,这种抽样就是。SRS抽样和抽样和SYS抽样都属于自加权设计,比例分抽样都属于自加权设计,比例分层抽样也是自加权设计。层抽样也是自加权设计。另外,另外,PPS等也可以设计为一个自加权抽样。等也可以设计为一个自加权抽样。对于自加权抽样设计,如果无需对权数调整,对于自加权抽样设计,如果无需对权数调整,则在计算比例、均值等估计量时可将其忽略,则在计算比例、均值等估计量时可将其忽略,对总值估计也仅需将样本总值乘上某个倍数。对总值估计也仅需将样本总值乘上某个倍数。(例例P215)不等概率抽样的加权不等

16、概率抽样的加权 自加权设计并不总是可行的。如,在使用分层抽样进行自加权设计并不总是可行的。如,在使用分层抽样进行一个全国调查时,可能需要采用纽曼分层。一个全国调查时,可能需要采用纽曼分层。当所采用的抽样设计不是等概率时,正确地使用设计权当所采用的抽样设计不是等概率时,正确地使用设计权数就显得尤为重要。数就显得尤为重要。例例10102 2 有关各层总体数和样本数资料见表有关各层总体数和样本数资料见表10-110-1。对。对于这项调查,被调查者的设计权数是多少呢?于这项调查,被调查者的设计权数是多少呢?收入层次各层单位数样本数量设计权数高收入层200033.3wd,1N1/n1=2000/33.3

17、=60.1 中收入层12000133.3wd,2N2/n2=12000/133.3=90.0 低收入层600033.3wd,3N3/n3=6000/33.3=180.2 设计权数的调整 上述等概率抽样的加权和不等概率抽样的加权都是加权的基本形式。权数估计常会遇到更真实和复杂的情况:考虑无回答的情况,然后对权数做出调整;考虑来自其他渠道的、更具权威性的某些辅助信息,将它们合并到权数中。对无回答的权数调整对无回答的权数调整 是指一个样本单元几乎所有的数据都缺失。简单的处理办法是忽略它。然而,如果发现忽略单元无回答是不适当的,则应该对权数进行调整。即,设计权数无回答调整因子=无回答的调整权数是原样本

18、单元的权数和与给出回答的单元的权数和的比值。对于自加权设计,该比值可用原样本的单元数与给出回答的单元数的比值来表示。无回答权数调整应区分两种不同情况:等概率抽样 不等概率抽样对无回答的权数调整对无回答的权数调整(SRS)例例101033 从一个N=100人的总体中抽取一个n25人的简单随机样本。记回答单元的数量为nr,结果显示只有20个人提供了所需的信息。那么,此时无回答的调整权数是多少?步骤步骤1:计算设计权数。:计算设计权数。入样概率p为:P=n/N=25/100=1/4 故,每个样本单元的设计权数为4。步骤步骤2:计算无回答调整因子。:计算无回答调整因子。由于在n25人中只有nr=20人

19、提供了所需的信息,最终样本量应为20。假定回答单元不仅能代表回答单元且能代表无回答单元,计算无回答调整因子为:n/nr=25/20=1.25步骤步骤3:计算无回答的调整权数。:计算无回答的调整权数。无回答的调整权数wnr等于设计权数与无回答调整因子的乘积:对无回答的权数调整对无回答的权数调整(STR)例例10104 4 对于一项公共交通系统调查,总体由1100人组成,并按城乡分为两个层。分层及样本数据如表10-2所示。那么,回答者的权数是多少?表10-2 公交系统调查的分层数据层总体大小样本量回答者数量城市N11000n1200nr,1150农村N2100n250nr,240步骤步骤1:各层的

20、设计权数为:各层的设计权数为:城市层城市层 wd,1N1/n1=5 农村层农村层 wd,2N2/n2=2步骤步骤2:调整以弥补无回答。各层的无回答调整因子计算如下:调整以弥补无回答。各层的无回答调整因子计算如下:城市层城市层:n1/nr,1=200/150=1.33 农村层农村层:n2/nr,2=50/40=1.25步骤步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:无回答的调整权数等于设计权数与无回答调整因子的乘积:城市层城市层:农村层农村层:使用辅助信息调整权数使用辅助信息调整权数 为什么要使用辅助信息来调整权数呢?首先,使调查的估计值与已知总体总值相匹配。例如,使用最新的人口

21、普查数据来调整估计值,以确保这些估计值(如年龄、性别分布等)的一致性。二是为了提高估计值的精度。将辅助信息与抽样设计相结合,将有助于提高估计的精度。要想在调查设计阶段使用辅助信息,抽样框中的所有单元都必须具备这个辅助信息。否则,就只能在数据收集上来后,在估计阶段利用辅助信息提高估计值的精度。使用辅助信息调整权数使用辅助信息调整权数 例例101055 为得到某公司职员是否有吸烟习惯的信息,进行了一项调查。从N=780人的名录中抽出了一个n=100人的简单随机样本。在收集有关吸烟习惯信息时,收集了每个回答者的年龄和性别情况,且100人都做出了回答,由此得到样本数据的分布如表10-3所示:事后分层估

22、计值 男性 女性 总计 吸烟人数 164 47 211 总人数 360 420 780 吸烟者比例 0.455 0.111 0.271回答者数量男性女性总计吸烟人数25530总人数5545100(nr)调查的估计值男性女性总计吸烟人数19539234总人数429351780吸烟者的比例0.4550.1110.30表10-5 利用辅助信息对抽样调查估计值的调整 表10-3 某公司吸烟习惯抽样调查数据表10-4 根据某公司吸烟习惯抽样计算的估计值103 抽样分布与抽样误差抽样分布与抽样误差 抽样调查的目的是要对总体做出推断。了解统计推断的理论基础,首先注意区分三种不同性质的分布:总体分布 样本分布

23、 抽样分布 同时,特别注意总体分布与抽样分布的关系。三种不同性质的分布:总体各单位的观察值所形成的频数分布,总体分布通常是未知的。:一个样本中各个观察值所形成的频数分布就叫做。当样本容量n逐渐增大时,样本分布逐渐接近总体的分布。:样本统计量的抽样分布,是指在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。抽样分布是一种理论分布。抽样分布提供了样本统计量长远而稳定的信息,是进行推断的理论基础。分布类型均值比例标准差总体分布样本分布抽样分布 X P S表10-6 各种分布的均值、比例和标准差的符号表示 样本均值的抽样分布 样本均值的抽样分布,是指在重复选取容量为n的样本时,由

24、样本均值的所有可能取值形成的相对频数分布。例例101066设一个总体,含有4个元素,即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。则总体分布如图10-1。现在从总体中有放回地抽取n2的简单随机样本,则样本均值的抽样分布如图10-2。均值抽样分布的规律比较样本均值的分布与总体分布比较样本均值的分布与总体分布,得出如下结论:(1)样本均值的数学期望 等于总体均值,即E()=。(2)在重复抽样条件下,样本均值的方差等于总体方差的1/n,或者说,样本均值的标准误 。(3)如果总体服从正态分布,即xN(,2),那么样本均值也服从正态分布,即 N(,2/n)。(4)如果总体不服

25、从正态分布,那么当样本量足够大时,样本均值 也服从正态分布。中心极限定理中心极限定理,概括为:设从均值为、方差为 2的一个任意总体中随机抽取容量为n的样本,当n足够大(n 30)时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。样本比例的抽样分布,是在重复抽取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布。比较样本比例的分布与总体分布,得出如下结论:当样本容量足够大时,样本比例的抽样分布近似地服从正态分布,样本比例的数学期望等于总体比例,即E(p)=;在重复抽样条件下,样本比例的方差为总体方差的1/n,即 设从比例为、方差为 2的一个任意总体中随机抽取容量为n的样本,

26、当n足够大(n 30)时,样本比例的抽样分布近似服从比例为、方差为(1-)/n的正态分布。样本比例样本比例的方差的方差:样本比例样本比例的标准误:的标准误:正态分布及标准值Z 正态分布有以下几个重要特征:正态曲线呈钟形,曲线下的面积等于1,表明它包括了所有的调查结果。在正态曲线下任意两个变量值之间的面积,等于在这一范围内随机抽取一个观察对象的概率。例如,任意抽取一个样本单元,IQ分数落在55-145之间的概率是99.72%,即图10-3中正态曲线下55-145之间的面积。所有的正态分布在平均数1个标准差之间的面积相同,都占曲线下方面积的6826。这是正态分布的比例性,为统计推断提供了基础。一个

27、正态分布的特殊性由其平均数和标准差决定。标准正态分布 标准正态分布是一种平均值等于0、标准差等于1的正态分布(如图10-4)。研究者可以将任何正态变量X转换为标准正态变量值(标准值)Z。计算方法就是,用将要进行转换的值中减去均值,然后再除以标准差。即 求出标准值Z之后,就可以查阅正态分布表(附录B-2),得到Z值的标准正态分布曲线下的面积(概率)。式中,x 变量值;平均数的假设或预期值;变量的标准差。104 参数估计参数估计 参数估计就是根据从样本中收集的信息对总体参数进行推断的过程。样本估计量(如样本均值、比例等)都是随机变量,在具有特定概率(抽样)分布的样本之间有所变化。参数估计就是根据推

28、断理论所阐明的抽样分布与总体分布之间的关系,由样本统计量的具体值估计总体参数(如总体均值、比例和方差等)。参数估计有两种估计方法:点估计 区间估计总体参数的点估计总体参数的点估计 点估计就是用样本的估计量直接作为总体参数的估计值。例如,用样本均值直接作为总体均值的估计,或者用两个样本均值之差直接作为总体均值之差的估计。点估计是容易做到的,但是,点估计没有给出估计值接近总体参数程度的信息。当样本均值与总体均值不完全相同时,样本均值与实际总体均值就存在着差距,形成抽样误差。总体参数的区间估计总体参数的区间估计 区间估计:在点估计的基础上,对总体参数的区间或范围进行估计。区间估计不仅要说明区间大小,

29、还要说明点估计值在区间内的概率,即置信度。置信度是一个百分比,用来说明结果正确的长期概率。被估计的区间则被称为置信区间。根据样本统计量的抽样分布理论,总体参数的区间范围是在一定的概率度下,由样本统计量加减抽样误差而得到。总体均值的区间估计 在SRS抽样情况下,样本统计量的抽样分布均服从正态分布。可使用正态分布统计量Z来描述总体均值的区间估计,将总体均值区间估计表达为:=在上式中,在上式中,代表一定置信度下的代表一定置信度下的Z值。值。注意,注意,应除以应除以2,以便确定均值的每一边所包含曲线下区域的百分比。以便确定均值的每一边所包含曲线下区域的百分比。代表样本均值的标准误,代表样本均值的标准误

30、,当当未知,用未知,用S来估计来估计,样本均值的标准误:,样本均值的标准误:当当已知,样本均值的标准误的估计公式已知,样本均值的标准误的估计公式:总体均值的区间估计 若调查从总体中随机抽取一个很小样本(n 30),则样本均值的抽样分布服从自由度为(n-1)的t-分布(较正态分布平坦和分散)。随着自由度增大,t分布也逐渐趋于正态分布。在上述假设条件下,使用 t 分布统计量(附录B-3)来估计总体均值的置信区间。t分布条件下总体均值置信区间的估计方法与正态分布条分布条件下总体均值置信区间的估计方法与正态分布条件下非常类似,只是查件下非常类似,只是查t分布表需要考虑自由度为分布表需要考虑自由度为(n

31、-1)。统计量统计量 t(n-1)总体置信区间总体置信区间=总体均值的区间估计例题例题 例例10107 7 某银行收集到由某银行收集到由3636信用卡用户组成的随机样信用卡用户组成的随机样本,得到各用户年龄本,得到各用户年龄(周岁周岁)数据如下数据如下2323,3535,3939,2727,3636,4444;3636,4242,4646,4343,3131,3333,4242,5353,4545,5454,4747,2424,3434,2828,3939,3636,4444,4040,3939,4949,3838,3434,4848,5050,3434,3939,4545,4848,4545

32、,3232。试建立信用卡用户年龄试建立信用卡用户年龄90%90%的置信区间。的置信区间。已知n=36,1-=90%,Z/2=1.64。根据样本数据计算得:=39.5,s=7.77 则,信用卡用户总体平均年龄在90%置信水平下的置信区间为:=39.51.64 =39.52.12 =(37.38,41.62)结论是:在90%的置信度下,信用卡用户的平均年龄为37.3841.62岁。=总体比例的区间估计 总体比例的区间估计假定总体服从二项分布。二项分布是指重复进行 n 次试验,出现“成功”的次数的概率分布。总体比例的抽样分布仍然可以由正态分布来近似,即适用中心极限定理。使用正态分布统计量Z来描述总体

33、比例的区间估计,将总体比例区间估计表达如下:=p 在上式中,在上式中,代表一定置信度下的代表一定置信度下的Z值。值。注意,注意,应除以应除以2,以便确定比例的每一边所包含曲线下区域的百分比。以便确定比例的每一边所包含曲线下区域的百分比。代表样本比例的标准误,代表样本比例的标准误,当当未知,样本比例的标准误未知,样本比例的标准误的估计式的估计式:当当已知,样本比例的标准误的估计式:已知,样本比例的标准误的估计式:总体比例的区间估计例题 例例101088 某商业公司想要估计经常光顾其大型购物中心中女性所占的比例,随机地抽取了400名经常性顾客,发现其中260名为女性。试以95%的置信水平估计经常光

34、顾该大型购物中心中女性比例的置信区间。解:已知 n=400,p65%=0.65,1-=95%,Z/2=1.96 则,总体比例在95%置信水平下的置信区间为:=0.651.96 =0.650.047 =(0.603,0.697)结论:在95%的置信度下,经常光顾该大型购物中心中女性比例的置信区间为60.3%69.7%。=p 总体方差的区间估计 在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布,构成样本方差的抽样分布。对于来自正态总体的简单随机样本,则(n-1)倍的样本方差与总体方差的比值的抽样分布服从自由度为(n-1)的2分布,即2(n-1)2分布的特性分布的特性总体方差的

35、区间估计提供了理论依据。当总体服从正态总体方差的区间估计提供了理论依据。当总体服从正态分布时,总体方差分布时,总体方差 2 的点估计量为的点估计量为s2。借助。借助 2分布表分布表(附录附录B-4)可可以查得以查得21-/2和和2/2分布曲线下的面积分布曲线下的面积(概率概率)。然后,可以给出总体。然后,可以给出总体方差在方差在1-置信水平下的区间估计置信水平下的区间估计:105 样本量的确定 样本量的确定问题,首先涉及对总体参数估计值的精度要求,同时也涉及与各种运作限制(如可获得的预算、资源和时间)之间的平衡问题。理论上,总体参数估计的精度取决于抽样误差和非抽样误差两类误差的大小。但是,确定

36、样本量是为控制抽样误差,而不是对非抽样误差进行控制,进而提高对总体估计的精度。估计精度与样本量的关系估计精度与样本量的关系 总体参数的置信区间可以描述为:总体参数=总体参数的估计值抽样误差的范围 显然,估计精度取决于抽样误差大小。假设用E来定义抽样误差范围,则当简单随机选择一个容量足够大(n 30)的样本时,样本均值的抽样误差范围可以表示为:抽样误差的范围是估计量标准误的倍数,乘数因子取决于在调查估计中所希望达到的置信水平。在放回(重复)的SRS抽样条件下,假设回答率为100%,则样本均值的标准误公式可用来解释估计精度与样本量之间的基本关系:E估计精度与样本量 无论是重复抽样还是不重复抽样,抽

37、样误差的大小(即估计精度)与样本量紧密相关:随着样本量的增加,对应估计量的抽样标准差就会不断减小,调查估计的精度则会不断提高。同理,当要求不断提高调查估计值的精度要求时,所需样本量也会不断增加。样本量要根据估计所要求的精度来计算和确定。下面的讨论分为两部分:对初始样本量的确定及考虑 复杂情况的考虑及对初始样本量的调整初始样本量的确定初始样本量的确定 初始样本量基于以下假定:抽样采用放回的SRS抽样,并且调查回答率为100%。样本均值的标准误表示为样本均值的标准误表示为:抽样误差范围表示为抽样误差范围表示为:E 从上式中解得样本量从上式中解得样本量n:从公式看出,样本容量从公式看出,样本容量n与

38、置信系数和总体方差成正比,与边际误差成反比。与置信系数和总体方差成正比,与边际误差成反比。为确定样本量为确定样本量n,需要知道允许的抽样误差范围,需要知道允许的抽样误差范围E、与给定置信水平相对应的、与给定置信水平相对应的标准值标准值Z、总体方差估计、总体方差估计2。初始样本量的确定 初始样本量基于以下假定:抽样采用放回的SRS抽样,并且调查回答率为100%。样本比例的标准误表示为样本比例的标准误表示为:抽样误差范围表示为抽样误差范围表示为:E 从上式中解得样本量从上式中解得样本量n:从公式看出,样本容量从公式看出,样本容量n与置信系数和总体方差成正比,与边际误差成反比。与置信系数和总体方差成

39、正比,与边际误差成反比。为确定样本量为确定样本量n,需要知道允许的抽样误差范围,需要知道允许的抽样误差范围E、与给定置信水平相对应的、与给定置信水平相对应的标准值标准值Z、总体比例、总体比例。对样本量基本公式的应用考虑对样本量基本公式的应用考虑 在确定初始样本量的公式中,抽样误差范围假定已知。但在实践中,如何确定调查估计的精度水平(抽样误差范围),却是一个值得思考的问题。1多大的抽样误差对调研目标而言可以接受 常用95的置信度、6的抽样误差范围对客户的调查目标是否适宜,估计值是否需要更高或者更低的精度?2是否需要对调查总体中的子总体(域)进行估计 例如,对一项全国性抽样调查而言,主办者可能要求

40、对全国估计的抽样误差范围为3;但是对于省级估计值,抽样误差范围可能确定为5;而对于地市的估计值,10的抽样误差范围就足够了。对样本量基本公式的应用考虑对样本量基本公式的应用考虑 3相对于调查估计值的抽样误差应该多大为宜 例如,政府要决定是否执行为某种使用人数较少的语种提供服务的新政策,假定做出决定的前提,是至少有5%的人群对这一语种存在需求。在这里,p005就是要确定的最小估计值。相对于该估计值,必须规定更小的抽样误差范围,如001(即,置信区间为005001)。4精度要求的实际含义是什么 随着样本量的增加,估计值的精度也将提高。然而,精度的得益并不与样本量的增加成正比。如表10-10中描述的

41、例子。样本量抽样误差范围50100500100001386009800043800310表10-10 简单随机抽样估计比例P的样本量与抽样误差范围(当P=05)关于确定样本量的现实复杂考虑 在确定样本量基本公式之外,又有一些现实因素影响调查估计量的精度,进而影响样本量。这些因素主要包括 总体指标的变异程度 总体大小,样本设计和所用的估计量 以及回答率 关于确定样本量的现实复杂考虑关于确定样本量的现实复杂考虑 随着调查总体中所研究指标的实际变异程度的增加,样本量也必须随之增大,以满足估计的精度要求。为确保达到调查要求的精度,在计算样本量时,建议对某一指标的总体变异程度采取保守估计,即假定研究指标

42、具有最大的变异程度。例如,对于二元变量,应该假定总体中该变量的变异程度为50-50对半平分,即假定p=05。为确保样本量对所有的研究指标都足够大,应该根据最大变异程度或被认为最重要的指标来确定样本量。关于确定样本量的现实复杂考虑关于确定样本量的现实复杂考虑 在基本公式中,样本量的确定似乎与总体大小没有关系。因为当时假定在大总体中进行有放回的重复抽样,抽样总体的影响被忽略掉了。然而,在调研实践中,总体单元数量可能是有限的,而且可能采取非重复抽样,这时总体大小对样本容量的影响就应该被考虑进来了。在样本不放回的非重复抽样条件下在样本不放回的非重复抽样条件下 样本均值的标准误表示为样本均值的标准误表示

43、为:抽样误差范围表示为抽样误差范围表示为:E 从上式中解得样本量从上式中解得样本量:在样本不放回的非重复抽样条件下在样本不放回的非重复抽样条件下 样本比例的标准误样本比例的标准误:抽样误差范围表示为抽样误差范围表示为:E 从上式中解得样本量从上式中解得样本量:关于确定样本量的现实复杂考虑关于确定样本量的现实复杂考虑 当使用复杂的样本设计时,估计值可能比SRS精确。当估计值更精确时,称所采用的样本设计更为有效。因此,实际抽样时必须考虑实际所用抽样设计的效率,并对初始样本量做出调整。即,在SRS抽样的样本量计算公式基础上乘以一个设计效应因子设计效应因子。设计效应设计效应(Deff)是指在给定抽样设

44、计下估计值的抽样方差,与相等样本量下的简单随机抽样的估计值的抽样方差之比。设某一抽样设计样本估计值的方差为设某一抽样设计样本估计值的方差为 ,同等样本量的,同等样本量的SRS设计的设计的样本估计值的方差为样本估计值的方差为 ,则抽样设计效应:,则抽样设计效应:Deff=显然,对于简单随机抽样设计,显然,对于简单随机抽样设计,Deff=1;若;若Deff1,表明实际使用,表明实际使用的抽样设计的效率高于简单随机抽样;若的抽样设计的效率高于简单随机抽样;若Deff1,表明实际使用的抽,表明实际使用的抽样设计的效率低于简单随机抽样。样设计的效率低于简单随机抽样。特定抽样设计所需的样本量(特定抽样设计

45、所需的样本量(n1)调整为:)调整为:n1=n0Deff 关于确定样本量的现实复杂考虑关于确定样本量的现实复杂考虑 调查回答率调查回答率是指调查回收的有效问卷数占计划访问的样本数量的百分比。在执行抽样过程中,会出现无效问卷,这意味着计划样本量中的一部分无法产生有效数据,并导致估计精度的降低。为达到估计精度的要求,调研机构需要根据预计的回答率调整样本量的大小,根据预计的回答率确定一个较大的样本。预计的回答率是依据对同一总体的小范围的试点调查或者过去类似的调查得到的。假设理论上确定的样本量为nt,预计回答率为r,则调整后的样本量n1就表示为:n1nt/r基于现实考虑的基于现实考虑的样本量的计算样本

46、量的计算 第第1步:计算初始样本量步:计算初始样本量设允许的抽样误差范围为设允许的抽样误差范围为E,与给定置信水平相对应的标准值为,与给定置信水平相对应的标准值为Z,总体比例为,总体比例为。则初始样本量。则初始样本量n0计算为:计算为:第第2步:根据总体大小对初始样本量进行调整步:根据总体大小对初始样本量进行调整(两种方法两种方法)一是在方差估计中直接考虑总体大小的调整因子:一是在方差估计中直接考虑总体大小的调整因子:二是在初始样本量基础上乘上一个调整因子:二是在初始样本量基础上乘上一个调整因子:第第3步:对样本量进行设计效应调整步:对样本量进行设计效应调整在第在第2步基础上,根据实际使用的抽

47、样设计步基础上,根据实际使用的抽样设计(SRS以外的其他方法以外的其他方法)效应对样本量效应对样本量进行调整:进行调整:其中,对分层抽样设计,其中,对分层抽样设计,Deff1;对整群或多阶抽样设计,;对整群或多阶抽样设计,Deff1。第第4步:根据预计回答率步:根据预计回答率r再次进行调整,以确定最终样本量再次进行调整,以确定最终样本量n3:样本量计算的综合例题样本量计算的综合例题例例109 某杂志社准备启动一项调研活动,某杂志社准备启动一项调研活动,以得到读者对该杂志综合满意度的估计值。订以得到读者对该杂志综合满意度的估计值。订阅该杂志的读者总体主要由城市读者、乡村读阅该杂志的读者总体主要由

48、城市读者、乡村读者和海外读者三部分构成者和海外读者三部分构成(分层数据见表分层数据见表10-12)。通过从三部分读者中各抽取一个通过从三部分读者中各抽取一个SRS样本,得样本,得到一个分层随机样本。到一个分层随机样本。假定该杂志社希望真实的总体比例落在样本估假定该杂志社希望真实的总体比例落在样本估计值的计值的005范围内,并且调查估计值的置范围内,并且调查估计值的置信度为信度为95。同时,预计回答率为。同时,预计回答率为65。请问。请问每一层应确定访问多少个订户?每一层应确定访问多少个订户?再假定对每一层都要求样本估计值在再假定对每一层都要求样本估计值在95的置的置信度下抽样误差范围为信度下抽

49、样误差范围为005的估计结果,的估计结果,城市、乡村和海外三层读者的预计回答率分别城市、乡村和海外三层读者的预计回答率分别为为65%、65%和和50%。则所需样本量为多少?。则所需样本量为多少?层数i层次名读者数(Ni)1城市5000002乡村2000003海外60000合 计760000各种运作限制各种运作限制对样本量影响的考虑对样本量影响的考虑 上述讨论仅涉及确定样本量问题中最重要的指标估计值的精度要求。然而实际上,不考虑时间和费用个因素是不可思议的。最终确定的样本量必须与可获得的经费预算和允许的时限保持一致。其它一些现场操作因素,如数据收集的方法,有否合适的现场调查人员、数据编码和审核人员,以及处理数据的设备等等,都会对样本量的确定产生一定的影响,甚至有时可能是决定性的。最终样本量的确定需要在精度、费用、时限和操作的可行性等相互冲突的限制条件之间进行协调。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(MRAFC10抽样估计与样本量确定课件.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|