抽样方法与样本量估计课件.ppt

上传人(卖家):三亚风情 文档编号:2993276 上传时间:2022-06-20 格式:PPT 页数:48 大小:890KB
下载 相关 举报
抽样方法与样本量估计课件.ppt_第1页
第1页 / 共48页
抽样方法与样本量估计课件.ppt_第2页
第2页 / 共48页
抽样方法与样本量估计课件.ppt_第3页
第3页 / 共48页
抽样方法与样本量估计课件.ppt_第4页
第4页 / 共48页
抽样方法与样本量估计课件.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

1、A1抽样方法与样本量估计抽样方法与样本量估计张文斌张文斌2013.122013.12A2为什么要抽样为什么要抽样抽样:经济、有效,是科学的。抽样:经济、有效,是科学的。A3抽样方法创始人抽样方法创始人- -盖洛普盖洛普乔治乔治盖洛普(盖洛普(Gallup,GeorgeHoraceGallup,GeorgeHorace,1901198419011984,美国数学家),美国数学家) 盖洛普1925-1928年就读爱荷华州立大学(文学学士、心理学硕士、新闻学博士)。他的博士论文题目是应用客观方法衡量读者对报纸兴趣的一种新技术,这篇论文包含着后来发展为盖洛普民意测验和舆论统计的思想。 1955年,盖洛

2、普在新泽西州的普林斯顿创立美国舆论研究所,正式举办有关政治和社会事业问题的各种全国性民意调查包括对世界人民的态度、恐惧、希望、宗教信仰和风俗刁惯等的调查。这个研究所的成立,迅速使盖洛普民意测验具有了权威性,该研究所也称为盖洛普民意测验所。 A4盖洛普的成功盖洛普的成功A5盖洛普方法 盖洛普使用的民意调查方法是一种代表性抽样调查方法,是他在从事新闻工作中发展起来的,根据对象的年龄、性别、教育程度、职业等标准,在全国各地区按比例选择测验对象,派调查员亲自去调查访问,根据统计测验结果进行分析,做出说明。这种方法就是所谓的“定额抽样法”,即将总体各单位按某些主要标识划分类型后抽取比例样本,是一种非概率

3、抽样。A6抽样调查的特点抽样调查的特点特点特点1 1:抽取的样本作为一个“代表团”来代表总体。而不是随意挑选的个别单位代表总体。特点特点2 2:调查样本一般按随机的原则抽取,在总体中每个单位被抽取的机会相等。因此被抽中的单位在总体中是均匀分布的,不致出现倾向性误差,代表性强。特点特点3 3:所抽取的调查样本数量是根据误差的要求并经过科学的计算确定,在调查样本的数量上有可靠保证。特点特点4 4:抽样误差在调查前就可以根据样本量和总体中各单位之间的差异程度进行计算,并控制在允许范围内,调查结果的准确程度较高。A7一、定义总体一、定义总体二、确定抽样框架二、确定抽样框架三、选择抽样技术三、选择抽样技

4、术四、确定样本容量四、确定样本容量五、执行抽样过程五、执行抽样过程抽样设计过程A8抽样调查的主要问题抽样调查的主要问题A9抽样误差 抽样调查目的是用样本调查数据推断总体。但任何样本数据推断总体,都不可能得到确切的总体真值。即存在抽样误差。抽样调查理论基础在于用样本数据估计的总体值与总体真值之间的误差,不会影响数据的使用和对问题的决策。A10如何正确认识抽样误差? 调查数据存在着误差是绝对的,而误差的大小是相对的,其相对性取决于研究的问题和需要的决策。在抽样方案设计时,需要对调查主要指标有一个误差的要求,即样本的抽样误差控制在什么范围,使其调查数据的使用对分析和决策问题没有影响或影响很小。这一误

5、差标准没有统一的规定,取决于数据使用者分析问题与决策的要求。指标相对误差很小,数据精度太高,样本量需求量大;指标相对误差很大,精度太低,对使用者来讲数据不能用。A11对抽样误差认识与使用的误区对抽样误差认识与使用的误区 一些研究者甚至部分官员不愿意或不习惯接受数据的误差范围,一谈到误差,惟恐别人说数据不准,将数据误差绝对。由于对数据误差的认识存在着误区,在如何使用数据上也存在着误区。抽样调查的数据拿来就用,不谈抽样误差和调查误差,认为调查数据就是总体的真值。在进行工作政绩考核或进行地区间的数据对比时,调查指标数据的高低变成了地区之间排队、政绩评比的依据,忽视了对数据误差的评估。现有的调查数据不

6、仅没有正确地使用,反而还带来地区之间数据高低的相互攀比,同时也影响了以后抽样调查的数据质量。A12如何确定恰当的抽样误差? 有专家认为,抽样调查估计值的相对误差控制在以内,数据质量好,控制以内,数据质量较好,控制 以内,数据可用。一些国家在进行国家级抽样调查时,给出主要调查指标相对误差应控制的范围,规定了估计值的相对误差超过不能公布。A13案例案例1 某研究论文中按“病情和就诊的先后顺序分组”。 因病人就诊的先后顺序往往暗示其病情不同,尤其是当病人的病情轻重难以判断时若将先来就诊者分在一组,后来就诊者分在另一组,就不可避免的引入顺序误差( 即一组病人的病情较另一组病人的病情重) ,从而得出错误

7、结论。A14案例2牛宏俐: 设计600户,实际只有435户(原因是拒访)胡瑞: 按地区东中西(共6个县)、按县乡卫生机构(医院1-2所,卫生院10家),共抽取262人,按30%扩大样本至360人。A15案例3 研究者用15个对象做试验, 先按药物作用时间长短随机均分成5组,每组3个对象; 接着又按药物的3种剂量将每组中的3个对象再均分成3个小组,每小组仅有1个对象。这个试验研究中的样本含量应当是15?还是1呢? A16 常用的抽样方法常用的抽样方法抽样方法抽样方法概率抽样非概率抽样单纯系统分层整群方便滚雪球配额典型另外:不等概率抽样方法(probability proportional to

8、size , PPS)A17便利抽样 以研究者或访问者方便来选择被访者,通常被访者由于碰以研究者或访问者方便来选择被访者,通常被访者由于碰巧在恰当的时间正处在恰当的地点而被选中巧在恰当的时间正处在恰当的地点而被选中 使用学生以及社会组织成员;使用学生以及社会组织成员; 医院拦截患者;医院拦截患者; “街上的行人街上的行人”访谈。访谈。优点:便利抽样在所有抽样技术中成本最低、耗时最少,抽样优点:便利抽样在所有抽样技术中成本最低、耗时最少,抽样单位易于接近;单位易于接近;缺点:不能代表总体。缺点:不能代表总体。A18配额抽样 配额抽样可以被看成两阶段有约束的判断抽样配额抽样可以被看成两阶段有约束的

9、判断抽样 第一阶段,由确定总体中的个体的控制类别或者配额组成,第一阶段,由确定总体中的个体的控制类别或者配额组成,配额确保了样本的组成与总体的组成在特定特征方面相同;配额确保了样本的组成与总体的组成在特定特征方面相同; 第二阶段,样本个体在便利或者判断的基础上被选择出来第二阶段,样本个体在便利或者判断的基础上被选择出来缺点是缺点是: : 缺乏对总体的代表性,无法计算抽样误差;缺乏对总体的代表性,无法计算抽样误差;优点是优点是: : 低成本,为每个配额选择个体对访谈人员而言较为容易。低成本,为每个配额选择个体对访谈人员而言较为容易。A19滚雪球抽样 通常是先选出一组最初的调查对象,通常是随机选出

10、的,通常是先选出一组最初的调查对象,通常是随机选出的,在访谈之后,要求这些被访者推荐一些属于目标总体的其他在访谈之后,要求这些被访者推荐一些属于目标总体的其他人,根据这些推选出后面的被访者。与随机的方式相比,被人,根据这些推选出后面的被访者。与随机的方式相比,被推举的人将具备与推荐人更为翔实的人口及心理特征。推举的人将具备与推荐人更为翔实的人口及心理特征。优点是:主要目的是估计总体中非常稀少的某些特征。优点是:主要目的是估计总体中非常稀少的某些特征。缺点是:这种方式非常耗时。缺点是:这种方式非常耗时。A20概率抽样与非概率抽样间作抉择决择考虑方面决择考虑方面有利于使用的条件有利于使用的条件非概

11、率抽样非概率抽样概率抽样概率抽样研究的性质研究的性质探索性探索性描述性描述性抽样误差与非抽样误差的相对大小抽样误差与非抽样误差的相对大小非抽样误差较大非抽样误差较大抽样误差较大抽样误差较大总体的变异程度总体的变异程度同质(低)同质(低)异质(高)异质(高)统计上的考虑统计上的考虑不利不利有利有利操作上的考虑操作上的考虑有利有利不利不利A21第四次卫生服务调查(家庭健康调查)第四次卫生服务调查(家庭健康调查)方法:多阶段分层整群抽样方法:多阶段分层整群抽样多阶段:多阶段:省(直辖市) 县(市、区) 乡(街道) 行政村(居委会) 户分层:分层:地理位置(东、中、西),城乡结构(城市按大、中、小;农

12、村按经济因素分1、2、3、4类地区),家庭收入(5个等级)整群:整群:抽查户中每个成员都调查A22第四次卫生服务调查(家庭健康调查)第四次卫生服务调查(家庭健康调查)户的抽样:户的抽样:1.1.编号:编号:将样本村(居委会)内全部住户按名单顺序编号;2.2.按系统抽样方法确定样本户抽样间隔:按系统抽样方法确定样本户抽样间隔:国家样本点抽样间隔=本村(居委会)内户数/60 (四舍五入。取整)西部扩点抽样间隔=本村(居委会)内户数/33 (四舍五入。取整);3.3.确定抽样户:确定抽样户:随机抽一张百元人民币,取其后4位数,该数除以抽样间隔后的余数K(0)定位第一个抽样户,然后k值加抽样间隔为第2

13、个抽样户,以此类推。A23抽样结果抽样结果94个县市/470个乡镇(街道)/940个行政村(居委会)/56456户/约18万人A24第四次卫生服务调查(医务人员调查)第四次卫生服务调查(医务人员调查)A25(China Health and Retirement Longitudinal Study , CHARLS )A26如何确定样本量?A27确定样本容量的方法 样本容量的确定通常是介于理论上的完善方案与样本容量的确定通常是介于理论上的完善方案与实际的可行方案之间的一个折中方案。实际的可行方案之间的一个折中方案。教条式方法教条式方法成本基本法成本基本法统计分析法统计分析法A28教条主义方法

14、 任意方法也许基于经验,如总体的任意方法也许基于经验,如总体的5%5%规则规则 具有主观性具有主观性 优点:容易确定,简单易行优点:容易确定,简单易行 缺点:无效率、不经济缺点:无效率、不经济A29成本基础法 将成本作为确定样本容量的基础将成本作为确定样本容量的基础 对于成本基础法的区别很大;对于成本基础法的区别很大; 通常会忽视调查结果对管理决策的价值;通常会忽视调查结果对管理决策的价值; 确定样本容量一个好的办法是考虑成本与调研确定样本容量一个好的办法是考虑成本与调研对于经历的价值之间的关系;对于经历的价值之间的关系;A30统计分析法 一些统计分析方法对最小样本容量有要求一些统计分析方法对

15、最小样本容量有要求 如果要讨论分类变量的影响,那么每一分类变如果要讨论分类变量的影响,那么每一分类变量的样本数应符合统计分析数的需要;量的样本数应符合统计分析数的需要; 要将每一类样本或子集看成一个总体。要将每一类样本或子集看成一个总体。A311.单纯随机抽样单纯随机抽样(simple random sampling)nppnppNnSnSnSNnSpx)1 (1)1 ()1 (:)1 (:2无限总体无限总体)率的标准误(有限总体体)均数的标准误(有限总(1)方法 先对调查总体的全部观察单位编号,然后随机抽取一部分作为样本(2)标准误的计算A32例14.1例例1 欲调查某农村小学学生的蛔虫感染

16、率,该校有学生2000人,若取样本例数100人,试作单纯随机抽样设计。解:解:先将全校学生编号:0,1,2,3,1999;再用附表17随机数字表,任意指定某行某列,比如第5行第9列,由此处开始,向右依次抄录随机数字100组,每组4个数字,凡后面出现与前面相同的数字弃去,如得0873,3732,0405,6930,1609,0588,。凡首字8者减8,6者减6,4减4,2减2,依次得873,1732,405,930,1609,588,。0392. 01100)2 . 01 (2 . 020001001, 2 . 0,1002000%201pSpnN,解:,求其标准误。中查得蛔虫感染率为若例例例2

17、A33(3)单纯随机抽样样本含量估算无限总体所需样本量 估计总体率时,若事件发生概率在0.20.8之间,则) 1 ()1 (22pun若事件发生的概率小于0.2或大于0.8时,由于事件发生数服从Poisson分布,用Poisson分布的逼近公式计算:)2(sinsin42112pun估计总体均数时,)3(0222uxun有限总体所需样本量 ,)1 (Nnnn其中,N 为有限总体量,n 是上式(1)、(2)、(3)估计的结果。A34例例3 某医院欲了解小学六年级学生的近视眼患病率,1998年试查患病率为8%,预计总体患病率约为10%,若取=0.05,问需抽查多少小学生?784)08.0sin1.

18、0(sin496.1286757.008.0sin,321751.01.0sin,96.1,05.0, 1.0,08.021121105.0nup所以则解:例例4 某医院拟用抽样调查了解本地区健康成人血红蛋白水平,要求误差不超过0.2(g/L),据文献报告,健康成人血红蛋白的标准差为1.5(g/L),问需调查多少人( =0.05 )?2172 . 0)5 . 1)(96. 1 (5 . 1, 2 . 0,96. 122205. 0nu则解:A35单纯随机抽样的单纯随机抽样的优优缺缺点点1.均数和标准误的计算简便2.当总体例数较多时,对观察单位编号不易操作A362.系统抽样系统抽样(system

19、atic sampling) (1)方法 按照一定的顺序,机械地每隔若干个单位抽取一个观察单位的方法称系统抽样。做法是:先将总体观察单位按某一顺序号分成n个部分,再从第一部分随机抽取第k号观察单位,依次用相等间隔,从每一部分各抽取一个观察单位组成样本。(2)标准误的计算 系统抽样误差随总体性质、抽样的间隔大小而异,无专用的标准误计算公式。一般情况下,它比单纯随机抽样误差小。有人认为可按单纯随机抽样方法估计系统抽样误差。例例5 欲调查某社区贫血患病情况,该社区有居民1000人,按系统抽样方法,抽取例数为100人的样本。解: N=1000,n=100, 间隔为1000/100=10,先在110之间

20、随机确定一个数字,比如7,然后每间隔10个观察单位抽取一个,即7,17,27,997组成样本。又称机械抽样或等距离抽样A37系统抽样的系统抽样的优优缺缺点点1.系统抽样简便易行2.容易得到一个按比例分配的样本3.抽样误差小于单纯随机抽样4.容易产生系统误差5.抽样误差的估计只是近似的(用单纯随机抽样标准误估计往往偏大)A383.整群抽样整群抽样(cluster sampling)(1)方法 先将总体按某种与研究指标无关的特征分为K个组,再从K个组中随机抽取k个组,这k个组中的全部观察值组成样本(2)标准误的估计数。为样本各群的平均阳性和,为样本中各群阳性数之率的标准误:样本率:的均数为各群内观

21、察值之和为样本第群的均数为样本第值之和为样本中各群全部观察为总体观察单位数式中均数的标准误:样本均数:不等:)群内观察单位()标准误的计算:整群抽样的均数(或率aaaakkKkNKSaNkKpkTTTTiTixxNTTkkKkNKSxmNkKxNkKxmaikiipiiiiiikiixii1212)() 1(1)1 (/,)() 1(11A39(b)群内观察单位m相等群的率为样本第率的标准误:样本率:均数的标准误:样本均数:ipkkppKkSpkmkapkkxxKkSkxmkxxikiipiiixii)1()()1(1)1()(1122例例6 某校有80个班级,各班学生50人,现用锡克试验调查

22、该校学生白喉易感率,随机抽查了8个班的全部学生,其中阳性人数分别为12,17,12,15,21,20,21,18。试估计该校学生锡克试验阳性率。解: (群内观察单位相等) 各班的阳性率分别为:0.24,0.34,0.24,0.30,0.42,0.40,0.42,0.36 总率p=(12+17+12+15+21+20+21+18)/(850)=0.34389.0291.00248.096.134.0%950248.0)34.036.0(.)34.034.0()34.024.0() 18(81)8081 (222可信区间为:总体率的pSA40( 3 ) 整群抽样样本量估计为所有群体数有限总体时,无

23、限总体时,估计总体率所需样本量KKkkkmkppmukayii)1 () 1()()(22222为所有群体数有限总体时,无限总体时,量估计总体均数所需样本KKkkkmkxxmukbyii)1 () 1()()(22222为允许误差。均发生率;群的平均调查人数和平分别为和事件发生频率;群调查人数和某分别为预查的群体中第和为预查的群体数,上式中,yiiykpmipmk。群体观察指标的平均值个为值;个群体观察指标的平均为第的意义同前;和、上式中,yiiykxixmmkA41例例7 某市为了了解该市40岁以上人群高血压患病率,拟对全市55个街区采用整群抽样调查,随机预查了2个街区,第一街区调查了418

24、0人,高血压病人1060人,患病率为25.36%;第二个街区调查了4180人,高血压病人720人,患病率为14.49%,问需调查几个街区(=0.05,=0.1)?(街区)解:319.21.04575121945.01449.049701945.02536.0418096.155,2,1945.04970418072010604575249704180, 1.0,96.1222222205.0kKkpmuy(街区),需作校正:因为该市为有限总体,384. 25531355kKA42整群抽样的整群抽样的优优缺缺点点1.便于组织,适合大规模调查2.节省经费3.容易控制调查质量4.抽样误差较单纯随机抽

25、样大A434.分层抽样分层抽样(stratified sampling)(1)方法 先将总体按对观察指标影响较大的某种特征分成若干层,再从每层中随机抽取一定量的观察单位组成样本。;,;,iiiiiiiiiiiipWpippiissixWxixxnninniNN层的样本率为第为样本率层的率为总体第层的样本标准差;为第为样本标准差层的标准差为总体第层样本均数第为样本均数,;层的观察单位数为样本第为样本观察单位数层的观察单位数;为总体第为总体观察单位数列符号:为叙述方便,先定义下1111/2222iNniSSSWNnSSWNnSNNWipxpiiipxiiixiiiii标准误。对无限总体,层所用随机

26、抽样方法的为第和上式中,样本率的标准误:样本均数的标准误:令(2)标准误的计算A44(3)分层抽样样本量估计先估计样本总量n:例例8 在12万人口的居民区中调查某病患病率。居民区分4层,样本总含量确定为1000人,请按比例分配法确定各层调查人数。NNnnii:Ni的多少分配按各层观察单位数再分配各层观察单位ni,方法有两种:NSWuSWnNWuWniiiiiiiiiii/11222222总量:估计总体均数所需样本量:估计总体率所需样本总按比例分配:A45最优分配: 按各层观察单位Ni的多少以及标准差i的大小分配或预调查来估计一般可根据经验、文献和式中率的抽样:均数的抽样:iiiiiiiiiii

27、iiiNNnnNNnn)1 ()1 (A46例例9 1990年某市曾测定24岁男童体重(kg)的均数及标准差(见表)。今年欲分层随机测量24岁男童体重作进一步分析,问该市共需抽查多少男孩(=0.05,=0.2kg)?各年龄组需分别抽多少男孩?年龄i人数NiWi均值SiNiSiiWiSi/ iWiSi2ni237730.279111.511.485584.040.25420.67120.611364353240.393813.931.8910062.360.45801.20951.4067115444220.327115.601.436323.460.28780.76020.668972合计135191.000021969.862.64092.6869251250135196869. 20104. 06409. 20104. 0/, 2 . 0,96. 1205. 005. 0nuun解:先求总样本量计算中取整造成误差!1990年某市24岁男童体重(kg)分层抽样的样本量估算A47分层抽样的分层抽样的优优缺缺点点1.抽样误差小于前三种抽样方法2.便于对不同层采用不同抽样方法3.便于对各层独立进行分析4.所需经费较大各种抽样方法的抽样误差一般是:整群抽样单纯随机抽样系统抽样分层抽样A48谢谢!谢谢!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(抽样方法与样本量估计课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|