1、第十五章第十五章总体特征抽样调查的总体特征抽样调查的设计与分析设计与分析主要内容主要内容单纯随机抽样单纯随机抽样系统抽样系统抽样分层随机抽样分层随机抽样第一节第一节 单纯随机抽样单纯随机抽样例例15-1 某地区共有250名社区医生,一个研究组从名单中随机抽取90名进行调查,发现他们一个月内家访平均次数为4.89,标准差为3.48;其中有40位是医科大学毕业。试估计当地一个月内平均每位社区医生的家访平均次数、全体社区医生的家访总次数以及社区医生中大学毕业者所占的百分比。单纯随机抽样单纯随机抽样 单纯随机抽样(simple random sampling)。一个月内平均每位社区医生家访的平均次数约
2、为4.89 全体社区医生家访的总次数约为4.89250=1222.5 社区医生中大学毕业者所占的百分比约为(40/90)100%=44.4%单纯随机抽样单纯随机抽样 连续型变量总体均数的估计连续型变量总体均数的估计 无限总体(infinite population)从正态分布总体 ,则样本均数的标准误为总体均数 u 的可信区间),(2Nnsxx)SE(/2,1SE()nXtX/2SE()XZX单纯随机抽样单纯随机抽样 有限总体(finite population)样本均数的标准误:可信区间:/2,1SE()nXtXnsNnxx1)SE(/2SE()XZX有限总体校正因子抽样频率单纯随机抽样单纯
3、随机抽样例15-1:总体均数u的95%置信区间:2935.09048.3250901)SE(x)47.5,31.4()2935.0(96.189.4单纯随机抽样单纯随机抽样总体中所有X值之和的置信区间可以用u的置信区间乘以N倍来估计,即全体社区医生一个月内家访总次数的95%置信区间:/2,1SE()nN XtX)5.1367,5.1077()47.5,31.4(250单纯随机抽样单纯随机抽样 0-1变量总体概率的估计变量总体概率的估计 二项分布无限总体:已知在含有n个个体的独立随机样本中,有y个个体具有某种特定属性,则该属性的样本频率样本频率变异性的标准误:nyp nppnppp)1(1)1(
4、)SE(单纯随机抽样单纯随机抽样有限总体:总体概率的置信区间:1)1(1)SE(nppNnp)SE(2/pZp单纯随机抽样单纯随机抽样 例15-1:当地全体社区医生一个月内家访的总次数约介于1077.5和 1367.5之间,平均每位社区医生家访的平均次数约介于4.31和5.47之间;而社区医生中,大学毕业者所占的百分比则约介于36.2%和52.6%之间。9040nyp042.0190)90/401)(90/40(2509011)1(1)SE(nppNnp)527.0,362.0()042.0(96.19040单纯随机抽样单纯随机抽样 样本量的估算样本量的估算 样本量估算的依据样本量估算的依据样
5、本量的信息:1总体中个体的变异程度 如果个体间变异程度小,则所需样本量也较少;通常用变异系数V来反映个体间变异。2精度 通常用最大的相对误差反映精度的要求,是最终估计范围的半宽度与真值之比。精度要求越高,样本含量就越大。3置信程度 即置信水平反映置信程度。置信程度越高要求的样本含量也越大。单纯随机抽样单纯随机抽样 连续型变量总体均数估计的样本量连续型变量总体均数估计的样本量需准备如下信息:1变异系数V 即总体标准差与总体均数之比 2相对误差 由研究者根据问题的背景自行规定。3置信水平 也由研究者根据问题的背景自行规定。通常取90%,95%,99%。如果取99.7%,理论上认为这时的置信区间基本
6、上覆盖真值,所以称之为“实质上肯定”(virtual certainty)的水平,此时标准正态分布的临界值 V32/003.0Z单纯随机抽样单纯随机抽样 最小样本量的公式为 续例15-1,将已获得的90名社区医生的资料视为预调查 22/VZn712.089.448.3V492.0)712.0(96.12n单纯随机抽样单纯随机抽样 关于社区医生家访次数的估计,欲使相对误差不超过20%,而保持置信水平为95%,至少需要调查49名社区医生。比由此,为了估计平均家访次数,预调查90名社区医生的资料已经足够了。还少?需要说明的是,如果算出的最小样本量n超过了总体内个体数N,则最小样本量就应该是N,即需要
7、作全数调查。单纯随机抽样单纯随机抽样 0-1变量总体概率估计的样本量 事先需知(1)总体概率的猜测值P 可以通过预调查的资料来粗略估计。(2)相对误差 由研究者根据问题的背景自行规定。(3)置信水平 也由研究者根据问题的背景自行规定 概率的变异系数的计算公式为最小样本量的公式为关于社区医生中大学毕业者所占百分比的估计,欲使相对误差不超过20%,而保持置信水平95%,至少需要调查121名社区医生。PppV)1(PPZn222/)1(12105.120)90/40()2.0()90/401()96.1(22n系统抽样系统抽样 系统抽样需要事先为总体中的个体编号。如果欲调查的变量值或特定的属性与编号
8、之间没有确定的上升、下降或周期性关系,这时可以按单纯随机抽样的办法来估计参数和估算样本量。如果个体的编号不具有随机性,就应考虑采用其它的抽样设计和相应的统计方法。第二节第二节 分层随机抽样分层随机抽样例例15-2 欲抽样调查某医院病人的药费开支和自费病人所占频率。决定将病人分为内科、外科、妇科、儿科和其他5个“层”;将每一层视为一个小总体,在每一层内作随机抽样。已知一天内5个层的门诊人次数分别:N1=2800,N2=900,N3=700,N4=400,N5=200,总的人次数n=5000,总的样本数n=1000,抽样的比例为n/N=0.2。于是,5个“层”中抽出的样本量分别:n1=560,n2
9、=180,n3=140,n4=80,n5=40。按单纯随机抽样的计算方法,得到各个层内每人次门诊药费开支(元)的样本均数分别 样本方差分别为 各个层内完全自费者的频率分别为 3501x1502x2803x2104x1205x1000021s250022s640023s360024s160025s%301p%502p%403p%404p%205p分层随机抽样分层随机抽样 分层随机抽样(stratified random sampling)。此时可简单估计该医院病人平均每人次门诊的药费开支(元)约为 门诊病人中完全自费者所占频率约为 点估计,需要进行区间估计,其关键仍是估计标准误 8.283500
10、0141900020040070090028002001204002107002809001502800350%4.3550001770200400700900280020020.040040.070040.090050.0280030.0分层随机抽样分层随机抽样连续型变量总体均数的估计连续型变量总体均数的估计各层的抽样比例相等各层的抽样比例相等总样本量按比例分配(proportional allocation)到各层,权重为层的相对大小 NnNnhhNNWhhNNnnWnhhh分层随机抽样分层随机抽样 总的样本均数:上述点估计就是以各层的相对大小为权重,将各层的样本均数作加权平均,以求得总的
11、样本均数 样本均数的方差 自由度=n-L LhhhxWx122SE()1hhhhhnsXNnLhhWx12h2)xSE()SE(分层随机抽样分层随机抽样 各层的相对大小为 总体均数的估计 56.0500028001W18.050009002W14.050007003W08.050004004W04.050002005W8.283)120(04.0)210(08.0)280(14.0)150(18.0)350(56.01LhhhxWx分层随机抽样分层随机抽样 计算各层样本均数的方差 总样本均数的方差为 2857.145601000028005601)SE(21x1111.111802500900
12、1801)SE(22x5714.3614064007001401)SE(23x36803600400801)SE(24x32401600200401)SE(25x28.19)32(04.0)36(08.0)5714.36(14.0)1111.11(18.0)2857.14(56.0)SE(2x分层随机抽样分层随机抽样 标准误 总体均数的95%置信区间 该医院一天中门诊病人药费总和的95%置信区间 该医院一天中门诊病人的总药费介于1376000和1462000元之间 39.4)SE(x)4.292,2.275()39.4(96.18.283)1462000,1376000()4.292,2.27
13、5(5000分层随机抽样分层随机抽样0-1变量总体概率的估计变量总体概率的估计总的样本频率:总的样本频率:将各层的样本频率作加权平均,将各层的样本频率作加权平均,可以求得总的样本频率可以求得总的样本频率 样本频率的方差 LhhhpWp11)1(1)SE(2hhhhhhnppNnpLhhpWp12h2)SE()SE(分层随机抽样分层随机抽样 总体概率的估计当样本量相当大时,总体概率的置信区间:例15-2,总的样本频率为 )SE(2/pZp%4.35)2.0(04.0)4.0(08.0)4.0(14.0)5.0(18.0)3.0(56.01LhhhpWp分层随机抽样分层随机抽样 各层内样本频率的方
14、差:总频率的方差:总频率的标准误 0003.01560)3.01(3.028005601)SE(21p0011.01180)5.01(5.09001801)SE(22p0014.01140)4.01(4.07001401)SE(23p0024.0180)4.01(4.0400801)SE(24p0033.0140)2.01(2.0200401)SE(25p000886.0)0033(.04.0)0024(.08.0)0014(.14.0)0011(.18.0)0003(.56.0)SE(2p0298.0)SE(p分层随机抽样分层随机抽样 总体概率的95%置信区间 该医院门诊病人中完全自费的比例
15、介于29.6%和41.2%之间 )412.0,296.0()0298.0(96.1354.0分层随机抽样分层随机抽样样本量的估算样本量的估算例15-3 某社区卫生站成立之初计划调查本辖区一年内平均每人去医院门诊看病的次数。拟按年龄分成30岁以下、30-44岁、45-59岁和60岁以上4个“层”,按比例抽样。已知4个年龄层的人口数分别为n1=5000,n2=5000,n3=6000,n4=4000。4个年龄层一年内平均每人去医院门诊看病的次数分别为0.8,0.5,0.4和1.1;同年龄层内的方差分别为0.65,0.49,0.16和1.14。此项调查要求相对误差不超过20%,置信水平达到95%。试
16、估算样本量。分层随机抽样分层随机抽样 连续型变量总体均数估计的样本量 类似于单纯随机抽样,事先需准备如下信息变异系数变异系数:相对误差相对误差 置信水平置信水平 wxV 分层随机抽样分层随机抽样 最小样本量的公式例15-3,根据以往资料,4个年龄层的均数和方差的加权平均分别 22/VZn665.020000)1.1(4000)4.0(6000)5.0(5000)8.0(5000561.020000)14.1(4000)16.0(6000)49.0(5000)65.0(50002wx2786.1)665.0(561.0222wxV分层随机抽样分层随机抽样 最小样本量为 按比例分到4个年龄层 4个
17、年龄层的样本量分别为31,31,37和25 1238.122)20.0()2786.1()96.1(22n3175.302000050001231n3175.302000050001232n379.362000060001233n256.242000040001234n分层随机抽样分层随机抽样 0-1变量总体概率估计的样本量例例15-4 为调查某小学的学生中无麻疹免疫力者的概率,决定按年级作分层随机抽样。已知该校共有学生N=1325人,6个年级的学生总数分别为n1=290,n2=210,n3=230,n4=184,n5=193,n6=218。据当地另一所学校报告的资料,6个年级无麻疹免疫力者的
18、频率分别为p1=0.042,p2=0.035,p3=0.072,p4=0.178,p5=0.195,p6=0.188。要求相对误差不超过20%,置信水平达到95%。试估算各年级需抽取的人数。分层随机抽样分层随机抽样单纯随机抽样,事先需准备如下信息:总体概率的猜测值总体概率的猜测值P 相对误差相对误差 置信水平置信水平 最小样本量的计算同公式 PPZn222/)1(分层随机抽样分层随机抽样 粗略估计总的频率 最小样本量 按比例分配,各年级应抽取的人数分别为1113.01325461.1471325)188(.218)195(.193)178(.184)072(.230)035(.210)042(.290P7679.766)1113.0()2.0()1113.01()96.1(22n1689.16713252907671n1226.12113252107672n1331.13313252307673n1075.10613251847674n1127.11113251937675n1262.12613252187676n