1、2022-8-41第十七章第十七章流行病与统计教研室2022-8-42第一节 样本含量估计的意义及应具备的条件【例【例17-1】已知糖尿病患病率一般为】已知糖尿病患病率一般为2%3%,现拟采用单纯随机抽样方法从某社区抽取随机现拟采用单纯随机抽样方法从某社区抽取随机样本,以了解该社区人群中糖尿病患病率。该样本,以了解该社区人群中糖尿病患病率。该社区人口为社区人口为3000人,希望误差不超过人,希望误差不超过1%,取,取a=0.05,需调查多少人?,需调查多少人?2022-8-43一、样本含量估计的意义 样本含量(样本含量(sample size)又称样本容量、样本例数,是指在抽样研究中,每个又称
2、样本容量、样本例数,是指在抽样研究中,每个样本所包含的观察单位的数量。样本所包含的观察单位的数量。估计样本含量的意义估计样本含量的意义 是研究设计的重要内容之一,它是是研究设计的重要内容之一,它是研究设计中重复性研究设计中重复性原则的体现原则的体现,即各组的受试对象都应有一定的数量,即各组的受试对象都应有一定的数量,即每个组都有足够的重复数(样本量)。即每个组都有足够的重复数(样本量)。在调查研究、临床观察或实验研究中,首先要考虑样在调查研究、临床观察或实验研究中,首先要考虑样本含量(或样本大小)的问题。本含量(或样本大小)的问题。2022-8-44 应注意克服两种倾向应注意克服两种倾向 样本
3、例数过大样本例数过大 增加实际工作中的困难,可能引入更多的混杂因素,增加实际工作中的困难,可能引入更多的混杂因素,不易控制研究的质量,不易控制研究的质量,影响研究结果的真实性和可影响研究结果的真实性和可靠性靠性,另外还会造成人力、物力和时间上不必要的,另外还会造成人力、物力和时间上不必要的浪费浪费 样本例数过少样本例数过少 致使抽样误差较大,所得指标不够稳定,检验效能致使抽样误差较大,所得指标不够稳定,检验效能低,容易得出低,容易得出假阴性假阴性的结果,影响结论的可靠程度的结果,影响结论的可靠程度2022-8-45 样本含量的估计是在保证研究结论具样本含量的估计是在保证研究结论具有一定可靠性的
4、条件下,有一定可靠性的条件下,确定最少的调查确定最少的调查单位或实验单位数单位或实验单位数。2022-8-46二、样本含量估计应具备的条件 I型错误型错误a的概率或区间估计中的可信度的概率或区间估计中的可信度 型错误的概率型错误的概率 ,或检验效能,或检验效能 容许误差或差值容许误差或差值 ,即欲比较或估计的总,即欲比较或估计的总体参数与样本统计量之间或总体参数相差体参数与样本统计量之间或总体参数相差所容许的限度。所容许的限度。总体平均数总体平均数 、总体率、总体率 或总体标准差或总体标准差 112022-8-47第二节第二节 调查设计常用样本含量估计方法调查设计常用样本含量估计方法 一、单纯
5、随机抽样的样本含量估计一、单纯随机抽样的样本含量估计(一)(一)估计总体均数的样本含量估计总体均数的样本含量(二)(二)估计总体率的样本含量估计总体率的样本含量 二、其它概率抽样方法的样本含量估计二、其它概率抽样方法的样本含量估计(一)(一)分层抽样所需样本含量估计分层抽样所需样本含量估计 (二)(二)整群抽样所需样本含量估计整群抽样所需样本含量估计2022-8-48单纯随机抽样的样本含量估计 估计总体均数的样本含量估计总体均数的样本含量 公式:公式:式中,式中,S 为总体标准差的估计值为总体标准差的估计值 为容许误差为容许误差 需要查需要查t界值表,可先用标准正态分界值表,可先用标准正态分布
6、中的布中的 代入,算出一个初步估计的代入,算出一个初步估计的n,再计,再计算初步的自由度算初步的自由度v,可查表得,可查表得 ,以此带入公,以此带入公式,可算得第二次估计的式,可算得第二次估计的n,如此迭代,直到稳,如此迭代,直到稳定为止。定为止。2,stnvavat,azvat,2022-8-49若是从有限总体抽样,尚需进一步校正若是从有限总体抽样,尚需进一步校正 1cnnn N2022-8-410【例【例17-2】某研究者拟用抽样方法了解冠心病某研究者拟用抽样方法了解冠心病患者血清胆固醇的平均水平,希望误差不超过患者血清胆固醇的平均水平,希望误差不超过0.2mmlo/L,根据文献,冠心病患
7、者血清胆固,根据文献,冠心病患者血清胆固醇标准差约为醇标准差约为0.94mmol/L,如取,如取a=0.05,则需,则需调查多少人?调查多少人?允许误差允许误差 =0.2 估计标准差估计标准差s=0.942,stnva2022-8-411【估计步骤【估计步骤】1.先以先以 =1.96 代替代替 ,可得,可得 2.以自由度以自由度 ,查,查t界值表得界值表得 双侧双侧 ,则,则 因此,本研究应调查因此,本研究应调查88例冠心病患者。例冠心病患者。21.960.94850.2n 1 85 1 84n 21.990.94880.2n vat,az99.184,05.0t2022-8-412第二节第二
8、节 调查设计常用样本含量估计方法调查设计常用样本含量估计方法 一、单纯随机抽样的样本含量估计一、单纯随机抽样的样本含量估计(一)(一)估计总体均数的样本含量估计总体均数的样本含量(二)(二)估计总体率的样本含量估计总体率的样本含量 二、其它概率抽样方法的样本含量估计二、其它概率抽样方法的样本含量估计(一)(一)分层抽样所需样本含量估计分层抽样所需样本含量估计 (二)(二)整群抽样所需样本含量估计整群抽样所需样本含量估计2022-8-413 估计总体率的样本含量估计总体率的样本含量 公式:20.05arcsin(1)znpp20.0557.3arcsin(1)znpp(用弧度)(用度)2022-
9、8-414 当当趋向趋向0.5,且,且n 较大时,随机抽样所得的样较大时,随机抽样所得的样本率才趋向于正态分布或近似正态分布:本率才趋向于正态分布或近似正态分布:2(1)znpp22(1)z ppn或 2022-8-415【例【例 17-3】某研究者欲了解某研究者欲了解20岁岁24岁妇女生岁妇女生育率,希望误差不超过育率,希望误差不超过2%,a取取0.05,问需调查,问需调查多少人?多少人?本例未给出本例未给出20岁岁24岁妇女生育率岁妇女生育率的估计值,的估计值,可取可取p=0.5 21.9624000.02arcsin0.5(10.5)n2022-8-416 若根据文献知若根据文献知20岁
10、岁24岁妇女生育率为岁妇女生育率为5%25%,则,则p可取其中较接近可取其中较接近0.5的值,即的值,即25 21.9618000.02arcsin0.25(10.25)n2(1)znpp22(1)zppn2022-8-417【例【例17-1】已知糖尿病患病率一般为】已知糖尿病患病率一般为2%3%,现拟采用单纯随机抽样方法从某社区抽取随机样现拟采用单纯随机抽样方法从某社区抽取随机样本,以了解该社区人群中糖尿病患病率。该社区本,以了解该社区人群中糖尿病患病率。该社区人口为人口为3000人,希望误差不超过人,希望误差不超过1%,取,取a=0.05,需调查多少人?需调查多少人?1117)03.01(
11、03.001.0arcsin(96.12n8143000/111711117/1Nnnnc2022-8-418第二节第二节 调查设计常用样本含量估计方法调查设计常用样本含量估计方法 一、单纯随机抽样的样本含量估计一、单纯随机抽样的样本含量估计(一)(一)估计总体均数的样本含量估计总体均数的样本含量(二)(二)估计总体率的样本含量估计总体率的样本含量 二、其它概率抽样方法的样本含量估计二、其它概率抽样方法的样本含量估计(一)(一)分层抽样所需样本含量估计分层抽样所需样本含量估计 (二)(二)整群抽样所需样本含量估计整群抽样所需样本含量估计2022-8-419 分层抽样所需样本含量估计分层抽样所需
12、样本含量估计 按比例分配按比例分配 是按各层观察单位数是按各层观察单位数 占总体观察单位数占总体观察单位数N的的比例抽取样本,比例抽取样本,使各层样本含量使各层样本含量 与总样本含与总样本含量量n 之比等于各层观察单位数之比等于各层观察单位数 与总体观察单与总体观察单位数位数N 之比之比,可按下式计算:可按下式计算:iNiniNiiinNWnNiiiNnnnNNN2022-8-4202022-8-421 最优分配最优分配 是按总体各层观察单位数是按总体各层观察单位数 的多少和标准差的多少和标准差 (或各层率(或各层率 )大小来分配各层的观察单位数)大小来分配各层的观察单位数 iNiiiiiii
13、NnnN11iiiiiiiNnnN(均数的抽样)(率的抽样)2022-8-4222022-8-423第二节第二节 调查设计常用样本含量估计方法调查设计常用样本含量估计方法 一、单纯随机抽样的样本含量估计一、单纯随机抽样的样本含量估计(一)(一)估计总体均数的样本含量估计总体均数的样本含量(二)(二)估计总体率的样本含量估计总体率的样本含量 二、其它概率抽样方法的样本含量估计二、其它概率抽样方法的样本含量估计(一)(一)分层抽样所需样本含量估计分层抽样所需样本含量估计 (二)(二)整群抽样所需样本含量估计整群抽样所需样本含量估计2022-8-424 整群抽样估计总体率的样本含量估计整群抽样估计总
14、体率的样本含量估计 公式:有限总体需校正:222022()(1)iiymppkzkm)1(001Kkkk无限总体应调无限总体应调查的群体数查的群体数预调查的群体数预调查的群体数预调查的群体中第预调查的群体中第i群调查人数群调查人数预调查的群体中第预调查的群体中第i群群某事件的发生频率某事件的发生频率群的平均调查人数群的平均调查人数平均发生频率平均发生频率2022-8-425【例【例 17-5】为了解某市】为了解某市40岁以上人群高血压患病岁以上人群高血压患病率,拟对全市率,拟对全市55个街区采用整群抽样调查,随机个街区采用整群抽样调查,随机预调查了预调查了2个街区,第一街区调查了个街区,第一街
15、区调查了4180人,高血人,高血压病人压病人1060人,患病率为人,患病率为0.2536;第二街区调查了;第二街区调查了4970人,高血压病人人,高血压病人720人,患病率为人,患病率为0.1449,问,问需要调查几个街区?(需要调查几个街区?(,)0.050.10,0.104180497024575m 2yk 55K 1060 7204180 49700.1945p,96.105.0z2536.01p1449.02p2022-8-426 因为该市为有限总体,因为该市为有限总体,K=55 需抽样调查需抽样调查3个街区。个街区。324.21.04575121945.01449.049701945
16、.02536.0418296.122222220k133(1)2.84 355k 2022-8-427 概率抽样方法不同,样本含量的估计方法不同概率抽样方法不同,样本含量的估计方法不同 单纯随机抽样、整群抽样和分层抽样的样本单纯随机抽样、整群抽样和分层抽样的样本含量估计都有专用公式含量估计都有专用公式 系统抽样,因抽样间隔不同,其抽样误差也系统抽样,因抽样间隔不同,其抽样误差也不同,故系统抽样尚无统一的方法估计样本不同,故系统抽样尚无统一的方法估计样本含量含量2022-8-428 一、定量资料的样本含量估计一、定量资料的样本含量估计(一)样本均数与总体均数比较所需样本含量的估计(一)样本均数与
17、总体均数比较所需样本含量的估计(二)完全随机设计两样本均数比较样本含量估计(二)完全随机设计两样本均数比较样本含量估计(三)配对设计均数比较时所需样本含量估计(三)配对设计均数比较时所需样本含量估计(四)完全随机设计多组均数比较所需样本含量估计(四)完全随机设计多组均数比较所需样本含量估计(五)随机区组设计均数比较时所需样本含量估计(五)随机区组设计均数比较时所需样本含量估计第三节 实验设计样本含量估计方法2022-8-429 样本均数与总体均数比较样本含量的估计样本均数与总体均数比较样本含量的估计 公式:公式:式中,式中,和和 分别是分别是I 型和型和II 型错误的概率;型错误的概率;估计的
18、估计的标准差;标准差;和和 为为 t 界值界值 无效假设和备选假设间的差距无效假设和备选假设间的差距 如无效假设为如无效假设为H0:,H1:则则 S0001012,sttn,t,t2022-8-430【例【例 17-6】已知健康妇女血清胆固醇平均水平已知健康妇女血清胆固醇平均水平为为4.4mmol/L,现欲研究服用类固醇类避孕药,现欲研究服用类固醇类避孕药对血清胆固醇水平的影响(双侧,即不知升高对血清胆固醇水平的影响(双侧,即不知升高还是降低)。改变值还是降低)。改变值0.2 mmol/L时作为无改变,时作为无改变,改变值改变值1.0mmol/L时作为有改变,时作为有改变,问需研究多少人?,问
19、需研究多少人?0.85S 0.050.102022-8-431 估计步骤估计步骤 用用 和和 估计估计 和和 10=1.0-0.2=0.8 221.96 1.2820.85120.8zzSn()(),t,tzz1 11n 查t 界值表,得双侧单侧 201.211,05.0t363.111,1.0t22.2011.3630.85140.8n()2022-8-432 一、定量资料的样本含量估计一、定量资料的样本含量估计(一)样本均数与总体均数比较所需样本含量的估计(一)样本均数与总体均数比较所需样本含量的估计(二)完全随机设计两样本均数比较样本含量估计(二)完全随机设计两样本均数比较样本含量估计(
20、三)配对设计均数比较时所需样本含量估计(三)配对设计均数比较时所需样本含量估计(四)完全随机设计多组均数比较所需样本含量估计(四)完全随机设计多组均数比较所需样本含量估计(五)随机区组设计均数比较时所需样本含量估计(五)随机区组设计均数比较时所需样本含量估计2022-8-433 完全随机设计两样本均数比较所需样本含完全随机设计两样本均数比较所需样本含量的估计量的估计 两样本例数相等时:两样本例数相等时:两样本例数不相等时:两样本例数不相等时:2,212sttnn12112,QQsttn2022-8-434【例【例 17-8】为研究】为研究A、B两种处理对血流量的两种处理对血流量的影响,已知动物
21、实验时,影响,已知动物实验时,A处理使血流量平均处理使血流量平均增加增加1.8ml/min,B处理平均增加处理平均增加2.5ml/min,两,两处理的标准差均为处理的标准差均为1.1ml/min,规定双侧,规定双侧 ,试估计各组的样本含量。,试估计各组的样本含量。0.0510.0 2022-8-435 估计步骤 用 和 估计 和 ,t,tzz查t 界值表,得双侧单侧 009.251,05.0t299.151,10.0t1.1S 2.5 1.80.70.050.102121.9601.2821.12520.7nn2122.009 1.2991.12540.7nn51152v2022-8-436
22、若规定样本分配比为若规定样本分配比为 即即A组样本含量为组样本含量为37,B组样本含量为组样本含量为87。若要求相同的检验效能,在两组例数相等时所需若要求相同的检验效能,在两组例数相等时所需样本含量较少,因此在进行研究设计时,最好取样本含量较少,因此在进行研究设计时,最好取两样本例数相等。两样本例数相等。10.3Q 20.7Q 2111.96 1.282 1.1(0.30.7)1240.7n1240.3371240.7872022-8-437 一、定量资料的样本含量估计一、定量资料的样本含量估计(一)样本均数与总体均数比较所需样本含量的估计(一)样本均数与总体均数比较所需样本含量的估计(二)完
23、全随机设计两样本均数比较样本含量估计(二)完全随机设计两样本均数比较样本含量估计(三)配对设计均数比较时所需样本含量估计(三)配对设计均数比较时所需样本含量估计(四)完全随机设计多组均数比较所需样本含量估计(四)完全随机设计多组均数比较所需样本含量估计(五)随机区组设计均数比较时所需样本含量估计(五)随机区组设计均数比较时所需样本含量估计2022-8-438 配对设计均数比较时所需样本含量估计配对设计均数比较时所需样本含量估计 公式:公式:式中,式中,、分别是检验水准分别是检验水准a 和犯和犯型错误型错误的概率的概率对应的对应的 t 值;值;sd 为每对观察对象差值的总为每对观察对象差值的总体
24、标准差的估计值;体标准差的估计值;为研究者确定的差值,即为研究者确定的差值,即 ;n 为所需样本含量的对子数。为所需样本含量的对子数。2,dsttn,t,t10d2022-8-439【例【例 17-9】研究新药提升白细胞的疗效,由预】研究新药提升白细胞的疗效,由预试验得出用药前后白细胞试验得出用药前后白细胞差值的标准差差值的标准差为为1.5103个个/mm3,当白细胞平均上升,当白细胞平均上升1103个个/mm3时认为临床有效,单侧时认为临床有效,单侧 临床试验需要多少人?临床试验需要多少人?15.1S0.050.100.051.645z0.101.282z21.645 1.2821.5201
25、n0.050.10单侧单侧2022-8-440 以 查t 界值表,即本研究需要21对(因为本研究是自身配对设计,所以为21人)参与试验。20 1 19 0.05,191.729t0.10,191.328t21.7291.3281.5211n 2022-8-441 一、定量资料的样本含量估计一、定量资料的样本含量估计(一)样本均数与总体均数比较所需样本含量的估计(二)完全随机设计两样本均数比较样本含量估计(三)配对设计均数比较时所需样本含量估计(四)完全随机设计多组均数比较所需样本含量估计(五)随机区组设计均数比较时所需样本含量估计2022-8-442 完全随机设计多组均数比较样本含量估计完全随
26、机设计多组均数比较样本含量估计 公式:式中,k为组数;为各组的均数,;为各组的标准差;为界值,由附表22查得。计算时先用自由度 时的 代入式中求 ,再用 时的 代入式中求 ,如此往复,直至结果趋于稳定为止。222 1iiSknxxkixixx k11k2 n11kiSn)1(2nkv2022-8-443 一、定量资料的样本含量估计一、定量资料的样本含量估计(一)样本均数与总体均数比较所需样本含量的估计(二)完全随机设计两样本均数比较样本含量估计(三)配对设计均数比较时所需样本含量估计(四)完全随机设计多组均数比较所需样本含量估计(五)随机区组设计均数比较时所需样本含量估计 2022-8-444
27、 二、定性资料的样本含量估计二、定性资料的样本含量估计(一)样本率与已知总体率比较样本含量估计(二)两样本率比较时所需样本含量估计(三)多个样本率比较时所需的样本大小2022-8-445 样本率与已知总体率比较时样本含量估计样本率与已知总体率比较时样本含量估计 公式:式中,为已知总体率;为预期试验结果的总体率,为预期试验结果的总体率与已知总体率的差值,即 此公式适合大样本的研究。200(1)zzn01102022-8-446【例【例 17-12】用传统方法治疗运动性胫骨结节骨骺损伤的有效率约为 85%,现采用小钢针做胫骨结节骨骺穿刺,加上物理治疗方法,估计有效率为 95%,现欲比较新疗法的有效
28、率是否高于传统疗法,选定a=0.05(单侧),=0.1则至少观察多少病例?估计步骤:本例00.8510.950.950.850.100.051.645z0.101.282z2022-8-447 本试验需至少观察110个病例 21.645 1.2820.85 1 0.85 1100.10n 200(1)zzn2022-8-448 二、定性资料的样本含量估计二、定性资料的样本含量估计(一)样本率与已知总体率比较样本含量估计(二)两样本率比较时所需样本含量估计(三)多个样本率比较时所需的样本大小2022-8-449 两样本率比较时所需样本含量估计两样本率比较时所需样本含量估计 两样本含量相等时 两样
29、本含量不相等时 21211121 2sinsinzznnpp211111211122212(1)()(1)(1)zpp QQzpp Qpp Qnpp2022-8-450 二、定性资料的样本含量估计二、定性资料的样本含量估计(一)样本率与已知总体率比较样本含量估计(二)两样本率比较时所需样本含量估计(三)多个样本率比较时所需的样本大小2022-8-451 多个样本率比较时所需的样本含量多个样本率比较时所需的样本含量 公式:式中,n为每组样本含量;Pmax、Pmin分别为最大率与最小率;为自由度 时的界值;k为组数。按给定的a、可从附表25查到。211maxmin22sin2sinnpp1k202
30、2-8-452 检验效能的意义检验效能的意义 检验效能检验效能 又称假设检验的功效(又称假设检验的功效(power of a test),用),用1-表示表示 意义意义 当所研究的总体确有差别时,按照检验水准当所研究的总体确有差别时,按照检验水准a能够发现能够发现这种差别(拒绝这种差别(拒绝H0)的能力。)的能力。影响要素影响要素 样本含量、客观事物差异大小、个体间变异大小和样本含量、客观事物差异大小、个体间变异大小和a值值 增大检验效能(增大增大检验效能(增大1-)一是增大一是增大a,二是增大样本含量。,二是增大样本含量。第四节 检验效能的估计2022-8-453 当假设检验根据当假设检验根
31、据P0.05作出无统计学意义的作出无统计学意义的结论时,研究者则面临着犯结论时,研究者则面临着犯II型错误的可能型错误的可能性,应当考虑是否总体间的差异确实存在,性,应当考虑是否总体间的差异确实存在,但由于但由于检验效能检验效能不足而未能把该差异反映出不足而未能把该差异反映出来来。(一般要求。(一般要求75%以上)以上)假设检验中假设检验中P0.05作出作出“阴性阴性”结论时,附结论时,附上上检验效能或该试验检验效能或该试验II型错误的概率型错误的概率2022-8-454 检验效能的估计检验效能的估计 样本均数与已知总体均数比较时检验效能的估样本均数与已知总体均数比较时检验效能的估计计 公式:
32、公式:根据根据t,v,v值大小值大小,应用应用累计概率分布函数累计概率分布函数得到得到 值值 1即为检验效能即为检验效能vvtSnt,2022-8-455检验效能的估计 两样本均数比较时检验效能的估计两样本均数比较时检验效能的估计 公式公式:S 为两样本合并标准差为两样本合并标准差 n 为任意一组的样本含量(两组样本含量相同)为任意一组的样本含量(两组样本含量相同)分别为无差异和有差异的判断界值分别为无差异和有差异的判断界值 vvtSnt,01,2)(10和2022-8-456 两样本率比较时检验效能的估计两样本率比较时检验效能的估计 公式:公式:P1和和P2是估计的两个率是估计的两个率 P=
33、(P1+P2)/2 n 为两组例数相等时的实际样本含量为两组例数相等时的实际样本含量 计算出计算出Z后,可从正态分布表中查得后,可从正态分布表中查得 12()2(1)ppnzzpp2022-8-457 直线相关分析的检验效能估计直线相关分析的检验效能估计 公式:公式:n 为样本含量为样本含量 r 为相关系数为相关系数 计算出计算出Z后,可用概率分布函数计算或从正态后,可用概率分布函数计算或从正态分布表中查得分布表中查得(附表(附表3)31ln21nrzzr2022-8-458 检验效能即当所研究的总体确有差别时,按照检验效能即当所研究的总体确有差别时,按照检验水准检验水准a能够发现这种差别的能力。能够发现这种差别的能力。若要增大检验效能,若要增大检验效能,一是增大一是增大a,二是增大样,二是增大样本含量。本含量。检验效能的计算与资料类型、研究目的等有关检验效能的计算与资料类型、研究目的等有关 在假设检验中,在假设检验中,一般要求检验效能达一般要求检验效能达75以上以上2022-8-459本节要求本节要求 熟悉样本含量估计应具备的条件熟悉样本含量估计应具备的条件 了解调查设计、实验设计常用样本含量了解调查设计、实验设计常用样本含量的估计方法的估计方法 掌握掌握检验效能的意义及主要影响因素检验效能的意义及主要影响因素