1、样本含量(样本含量(Sample Size)的估计)的估计是临床医学科研设计中一个重要是临床医学科研设计中一个重要内容。内容。可重复性,是任何科学研究必须可重复性,是任何科学研究必须遵守的原则,其目的就是要排除遵守的原则,其目的就是要排除偶然因素的影响,得出科学的、偶然因素的影响,得出科学的、真实的、规律的结论。真实的、规律的结论。在临床科研设计中,我们已知样本含在临床科研设计中,我们已知样本含量越小,其抽样误差越大。量越小,其抽样误差越大。若样本含量不足,可重复性差,抽样若样本含量不足,可重复性差,抽样误差也较大,检验效能低,不能排除误差也较大,检验效能低,不能排除偶然因素的影响,其结论缺乏
2、科学性、偶然因素的影响,其结论缺乏科学性、真实性。真实性。若样本含量过大,试验条件也难以严若样本含量过大,试验条件也难以严格控制,会增加临床研究的困难,容格控制,会增加临床研究的困难,容易造成不必要的人力、物力、时间和易造成不必要的人力、物力、时间和经济上的浪费。经济上的浪费。样本含量估算就是在保证样本含量估算就是在保证科研结论具有一定的科研结论具有一定的科学性、科学性、真实性和真实性和可靠性条件下,确可靠性条件下,确定某研究所需的最少观察例定某研究所需的最少观察例数。数。估算样本含量的方法有两大类方估算样本含量的方法有两大类方法,查表法和公式法。法,查表法和公式法。查表法,简单、方便,但受条
3、件查表法,简单、方便,但受条件限制,有时不一定完全适用。限制,有时不一定完全适用。公式计算应用广泛,可满足多种公式计算应用广泛,可满足多种设计的要求。设计的要求。公式法有两种情况:公式法有两种情况:同 时 考 虑同 时 考 虑 、情 况情 况(d o u b l e significant),多数假设检验的样本含,多数假设检验的样本含量的估算都采用此法。量的估算都采用此法。仅考虑仅考虑 情况情况(single significant),常用于估计总体率、总体均数,亦有常用于估计总体率、总体均数,亦有学者用于假设检验的样本含量估算学者用于假设检验的样本含量估算(对于(对于u分布、分布、t分布,均
4、取分布,均取=0.5)。)。首先,要确定临床科研设计的首先,要确定临床科研设计的方法,即不同的临床科研设计方法,即不同的临床科研设计方法,其样本含量的估计方法方法,其样本含量的估计方法不相同。不相同。确定临床科研设计的方法,确定临床科研设计的方法,即不同的临床科研设计方即不同的临床科研设计方法,其样本含量的估计方法,其样本含量的估计方法不相同。法不相同。在各种临床科研设计方法的样本含在各种临床科研设计方法的样本含量估计中,需要研究者事先确定的量估计中,需要研究者事先确定的条件有:条件有:第一类错误的概率第一类错误的概率,第二类错误,第二类错误概率概率,容许误差或差值,容许误差或差值。若终点指标
5、为数值变量时,还需要若终点指标为数值变量时,还需要研究者确定总体标准差研究者确定总体标准差。若终点指标为分类变量时,有时需若终点指标为分类变量时,有时需要研究者需要确定总体率要研究者需要确定总体率。所有样本含量估算公式中,都需要所有样本含量估算公式中,都需要u 的值,研究者确定检验水准的值,研究者确定检验水准()的大的大小后,查表得小后,查表得u 值。值。有单侧与双侧之分,单侧有单侧与双侧之分,单侧 的的u 小小于双侧于双侧u 值值,所以按单侧计算的样本,所以按单侧计算的样本含量小于双侧。含量小于双侧。越小所需样本量越大,反之越小,越小所需样本量越大,反之越小,一般取一般取 0.05。样本含量
6、估算公式中,需要样本含量估算公式中,需要u 的值,即研的值,即研究者确定究者确定 大小后,查表得大小后,查表得u 值。值。确定确定 大小,主要是要确定检验效能大小,主要是要确定检验效能(Power),用,用1 表示其概率的大小,表示其概率的大小,检检验效能是指需要比较的验效能是指需要比较的总体间确有差别时,总体间确有差别时,在某在某 水准上,假设检验能发现它们有差水准上,假设检验能发现它们有差别的能力大小。别的能力大小。为第二类错误的概率,为第二类错误的概率,值越小,检验效值越小,检验效能越高,所需样本量也就越大,通常能越高,所需样本量也就越大,通常 0.1或或 0.2,即,即1 =0.9、1
7、 =0.8。一般。一般认为,检验效能认为,检验效能(1 )不能小于不能小于0.7。即有临床意义或有研究意义的即有临床意义或有研究意义的最小差值。最小差值。若为数值变量时,若为数值变量时,可为有临床可为有临床意义的两均数差值、实验前后意义的两均数差值、实验前后之差等。之差等。若为分类变量,若为分类变量,为有临床意义为有临床意义的有效率、患病率等率之差。的有效率、患病率等率之差。若研究的终点指标为数值变量时,若研究的终点指标为数值变量时,总体标准差总体标准差 为估计样本含量所必为估计样本含量所必须的条件。须的条件。若研究的终点指标为分类变量时,若研究的终点指标为分类变量时,有时,总体率有时,总体率
8、 为估计样本含量所为估计样本含量所需条件。需条件。总体标准差总体标准差 和和总体率总体率,常常常常通过通过文献检索、预试验或对研究作出合文献检索、预试验或对研究作出合理的假设所得。理的假设所得。由于估算的样本含量是最少需要由于估算的样本含量是最少需要量,考虑到受试者可能有不合作量,考虑到受试者可能有不合作者、中途失访、意外死亡等情况者、中途失访、意外死亡等情况出现,而减少有效观察对象的例出现,而减少有效观察对象的例数(失访),因此,应该在估算数(失访),因此,应该在估算的样本含量增加若干样本例数。的样本含量增加若干样本例数。通常,失访人数不得大于通常,失访人数不得大于20%。在估算得到的样本量
9、的基础上增加在估算得到的样本量的基础上增加10%20%的观察例数。的观察例数。若能估计试验组不依从率和对照组沾染率若能估计试验组不依从率和对照组沾染率时,其校正样本含量可按下式计算:时,其校正样本含量可按下式计算:na=n/(1 Q1 Q2),或,或 na=n/(1 Q)式中:式中:n为估算所得样本含量;为估算所得样本含量;Q1为试验组不依从率;为试验组不依从率;Q2为对照组沾染率;为对照组沾染率;Q为为Q1、Q2中较大者。中较大者。例:例:n=30、Q1=15%、Q2=5%则则:na =n/(1 Q1 Q2)=30/(1 0.15 0.05)=37或或:na =n/(1 Q)=30/(1 0
10、.15)=35.3 36 不同组间的例数,应可能采用例不同组间的例数,应可能采用例数相等的设计。尤其是多组设计数相等的设计。尤其是多组设计时,一般都要求各组间的样本含时,一般都要求各组间的样本含量相等,只有在某些特殊情况下量相等,只有在某些特殊情况下才考虑各组的样本含量不等。才考虑各组的样本含量不等。尽可将多种样本含量估计方法尽可将多种样本含量估计方法联合使用,并且在使用计算法联合使用,并且在使用计算法估算时,可多做几种估算方案,估算时,可多做几种估算方案,以便选择。如:粗估样本率可以便选择。如:粗估样本率可以取几种不同的值作估算,如以取几种不同的值作估算,如确定临床参考值时,要求确定临床参考
11、值时,要求N应应大于大于100例。例。样本含量的估计要与以后将要使样本含量的估计要与以后将要使用的统计方法的条件相结合。若用的统计方法的条件相结合。若试验结果是多个指标,而研究者试验结果是多个指标,而研究者不进行多因素统计分析时,应对不进行多因素统计分析时,应对每个指标所需的样本含量进行估每个指标所需的样本含量进行估计,然后取最大例数为最终的样计,然后取最大例数为最终的样本量。本量。根据研究目的,严格选择估算根据研究目的,严格选择估算样本含量的方法,如单、双侧样本含量的方法,如单、双侧不同,估计参数与假设检验不不同,估计参数与假设检验不同,一般假设检验与等价检验同,一般假设检验与等价检验不同,
12、样本率超过与位于不同,样本率超过与位于0.3 0.7(0.2 0.8)范围的不同,)范围的不同,t检验与检验与u检验的不同等。检验的不同等。两组样本量相等时,可按下式计算每组两组样本量相等时,可按下式计算每组所需的例数:所需的例数:n=2(u +u )2 2 2 u 为一类错误概率的为一类错误概率的u值值u 为二类错误概率的为二类错误概率的u值值 为容许误差,试验组与对照组均数之差的绝对值为容许误差,试验组与对照组均数之差的绝对值 2为总体方差,可用样本方差为总体方差,可用样本方差s2估计:估计:s2=(se2+sc2)/2式式中的中的se、sc分别为试验组、对照组的标准差。分别为试验组、对照
13、组的标准差。两组样本量不等时,试验组样本含两组样本量不等时,试验组样本含量为量为n,其估算公式为:其估算公式为:n=(u +u )2(1+1/k)2 2,对对照照组组样样本本含含量量为为kn k为对照组样本例数占试验组例数的比例,为对照组样本例数占试验组例数的比例,当当k=1时即为两组样本含量相等。时即为两组样本含量相等。欲研究某新药降低高血脂患者的欲研究某新药降低高血脂患者的胆固醇疗效,研究者认为试验组胆固醇疗效,研究者认为试验组与安慰剂组比较,其血清胆固醇与安慰剂组比较,其血清胆固醇值平均下降值平均下降0.5mmol/L才有临床才有临床意义,查阅文献得血清胆固醇值意义,查阅文献得血清胆固醇
14、值的标准差为的标准差为0.8mmol/L,且规定,且规定两组例数相等,且两组例数相等,且=0.05,=0.10(Power=0.90),该研究所需的),该研究所需的样本含量为多少?样本含量为多少?本例:本例:=0.8,=0.5=0.05,查,查u值表得:值表得:u0.05=1.6449(单侧)(单侧)=0.10,查,查u值表得:值表得:u0.10=1.2816(单侧)(单侧)=0.8,=0.5,u0.05=1.6449,u0.10=1.2816 代入公式得每组样本含量为:代入公式得每组样本含量为:n=2(u +u )2 2 2 =2(1.6449+1.2816)2 0.82 0.52=43.8
15、44 前例经计算得每组样本含量至少为前例经计算得每组样本含量至少为44例,即该研究所需的总例数至少例,即该研究所需的总例数至少为为88例。例。若考虑失访例数最多为若考虑失访例数最多为20%,那么,那么两组总例数至少应为:两组总例数至少应为:88+880.2106(例)(例)某医师研究吲螨酰胺治疗原发性高某医师研究吲螨酰胺治疗原发性高血压的疗效,经预试验得治疗前后血压的疗效,经预试验得治疗前后舒张压差值舒张压差值(kPa)资料如下,若资料如下,若=0.05,=0.10时需治疗多少例?时需治疗多少例?均数均数标准差标准差吲螨酰胺吲螨酰胺 2.28 1.09 安慰剂安慰剂 1.32 0.40 =0.
16、05,查,查u值表得:值表得:u0.05=1.6449(单侧)(单侧)=0.10,查,查u值表得:值表得:u0.10=1.2816(单侧)(单侧)=2.28-1.32=0.96若安慰剂组的例数为实验组的若安慰剂组的例数为实验组的0.7,k=0.7 2=s2=(se2+ksc2)/(1+k)=(1.09)2+0.7(0.40)2/(1+0.7)=0.7648n=(u +u )2(1+1/k)2 2 =(1.6449+1.2816)2(1+1/0.7)(0.7648)(0.96)2 =17.3 18 前例经计算得实验组样本含量至少为前例经计算得实验组样本含量至少为18例,对照组例数为:例,对照组例
17、数为:kn=(0.7)(18)=13(例)(例)即该研究实验组即该研究实验组18例,对照组例,对照组13例,所例,所需的总例数至少为需的总例数至少为31例。若考虑失访例例。若考虑失访例数最多为数最多为20%,那么两组例数各至少应,那么两组例数各至少应为:为:实验组:实验组:18+180.222(例)(例)对照组:对照组:13+130.216(例)(例)两组样本量相等时,可按下式计算每两组样本量相等时,可按下式计算每组所需的例数:组所需的例数:n=2(u+u )2 p(1-p)2 式中:式中:=(pe-pc),pe、pc分别为试验组分别为试验组和对照组的阳性率和对照组的阳性率p为合并率可由下为合
18、并率可由下式计算:式计算:p=(p1+p2)/2,余同前。余同前。两组样本量不等时,试验组样本含两组样本量不等时,试验组样本含量为量为n,其估算公式为:其估算公式为:n=(1+1/k)(u+u )2 p(1-p)2 k为对照组样本例数占试验组例数的为对照组样本例数占试验组例数的比例,当比例,当k=1时即为两组样本含量相时即为两组样本含量相等,等,p=(p1+kp2)/(1+k),余同前。余同前。用旧的治疗方案治疗慢性肾炎的用旧的治疗方案治疗慢性肾炎的控制率为控制率为30%,现用新的治疗方,现用新的治疗方案治疗慢性肾炎,其控制率应大案治疗慢性肾炎,其控制率应大于于50%才有临床意义,若取两组才有
19、临床意义,若取两组例数相等,且例数相等,且=0.05,=0.1(power=0.9),问每组需多少病),问每组需多少病例数?例数?p1=0.5,p2=0.3p=(0.5+0.3)/2=0.4,=(0.5-0.3)=0.2 =0.05,查,查u值表,值表,u0.05=1.6449(单侧)(单侧)=0.10,查,查u值表,值表,u0.10=1.2816(单侧)(单侧)n=2(u+u )2 p(1-p)2 =2(1.6449+1.2816)2 0.4(1-0.4)0.22 =102.77103 前例经计算得每组样本含量至少为前例经计算得每组样本含量至少为103例,即该研究所需的总例数至少例,即该研究
20、所需的总例数至少为为206例。例。若考虑失访例数最多为若考虑失访例数最多为20%,那么,那么两组总例数至少应为:两组总例数至少应为:206+2060.2248(例)(例)某医师研究某药对产后宫缩痛、某医师研究某药对产后宫缩痛、外阴创伤痛效果,预试验旧药镇外阴创伤痛效果,预试验旧药镇痛率为痛率为55%,新药镇痛率为,新药镇痛率为75%,当当=0.05,=0.1时需观察多少例时需观察多少例能说明新药镇痛效果优于旧药?能说明新药镇痛效果优于旧药?p1=0.75,p1=0.55,取,取k=0.75 =(pe-pc)=(0.75 0.55)=0.2u0.05=1.6449,u0.10=1.2816 p=
21、(0.75+0.750.55)/(1+0.55)=0.6643n=(1+1/k)(u+u )2 p(1-p)2 =(1+1/0.75)(1.6449+1.2816)2(0.6643)(1-0.6643)0.22 =111.4 前例经计算得实验组样本含量至少为前例经计算得实验组样本含量至少为112例,对照组例数为:例,对照组例数为:kn=0.75112=84(例)(例)即该研究实验组即该研究实验组112例,对照组例,对照组84例,所例,所需的总例数至少为需的总例数至少为196例。若考虑失访例例。若考虑失访例数最多为数最多为20%,那么两组例数各至少应,那么两组例数各至少应为:为:实验组:实验组:112+1120.2135(例)(例)对照组:对照组:84+840.2101(例)(例)