实验设计与样本含量的估计.ppt_163文库

资源描述

1、实验设计与样本含量的估计（1）实验研究设计任何一项医学研究，在确定研究目的之后，首要问题：考虑怎样安排试验或者说需要一份良好的研究计划(称为研究设计)，它是使研究结果满足科学性的重要保证。数据分析数据分析设计数据采集数据采集报报告告*一、研究设计类型：1、实验研究设计根据研究目的认为的对受试对象（包括人或动物）设置干预措施，控制非干预措施的影响，总结干扰因素的效果。常用研究分为三类，即动物实验、临床实验与社区干预实验。*2、调查研究设计对特定群体进行调查被调查者的因素是客观存在的，研究者只能被动的观察和记录。实验和调查虽然在设计上有所区别，实际研究中常结合应用，某些现场可为实验提供线索，

2、而实验结果还需要通过调查加以证实。*二、实验设计的目的：控制和降低系统误差对实验结果的影响，缩小实验随机误差以利于进行统计推断，更确切地回答研究者事先提出的假设。*三、实验设计的任务：1、合理安排实验有所和实验对象2、选择表达实验效应的指标3、分析和考查实验效应*四、实验研究的误差实验研究的误差 1、随机误差（random error)2、系统误差(systematic error)又称为偏倚（bias)包括选择偏倚、测量偏倚和混杂偏倚。误差随机误差系统误差*2、常用的实验设计方案 1、单因素：设计方案是一个观察因素的不同强度水平作用效应间差异的研究。配对设计、完全随机设计、序贯设计。*2、

3、多因素：设计方案是指观察两个以上因素不同强度水平下作用效应差异的研究。交叉设计、（配伍组设计）、拉丁方设计、析因设计、裂区设计、正交设计.此外还有三个变量及多个变量间关联分析的研究设计，属多元分析。*五、实验研究的要素五、实验研究的要素一、处理因素 1、抓住主要的处理因素 2、找出非处理因素并加以控制 3、处理因素应标准化 *二、受试对象 1、动物实验对象 2、临床（现场）试验对象受试对象的同质性疾病诊断的标准明确的纳入和排除标准良好的依从性*1、处理因素作用于受试对象的反应；2、研究结果的最终体现；3、实验研究的核心内容。它将通过实验指标来表达，因此选择评价效应的指标是关系研究成败

4、的重要关键。三、实验效应*选择指标的依据：1、指标的选择必须与研究目的密切关联 2、选择定量指标比定性指标能提供更多的信息 3、尽量选择客观性强、精确性好、特异度、和灵敏高的指标作为分析指标。*六、实验设计的原则六、实验设计的原则实验误差的控制实验误差的控制:实验设计的主要作用是减少误差，提高实验的精确度，使研究者能从实验结果中获得无偏的处理统计量及实验误差的估计值，从而进行正确地分析和比较。*科研设计方法与抉择科研设计方法与抉择在研究临床科研设计方案的时候，首先在研究临床科研设计方案的时候，首先要掌握设计的三大原则要掌握设计的三大原则(或四大原则或四大原则）。）。随机化原则随机化原则对

5、照原则对照原则重复原则重复原则盲法原则盲法原则*1、对照（control）原则空白对照、安慰剂对照、实验对照、标准对照等。设立对照组应满足均衡性要求，做到：1、组间除干预措施外，其他影响结果的非处理因素等尽可能相同。2、对所研究疾病的易感度及发病机会相等3、检测和观察方法及诊断标准必须一致 *2、随机化（randomization）原则：随机化是实验研究中据设计要求，受试对象的分组、施加于受试对象的处理以及实验顺序等都必须满足概率意义上的要求。贯彻随机分配原则是提高对比组之间均衡可比的重要手段，是控制选择性偏倚唯一有效的方法。也是资料分析、统计推断的理论基础。*随机对照试验的设计模式

6、研究的对象（N）不合格的研究对象合格的研究对象拒绝加入试验的合格对象自愿加入试验的合格研究对象（Ne）随机分组试验组对照组阴性结果阳性结果阴性结果阳性结果*3、重复（replication）原则：可靠的实验结果，应能在相同条件下重现出来；可靠的实验结论也不能凭一次实验或35 例结果获得，一定有足够量的观察单位数。重复原则包含重现性和观察单位数量两方面含义。所以也是一个样本含量（sample size）大小问题。足够的观察单位数是保证重现的基础，而重复的同质可比条件等，也是保证实验能够重现的重要条件。*4、盲法原则实验设计时常把盲法也作

7、为一条附加原则，以更好地控制误差。单盲：受试者不知道分组情况，有利于研究者了解情况，但可能会产生由研究带来的偏倚。双盲：研究者和受试者均未知分组情况和接受处理的具体内容，可以控制来自研究者和受试者两方面主观上的干扰。*（2）、样本大小的估计方法）、样本大小的估计方法在假设性检验中，统计意义不显著的结果，可能由二方面造成的：一、可能二组间是没有差别的；二、可能是二组间是有差别，但样本太小，不能用统计方法不详来证明这种结果。*确定子样的大小，可分为下面二个问题来解决：(1)二样本间个体数比例：当1/n1+1/n2是固定数值时，只要1/n1=1/n2时标准误是最小的。例如：n1=n2=10时，1

8、/n1+1/n2=0.2n1=15,n2=5时，1/n1+1/n2=0.2667n1=19,n2=1时，1/n1+1/n2=1.0526*(2)样本的个体数：原则上是二样本间均数差别愈大，需要的个体数愈少，均数差别愈小，需要个体数愈多，另一方面综合估计标准差愈小，则需要个体数愈少，标准差愈大，需要个体数愈多，因而在确定样本量之先，一定要知道标准差的约略值（二样本均数的约略差别）。*正确估计观察例数的标准,应该是保证研究课题具有一定代表性与可靠性的条件下所必须具有的最少例数，要符合这一标准，必须具备以下条件：*1.1.具有研究指标的总体均数具有研究指标的总体均数、总体、总体的的估计值估计值样本

9、均数、标准差及样本率，这些值来源于以往的实验，通过查阅文献资料提供，或从研究者所作的预备实验结果中获取。*2.容许误差与检验的差值容许误差与检验的差值，其值越小，所需样本量也越大。的选择有时需主观规定。例如在药物筛选中，用药组和对照组(不用药或用某种标准药)的差别可以主观规定。因为小于规定效果，是不符合试验目的的；所以在设计中，样本的大小能证明这种规定效果，就满足试验要求了。=1-2 或 =1-2*4.第二类错误的概率，1-又称统计效能，1-越大，需要的例数越多，一般取1-=0.8 或0.9，否则易出现假阴性结果。5.明确单侧或双侧3.第一类错误的概率，越小，需要的例数越多，一般取=0.05，

10、可根据具体情况进行调整。*二、假设检验时的样本含量的估计：1样本均数与总体均数比较：单侧 n=(t2+t2)s/)2双侧 n=(t+t2)s/)22两样本均数比较：单侧 n1=n2=2(t2+t2)s/)2双侧 n1=n2=2(t+t2)s/)23配对（自身）均数比较：单侧 n=(t2+t2)sd/)2双侧 n=(t+t2)sd/)2*例如：两个随机样本均数的显著性检验2212222122212121)(2)(2S 211xxtSnnxxtnSxxnnSxxt*例例1、某区有103所小学，51200名学生，某防治机构欲开展龋齿防治工作，拟定计划和经费预算，需事先对儿童龋齿率有较准确的估计，决定

11、用单纯随机抽样方法做抽样调查，求代表总体95%的样本含量并拟定防治药品计划。*分析：椐以往经验，近似条件下个别学校的检查结果。儿童龋齿率为60%-70%（应取接近50%左右，本例取60%），规定允许误差为3%，=0.05，即总体率的95%可信区间不大于p 3%，u=u0.05=1.96.计算公式：n=(u/)2 p（1-P）n=(1.96/3)2 0.6（1-0.6）=1024(人)至少需要调查1024人*例例2 2、现欲用抽样调查了解某地小学生蛔虫感染率。要求误差不超过3%，如取=0.05，问需要调查多少人？分析：本例=0.05，u=u0.05=1.96，=0.03，P=0.5（当0.5时）

12、代入 n=(u/)2 P（1-P）=(1.96/0.03）2 0.5（1-0.05）=1067.1 1068 至少需要调查1068人*例例3 3、高血压的患病率为8%，研究者欲了解某地高血压的患病率。并希望误差不超过2%，问需要调查多少人？分析：取=0.05（双侧检验）u=u0.05=1.96，=0.02，P=0.08 代入 n=(u/)2 P（1-P）=（1.96/0.02）20.08（1-0.08）=706.8 707 至少需要调查707人*例例4 4、某单位拟用抽样调查了解该地区正常成人白血胞数的平均水平。希望误差不超过100个/mm3。据文献报导，正常成人白血胞数的标准差约为1000个

13、/mm3。如取=0.05，问需要调查多少人？分析：本例=0.05，u=u0.05=1.96，S=1000个/mm3，=100个/mm3 代入 n=(u s/)2 =(1.961000/100)2 =384.2 385(人)至少需要调查385人。*已知血吸虫病人血红蛋白平均含量为9g/100ml,标准差为2.5 g/100ml，现研究呋喃丙胺治疗后能使血红蛋白量增加，规定治疗前后血红蛋白量升高2 g以上者为有效，升高1 g以下者为无效，求在显著水平是0.05，设计成功率p=90%，问应治疗多少人？例例5、*分析：因为本例只计算有效，所以用单侧检验，=2-1=1g/100ml、S=2.5g/100

14、ml、2=0.10、2=0.20，查表t2=1.645，t2=1.282代入公式：n=(t2+t2)s/)2=（1.645+1.282）2.5/1）2=53.5故可认为需要治疗54人，即以56例进行研究，如该药确实有效，则有90%（1-）的把握可得出有差别的结论。*药物试验用对动物体重增加来表达效果。某药物与对照组经一段时间的使用，差别是1.2mg，估计标准差是2.4 mg，求在显著水平是0.05，设计成功率p=90%，求样本所需最低动物数。例例6、*分析：本例双侧检验，=1.2 mg、S=2.4 mg，=0.05、2=0.10，查表t=1.96，t2=1.282代入公式：n1=n2=2(t+

15、t2)s/)2=2（1.96+1.282）2.5/1.2）2 =91.2 92这样设计每组最少92只动物。*例例7、用某药治疗矽肺病人后，尿矽的排出量平均比治疗前增加1.5 mg/100ml，其标准差为2.5 mg/100ml，假定确实能使尿矽排出量增加，定显著水平为=0.05，=0.10，问需要观察多少病人才能得出服药前后尿矽的排出量有差别的结论？*分析：本例单侧检验，=1.5mg、S=2.5 mg，=0.05、2=0.10，查表t2=1.645，t2=1.282 n=(t2+t2)s/)2=（1.645+1.282）2.5/1.5）2=23.8 24这样设计的病人数最少为24人。*1.1.

16、看资料类型看资料类型2.2.看分布特征看分布特征处理原则：处理原则：计量资料与计数资料的相对性计量资料与计数资料的相对性（计量（计量计数）计数）正态分布与偏态分布的关系正态分布与偏态分布的关系（偏态（偏态正态）正态）（3 3）、统计方法的正确应用）、统计方法的正确应用统计学方法运用前提统计学方法运用前提术前T38.2538.0037.7537.5037.2537.0036.7536.5036.2536.0035.75术前TFrequency80706050403020100Std.Dev=.38 Mean=36.62N=203.00*注意：t检验与方差分析的区别比较的内容 t检验方差分析加

17、q检验资料的利用率低：每次仅用两组高：每次要用全部数据对原试验设计的影响残：割裂了整体设计全：于原试验设计呼应犯假阳性错误的概率大：1-（1-0.05）n 小：=0.05结论的可靠性低：统计量的自由度小高：统计量的自由度大 df=n1+n2-2 组内误差的自由度 *2 2、计量资料显著性检验的方法抉择、计量资料显著性检验的方法抉择比较组数资料类型显著性检验方法两组比较非配对资料随机样本t-检验配对资料配对 t-检验多组比较非配对资料单因素方差分析配对资料区组设计方差分析协方差分析拉丁方（交叉）设计 *3 3、计数资料统计显著性检验方法、计数资料统计显著性检

18、验方法资料类型显著性检验方法非配对小样本两组比较直接概率法配对小样本两组比较符号检验非配对大样本两组或多组比较卡方检验配对大样本两组或多组比较配对卡方检验*4 4、等级资料显著性检验方法、等级资料显著性检验方法比较组数资料类型显著性检验方法两组比较非配对资料符号秩和检验中位数检验配对资料配对秩和检验符号秩和检验两组以上比较非配对资料 H-检验非参数法配对资料 Friedman秩和检验*5 5、计数资料分类及适用的统计学方法、计数资料分类及适用的统计学方法列联表分类适用的统计学分析方法双向无序表卡方检验、直接概率法单向有序表秩和检验、CPD、Ridit分析

19、双向有序且属性不同相关分析、线性趋势检验双向有序且属性相同一致性检验、特殊模型分析*常用计量资料假设检验方法常用计量资料假设检验方法比较目的应用条件统计方法样本与总体的比较例数(n)较大,(任意分布）u检验例数(n)较小（样本来自正态分布 t 检验两组资料的比较例数(n)较大,(任意分布）u检验（完全随机设计）例数(n)较小，来自正态且方差齐成组设计的t 检验例数(n)较小且非正态或方差不齐成组设计的秩和t 检验配对资料的比较例数(n)较大,(任意分布）u检验（配对设计）例数(n)较小，差值来自正态配对设计的t检验例数(n)较小，差值来自非正态配对

20、设计的秩和检验多组资料的比较各组均数来自正态且方差齐成组设计的方差分析（完全随机设计）各组为非正态且方差不齐成组设计的秩和检验配伍组资料的比较各组均数来自正态且方差齐配伍组设计的方差分析（配伍组设计）各组为非正态且方差不齐配伍组设计的秩和检验*计数资料的假设检验方法计数资料的假设检验方法比较目的应用条件统计方法样本率与总体率的比较 n 较小时二项分布的直接法 np5&nq5 二项分布的u检验两个率或构成比的比较 np5&nq5 二项分布的u检验（完全随机设计）n40&T5 四格表的2 检验 n40&1T5 校正四格表的2 检验 n40 or T40 配对2检

21、验（配对设计）b+c5 行*列表2检验（完全随机设计）（列联表2检验）多于1/5的格子1T5 行*列表的确切概率（列联表的确切概率法）*等级资料的假设检验等级资料的假设检验比较目的统计方法两组比较（完全随机设计）两组比较的秩和检验多组比较（完全随机设计）多组比较的秩和检验配对设计符号秩和检验配伍设计配伍组设计的秩和检验*变量间的相关分析变量间的相关分析比较目的应用条件统计方法两变量间的依存关系正态单变量资料直线回归（I 型）正态双变量资料直线回归（II 型）两变量间的相互关系正态单变量资料直线相关两变量都不服从正态等级相

22、关*多因素分析科研设计与应用时注意的问题1 1、样本含量、样本含量研究因素越多，样本含量越大，样本含量至少是研究因素的 5-10倍。2 2、主要因素、主要因素设计时为防止主要因素或指标遗漏，尽可能多观察几个因素或指标。*（4）、实验设计中常见的错误例1 某医生为说明本医院在食管癌手某医生为说明本医院在食管癌手术方面取得了很大的成功，将本医院与术方面取得了很大的成功，将本医院与其他国家和地区不同年份的食管癌手术其他国家和地区不同年份的食管癌手术切除率及手术死亡率用一览表显示出来，切除率及手术死亡率用一览表显示出来，并用统计学方法进行比较，得出结论。并用统计学方法进行比较，得出结论。*错误分析

23、：没有合理的实验设计，做手术的年代、条件等情况差距太大，又缺乏适当的对照组，因而组间缺乏可比性。*例例2 某人在研究某药物的治疗铅中毒的驱铅效果某人在研究某药物的治疗铅中毒的驱铅效果时，设计了如下的实验。时，设计了如下的实验。30名铅中毒工人脱离现场后住院住院治疗的结果名铅中毒工人脱离现场后住院住院治疗的结果观测指标治疗前治疗后血铅(mg/L)0.181 0.029 0.073 0.019 尿铅(mg/L)0.116 0.009 0.087 0.010*错误分析：本研究试图利用前后对照来说明此药的驱铅效果，统计分析的结果清楚的显示两组之间的差别具有非常显著性。但不能说明此药具有驱铅作用

24、，因为脱离现场后即使不治疗亦有尿铅排出，实际上此研究成了具有假对照的研究。*l 例例3、有人在研究耐力训练与提高战士体质的关系时，设计了如下的实验：以血乳酸为主要观察指标，用20名连队的战士按训练方案进行耐力训练，以机关同龄的20名战士为对照，对照组进行日常活动，观察经4周训练后，两组战士进行一定量的运动时血乳酸的变化。两组战士训练前后血乳酸的观测结果两组战士训练前后血乳酸的观测结果组别血乳酸（mg/L）训练前训练后训练组 38.2 3.5 33.1 3.1*对照组 40.0 4.0 38.9 3.5 *错误分析：对照组选择不合理，对照组除训练因素外，其它应尽可能与实验组一致，而机关兵和连队的战士由于工作性质的不同，体能的基础可能存在较大的不同，一开始两组就不具备可比性。*例4、有刊物报道,某厂调查纺织女工子宫下垂者为132人,其中115人为站立工作者,占87.12%;坐着工作的有17人,占12.88%。结论为“站立工作是子宫下垂的患病因素”。问此项资料是否支持该项结论？*错误分析：以比代率*谢谢各位！祝大家学业有成、事业成功！*

展开阅读全文