1、系统评价系统评价/Meta分析常用分析常用质量评价工具简介质量评价工具简介杜亮华西期刊社/中国循证医学中心2013.5.18提纲一、背景二、RCT的质量评价工具三、观察性研究的质量评价工具四、非随机实验性研究的质量评价工具五、诊断性研究的质量评价工具六、动物实验的质量评价工具七、SR/Meta分析(MA)的质量评价工具一、背景1.1 为什么要进行质量评价?真假难辨诚信、政策、监督好坏可评质量评价工具造假造假垃圾垃圾+=?+=?1.2 质量评价评什么?什么决定研究的好坏?l其结果接近真实情况,稳定l偏倚程度小(可能出现在研究设计、实施、结果分析的整个过程)l集中反映在研究报告的方法学部分l高质量
2、报告高质量研究1.3 质量的定义试验设计产生无偏倚结论的可能性(内部真实性)Jadad AR,牛津大学,1996在设计与研究过程中反映结论真实性的一系列因素,这些因素与临床试验的内部真实性、外部真实性和统计分析有关Verhagen AP,荷兰马斯特里赫特大学,19981.4 相关名词真实性l是指研究的设计和实施中防止系统误差或偏倚的程度,主要包括内部真实性与外部真实性内部真实性l是指单个研究结果接近真实值的程度,即受各种偏倚因素,如选择偏倚、实施偏倚、失访偏倚及测量偏倚的影响情况。外部真实性l又称适用性或外部有效性,主要指研究结果是否可以应用于研究对象以外的其他人群,即结果的使用价值与推广应用
3、的条件,主要与研究对象的特征、干预措施和结局的选择标准有关。1.4 相关名词对偏倚的认识是质量评价的核心偏倚(bias)又称系统误差,是指研究的结果或推论偏离真实值,或导致这种偏离的过程,也可以说在资料收集、分析、解释或发表过程中,能够导致结论系统地与真实值有所不同的任何趋势l选择偏倚、实施偏倚、损耗偏倚、测量偏倚、报告偏倚、其他偏倚1.4 相关名词质量评价(quality assessment)是评估单个研究在设计、实施、结果分析整个过程中可能出现各种偏倚的程度。质量评价工具则是依据这些可能出现的偏倚的各个方面设计的。主要有3种类型:l条目(component/items)l一览表或清单(c
4、hecklist)l量表(scale)1.5 临床流行病学研究设计分类是否由研究者分配暴露试验性研究(是)观察性研究(否)是否随机分配是否设立比较组非随机对照试验(否)随机对照试验(是)分析性研究(是)描述性研究(否)同期对照试验非同期对照试验平行试验交叉试验队列研究(暴露结局)病例对照研究(暴露结局)横断面研究监测个案或病例系列报告二、RCT的质量评价工具RCT是实验性研究设计中的“金标准”AHRQ研究显示,涉及RCT的评价工具共20种量表、11种清单及1种组成部分的评价工具和7类指导性文件RCT:采用随机分配方法(随机数字表、计算机随机序列、抛硬币法等)将受试者分入不同处理组。CCT:采用
5、半随机分配方法(按入院顺序、住院号、研究对象生日的奇偶)分配到不同处理组。2.1 Cochrane偏倚风险评估工具CJEBM干预类SR中67.6%使用领域领域条目条目说明说明选择偏倚1.随机序列产生2.分配隐藏实施偏倚3.对研究者和受试者施盲测量偏倚4.研究结果盲法评价随访偏倚5.结果数据的完整性报告偏倚6.选择性报告研究结果其他偏倚7.其他偏倚来源2.2 Jadad量表Jadad scaleCJEBM干预类SR中12.1%使用1996年由Jadad等发布最初目的是为了评价疼痛治疗的RCT质量,从随机方案及其隐匿、盲法、退出与失访病例的原因及数量3方面进行评价采用0-5分计分法,2分为低质量,
6、3分为高质量优点:简单明了,直接评价经验证的、与试验效应估计中的偏倚有直接关系的试验特征缺点:存在诸多不组,如未考虑分配隐藏推荐:将Jadad量表与隐蔽分组的评价结合起来2.2 Jadad量表Jadad scale评价指标评价指标内容内容记分记分随机未随机/不清楚/假随机0提及“随机”,但未描述具体的随机方法1采用“随机”,并描述了正确的随机方法2盲法未实施双盲/假双盲0提及“双盲”,但未描述具体的施盲方法1采用“双盲”,并描述了正确的施盲方法2退出/失访未提及0描述退出/失访例数及原因12.3 Delphi清单由马斯特里赫特大学Verhagen及其同事1998年依据Maastricht和Ch
7、almers量表,遵照Delphi法制作针对RCT的内部有效性、外部有效性和统计分析3个方面共8个条目,其中第1条又分为两个部分采用“是”、“否”、“不清楚”进行判断缺点:基于专家共识而非实验数据2.3 Delphi清单是,否,不清楚是,否,不清楚选择偏倚1.治疗分组:是否采用随机分组是否采用分配隐藏选择偏倚2.重要结局基线是否相似选择偏倚3.清楚描述受试者入选条件测量偏倚4.对结果评价者施盲实施偏倚5.对研究者施盲实施偏倚6.对受试者施盲?7.提供主要结局的点估计值和可信区间随访偏倚8.意向治疗分析2.4 PEDro量表Physiotherapy Evidence Database物理治疗证
8、据数据库,1999,乔治中心的物理治疗循证中心序号序号条目条目记分记分1清楚描述受试者纳入标准每个条目1分,采用“是”、“否”进行判断2随机分配3分配隐藏4重要指标基线相似5受试者盲法6治疗师盲法7评价者盲法8*85%的受试者进行至少一项主要结局测量9有测量结果受试者需遵方案治疗,或行意向治疗分析10*对至少一项主要结局的组间统计进行报告11提供至少一项主要结局的点估计值和可信区间基于Delphi清单制作,*在Delphi清单基础上增加的条目2.5 Chalmers 量表1981年由Chalmers等提出分一般情况记录、研究方案、统计分析、结果陈述4部分,36个条目,均为经验条目一般情况不参与
9、记分,研究方案、统计分析、结果3部分按6:3:1权重记分,共27个条目,总分100分缺点:实施繁琐、耗时;部分内容与报告质量混淆 三、观察性研究的质量评价工具非实验性研究(队列、病例-对照、横断面),未加干预,允许事件自然发展与RCT相比,更易受(选则性)偏倚风险影响(横断面 病例-对照 队列)2005年,剑桥大学Simon Sanderson等研究显示:l86种观察性研究质量评价工具:19%病例-对照;27%队列;7%横断面45%病例-对照/队列;15%3种设计2010年,明尼苏达大学Tatyana Shamliyan等研究显示:l96种观察性研究质量评价工具(46量表,51清单):21.8
10、8%队列;13.54%病例-对照;5.21%横断面3.1 NOS量表The Newcastle-Ottawa Scale纽卡斯尔-渥太华量表(The Newcastle-Ottawa Scale,NOS)3大块(人群选择、可比性、暴露评价或结果评价),8个条目采用星级系统的半量化原则,满分队列研究为13颗星,病例-对照研究9颗星被Cochrane协作网的非随机研究方法学组用于培训,并被推荐使用。免费下载网址http:/www.ohri.ca/programs/clinical_epidemiology/oxford.asp3.1.1 队列研究NOS量表条目条目评价标准评价标准研究人群选择暴露组
11、的代表性如何1.真正代表人群中暴露组的特征;2.一定程度上代表了人群中暴露组的特征;3.选择某类人群,如护士、志愿者;4.未描述暴露组来源情况。非暴露组的选择方法1.与暴露组来自同一人群;2.与暴露组来自不同人群;3.未描述非暴露组来源情况。暴露因素的确定方法1.固定的档案记录(如外科手术记录);2.采用结构式访谈;3.研究对象自己写的报告;4.未描述。确定研究起始时尚无要观察的结局指标1.是;2.否。3.1.1 队列研究NOS量表条目条目评价标准评价标准组间可比性设计和统计分析时考虑暴露组和未暴露组的可比性1.研究控制了最重要的混杂因素;2.研究控制了任何其他的混杂因素(此条可修改用以说明特
12、定控制第二重要因素。结果测量研究对于结果的评价是否充分1.盲法独立评价;2.有档案记录;3.自我报告;4.未描述。结果发生后随访是否足够长1.是(评价前规定恰当的随访时间);2.否。暴露和非暴露组的随访是否充分1.随访完整;2.有少量研究对象失访但不至于引入偏倚(规定失访率或描述失访情况);3.有失访(规定失访率)但未行描述;4.未描述随访情况3.1.2 病例-对照研究NOS量表条目条目评价标准评价标准研究人群选择病例确定是否恰当1.恰当,有独立的确定方法和人员;2.恰当,如基于档案记录或自我报告;3.未描述。病例的代表性1.连续或有代表性的系列病例;2.有潜在的选择偏倚或未描述。对照的选择1
13、.与病例同一人群的对照;2.与病例同一人群的住院人员为对照;3.未描述。对照的确定1.无目标疾病史(端点);2.未描述来源。3.1.2 病例-对照研究NOS量表条目条目评价标准评价标准组间可比性设计和统计分析时考虑病例和对照的可比性1.研究控制了最重要的混杂因素;2.研究控制了任何其他的混杂因素(此条可以进行修改用以说明特定控制第二重要因素)暴露因素的测量暴露因素的确定1.固定的档案记录(如外科手术记录);2.采用结构式访谈且不知访谈者是病例或对照;3.采用未实施盲法的访谈(即知道病例或对照的情况);未描述采用相同的方法确定病例和对照组暴露因素1.是;2.否。无应答率1.病例和对照组无应答率相
14、同;2.描述了无应答者的情况;3.病例和对照组无应答率不同且未描述3.2 横断面研究的质量评价工具JBI量表JBI PACES(Joanna Briggs Institute,Practical Application of Clinical Evidence System)澳大利亚循证护理中心(1996年建立,31国设分中心,2004年复旦)的在线临床证据评鉴系统条目条目评价标准评价标准1该研究的研究目的是否明确?立题依据是否充分?0分:不符合要求;1分:提及,但未详细描述;2分:详细、全面、正确描述。2研究人群是如何选择的(是否随机选取研究对象,是否采取了分层抽样以提高样本的代表性)?3是
15、否清晰地描述了样本的纳入及排除标准?4是否清晰地描述了样本特征?5资料收集的工具是否具有信度和效度(如采用调查员调查,调查结果的可重复性如何)?6核实资料真实性的措施是什么?7是否考虑到伦理问题?8统计方法是否正确?9对研究结果的陈述是否恰当、准确(结果和推论是否区分开来,结果是否忠实于数据而不是推论)?10是否对研究价值进行了清晰的阐述?3.3 横断面研究AHRQ清单Agency for Healthcare Research and Quality条目条目是是否否不清楚不清楚1是否明确了资料的来源(调查、文献回顾)?2是否列出了暴露组和非暴露组(病例和对照)的纳入及排除标准或参考以往的出版
16、物?3是否给出了鉴别患者的时间阶段?4如果不是人群来源的话,研究对象是否连续?5评价者的主观因素是否掩盖了研究对象其他方面情况?6描述了任何为保证质量而进行的评估(如对主观结局指标的检测/再检测)7解释了排除分析任何患者的理由8描述了如何评价和(或)控制混杂因素的措施9如果可能,解释了分析中是如何处理丢失数据的10总结了患者的应答率及数据收集的完整性11如果有随访,查明预期患者不完整数据所占的百分比或随访结果3.4 横断面研究Combie量表1996年Iain Crombie在The Pocket Guide to Critical Appraisal一书中提出条目条目评价标准评价标准1设计科
17、学是:1分;否:0分;不清楚:0.5分。如某条目不适合判定的研究,则以“”表示,并计1分。总分:7.0分。A级:6.0-7.0分B级:4.0-5.5分C级:4.0分2数据收集策略合理3报告了样本应答率4样本对总体的代表性好5研究目的和方法合理6报告了检验效能7统计方法合理3.5 经验总结、案例分析及专家意见JBI量表条目条目评价标准评价标准1 是否清晰地描述了引用文章的来源?0分:不符合要求;1分:提及,但未详细描述;2分:详细、全面、正确描述。2 是否清晰地阐述了撰写该文章的目的?3 作者在该领域是否具有影响力?4 作者所推荐的观点或建议是否以患者利益为中心?5 作者所推荐的观点或建议是否具
18、有逻辑性?6 作者对其观点或建议的分析是否合适?7 用于支持作者所推荐的观点或建议的引用文献是否充分?8 作者所推荐的观点及建议与以往文献是否有不一致的地方?四、非随机实验性研究的质量评价工具并非所有的临床试验都可以设计成随机对照试验2003年,牛津大学J.J.Deeks等全面评价了2000年以前发表的非随机试验性研究评价工具:l213种工具l量表清单各占一半l14种为最佳工具,其中6种可用于SR4.1 MINORS量表Methodological Index for Non-randomized Studies序号序号条目条目提示提示1明确地给出了研究目的所定义的问题应该是精确的且与可获得文
19、献有关2纳入患者的连贯性所有具有潜在可能性的患者(满足纳入标准)都在研究期间被纳入了(无排除或给出了排除的理由)3预期数据的收集收集了根据研究开始前制定的研究方案中设定的数据4终点指标能恰当地反映研究目的明确地解释用来评价与所定义的问题一致的结局指标的标准。同时,应在意向性分析的基础上对终点指标进行评估5终点指标评价的客观性对客观终点指标的评价采用评价者单盲,对主观终点指标的评价采用评价者双盲。否则,应给出未性盲法评价的理由6随访时间是否充分随访时间应足够长,以使得能对终点指标及可能的不良事件进行评估7失访率低于5%应对所有患者进行随访。否则,失访比例不能超过反映主要终点指标的患者比例8是否估
20、算了样本量根据预期结局事件的发生率,计算了可检测出不同研究结局的样本量及其95%CI;且提供的信息能够从显著统计学差异及估算把握度水平对预期结果与实际结果进行比较4.1 MINORS量表Methodological Index for Non-randomized Studies序号序号条目条目提示提示用于评价有比较组的附加标准9对照组的选择是否恰当对于诊断性试验,应为诊断的“金标准”;对于治疗干预性试验,应是能从已发表研究中获取的最佳干预措施10对照组是否同步对照组与试验组应该是同期进行的(非历史对照)11组间基线是否可比不同于研究终点,对照组与试验组起点的基线标准应该具有相似性。没有导致使
21、结果可能解释产生偏倚的混杂因素12统计分析是否恰当用于计算可信区间或相对危险度(RR)的统计资料是否与研究设计类型相匹配五、诊断性研究的质量评价工具诊断性试验l评价运用诊断试验后对改善患者的治疗/预后效果,多采用随机对照设计,此时质量评价方法与RCT相同l评价诊断试验的准确性5.1 QUADAS工具Quality Assessment of Diagnostic Accuracy Studies英国约克大学Penny Whiting等遵照Delphi法于2003年制定目前唯一经严格评价和验证的诊断性研究质量评价工具2008年被Cochrane协作网推荐为Cochrane诊断性试验准确性SR的质
22、量评价标准5.1 QUADAS工具Quality Assessment of Diagnostic Accuracy Studies序号序号条目条目是是否否不确定不确定1疾病谱是否包含了各种病例及易混淆的病例疾病谱基于文章报告的或从作者处获取的信息,您认为研究纳入的患者病例谱能代表临床实践中接受该检查的患者群研究招募的是健康对照组或已知患有目标疾病的患者组;或您认为研究人群不符合您评价方案中事先界定的可接受标准(考虑的因素包括疾病流行率、严重程度、年龄、性别)信息不足无法作出判断2研究对象的选择标准是否明确选择标准您认为涉及研究如何选择受试者的所有相关信息均已提供研究的选择标准没有明确报告研究
23、仅报告了部分选择标准,并且您认为现有信息不足以将条目评价为“是”3*金标准是否能区分有病无病状态金标准您认为金标准能够准确区分目标疾病或已是现有的最佳方法您认为金标准不太可能准确区分目标疾病判断依据不足4金标准和待评价试验检测的间隔时间是否足够短,以避免出现疾病病情的变化疾病进展偏倚是否应将该条目评价为“是”取决于目标疾病。对于进展迅的疾病,即使间隔数日都可能非常重要,比如金标准和待评价试验的间隔时间非常短,约数小时或数日,则该条目应评价为“是”;但对于慢性病,疾病状态可能不会在1周、1个月、甚至更长时间内发生变化,此时虽然金标准和待评价试验的检测间隔时间较长,也可评价为“是”若您认为金标准和
24、待评价试验的检测间隔时间足够长,其间疾病状态可能已经发生变化所提供的信息不足5.1 QUADAS工具Quality Assessment of Diagnostic Accuracy Studies序号序号条目条目是是否否不确定不确定5是否所有样本或随机选择的样本均接受了金标准试验部分参照偏倚从研究报告中可清楚地判断,所有接受了待评价试验的换则或随机选择患者均通过金标准证实了其疾病状态(即使所有患者接受的金标准检测不尽相同)部分接受了待评价试验的患者没有通过金标准证实其真实的疾病状态,且接受金标准检测的患者不是随机选择的研究未报告该信息6是否所有病例无论待评价试验的结果如何,都接受的相同的金标
25、准试验多重参照偏倚从研究报告中可清楚地判断,患者通过相同的金标准证实了其真实的疾病状态部分患者通过另一种不同的金标准证实研究未报告该信息7金标准试验是否独立于待评价试验(即待评价试验不包含在金标准中)混合偏倚从研究报告中可清楚地判断,待评价试验不是金标准的组成部分待评价试验是金标准的组成部分研究未报告该信息8*待评价试验的操作是否描述的足够清楚且可进行重复待评价试验的实施可参考第9条5.1 QUADAS工具Quality Assessment of Diagnostic Accuracy Studies序号序号条目条目是是否否不确定不确定9*金标准试验的操作是否描述的足够清楚且可重复金标准的实
26、施研究报告了或引用了足够详细的信息保是了待评价试验和金标准的重复性研究未报告或引用了足够详细的信息保证了待评价试验和金标准的可重复性仅描述了试验实施过程的部分信息,您认为没有足够的证据将该条目评价为“是”10待评价试验的结果判读是否是在不知晓金标准试验结果的情况下进行的试验解读偏倚可参考第11条11金标准试验结果判读是否是在不知晓待评价试验结果的情况下进行的金标准解读偏倚研究明确指出试验结果(待评价试验或金标准)的判读是在不知道另一项试验结果下进行的情况并非是“是”研究未报告该信息12当解释试验结果时可获得的临床资料是否与实际应用中可获得的临床资料一致临床解读偏倚临床实际判读试验时通常都能够获
27、取临床资料,且研究判断待评价试验时也能够获取类似的资料;或临床实际应用时不能获取临床资料,且判读待评价试验结果时也不能获取这些资料情况并非是“是”研究未报告该信息5.1 QUADAS工具Quality Assessment of Diagnostic Accuracy Studies序号序号条目条目是是否否不确定不确定13是否报告了难以解释/中间试验结果难以解释的试验结果从研究报告中可清楚地判断,包括难以解释的/不确定的/中间试验的结果在内的所有试验结果均已报告您认为事实上已经出现了这样的结果,但研究没有报告无法确定是否所有的试验结果均已报告14对退出研究的病例是否进行解释退出病例从研究报告中
28、可清楚地判断,进入研究的所有患者的情况均已报告,如受试者的流程图发现进入研究的部分受试者并未完成研究,即没有接受待评价试验和金标准的检测,且研究报告没有对这些患者作出说明无法确定是否对进入研究的所有患者都作出了说明*Cochrane协作网的筛查和诊断性研究方法学组(DTA)建议的非必须条目六、动物实验的质量评价工具动物实验SR/MA的目的l后效评估动物实验,回顾性比较动物模型是否使用适当;l降低将动物实验所获结果引入临床的风险设计类型类似临床研究,多为RCT质量评价方法l原则上可应用临床研究的相应方法l特殊性:必须注重评价其可重复性和内部真实性6.1 STAIR清单 The Initial S
29、troke Therapy Academic Industry Roundtable序号序号条目条目1样本量计算2纳入与排除标准3随机序列产生4隐藏实验动物分组方案5报道将动物排除分析的原因6结局的盲法评价7声明潜在的利益冲突及研究资助6.2 CAMARADES清单Collaborative Approach to Meta Analysis and Review of Animal Data From Experimental Stroke序号序号条目条目1样本量计算2随机序列的产生3*盲法缺血诱导4结果的盲法评估5适当的动物模型6*应用无明显内在神经保护活性的麻醉药7*有温度控制的说明8遵
30、守动物保护法9论文经同行评审后发表10声明潜在利益冲突*表示此条目在其他动物实验质量评价中可根据需要进行相应的调整七、SR/MA的质量评价工具AMASTAR量表A measurement tool for the assessment of multiple systematic reviews2007年由荷兰Vrije Universitet大学医学研究中心和研制加拿大渥太华大学的临流专家联合11个条目,条目形成基础:lOQAQ(Overview Quality Assessment Questionnaire)的10个条目lSQAC(Sacks Quality Assessment Che
31、cklist)的24个条目l文种偏倚、发表偏倚、灰色文献7.1 SR/MA的质量评价工具AMASTAR量表A measurement tool for the assessment of multiple systematic reviews序号序号条目条目是是否否不知道不知道不可用不可用1是否提供了前期方案2纳入研究的选择和资料提取是否具有可重复性3是否进行了全面的文献检索4发表状态是否已考虑在纳入标准中,如灰色文献5是否提供了纳入和排除的研究清单6是否描述纳入研究的基本特征7是否评价和报道了纳入研究的科学性8是否恰当地运用纳入研究的科学性推导结论9合成纳入研究结果的方法是否恰当10是否评估
32、了发表偏倚的可能性11是否报告了利益冲突CJEBM发表SR/MA AMASTAR评价结果Chin J of Evid-Based Med,2013,13(5).AMSTAR条目完整报告部分报告未报告n(%)95%CIn(%)95%CIn(%)95%CI1.是否提供了前期方案2(0.53)(0.1,2.1)0-377(99.47)(97.9,99.9)2.纳入研究的选择和资料提取是否具有可重复性137(36.15)(31.5,41.1)176(46.44)(41.5,51.5)66(17.41)(13.9,21.6)3.是否进行了全面的文献检索240(63.33)(58.4,68.0)125(3
33、2.98)(28.4,37.9)14(3.69)(2.2,6.1)4.发表状态是否已考虑在纳入标准中,如灰色文献83(21.90)(18.0,26.3)74(19.52)(15.8,23.8)222(58.58)(53.5,63.4)5.是否提供了纳入和排除的研究清单80(21.10)(17.3,25.5)269(70.98)(66.2,75.3)30(7.92)(5.6,11.1)6.是否描述纳入研究的基本特征361(95.25)(92.6,97.0)8(2.11)(1.1,4.2)10(2.64)(1.4,4.8)7.是否评价和报道了纳入研究的科学性353(93.14)(90.1,95.3
34、)1(0.26)(0,1.8)25(6.60)(4.5,9.6)8.是否恰当地运用纳入研究的科学性推导结论312(82.32)(78.1,85.8)6(1.58)(0.7,3.5)61(16.09)(12.7,20.1)9.合成纳入研究结果的方法是否恰当274(72.30)(67.6,76.6)64(16.89)(13.4,21.0)41(10.81)(8.1,14.4)10.是否评估了发表偏倚的可能性68(17.94)(14.4,22.1)54(14.25)(11.1,18.1)257(67.81)(62.9,72.3)11.是否报告了利益冲突15(3.96)(2.4,6.5)0-364(9
35、6.04)(93.5,97.6)总分6.151.35(范围:1.59.5)7.2 SR/MA的质量评价工具OQAQ量表Oxman-Guyatt Overview Quality Assessment Questionnaire,1991序号序号条目条目1是否报告了文献检索方法充分:报告并正确使用不充分:未报告或不正确1分(不符合)7分(完全符合)若1个以上条目为“不能确定”小缺陷条目2、4、6、8有“否”者大缺陷2检索是否全面3是否报告了研究的纳入标准4是否避免了纳入研究的选择偏倚5是否报告了对纳入研究急性真实性评价的标准6对纳入研究的质量评价是否全面、恰当7是否报告了纳入研究的数据合并方法8纳入研究的结局是否适合合并9系统评价的结论是否得到了报告数据的支持10此系统评价的总体科学性如何对整体质量进行打分:明显缺陷1分;大缺陷3分小缺陷5分,可忽略7分不涉及发表质量和研究的重要性,主要针对系统评价中容易产生偏倚的几个环节