1、试验方法的评价试验方法的评价和疾病筛检和疾病筛检 朱益民朱益民浙江大学医学院浙江大学医学院流行病与卫生统计学系流行病与卫生统计学系 基本内容基本内容u 试验方法的评价试验方法的评价u 诊断价值的评价诊断价值的评价(预测值)预测值)u 提高诊断效率的方法提高诊断效率的方法u 疾病筛检疾病筛检试验方法的评价试验方法的评价u 评价程序评价程序u 可靠性评价可靠性评价u 真实性评价真实性评价u 诊断标准与灵敏度和特异度的关系诊断标准与灵敏度和特异度的关系u ROCROC曲线曲线u 参考值建立的方法参考值建立的方法评价程序评价程序被评价的方法与标准方法作同步、盲法试验。被评价的方法与标准方法作同步、盲法
2、试验。一、确定金标准一、确定金标准二、选择研究对象:病人和非病人二、选择研究对象:病人和非病人 病例组是指用金标准确诊病例组是指用金标准确诊有病有病的病例,应包含典型的、的病例,应包含典型的、不典型病例,早、中、晚期病例,轻、中、重病例、有和无不典型病例,早、中、晚期病例,轻、中、重病例、有和无并发症的患者。并发症的患者。非病例组是指用金标准证实没有目标疾病的其他病例,特别非病例组是指用金标准证实没有目标疾病的其他病例,特别是与该病容易混淆的病例。是与该病容易混淆的病例。三、确定样本大小三、确定样本大小 四、同步试验、四、同步试验、盲法盲法(double blind)观察观察五、根据试验检查的
3、结果,评价其诊断价值五、根据试验检查的结果,评价其诊断价值金标准金标准待评价方法待评价方法特定特定人群人群病人病人非病非病人人结果结果评价评价评价程序评价程序u金标准是指一种疾病标准诊断方法,是当前医学界公认的、金标准是指一种疾病标准诊断方法,是当前医学界公认的、诊断某病的可靠的诊断方法,应用该标准能较正确区分某种诊断某病的可靠的诊断方法,应用该标准能较正确区分某种疾病的人和不具有该病的人。疾病的人和不具有该病的人。u常见的金标准有:病理学检查(组织活检和尸体解剖)、手常见的金标准有:病理学检查(组织活检和尸体解剖)、手术发现、微生物培养、特殊的影像学诊断、长期随访结果。术发现、微生物培养、特
4、殊的影像学诊断、长期随访结果。u要评价一个试验方法,金标准的选择是非常重要的。一项诊要评价一个试验方法,金标准的选择是非常重要的。一项诊断试验的准确程度只有在金标准诊断的病人组和非病人组中断试验的准确程度只有在金标准诊断的病人组和非病人组中进行考核,才能得到正确地评价。进行考核,才能得到正确地评价。金标准(金标准(gold standard)u研究对象包括两组,病例组和非病例组。研究对象包括两组,病例组和非病例组。u病例组是被金标准确诊的病人。应包含该疾病的典型与非典病例组是被金标准确诊的病人。应包含该疾病的典型与非典型病例,早、中、晚期各期病例,轻、中、重病例、有和无型病例,早、中、晚期各期
5、病例,轻、中、重病例、有和无并发症的患者。并发症的患者。u非病例组是用金标准证实无该病的人群,即对照组。还应包非病例组是用金标准证实无该病的人群,即对照组。还应包括与该病容易混淆的病例(作鉴别诊断)括与该病容易混淆的病例(作鉴别诊断)u所有的研究对象都要有代表性,病例组和对照组都应代表各所有的研究对象都要有代表性,病例组和对照组都应代表各自的总体自的总体 。研究对象研究对象p p为试验的预期特异性或灵敏度,为试验的预期特异性或灵敏度,为容许误差,为容许误差,为第一类误差的概率,为第一类误差的概率,U U 值由值由U U界值表可查得。界值表可查得。样本大小样本大小评价内容评价内容 包括两方面:包
6、括两方面:1.1.真实性(真实性(validityvalidity)真实性是指测量值与实际值的真实性是指测量值与实际值的符合程度。符合程度。2.2.可靠性(可靠性(reliabilityreliability)重复性(重复性(repeatabilityrepeatability),),指一项试验在相同的条件重复指一项试验在相同的条件重复试验获得相同结果的稳定程度。试验获得相同结果的稳定程度。被被 评评 价价试验结果试验结果金金 标标 准准有有 病病无无 病病合合 计计阳阳 性性A(A(真阳性真阳性)B(B(假阳性假阳性)A+BA+B阴阴 性性C(C(假阴性假阴性)D(D(真阴性真阴性)C+DC
7、+D合合 计计A+CA+CB+DB+DN N评价的结果评价的结果可靠性的评价可靠性的评价标准差和变异系数标准差和变异系数符合率或一致性符合率或一致性调整一致性调整一致性KappaKappa值:值:表示两种试验的结果的一致性的程度表示两种试验的结果的一致性的程度KappaKappa值的计算值的计算被被 评评 价价试验结果试验结果 金金 标标 准准有有 病病无无 病病合合 计计阳阳 性性A(A(真阳性真阳性)B(B(假阳性假阳性)A+BA+B阴阴 性性C(C(假阴性假阴性)D(D(真阴性真阴性)C+DC+D合合 计计A+CA+CB+DB+DN NKappa值值一致性强度一致性强度0弱弱00.2轻轻
8、0.210.40尚好尚好0.410.60中度中度0.610.80高度高度0.811很强很强甲、乙二医生阅读胸部甲、乙二医生阅读胸部X线片诊断结果线片诊断结果 甲医生诊断 乙医生诊断 合计 肺门淋巴结结核 正常 肺门淋巴结结核46()10(b)56(r1)正常12(c)32(d)44(r2)合计58(c1)42(c2)100()观察一致率观察一致率=(4632)/10078机遇一致率机遇一致率(5856)/100(4244)/100/100=51%Kappa=(78%-51%)/(1-51%)=0.55影响试验可靠性的因素影响试验可靠性的因素 1 1实验方法本身或仪器的差异实验方法本身或仪器的差
9、异2 2调查对象的生物学变异:研究对象间的变异和研究调查对象的生物学变异:研究对象间的变异和研究对象内部变异对象内部变异 3 3观察者的测量变异:观察者间变异和观察者内变异观察者的测量变异:观察者间变异和观察者内变异 真实性评价的内容真实性评价的内容包括两个方面:包括两个方面:1 1、对有病的识别能力、对有病的识别能力 2 2、对无病的识别能力、对无病的识别能力真实性评价指标真实性评价指标1 1、灵敏度(、灵敏度(sensitivity,Se)sensitivity,Se):在真正有病的人中,试:在真正有病的人中,试验结果阳性的百分率,即真阳性率。验结果阳性的百分率,即真阳性率。%1001ca
10、c假阴性真阳性假阴性灵敏度假阴性率漏诊率灵敏度表示试验方法对疾病的检出能力。灵敏度越高,说灵敏度表示试验方法对疾病的检出能力。灵敏度越高,说明试验方法对疾病检出能力越强,病人漏诊机会越少。明试验方法对疾病检出能力越强,病人漏诊机会越少。%100%100)(caaSe假阴性真阳性真阳性灵敏度 2 2、特异度(、特异度(specificityspecificity,Sp)Sp):指在无病的人中试验结指在无病的人中试验结果阴性的百分率,即真阴性率。特异度表示试验方法对无病果阴性的百分率,即真阴性率。特异度表示试验方法对无病的检出能力。特异度越高,说明对无病的判断能力越强,无的检出能力。特异度越高,说
11、明对无病的判断能力越强,无病的人误诊机会越少。病的人误诊机会越少。%100%100)(dbdSp假阳性真阴性真阴性特异度%100%1001dbb真阴性假阳性假阳性特异度假阳性率误诊率似然比(似然比(likelihood ratio,LR)假阳性率真阳性率LR一项诊断价值高的试验,应当是真阳性率(灵一项诊断价值高的试验,应当是真阳性率(灵敏度)高而假阳性率低。两者的比值称为诊断敏度)高而假阳性率低。两者的比值称为诊断试验的似然比。试验的似然比。正确指数。正确指数。灵敏度和特异度是反映一项诊断试验的灵敏度和特异度是反映一项诊断试验的两个基本指标,两者之和减去两个基本指标,两者之和减去1 1。约登指
12、数(约登指数(YoudensYoudens Index Index)误诊率漏诊率特异度灵敏度指数111dbdcaaYouden评价甲胎蛋白诊断肝癌的价值,以肝穿刺作为金标准,试验结果如下表。甲胎蛋白甲胎蛋白试验结果试验结果肝穿刺结果肝穿刺结果合合 计计肝肝 癌癌非肝癌非肝癌异异 常常205205(a a)3131(b b)236236正正 常常2929(c c)3737(d d)6666合合 计计2342346868302302(N N)灵敏度=(205/234)100%=87.61%特异性=(37/68)100%=54.41%漏诊率=1-灵敏度=1-87.61%=12.39%误诊率=1-特异
13、性=1-54.41%=45.59%似然比=(205/234)/(31/68)=1.92Youden指数=灵敏度+特异度-1 =0.876+0.54411=0.4202符合率=(205+37)/302100%=80.13%24.71%1006837663723420523620541调整符合率 诊断试验研究为一个样本研究,所得灵敏度、诊断试验研究为一个样本研究,所得灵敏度、特异性、特异性、YoudenYouden指数均为样本值,因此存在抽样指数均为样本值,因此存在抽样误差。从样本值来推断总体值,须进行统计推断。误差。从样本值来推断总体值,须进行统计推断。不同方法的比较应排除抽样误差,进行统计学检
14、不同方法的比较应排除抽样误差,进行统计学检验。验。诊断试验评价的统计学推断诊断试验评价的统计学推断样本指标样本指标标准误标准误可信区间可信区间灵敏度(灵敏度(Se)特异性(特异性(Sp)粗一致性粗一致性 Youden指数指数 SeU Sse SpU Ssp CAU SCA YIU SYI 诊断性试验指标的参数估计诊断性试验指标的参数估计 3caacSse3dbbdSsp3/NcbbaSCA33dbbdcaacSYI诊断性试验研究的假设检验诊断性试验研究的假设检验 2221212121,CACACACACACASSSSCACAUSSYIYIYIYIYIYISSYIYIU2221212121,适用
15、情况适用情况检验假设检验假设(Ho)计算公式计算公式两个试验两个试验的总一致的总一致性比较性比较 两个试验两个试验的的Youden指数比较指数比较两 方 法 总两 方 法 总体 粗 一 致体 粗 一 致性相等性相等 两 方 法 总两 方 法 总体 的体 的 Y I 值值相等相等 如应用血清铁蛋白(如应用血清铁蛋白(SFSF)和血清原卜啉()和血清原卜啉(ZPPZPP)试验法进行铁缺)试验法进行铁缺乏症的临床诊断。以骨髓涂片铁染色检查作为诊断缺铁的金标准,乏症的临床诊断。以骨髓涂片铁染色检查作为诊断缺铁的金标准,确诊为缺铁性贫血确诊为缺铁性贫血5050例,非缺铁性贫血例,非缺铁性贫血7878例。
16、比较两试验的例。比较两试验的YoudenYouden指数的优劣。指数的优劣。SF SF和和ZPPZPP法诊断缺铁性贫血的结果法诊断缺铁性贫血的结果金 标 准合 计缺 铁非缺铁SF(ng/ml)30473503037578ZPP(ng/Ghb)1428103814226890合 计5078128SFSF法:灵敏度法:灵敏度=(47=(4750)50)100%=94%100%=94%特异度特异度=(75=(7578)78)100%=96%100%=96%Youden Youden指数指数=94%+96%=94%+96%1=0.901=0.90ZPPZPP法:灵敏度法:灵敏度=(28=(2850)5
17、0)100%=56%100%=56%特异度特异度=(68=(6878)78)100%=87%100%=87%Youden Youden指数指数=56%+87%=56%+87%1=0.431=0.43H H0 0:SFSF法的总体法的总体YoudenYouden指数与指数与ZPPZPP法相同。法相同。=0.05=0.05,并根据公式计算如下:,并根据公式计算如下:SFSF法的法的YoudenYouden指数方差指数方差同理,同理,ZPPZPP法的方差:法的方差:S S2 2YI2YI2=0.00=0.0063616361查查z z 临界临界值表,值表,z z0.050.05=1.96=1.96,
18、z zz z0.050.05,P P0.050.05,按,按 0.050.05水准水准拒绝拒绝H H0 0,即,即SFSF法与法与ZPPZPP法总体法总体YoudenYouden指数不同,指数不同,SFSF法较优。法较优。001602.0753753347347332YI1S17.5089.044.090.0089.0006361.0001602.0YI2YI1212YI22YI1YI2YI1SYIYIzSSS不同诊断水平不同诊断水平与与灵敏度、特异性灵敏度、特异性 不同血糖标准时血糖试验的灵敏度、特异度不同血糖标准时血糖试验的灵敏度、特异度 血糖水平血糖水平mg/100ml灵敏度灵敏度%特异
19、度特异度%80100.01.29098.67.310097.125.311092.948.412088.668.213081.482.414074.391.215064.396.116055.798.617052.999.618050.099.819044.399.820037.1100.0ROC曲线以灵敏度为纵坐标,假阳性率(曲线以灵敏度为纵坐标,假阳性率(1特异度)为横坐特异度)为横坐标作图所得的曲线。该曲线反映灵敏度与特异度之间相互关标作图所得的曲线。该曲线反映灵敏度与特异度之间相互关系的一种方法。系的一种方法。受试者工作特征曲线受试者工作特征曲线(receive operator ch
20、aracteristic curve,ROC曲线)曲线)临床参考值(临床参考值(reference valuereference value)的确定)的确定u参考值是指正常人体在解剖、生理、生化上的正常水平以参考值是指正常人体在解剖、生理、生化上的正常水平以及人体对各种试验的正常反应值。这里的正常人是指没有及人体对各种试验的正常反应值。这里的正常人是指没有得所检查疾病的人得所检查疾病的人.u确定参考值的方法主要有:确定参考值的方法主要有:1.1.统计学方法统计学方法:人为、无生物学基础人为、无生物学基础 如数据呈正态分布:如数据呈正态分布:如数据呈偏态分布:如数据呈偏态分布:双侧:双侧:P P
21、2.52.5P P97.597.5 单侧:单侧:0 0P P9595,或或 P P5 52从危险度和预后确定:按疾病的各种危险因素的危险度或预后情况确定参考值范围。危险度决定法在足够样本量的前瞻性队列研究基础上,能够较确切地反映该地区人群某种指标的参考值范围。3 3实用界限:满足灵敏度、特异度和正确指数的要求实用界限:满足灵敏度、特异度和正确指数的要求ROCROC曲线常用来决定最佳临界点,接近左上角那一点,曲线常用来决定最佳临界点,接近左上角那一点,可定为最佳临界点可定为最佳临界点预测值(预测值(predicative value,PVpredicative value,PV)%100%100
22、baa试验结果阳性人数真阳性阳性预测值3baabSPPV表示试验结果阳性者可能有该病的概率,阳性预测值表示试验结果阳性者可能有该病的概率,阳性预测值越高,诊断价值越高。越高,诊断价值越高。)1)(1(特异度患病率患病率灵敏度患病率灵敏度阳性预测值影响阳性预测值的因素影响阳性预测值的因素 1 1、试验方法的灵敏度和特异度、试验方法的灵敏度和特异度 患病率为患病率为2%2%时,不同灵敏度,特异度的阳性预测值(时,不同灵敏度,特异度的阳性预测值(%)特异度特异度(%)灵敏度(灵敏度(%)50607080909599506070809095992.02.53.34.89.217.050.52.43.0
23、3.95.810.919.755.02.83.44.56.712.522.258.83.23.95.27.614.024.662.03.54.45.88.415.526.964.73.74.66.18.816.227.966.03.94.86.39.216.828.866.9患病率对预测值的影响患病率对预测值的影响 灵敏度为99%、特异度为95%的诊断试验在不同患病率的人群(1%、2、10检查的阳性预测值是多少?患病率患病率 1%2%10%(1)试验人数)试验人数100010001000(2)确实有病人数)确实有病人数1020100(3)确实无病人数)确实无病人数990980900(4)试验真
24、阳性()试验真阳性(2)0.9910(应为(应为9.9)20(19.8)99(5)试验假阳性)试验假阳性 (3)(1-0.95)50(应为(应为49.5)4945(6)总阳性数()总阳性数(4)+(5)6069144(7)阳性预测值()阳性预测值(4)/(6)10/60=17%20/69=29%99/144=68.8%患病率与预测值的关系患病率与预测值的关系在不同人群中在不同人群中PSAPSA试验诊断前列腺癌的价值试验诊断前列腺癌的价值图159 预测值与患病率的关系020406080100020406080100患病率(%)预测值(%)阳性预测值阳性预测值阴性预测值阴性预测值提高诊断试验效率的
25、方法提高诊断试验效率的方法一、选择合适而正确的指标一、选择合适而正确的指标 主观指标、半客观指标、客观指标主观指标、半客观指标、客观指标 二、选择患病率较高的人群二、选择患病率较高的人群 1.1.设立专科门诊设立专科门诊 2.2.选择高危人群选择高危人群 3.3.选择有特殊临床表现的人群选择有特殊临床表现的人群 三、联合试验三、联合试验 并联(平行)试验并联(平行)试验 串联(系列)试验串联(系列)试验试验试验A试验试验B并联试验并联试验 串联试验串联试验联合试验联合试验 指同时做几项试验,只要有一个试验结果阳性,结指同时做几项试验,只要有一个试验结果阳性,结果即判断阳性。对于试验果即判断阳性
26、。对于试验A A和和B B,并联试验后灵敏度和特,并联试验后灵敏度和特异度分别为:异度分别为:灵敏度灵敏度ABAB=灵敏度灵敏度A A+(1 1灵敏度灵敏度A A)灵敏度灵敏度B B 灵敏度灵敏度A A或灵敏度或灵敏度B B特异度特异度ABAB=特异度特异度A A特异度特异度B B 灵敏度灵敏度A A或灵敏度或灵敏度B B并联(平行)试验(并联(平行)试验(parallel testparallel test)在串联试验中,只有每项试验均为阳性,最后结果才在串联试验中,只有每项试验均为阳性,最后结果才判断为有病,其灵敏度和特异度分别为:判断为有病,其灵敏度和特异度分别为:灵敏度灵敏度ABAB=
27、灵敏度灵敏度A A灵敏度灵敏度B B 灵敏度灵敏度A A或或B B特异度特异度ABAB=特异度特异度A A+(1 1特异度特异度A A)特异度特异度B B 特异度特异度度度A A或或B B串联试验串联试验:又称系列试验(又称系列试验(serial testsserial tests)试验结果试验结果 尿糖尿糖血糖血糖糖尿病病人糖尿病病人非糖尿病病人非糖尿病病人14141010333311111171172121353575997599合计合计 19919976417641血糖试验血糖试验 75.3875.3899.5899.58尿糖试验尿糖试验 65.8365.8399.5999.59串联试验
28、串联试验 58.7958.7999.7399.73并联试验并联试验 82.4182.4199.4599.45试验方法试验方法 灵敏度(灵敏度(%)特异度(特异度(%)疾病筛检疾病筛检u筛检(screening)是指应用快速的试验、检查或其他方法找出未被识别的疾病患者或缺陷病人(即表面健康的临床早期或临床前期的病人)的一种主动的卫生保健措施。u筛检试验不同于诊断,阳性者或可疑阳性者应当指定就医,进一步诊断和必要的治疗。疾病筛检的程序疾病筛检的程序筛检试验筛检试验诊断试验诊断试验对象健康人或无症状的病人病人目的发现可疑病人对病人进行确诊要求快速、简便、安全,高灵敏度 复杂、准确性和特异度高 费用经
29、济、廉价花费较高 处理用诊断试验确诊 严密观察和及时治疗 筛检和诊断试验的区别筛检和诊断试验的区别v 发现某病的可疑患者,实现早发现、早诊断、早发现某病的可疑患者,实现早发现、早诊断、早治疗治疗(二级预防二级预防)v 确定高危人群,从病因学角度采取措施,延缓疾确定高危人群,从病因学角度采取措施,延缓疾病的发生病的发生(一级预防一级预防)v 了解疾病自然史了解疾病自然史 筛检的应用筛检的应用易感期易感期 临床前期临床前期 临床期临床期 残疾、死亡残疾、死亡 暴露出现症状诊断、治疗康复筛检筛检的效果评价筛检的效果评价 u 收益:通过疾病筛检能早期发现病人的数量收益:通过疾病筛检能早期发现病人的数量
30、 u 预后效果的评价:病死率、死亡率、生存率预后效果的评价:病死率、死亡率、生存率 u 卫生经济学效果评价卫生经济学效果评价 u 成本效果分析、成本效益分析、成本效用分析成本效果分析、成本效益分析、成本效用分析 领先时间(领先时间(lead timelead time)易感期易感期 临床前期临床前期 临床期临床期死亡死亡 暴露暴露出现症状出现症状诊断、诊断、治疗治疗康复康复筛检筛检t t1 1t t2 2t t3 3t t3 3 领先时间领先时间是指通过筛检试验,在慢性病自然史的早期阶是指通过筛检试验,在慢性病自然史的早期阶段,如症状出现前,提前做出诊断,从而赢得提前治疗段,如症状出现前,提前
31、做出诊断,从而赢得提前治疗疾病的时间。疾病的时间。领先时间偏倚领先时间偏倚是指筛检诊断时间和临床诊断时间之差被是指筛检诊断时间和临床诊断时间之差被解释为因筛检而延长的生存时间解释为因筛检而延长的生存时间t t3 3 =t t1 1 +t t2 2 筛检无效筛检无效t3t3t1+t2 t1+t2 筛检有效筛检有效病程长短偏倚(病程长短偏倚(length biaslength bias)疾病 开始筛检查出症状开始死亡 PYOPYDOPYDOPYDODYODPOPYD时间时间筛检筛检图图7-11 7-11 病程长短偏倚示意图病程长短偏倚示意图 恶性程度高恶性程度高恶性程度低恶性程度低一些恶性程度低的
32、肿瘤一些恶性程度低的肿瘤病人常有较长的临床前期,病人常有较长的临床前期,而恶性程度高的同类肿瘤而恶性程度高的同类肿瘤病人的临床前期较短。因病人的临床前期较短。因此,前者被筛检到的机会此,前者被筛检到的机会较后者大,而前者的生存较后者大,而前者的生存期又比后者长,从而产生期又比后者长,从而产生筛检者要比未筛检者生存筛检者要比未筛检者生存时间长的假象时间长的假象OPYD卫生经济学效果评价卫生经济学效果评价u成本效果分析成本效果分析(cost-effectiveness analysis)(cost-effectiveness analysis):分析实:分析实施筛检计划的投入费用与获得的生物学效果
33、。估计每发现一施筛检计划的投入费用与获得的生物学效果。估计每发现一例病例的平均成本包括直接与间接成本,预后的改善情况,例病例的平均成本包括直接与间接成本,预后的改善情况,如生存时间,以此计算成本效果的比率,如每延长一年生存如生存时间,以此计算成本效果的比率,如每延长一年生存所消耗的成本。所消耗的成本。u成本效益分析成本效益分析(cost-benefit analysis)(cost-benefit analysis)分析实施筛检计分析实施筛检计划的投入费用与获得的经济效益的比值,以货币单位来计算。划的投入费用与获得的经济效益的比值,以货币单位来计算。u成本效用分析成本效用分析(cost-uti
34、lity analysis)(cost-utility analysis)分析实施筛检计划分析实施筛检计划投入的费用与获得的生命质量的改善。投入的费用与获得的生命质量的改善。u该地区当前重大的公共卫生问题该地区当前重大的公共卫生问题u对筛检阳性者,有对筛检阳性者,有明确有效的进一步诊治措施。明确有效的进一步诊治措施。u疾病自然史明确,有可识别的早期症状和体征疾病自然史明确,有可识别的早期症状和体征u有适宜的筛检技术:要有快速、简便、经济、非侵入性的有适宜的筛检技术:要有快速、简便、经济、非侵入性的和高灵敏度、特异度、和高灵敏度、特异度、易易被受检者接受的检查方法。被受检者接受的检查方法。u有足够的人力、财力与物力。考虑成本与效益有足够的人力、财力与物力。考虑成本与效益u筛检是一项按计划定期进行的连续性工作。筛检是一项按计划定期进行的连续性工作。实施筛检的基本原则实施筛检的基本原则