1、诊断试验评价诊断试验评价徐涛徐涛主要内容主要内容v评价诊断试验的常用指标灵敏度、特异度一致率、Youden指数、似然比阳性预测值、阴性预测值vROC曲线ROC曲线的定义和用途ROC曲线下面积的估计和检验何为诊断试验?v诊断试验(Diagnostic test)是指为给患者做出诊断所应用的各种实验室检查、医疗仪器检查及其它方法。v包括各种实验室检查诊断、影像诊断和仪器诊断等(如X线、超声波、CT扫描、磁共振及纤维内镜等)。v一项好的诊断试验,应具备疾病存在时能正确地发现疾病、疾病不存在时能正确地排除疾病的能力,即具有较高的诊断准确度准确度。如何评价诊断试验的准确度v诊断试验评价的基本方法是用所谓
2、的“金标准”,确诊区分某病的病人和非病人,再应用待评价的诊断方法盲法测定这些研究对象,通过比较两者的一致性情况对新的测定方法进行评价。v金标准(Gold standard)是指当前医学界公认的最准确的诊断方法,如手术、病理学检查、生物标志物的检测等。金标准金标准v理论上:能检测出所有患者,同时又能排除所有非患者的检查方法或诊断过程。方法应该100%准确v实际上:当前医学公认的诊断疾病的最准确的方法,即标准诊断通常比需评价的诊断试验更昂贵或更危险或更客观但不能及时做出诊断的检查,如组织活检、手术、尸检等。有时只能将数年后的随访结果作为金标准,一些非自限性、在发现可疑征兆数年后疾病表现进展会更明显
3、的疾病(如大部分癌症及退行性疾病)。如何评价诊断试验的准确度v在实际工作中,必须按照某种原则选择一个诊断标准或阈值,据此判断检测对象是否患有某种疾病。如高血压的诊断标准为:140/90mmHgv但是患者与非患者的测量指标分布常有一定重叠,导致诊断不准确。3210-1-2-3-+非患者非患者患者患者阈值阈值漏诊漏诊误诊误诊诊断试验可能出现两类错误v假阳性错误:实际未患病但检测结果为阳性,即误诊;v假阴性错误:实际患病但检测结果为阴性,即漏诊;v一个准确度好的诊断试验应将误诊和漏诊都控制在最小范围内。评价诊断试验的常用指标v灵敏度、特异度v一致率、Youden指数、似然比v阳性预测值、阴性预测值不
4、同研究对象的诊断试验结果表金标准金标准诊断试验结果诊断试验结果阳性阳性阴性阴性合计合计患者患者aba+b非患者非患者cdc+d合计合计a+cb+da+b+c+d灵敏度与假阴性率v灵敏度(Sensitivity,Se)是指真实患者中诊断结果为阳性的概率,也称为真阳性率(True Positive Rate,TPR)、敏感度,反映了正确诊断某种疾病的能力。v假阴性率(False Negative Rate,FNR)指患者被诊断为阴性的概率,也称为漏诊率。%100baaSe%100b1FNRbaSe特异度与假阳性率v特异度(Specificity,Sp)是指非患者中诊断结果仍为阴性的概率,也称之为真
5、阴性率(True Negative Rate,TNR),反映了疾病不存在时正确排除疾病的能力。v假阳性率(False Positive Rate,FPR)是指非患者被诊断为阳性的概率,也称为误诊率。%100dcdSp%100c1FdcSpPR灵敏度与特异度的可信区间v灵敏度和特异度实际上是一种概率指标,故当样本量较大时,其标准误和可信区间的计算可按照正态近似法利用率的标准误和可信区间进行。v当样本量较小、或灵敏度和特异度接近1时,可用精确概率法计算其可信区间。(P u/2Sp,P+u/2 Sp)nppsp)1(灵敏度与特异度的标准误3)1()(baabbaSeSeSeSE3)1()(dccdd
6、cSpSpSpSE灵敏度与特异度v例 70例糖尿病患者及510例非患者在口服葡萄糖2小时后进行血糖试验,若以6.7mmol/L为阳性标准,试计算该血糖试验的灵敏度和特异度。金标准金标准诊断结果诊断结果阳性阳性阴性阴性合计合计患者患者62870非患者非患者162348510合计合计224356580灵敏度%57.88%1007062%100baaSe0380.070862)1()(33baabbaSeSeSeSE 灵敏度的95%可信区间为:Se u/2SE(Se)=0.8857 1.960.0380=(0.8112,0.9602)特异度%24.68%100510348%100dcdSp0206.
7、0510348162)1()(33dccddcSpSpSpSE 灵敏度的95%可信区间为:Sp u/2SE(Sp)=0.6824 1.960.0206=(0.6420,0.7228)灵敏度与特异度的关系v灵敏度只与真实的患者的检测结果有关;v特异度只与真实的非患者的检测结果有关;v研究对象中患者与非患者的比例对灵敏度和特异度的估计值没有影响。v随着诊断界值提高,灵敏度降低、漏诊率提高,但特异度提高、误诊率降低;v随着诊断界值降低,灵敏度提高、漏诊率降低,但特异度降低、误诊率提高。3210-1-2-3-+非患者非患者患者患者阈值阈值漏诊率漏诊率误诊率误诊率特异度特异度灵敏度灵敏度灵敏度、特异度与
8、诊断界值v当诊断试验的检测结果为定量指标或有序分类变量时,取不同的临界值作为诊断界值(cut-off point),试验将有不同的灵敏度和特异度。v灵敏度、特异度和诊断界值有关。乳腺超声诊断乳腺肿瘤结果金标准乳腺超声良性1可能良性2可能恶性3恶性4合计良性381363242491恶性71815876970合计45244479181461诊断界值灵敏度特异度1为阳性1.0000.0002为阳性0.9270.7763为阳性0.9190.8494为阳性0.9030.9144为阳性0.0001.000(8+15+876)/970381/491两样本资料灵敏度、特异度的比较v这些指标实际上是一种概率指标
9、,可以利用两个或多个率的比较方法,如用根据应用条件用卡方检验或精确概率法比较灵敏度和特异度等。两样本资料灵敏度、特异度的比较v分别用A、B两种方法进行糖尿病诊断,试比较两种方法的灵敏度和特异度。金标准金标准A方法诊断结果方法诊断结果阳性阳性阴性阴性合计合计患者患者62870非患者非患者162348510合计合计224356580%57.88%1007062%100baaSe%24.68%100510348%100dcdSp两样本资料灵敏度、特异度的比较金标准金标准B方法诊断结果方法诊断结果阳性阳性阴性阴性合计合计患者患者581270非患者非患者112398510合计合计170410580%86
10、.82%1007058%100baaSe%04.78%100510398%100dcdSpH0:两方法的灵敏度相同 H1:两方法的灵敏度不同 =0.05诊断结果诊断结果阳性阳性阴性阴性合计合计A方法方法62870B方法方法581270合计合计12020140933.0)()()()(22dbcadcbanbcadP0.05,两种方法的灵敏度的差异无统计学意义。H0:两方法的特异度相同 H1:两方法的特异度不同 =0.05诊断结果诊断结果阳性阳性阴性阴性合计合计A方法方法162348510B方法方法112398510合计合计2747461020495.12)()()()(22dbcadcbanb
11、cadP0.05,两种方法的特异度的差异有统计学意义。一致率v一致率(Agreement Rate)指研究对象中诊断正确的例数占总例数的比例,即患者中检查结果为阳性和非患者中检测结果为阴性占总例数的比例,也称为符合率。%100dcbada一致率一致率v当对照组不是金标准时:灵敏度称为阳性一致率、阳性符合率;特异度称为阴性一致率、阴性符合率。Youden指数vYouden指数(Youdens index,J)是真阳性率(灵敏度)与假阳性率之差,即灵敏度和特异度之和减1;vYouden指数越大,说明诊断准确度越高。1-SpSeSp)-(1-SeFPR-SeJ似然比v似然比(Likelihood R
12、atio,LR)为两个概率之比,包括阳性似然比LR(+)和阴性似然比LR(-)。v阳性似然比表示患者诊断结果阳性的概率是非患者诊断结果阳性的概率的多少倍。v阳性似然比实为真阳性率与假阳性率之比,阳性似然比越大,诊断准确度越高。cbadcaSpSe)()(1)LR(似然比v阴性似然比表示患者诊断结果阴性的概率是非患者诊断结果阴性的概率的多少倍。v阴性似然比实为假阴性率与真阴性率之比,阴性似然比越小,诊断准确度越高。dbadcbSpSe)()(1)LR(一致率、Youden指数和似然比v例 70例糖尿病患者及510例非患者在口服葡萄糖2小时后进行血糖试验,若以6.7mmol/L为阳性标准,试计算该
13、血糖试验的一致率、Youden指数和似然比。金标准金标准诊断结果诊断结果阳性阳性阴性阴性合计合计患者患者62870非患者非患者162348510合计合计224356580一致率、Youden指数和似然比%69.7034816286234862%100dcbada一致率56.81%1-0.68240.88571-SpSeJ79.26824.018857.01)LR(SpSe17.06824.08857.011)LR(SpSe预测值v预测值表示当诊断试验为某种结果时,受试者能被确诊为病人或非病人的概率。v预测值与试验的灵敏度、特异度和受试人群中所研究疾病的患病率有关。v预测值包括阳性预测值和阴性预
14、测值。阳性预测值v阳性预测值(Positive Predictive Value,PPV,PV+)是指诊断结果为阳性时,实际为患者的概率。vP0为人群患病率,但研究样本为人群的随机样本时:)1)(1(000SpPSePSePPPVcaaPPV阴性预测值v阴性预测值(Negative Predictive Value,NPV,PV-)是指诊断结果为阴性时,实际为非患者的概率。vP0为人群患病率,但研究样本为人群的随机样本时:)1()1()1(000SePSpPSpPNPVdbdNPVROC曲线v当诊断试验的检测结果为定量指标或有序分类指标时,多个诊断界值可以得到多个灵敏度和特异度。vROC曲线也
15、称为受试者工作特征(Receiver Operating Characteristic)曲线,可以综合考虑诊断试验在所有诊断界值时的灵敏度和特异度。vROC曲线是以(1-特异度)为横坐标,以灵敏度为纵坐标绘制而成的曲线,它用线段连接每个诊断界值对应的(1-特异度),灵敏度点。0.00.20.40.60.81.01 特异度1 特异度0.00.20.40.60.81.0灵灵敏敏度度机会线机会线机会线(chance line)v曲线下从原点到右上角的对角线称为机会线(chance line),表示无论取何诊断界值,灵敏度=1-特异度,及真阳性率=假阳性率,即无论患者还是非患者都有相同的“机会”被诊断
16、为阳性。ROC曲线的应用v综合评价某种检查方法的灵敏度和特异度,并最终确定临床诊断时的最优切分点。v v一般选择位于ROC曲线的肩部所在的分界点为最优切分点(敏感度+特异度最大)。ROC曲线下的面积vROC曲线下的面积(Area Under the ROC Curve,AUC,A)可用于综合反映诊断试验的准确度。vROC曲线越接近机会线,即曲线下面积越接近0.5,表明试验区分患者和非患者的能力越差,越接近1,表明试验的诊断准确度越强。ROC曲线下的面积vAUC及其标准误可以通过参数法(如双正态模型等)或非参数法计算,现常用Hanley和McNceil提出的非参数法,可通过SPSS软件中的ROC
17、分析模块完成。v可用u检验对AUC进行假设检验,实际上是检验AUC是否为0.5.)(5.0ASEAuROC曲线下的面积v例:现用A技术检测病人血清钠水平,想了解血清钠对洛基山猩红热(RMSF)是否有诊断作用。共45位病人,一组确诊有RMSF,另一组没有患病,但也有发热、头痛和蚊虫叮咬史。试进行ROC分析。曲线的坐标曲线的坐标检验结果变量:A方法123.00.000.000124.50.048.000125.50.095.000126.50.190.000127.50.238.000128.50.429.042129.50.524.042130.50.524.083131.50.571.0831
18、32.50.619.083133.50.714.083134.50.714.167135.50.857.250136.50.905.375137.50.905.458138.50.952.542139.501.000.708140.501.000.792141.501.000.833142.501.000.958144.001.0001.000如果小于或等于则为正a敏感度1 特异性检验结果变量:A方法 在正的和负的实际状态组之间至少有一个结。最小界限值是最小观测检验值减 1,最大界限值是最大观测检验值加 1。所有其它的界限值都是两个邻近的观测检验值的平均值。a.ROC曲线下的面积曲线下的面积检
19、验结果变量:A方法.878.051.000.778.978面积标准误a渐进 Sig.b下限上限渐近 95%置信区间检验结果变量:A方法 在正的和负的实际状态组之间至少有一个结。统计量可能会出现偏差。在非参数假设下a.零假设:实面积=0.5b.两样本ROC曲线下面积的比较v可利用AUC的标准误进行u检验(Z检验)比较两个ROC曲线下的面积。)()(221221ASEASEAAu两样本ROC曲线下面积的比较v现用A、B两种技术检测病人血清钠水平,想了解血清钠对洛基山猩红热(RMSF)是否有诊断作用,以及哪种检测技术更准确。共45位病人,一组确诊有RMSF,另一组没有患病,但也有发热、头痛和蚊虫叮咬
20、史。请做出两者的ROC曲线,并比较曲线下的面积。0.00.20.40.60.81.01 特异性1 特异性0.00.20.40.60.81.0灵灵敏敏度度曲线源A方法B方法参考线两样本ROC曲线下面积的比较曲线下的面积.878.051.000.778.978.808.064.000.681.934检验结果变量A方法B方法面积标准误a渐进 Sig.b下限上限渐近 95%置信区间检验结果变量:A方法,B方法 在正的和负的实际状态组之间至少有一个结。统计量可能会出现偏差。在非参数假设下a.零假设:实面积=0.5b.两样本ROC曲线下面积的比较vH0:A1=A2 H1:A1A2 v=0.05vU0.05,按照=0.05的水准,不拒绝H0,不能认为两检测技术的ROC曲线下面积的差异有统计学意义。855.0064.0051.0808.0878.0)()(22221221ASEASEAAu诊断试验评价的注意事项v金标准的选择v研究对象的选择 研究对象的代表性v诊断结果的判断 盲法判断v配对设计和完全随机设计小结v评价诊断试验的常用指标灵敏度、特异度一致率、Youden指数、似然比阳性预测值、阴性预测值vROC曲线ROC曲线的定义和用途ROC曲线下面积的估计和检验