1、第九章 流行病学研究中的偏倚及其控制Chapter 9 Bias路 滟电话:86-25-86862755(o)电邮: 南京医科大学公共卫生学院流行病与卫生统计学系南京医科大学公共卫生学院流行病与卫生统计学系 第一节 研究的真实性与可靠性 第二节 研究的偏倚及其控制 总结讲课提纲 流行病学的方法观察法 实验法理论法临床试验临床试验现场试验现场试验社区试验社区试验分析性研究分析性研究病例对照研究病例对照研究 队列研究队列研究描述性研究描述性研究现况调查现况调查生态学研究生态学研究 从统计关联到因果联系暴露与疾病有无关联偶然关联(随机误差)有统计学关联虚假关联因果关联选择偏倚信息偏倚混杂偏倚是否符合
2、因果推断标准间接联系直接联系 思考?n有人用病例对照研究方法探讨冠心病与喝咖啡的关系,选择同一医院的非冠心病的其他慢性病患者为对照,结果显示冠心病组喝咖啡的量和次数显著地大于对照组,提示喝咖啡可能是冠心病的一个原因但进一步调查显示,这些慢性病患者较急性病患者或正但进一步调查显示,这些慢性病患者较急性病患者或正常人喝咖啡少,提示该研究所选的对照组不是全部非冠常人喝咖啡少,提示该研究所选的对照组不是全部非冠心病病例的一个无偏样本,而可能包含了严重的选择偏心病病例的一个无偏样本,而可能包含了严重的选择偏倚,从而导致了喝咖啡与冠心病有关的倚,从而导致了喝咖啡与冠心病有关的“假关联假关联”结果结果n真实
3、性,准确性,效度 validity,accuracy:测量结果与真实情况符合的程度内部真实性内部真实性外部真实性外部真实性n可靠性,可重复性,精密度,信度 reliability,reproducibility,repeatability,precision:在相同条件下重复测量同一个体/标本获得相同结果的稳定程度第一节 研究的真实性与可靠性真实性差可靠性好真实性好可靠性差真实性 vs.可靠性真实性好可靠性好真实性差可靠性差真实性 vs.可靠性内部真实性 vs.外部真实性n内部真实性(internal validity):从当前研究对象得到的结果能否准确地反映目标/源人群的真实情况 n外部真实
4、性(external validity/generalizability):从当前研究对象得到的结果能否适用于目标人群以外的其他人群(外推性)n内部真实性是外部真实性的先决条件推论代表性不好,内部真实性可能好,而外部真实推论代表性不好,内部真实性可能好,而外部真实性差。性差。增加研究对象的增加研究对象的同质性同质性(如限制类型如年龄、职业、(如限制类型如年龄、职业、体质特征或疾病分型等),可改善内部真实性。体质特征或疾病分型等),可改善内部真实性。增加研究对象的增加研究对象的异质性异质性,可改善外部真实性。,可改善外部真实性。在实际研究需综合考虑研究对象的同质性和异质性在实际研究需综合考虑研究
5、对象的同质性和异质性问题。问题。内部真实性与外部真实性的联系研究样本?内部真实性内部真实性 目标/源人群疾病暴露+其他人群其他人群?外部真实性(外推性)内部真实性 vs.外部真实性影响真实性与可靠性的因素n变异变异n生物学变异n测量变异n随机变异n系统变异变异的水平变异性的水平变异性的水平变异的来源变异的来源个体水平个体水平个体生物学变异、测量误差个体生物学变异、测量误差群体水平群体水平个体间遗传学变异、环境变异、个体间遗传学变异、环境变异、测量误差测量误差样本水平样本水平抽样方式、样本大小、测量误差抽样方式、样本大小、测量误差180,174,215,305233,276,146,195205
6、,188,190,295170,164,248,162220,219,228,250295,146,220,162,228219,164,190,188,233205,276,195,215,170源群体源群体 样本样本A A 样本样本B B 样本样本C C 高胆固醇率=40%=20%=0%高胆固醇率=25%(240mg/dL)源群体与样本高胆固醇率的样本变异性示例源群体与样本高胆固醇率的样本变异性示例变异的水平 研究 A(研究对象 200 人,随机分配到两组)膳食改良组 降胆固醇药物组 0 5 10 15 五年内发生 心肌梗死风险(%)研究 B(研究对象 2000 人,随机分配到两组)膳食改
7、良组 降胆固醇药物组 0 5 10 15 五年内发生 心肌梗死风险(%)膳食与药物预防心机梗死的样本变异性示例膳食与药物预防心机梗死的样本变异性示例6%9%6%9%观测值观测值真实值真实值误差误差+随机误差随机误差系统误差系统误差+随机分布的随机分布的,不可预测的不可预测的不可避免的不可避免的可估计误差大小可估计误差大小通过增加样本量或重复测通过增加样本量或重复测量取均值可以减小量取均值可以减小系统的偏离真实值系统的偏离真实值可避免的可避免的是必须控制的是必须控制的(偏倚偏倚 bias)影响真实性与可靠性的因素随机误差和系统误差的区别样本大小误差随机误差系统误差观测值观测值真实值真实值误差误差
8、+随机误差随机误差系统误差系统误差+(偏倚偏倚 bias)随机误差和系统误差的区别Bias(600-540BC)nBias是古典文化中七贤人之一是古典文化中七贤人之一nLydia国王克利萨斯向国王克利萨斯向Bias咨询建造、部署咨询建造、部署战舰防御爱奥尼亚人的最好方法,战舰防御爱奥尼亚人的最好方法,Bias为为了避免战争、流血,骗克利萨斯国王说,了避免战争、流血,骗克利萨斯国王说,爱奥尼亚人正在买马准备陆地战,后来,爱奥尼亚人正在买马准备陆地战,后来,Bias向克利萨斯国王承认,他说了谎,爱向克利萨斯国王承认,他说了谎,爱奥尼亚人实际上也在建造战舰,克利萨斯奥尼亚人实际上也在建造战舰,克利萨
9、斯国王对国王对Bias的本意表示赞许,与爱奥尼亚的本意表示赞许,与爱奥尼亚人讲和,后人将人讲和,后人将“背离事实背离事实”称为称为bias(Hunter D.Father of all bias?BMJ 2002;324:1071第二节 研究的偏倚及其控制n偏倚偏倚 bias 是指研究设计、实施、分析和推断是指研究设计、实施、分析和推断过程中存在的各种对暴露因素与疾病关系的错过程中存在的各种对暴露因素与疾病关系的错误估计,它系统地歪曲了暴露因素与疾病间的误估计,它系统地歪曲了暴露因素与疾病间的真实联系,是一种系统误差真实联系,是一种系统误差n偏倚是有方向的。当研究结果因偏倚而被夸大偏倚是有方向
10、的。当研究结果因偏倚而被夸大时,称为正偏倚;当研究结果因偏倚而被缩小时,称为正偏倚;当研究结果因偏倚而被缩小时,称为负偏倚时,称为负偏倚研究的偏倚及其控制n如果用如果用RR来表示人群中因素和疾病真实的联系来表示人群中因素和疾病真实的联系强度,强度,表示研究获得的因素和疾病的联系强表示研究获得的因素和疾病的联系强度,则相对于危险因素,正偏倚时,度,则相对于危险因素,正偏倚时,RR;负偏倚时,负偏倚时,RR。相对于保护因素,正偏倚。相对于保护因素,正偏倚时,时,RR n选择偏倚选择偏倚 selection biasn信息偏倚信息偏倚 information biasn混杂偏倚混杂偏倚 confou
11、nding biasRRRRRRRRRR研究的偏倚及其控制选择偏倚 selection biasn选择偏倚是流行病学研究中由于被选入到研究中的研究对象与没有被选入者在暴露或疾病有关的特征上的差异所造成的系统误差n表现:描述性研究:样本对总体的代表性样本对总体的代表性分析性研究:增大或减少暴露与疾病、处理与效应增大或减少暴露与疾病、处理与效应的关联,导致效应估计的偏倚的关联,导致效应估计的偏倚n入院率偏倚入院率偏倚n现患现患-新发病例偏倚新发病例偏倚n检出症候偏倚检出症候偏倚n纳入纳入/排除偏倚排除偏倚n无应答偏倚无应答偏倚n失访偏倚失访偏倚n易感性偏倚(志愿者偏倚和健康工人效应)易感性偏倚(志
12、愿者偏倚和健康工人效应)选择偏倚 selection bias入院率偏倚n假如在人群进行一项病例对照研究,以B病为对照,研究A病与某因素X的关系。设人群中患A病与B病者各为5000人,暴露于因素X者各为750人,不暴露于因素X者各为4250人,X 在A、B患者中的暴露率均为15%adORbc)()()()(22dcdbcabanbcad暴露XA病B病合计有7507501500无425042508500=1.00入院率偏倚n现在医院进行病例对照研究研究A病与某X的关系;n假定A病患者住院率60%,B病患者住院率25%,同时具有X因素者的住院率为40%,现就上述不同的入院率计算住院病人:nA病有C
13、因素人数:nB病有C因素人数:nA病住院而无C因素人数:nB病住院而无C因素人数:570%40%60750750%60750413%40%25750750%257502550%6042501063%254250n现在医院进行病例对照研究研究A病与某X的关系;n假定A病患者住院率60%,B病患者住院率25%,同时具有X因素者的住院率为40%,则该医院进行的病例对照研究的样本构成如下:暴露XA病B病合计有5704131600无25501063400合计100010002000adORbc=0.575入院率偏倚入院率偏倚的测量为正值,说明由于入院率偏倚的存在,使得暴露X与疾病A之间的联系强度高估了4
14、2.5%425.000.1575.000.1OROROR121入院率偏倚n假设总体的联系强度为OR1,病例对照研究样本的联系强度为OR2,则入院率偏倚可估计为现患-新发病例偏倚n在Framingham心血管病的研究中,采用队列研究获得血清胆固醇与冠心病关系的结果不同于另一项病例对照研究的结果,具体结果见下表胆固醇水平胆固醇水平队列研究队列研究*病例对照研究病例对照研究*到第到第6次检查时次检查时为止总共发生为止总共发生新冠心病人数新冠心病人数到第到第6次检查次检查时为止未发生时为止未发生新冠心病人数新冠心病人数合计合计第第6次检查次检查时现患冠心时现患冠心病人数病人数第第6次检查时次检查时不患
15、冠心病不患冠心病人为对照人为对照合计合计75%分位数分位数854625473834720.05 回忆偏倚n同时为了了解研究对象所提供的过去暴露史的准确性,同时为了了解研究对象所提供的过去暴露史的准确性,对部分研究对象比较了医院病历记录对部分研究对象比较了医院病历记录X X线照射史与母亲线照射史与母亲回忆回忆X X线照射史线照射史回忆偏倚在病例对照研究中,错分的灵敏度指正确查出有暴露史在病例对照研究中,错分的灵敏度指正确查出有暴露史者占实际有暴露史人数的比例;特异度指正确查出无暴者占实际有暴露史人数的比例;特异度指正确查出无暴露史者占实际无暴露史人数的比例露史者占实际无暴露史人数的比例240.7
16、0634eS 310.93933pS 灵敏度特异度回忆偏倚的测量1()/(1)ppeASncSS=(0.939251-179)/(0.939+0.706-1)=882()/(1)ppeBSndSS=(0.939251-193)/(0.939+0.706-1)=661CnA2DnB=251-88=163=251-66=18588 18566 163ADaORBC1.511.34 1.510.1131.51xORaORaOR回忆偏倚报告偏倚n与回忆偏倚不同,对象报告偏倚是因为对象有意夸大或隐瞒某些信息导致了对疾病或暴露程度的错误分类例如:近年来,有关人工流产与乳腺癌关系的病例对照例如:近年来,有关
17、人工流产与乳腺癌关系的病例对照研究时有报道,但有研究发现,乳腺癌患者由于种种原研究时有报道,但有研究发现,乳腺癌患者由于种种原因,相对于对照来说更不愿意报告自己的人工流产史。因,相对于对照来说更不愿意报告自己的人工流产史。由此所致的对暴露史的错分可能会低估人工流产与乳腺由此所致的对暴露史的错分可能会低估人工流产与乳腺癌发病危险性的联系癌发病危险性的联系 诊断怀疑偏倚n由于研究者事先了解研究对象对研究因素的暴露情况,怀疑其已患某病,或主观上倾向于应该出现某种阳性结果,于是在作诊断或分析时,倾向于自己的判断。由此造成的偏倚为诊断怀疑偏倚例如:在研究女性使用卫生棉条和中毒性休克综合症的例如:在研究女
18、性使用卫生棉条和中毒性休克综合症的病例对照研究中,由于临床医生已获得相当多的两者之病例对照研究中,由于临床医生已获得相当多的两者之间关系的研究信息,他们会有意无意地将处于经期且使间关系的研究信息,他们会有意无意地将处于经期且使用内用卫生棉条有相关症状的妇女诊断为中毒性休克综用内用卫生棉条有相关症状的妇女诊断为中毒性休克综合症,从而夸大了经期使用卫生棉条和中毒性休克综合合症,从而夸大了经期使用卫生棉条和中毒性休克综合症间的联系症间的联系信息偏倚的控制n研究设计阶段对暴露因素必须有严格、客观的定义,并力求指标定对暴露因素必须有严格、客观的定义,并力求指标定量化量化要有统一、明确的疾病诊断标准要有统
19、一、明确的疾病诊断标准调查表项目应易于理解和回答调查表项目应易于理解和回答研究对象应清楚地了解本次研究的目的、意义和要求,研究对象应清楚地了解本次研究的目的、意义和要求,以获取其配合和支持以获取其配合和支持调查员需经过严格培训,能严谨客观地从事资料收集调查员需经过严格培训,能严谨客观地从事资料收集工作工作研究者应定期检查资料的质量,并设立质量控制程序研究者应定期检查资料的质量,并设立质量控制程序 信息偏倚的控制n资料收集阶段应尽量选用客观定量指标,可选用回忆指征帮助对象应尽量选用客观定量指标,可选用回忆指征帮助对象回忆,也可利用实物或照片来准确获取信息回忆,也可利用实物或照片来准确获取信息为了
20、避免主观诱导对象,除了严格培训调查员外,在为了避免主观诱导对象,除了严格培训调查员外,在临床试验和某些现场研究中,应尽可能采用临床试验和某些现场研究中,应尽可能采用“盲法盲法”以消除主观因素对研究结果的影响,但在采用以消除主观因素对研究结果的影响,但在采用“盲法盲法”的同时需考虑其伦理学可行性的同时需考虑其伦理学可行性研究中的各种测量仪器、试剂和方法都应标准化。应研究中的各种测量仪器、试剂和方法都应标准化。应使用同一型号的仪器并定期校验;试剂必须是同一品使用同一型号的仪器并定期校验;试剂必须是同一品牌、同一来源并力求同一批号;检测方法要统一,由牌、同一来源并力求同一批号;检测方法要统一,由专人
21、测定专人测定 信息偏倚的控制n统计分析阶段错分偏倚的校正错分偏倚在所比较组内的分布可以相同,也可以不错分偏倚在所比较组内的分布可以相同,也可以不同,可用错分的灵敏度和特异度来表示同,可用错分的灵敏度和特异度来表示当各比较组发生错分的灵敏度和特异度分别相同时,当各比较组发生错分的灵敏度和特异度分别相同时,产生的错分偏倚称为均衡性错分或非特异性错分。产生的错分偏倚称为均衡性错分或非特异性错分。当各比较组发生错分的灵敏度和特异度各不相同时,当各比较组发生错分的灵敏度和特异度各不相同时,称为非均衡性错分或特异性错分称为非均衡性错分或特异性错分 混杂偏倚 confounding biasn吸烟、火柴与肺
22、癌吸烟、火柴与肺癌n烟草公司的研究者坚持认为火柴暴露可以引起烟草公司的研究者坚持认为火柴暴露可以引起肺癌,他们开展了一项大型的病例对照研究来肺癌,他们开展了一项大型的病例对照研究来检验这个假说检验这个假说n研究者通过人群登记系统找到了研究者通过人群登记系统找到了1000名肺癌病名肺癌病例,其中例,其中820人曾携带过火柴;从人群中随机抽人曾携带过火柴;从人群中随机抽取了取了1000名对照,经名对照,经X线确认未患肺癌,其中线确认未患肺癌,其中340人曾携带过火柴;根据这批数据,定量估计人曾携带过火柴;根据这批数据,定量估计火柴与肺癌之间的关联火柴与肺癌之间的关联吸烟、火柴与肺癌8201808.
23、8(95%CI 7.2,10.9)340660OR 吸烟、火柴与肺癌n想分别了解一下吸烟者与不吸烟者中火柴与肺想分别了解一下吸烟者与不吸烟者中火柴与肺癌的关系癌的关系n结果发现在结果发现在10001000名病例中,名病例中,900900名为吸烟者,其名为吸烟者,其中中810810名曾携带火柴;在名曾携带火柴;在10001000名对照中,名对照中,300300名名为吸烟者,其中为吸烟者,其中270270名曾携带火柴名曾携带火柴n分层绘制分层绘制2 22 2表,计算火柴与肺癌的关联效应表,计算火柴与肺癌的关联效应值值吸烟、火柴与肺癌OR粗粗=8.8(7.2,10.9)OR吸烟者吸烟者 =1.0(0
24、.6,1.5)OR不吸烟者不吸烟者=1.0(0.5,2.0)吸烟、火柴与肺癌n这个例子说明:即使本来没有任何效应,混杂也可以引起明显的效应n在火柴与肺癌的关系中,吸烟就是一个混杂因素(confounding factor,confounder),吸烟混淆了火柴与肺癌之间的真实关系n现在我们想看看吸烟与肺癌的关系,不管是否携带火柴,应该构造什么样的表格呢?吸烟、火柴与肺癌OR粗粗 =21.0(16.4,26.9)OR携带火柴携带火柴 =21.0(10.7,41.3)OR不携带火柴不携带火柴=21.0(13.1,33.6)n既与疾病有制约关系,又与所研究的暴露因素有联系的既与疾病有制约关系,又与所
25、研究的暴露因素有联系的外来因素的影响,掩盖或夸大了所研究的暴露因素与疾外来因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系,叫混杂偏倚;这种外来因素称为混杂因素病的联系,叫混杂偏倚;这种外来因素称为混杂因素n混杂因素的条件混杂因素的条件必须与所研究疾病的发生有关,是该疾病的危险因必须与所研究疾病的发生有关,是该疾病的危险因素之一素之一 必须与所研究因素有关必须与所研究因素有关 必须不是研究因素与疾病病因链上的中间环节或中必须不是研究因素与疾病病因链上的中间环节或中间步骤间步骤混杂偏倚 confounding bias混杂偏倚 confounding bias交互作用 interaction
26、 n也称相互作用,当两种或两种以上暴露因素同时存在时,也称相互作用,当两种或两种以上暴露因素同时存在时,所致的效应不等于它们单个作用相联合的效应时,则称所致的效应不等于它们单个作用相联合的效应时,则称因素之间存在交互作用因素之间存在交互作用n当前者大于后者时称正交互作用,说明两种或多种因素当前者大于后者时称正交互作用,说明两种或多种因素同时存在时效应增强,其生物学含义为协同作用同时存在时效应增强,其生物学含义为协同作用(synergy)n当前者小于后者时称负交互作用,说明两种或多种因素当前者小于后者时称负交互作用,说明两种或多种因素同时存在时效应降低,其生物学含义为拮抗作用同时存在时效应降低,
27、其生物学含义为拮抗作用(antergy)混杂偏倚与交互作用的区别交互作用混杂作用定量关系,与真实性无关定性关系,影响真实性与研究设计无关设计阶段可预防研究感兴趣,需要做出报告的方面研究不感兴趣,需要控制的方面分层分析可揭示交互作用分层分析排除混杂作用评价交互作用,看各层OR是否相等 评价混杂,比较调整前后OR无交互作用:OR1=OR2=OR3有交互作用:OR1OR2 OR3无混杂作用:OR粗=OR调整有混杂作用:OR粗OR调整能用统计学显著性检验评价不能用显著性检验评价n为研究饮酒与高血压之间的关系,某学者1992年在社区人群筛检的基础上,随机选择了154名高血压病新病例作为病例组及583名正
28、常人作为对照组,进行了病例对照研究,调查研究对象过去饮酒情况,得下表考虑到在分析饮酒与高血压病之间的关系时,体重指数可能是潜在的混杂因素,如何分析?饮酒饮酒病例病例(%)对照对照(%)合计合计OR是是73(47.4)202(34.6)2751.70否否81(52.6)381(65.4)462合计合计154583737混杂偏倚 confounding bias1.80adORbc1.87adORbc两层的OR值是否同质?Woolf的齐性检验法排除是否存在交互作用?混杂偏倚 confounding bias混杂因素的条件n必须与所研究疾病的发生有关,是该疾病的危险因素之一必须与所研究疾病的发生有关
29、,是该疾病的危险因素之一 n必须与所研究因素有关必须与所研究因素有关 n必须不是研究因素与疾病病因链上的中间环节或中间步骤必须不是研究因素与疾病病因链上的中间环节或中间步骤混杂偏倚 confounding bias混杂因素与暴露关系OR0.79混杂因素与疾病关系OR3.60混杂偏倚 confounding biasOR()iiiaMHiiia dtOR fORbct总=)()(22iiiMHaVaEa)/96.11(2,MHMHLUOROROR混杂偏倚 confounding biasn混杂偏倚及其方向与程度的测量公式如下若若cOR aOR(f)为正混杂,即由于为正混杂,即由于f的混杂作用,使
30、的混杂作用,使cOR高估了研究因素与研究疾病之间的联系高估了研究因素与研究疾病之间的联系若若cOR aOR(f)为负混杂,即由于为负混杂,即由于f的混杂作用,使的混杂作用,使cOR低估了研究因素与研究疾病之间的联系低估了研究因素与研究疾病之间的联系n由于超重混杂作用使饮酒对高血压病的危险性低估了约7%()1.70 1.830.071()1.83cORaOR faOR f 混杂偏倚混杂偏倚的测量混杂偏倚的控制n设计阶段:限制、配比、随机化限制、配比、随机化限制限制(restriction):对对象纳入条件予以限制,如性别、对对象纳入条件予以限制,如性别、年龄、职业等年龄、职业等匹配匹配(matc
31、hing):匹配是指在为研究对象设立对照时,匹配是指在为研究对象设立对照时,使病例和其对照在一个或多个潜在混杂因素上相同或使病例和其对照在一个或多个潜在混杂因素上相同或相近,从而消除混杂因素对研究结果的影响相近,从而消除混杂因素对研究结果的影响 随机化随机化(randomization):随机化是指以随机化原则将随机化是指以随机化原则将研究对象以同等的机率被分配在各处理组中,从而使研究对象以同等的机率被分配在各处理组中,从而使潜在的混杂因素在各组间分布均衡。多用于实验研究,潜在的混杂因素在各组间分布均衡。多用于实验研究,尤其是临床试验尤其是临床试验混杂偏倚的控制n分析阶段:分层分析、标准化法、
32、多因素分析分层分析、标准化法、多因素分析分层(分层(stratification)是指将研究所获资料按混杂因)是指将研究所获资料按混杂因素分成数层(亚组)进行分析,分层是最常用的检出素分成数层(亚组)进行分析,分层是最常用的检出和控制偏倚的方法之一和控制偏倚的方法之一 当比较两个率时,如果两组对象内部构成存在的差别当比较两个率时,如果两组对象内部构成存在的差别足以影响结论,可用率的标准化(足以影响结论,可用率的标准化(standardization)加以校正,亦即使可能影响结果的因素受到同等的加加以校正,亦即使可能影响结果的因素受到同等的加权,使这两个率可比、无偏倚权,使这两个率可比、无偏倚如果需要控制的混杂因素很多时,受样本量的影响,如果需要控制的混杂因素很多时,受样本量的影响,分层分析不再适用,可采用多因素分析的方法分层分析不再适用,可采用多因素分析的方法偏倚及其控制n选择偏倚入院率偏倚 Berkson bias现患-新发病例偏倚 Neyman bias失访偏倚无应答偏倚.n信息偏倚回忆偏倚测量偏倚n混杂偏倚总 结流行病学研究设计的最主要目的是:流行病学研究设计的最主要目的是:估计估计随机误差、控制偏倚,凸现出真实的联系随机误差、控制偏倚,凸现出真实的联系。Questions?
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。