1、北京大学公共卫生学院北京大学公共卫生学院流行病学与卫生统计学系流行病学与卫生统计学系 胡永华胡永华1 偏倚:偏倚:选择偏倚选择偏倚(selection bias)selection bias)信息偏倚信息偏倚(information bias)information bias)混杂偏倚混杂偏倚(confounding bias)confounding bias)22023-5-14(一)混杂偏倚的概念:32023-5-14混杂因子混杂因子(confounding factorconfounding factor,confounder)confounder)?研究的暴露因素和研究疾病之外因素(第
2、三因子,外部因素)研究的暴露因素和研究疾病之外因素(第三因子,外部因素)此外部因素与研究疾病有关(独立相关)此外部因素与研究疾病有关(独立相关)并且与研究的暴露因素有关(统计关联)并且与研究的暴露因素有关(统计关联)混杂(混杂(confoundingconfounding)混杂因素在比较的人群组中分布不匀混杂因素在比较的人群组中分布不匀,可以歪曲可以歪曲(掩盖或夸大掩盖或夸大)因因素与疾病之间真正联系。素与疾病之间真正联系。举例举例 研究吸烟与肺癌的关系研究吸烟与肺癌的关系 性别是个外部变量,性别与肺癌有关,性别与吸烟暴露有关。故性性别是个外部变量,性别与肺癌有关,性别与吸烟暴露有关。故性别是
3、该研究中的混杂因子。别是该研究中的混杂因子。无论是队列研究还是病例对照研究,若性别在比较组中分布不均衡,无论是队列研究还是病例对照研究,若性别在比较组中分布不均衡,研究将出现混杂。研究将出现混杂。42023-5-14为明确定义混杂因子:流行病学分析中排除一类外部因子:该因子是暴露导致疾病的中间环节或中间变量。如:吸烟吸烟 高血压高血压 心脏病心脏病 吸烟吸烟 COPDCOPD 肺癌肺癌高血压与COPD都不是混杂因子。因 为 它 们 为 病 因 链 中 的 因 子,也 称 内 部 介 导 因 子(Intermediate Factor)。52023-5-14混杂因子混杂因子(confoundin
4、g factorconfounding factor,confounder)confounder)?研究的暴露因素和研究疾病之外因素(第三因子,外部因素)研究的暴露因素和研究疾病之外因素(第三因子,外部因素)1.1.此因素与研究疾病有关(独立相关,危险因子或保护因子)此因素与研究疾病有关(独立相关,危险因子或保护因子)2.2.并且与研究的暴露因素有关(统计关联)并且与研究的暴露因素有关(统计关联)3.3.该因素不该因素不是暴露导致疾病的中间环节或中间变量62023-5-14(二)混杂(混杂(confounding confounding)的本质)的本质是一种效应的混淆。是一种效应的混淆。外部因
5、素对疾病的效应与暴露因素对疾病的效应交织外部因素对疾病的效应与暴露因素对疾病的效应交织 在一起,故无法正确评价暴露因素对疾病的真实关系。在一起,故无法正确评价暴露因素对疾病的真实关系。代理混杂因子(代理混杂因子(Surrogate ConfoundersSurrogate Confounders)与混杂因子密切相关,能够引起混杂外部变量称为代理与混杂因子密切相关,能够引起混杂外部变量称为代理混杂因子。如年龄、文化程度、经济状况等。混杂因子。如年龄、文化程度、经济状况等。72023-5-14 E E E D D D F F F 1 1 2 2 3 3 E E E E D D D D F F F
6、F 4 5 6 7 F(代理混杂)82023-5-14(三)混杂的测量混杂的测量 92023-5-14(三)混杂的测量混杂的测量 102023-5-14(四)混杂的大小及其方向(四)混杂的大小及其方向 cRR aRR cOR-aORcRR aRR cOR-aOR混杂偏倚混杂偏倚=-=-or or -aRR aORaRR aORcRR=aRR:cRR=aRR:无混杂无混杂cRR aRR:cRR aRR:正混杂正混杂(positive confounding)positive confounding),亦称阳性混杂亦称阳性混杂cRR aRR:cRR aRR:负混杂负混杂称阴性混杂称阴性混杂,cRR
7、cRR低估低估 了因素与研究疾病之间的联系。了因素与研究疾病之间的联系。112023-5-14(五)混杂的控制五)混杂的控制(1 1)设计阶段)设计阶段 限制、随机化、配比限制、随机化、配比 利与弊利与弊(2 2)分析阶段)分析阶段 分层(分层(M-H M-H 法)法)标准化标准化(直接,间接法直接,间接法)多因素分析(多元回归分析)多因素分析(多元回归分析)122023-5-14。使研究对象以等同的机率被分配在各处理组中,使研究对象以等同的机率被分配在各处理组中,从而使潜在的混杂因素在各组间分布均衡。从而使潜在的混杂因素在各组间分布均衡。随机化方法常用于实验性研究,以在临床试验中随机化方法常
8、用于实验性研究,以在临床试验中最常用。最常用。随机分配方法分为简单随机分配与分层随机分配随机分配方法分为简单随机分配与分层随机分配。132023-5-14 使研究对象以等同的机率被分配在各处理组中,使研究对象以等同的机率被分配在各处理组中,从而使潜在的混杂因素在各组间分布均衡。从而使潜在的混杂因素在各组间分布均衡。随机化方法常用于实验性研究,以在临床试验中最随机化方法常用于实验性研究,以在临床试验中最常用。常用。随机分配方法分为简单随机分配与分层随机分配随机分配方法分为简单随机分配与分层随机分配。142023-5-14配比指的是对比较组的选择,使其针对一个或多个潜在的混配比指的是对比较组的选择
9、,使其针对一个或多个潜在的混杂因素与指示研究对象相同或接近。杂因素与指示研究对象相同或接近。配比可在研究对象间逐个配比,此为个体配比,也可是组间配比可在研究对象间逐个配比,此为个体配比,也可是组间的配比,此为频数配比。个体配比与频数配比无本质的不同。的配比,此为频数配比。个体配比与频数配比无本质的不同。在队列研究中,如果设计时进行了配比,就无需在分析时控在队列研究中,如果设计时进行了配比,就无需在分析时控制配比因素。制配比因素。在病例对照研究中在病例对照研究中,若配比因素确实是一个混杂因素,将引若配比因素确实是一个混杂因素,将引入了一个极似混杂的选择偏倚。入了一个极似混杂的选择偏倚。引入的偏倚
10、可通过分层分析进行控制。即:配比本身未直接引入的偏倚可通过分层分析进行控制。即:配比本身未直接起到控制混杂的作用,控制混杂是靠分层分析实现的。起到控制混杂的作用,控制混杂是靠分层分析实现的。152023-5-14在队列研究中,如果设计时进行了配比,就无需在在队列研究中,如果设计时进行了配比,就无需在分析时控制配比因素。分析时控制配比因素。在病例对照研究中在病例对照研究中,若配比因素确实是一个混杂因若配比因素确实是一个混杂因素,将引入了一个极似混杂的选择偏倚。素,将引入了一个极似混杂的选择偏倚。引入的偏倚可通过分层分析进行控制。即:配比本引入的偏倚可通过分层分析进行控制。即:配比本身未直接起到控
11、制混杂的作用,控制混杂是靠分层身未直接起到控制混杂的作用,控制混杂是靠分层分析实现的。分析实现的。162023-5-14至少有三种类型的配比过头至少有三种类型的配比过头。损害统计效率的配比损害统计效率的配比:如对仅与暴露有关而与疾:如对仅与暴露有关而与疾病无关的变量的配比。病无关的变量的配比。损害真实性的配比损害真实性的配比:如将暴露与疾病之间一个中:如将暴露与疾病之间一个中间变量配比。间变量配比。(例:吸烟、例:吸烟、COPDCOPD、肺癌肺癌)损害费用效益的配比损害费用效益的配比:过多的选择配对条件,使:过多的选择配对条件,使得实施复杂。得实施复杂。172023-5-14将研究资料按照混杂
12、因素分层将研究资料按照混杂因素分层若各层间研究因素与疾病之间的若各层间研究因素与疾病之间的,可用可用Mantel-Mantel-HaenszelHaenszel分层分析方法进行分析得到将该分层分析方法进行分析得到将该混杂因素调整后的效应估计值混杂因素调整后的效应估计值若各层间研究因素与疾病之间的差异较大若各层间研究因素与疾病之间的差异较大,可采用可采用标化的方法调整。(前提:排除交互作用)标化的方法调整。(前提:排除交互作用)182023-5-1419591959年年MantelMantel和和HaenszelHaenszel首次提出了著名的首次提出了著名的分层分析法分层分析法(stratif
13、ied analysisstratified analysis),以解决肿瘤回顾性研究中的),以解决肿瘤回顾性研究中的混杂问题。混杂问题。M-HM-H法计算简单,而且即使在每层内的频数较少或资料偶法计算简单,而且即使在每层内的频数较少或资料偶然含有零的情况下,也能比较好的估计效应值。然含有零的情况下,也能比较好的估计效应值。在一般情况下,优先选用在一般情况下,优先选用M-HM-H法,尤其是在处理四格表资法,尤其是在处理四格表资料时。料时。192023-5-14Statistical AnalysisMantel-Haenszel(M-H)estimatorMantel-Haenszel tes
14、t statistic aibicidiE Enimiti Ni=ni+mii=1,K aidi/Nii=1K bici/Nii=1K(ai niti/Ni)2Ki=1 ti(Ni ti)nimi/(Ni2(Ni 1)Ki=1Mantel N,Haenszel WH Statistical aspects of the analysis of data from retrospective studies of disease.J.Natl.Cancer Inst.1959;22:719-748.202023-5-14iiiiiiiiTNbTNa10MHRR疾病暴露组未暴露组合计有aibiM1
15、i无cidiM0i合计NiN0iTi队列研究212023-5-14暴露未暴露合计病例aibiM1i对照cidiM0i合计N1iN0iTiORMH=iiiiiiiiTcbTda 222023-5-14杀精子剂的使用母亲的年龄(岁)3535有无合计有无合计病例3912134对照1041059116358691合计1071068117568995比值比3.395.73ORORMHMH=78.3158.0797.0905.0704.295351175910495861117510593 暴露暴露有有无无病例对照4109121145粗的OR=3.50232023-5-14粗的OR=3.50ORORMHM
16、H=3.78=3.78 cOR aOR 3.50-3.78 cOR aOR 3.50-3.78混杂偏倚混杂偏倚=-=-=-=-0.07=-=-0.07 aOR 3.78 aOR 3.78负混杂,混杂因子造成低估暴露因素的致病作用。负混杂,混杂因子造成低估暴露因素的致病作用。控制混杂后暴露与疾病的关联强度控制混杂后暴露与疾病的关联强度OROR值为值为3.783.78。242023-5-14 如果欲控制的混杂因素较多,往往受样本量的影如果欲控制的混杂因素较多,往往受样本量的影响,分层分析常不适用。在这种情况下响,分层分析常不适用。在这种情况下,可应用可应用多因素分析方法予以控制多因素分析方法予以控
17、制,如多元协方差分析,如多元协方差分析,多元多元Logistic Logistic 回归分析等等。回归分析等等。252023-5-14(一)背景背景不同学科、不同学者对交互作用的概念定义存在歧异。不同学科、不同学者对交互作用的概念定义存在歧异。毒理学、药理学、生物化学、物理学毒理学、药理学、生物化学、物理学在同一学科中(如在同一学科中(如流行病学)流行病学),交互的概念也常被混混,交互的概念也常被混混淆。淆。交互作用的概念在流行病学文献中一直有些争议。术语交互作用的概念在流行病学文献中一直有些争议。术语“交互交互作用作用”曾经被用作性质截然不同的统计学、生物学和公共卫生曾经被用作性质截然不同的
18、统计学、生物学和公共卫生学概念。争议的原因主要是人们对这些概念有着不同理解。学概念。争议的原因主要是人们对这些概念有着不同理解。262023-5-14(二)流行病学研究中的交互作用概念流行病学研究中的交互作用概念272023-5-14 采用数学模型评价交互作用,虽不涉及生物学机理,但有助于探索病采用数学模型评价交互作用,虽不涉及生物学机理,但有助于探索病因因。采用生物作用机制模型或抽象生物模型评价交互作用。与生物作用机采用生物作用机制模型或抽象生物模型评价交互作用。与生物作用机制有关。制有关。应用统计学模型,多用于公共卫生效果评价。(或称用于评价公共卫应用统计学模型,多用于公共卫生效果评价。(
19、或称用于评价公共卫生干预效果的统计学交互作用)生干预效果的统计学交互作用)282023-5-14(三)统计学统计学交互作用与效应修正统计学交互作用与效应修正(EFFECT MODIFICATION(EFFECT MODIFICATION,EM)EM)的概念是一致的。的概念是一致的。统计学交互作用效应修正(交互因子统计学交互作用效应修正(交互因子=效应修正因子)效应修正因子)在流行病学中一般所谈的交互作用是指统计学交互作用在流行病学中一般所谈的交互作用是指统计学交互作用。交互因子(交互因子(效应修正因子)效应修正因子):。292023-5-14率差效应:无交互率比效应:有交互率差效应:有交互率比
20、效应:无交互300246810121234暴露组发病率非暴露组发病率年龄是否为交互因子?2023-5-1431X:因素X,X=1:暴露于X因素,X=0:未暴露X因素Z:因素Z,Z=1:暴露于Z因素,Z=0:未暴露Z因素R:效应,R11:同时暴露X与Z时的效应,R10:暴露X与未暴露Z时的效应,R01:暴露Z与未暴露X时的效应,R00:X与Z均未暴露时的效应,2023-5-14(1)加法模型如果测量的效应为率差,如果测量的效应为率差,X X与与Z Z无交互作用的条件为:无交互作用的条件为:R11R01R10R00也可写成 R R1111R R0000(R R1010R R0000)+(R R01
21、01R R0000)如果测量的效应为率比,如果测量的效应为率比,X X与与Z Z无交互作用的条件为:无交互作用的条件为:R11R01R10R00,等号两边均除R00,则:R11/R00R01/R00R10/R001也可写成 R R1111/R/R00001=(R1=(R1010/R/R00001)1)(R(R0101/R/R00001)1)322023-5-14(2)乘法模型X X与与Z Z无交互作用的条件为:无交互作用的条件为:R R1111/R/R0101R R1010/R/R0000等式两边均乘等式两边均乘 R R0101/R/R00 00,则,则 R R1111/R/R0000=(R=
22、(R1010/R/R0000)(R)(R0101/R/R0000)(3 3)判断交互作用必须说明测量效应类型,必须说明所选)判断交互作用必须说明测量效应类型,必须说明所选模型的类型!模型的类型!流行病学病因研究中,多用率比效应。多用乘法模型。流行病学病因研究中,多用率比效应。多用乘法模型。公共卫生防治效果评估,多用率差效应。多用加法模型。公共卫生防治效果评估,多用率差效应。多用加法模型。符合模型条件表明无交互,反之,有交互。符合模型条件表明无交互,反之,有交互。332023-5-143、识别统计学交互作用的一般方法识别统计学交互作用的一般方法因素之间是否统计学联系?因素之间是否统计学联系?这种
23、联系是否为偏倚所致?这种联系是否为偏倚所致?分层分析,比较各层间的分层分析,比较各层间的RRRR、RDRD。如果层间。如果层间RRRR、RDRD差差别较大(经统计学检验)则可能存在交互作用。别较大(经统计学检验)则可能存在交互作用。一般多元回归多是以乘法模型为基础,对数据要求严格,对结果的解说也存在一定问题。342023-5-144.4.分析统计学交互作用时需注意的问题分析统计学交互作用时需注意的问题所选择的测量效应是什么?所选择的测量效应是什么?所选择的模型是什么?所选择的模型是什么?符合哪个模型就表明不存在相应的交互作用;不符合哪个符合哪个模型就表明不存在相应的交互作用;不符合哪个模型就表
24、明存在相应的交互作用。模型就表明存在相应的交互作用。需要进行显著性检验需要进行显著性检验有统计交互不意味有生物学意义,下结论要慎重。有统计交互不意味有生物学意义,下结论要慎重。352023-5-144.混杂因子与效应修正因子的区别混杂因子与效应修正因子的区别 概念不同 性质不同 处理的方法不同362023-5-14概念CFCF:与所研究的暴露因素和疾病都有联系的外部与所研究的暴露因素和疾病都有联系的外部因子,因子,暴露暴露与所研究的暴露因素和疾病都有联系的外部与所研究的暴露因素和疾病都有联系的外部因子,它的存在使得暴露因素和疾病之间的效应因子,它的存在使得暴露因素和疾病之间的效应发生真实的改变
25、。发生真实的改变。372023-5-14性质CF:造成偏倚,影响结果的真实性。EM:是一种真实的效应,与真实性无关。382023-5-14处理的方法CF:应尽量避免与消除。EM:应尽量去发现,评价。392023-5-14要求掌握的内容:1、confounding factor confounding factor?confounding bias?confounding bias?2、控制混杂的主要方法控制混杂的主要方法?各种方法的优缺点?各种方法的优缺点?3 3、overmatching?overmatching?4 4、interaction?interaction?5 5、effect modifacation?effect modifacation?6 6、混杂因子与效应修正因子的区别?、混杂因子与效应修正因子的区别?402023-5-14 谢谢!412023-5-14