1、流行病学研究中的常见偏倚流行病学研究中的常见偏倚及其控制及其控制上海交通大学公共卫生学院上海交通大学公共卫生学院 施榕施榕偏倚偏倚(bias)指观察值与真值之间的偏离,是一种随机误指观察值与真值之间的偏离,是一种随机误差以外误差的误差,属系统误差差以外误差的误差,属系统误差(systemic error)它是由某些较为恒定它是由某些较为恒定的不能准确测量的因素所造成。偏倚可发生的不能准确测量的因素所造成。偏倚可发生在流行病学研究的设计、实施分析等各个阶在流行病学研究的设计、实施分析等各个阶段,如选择对象中以志愿者代替随机样本,段,如选择对象中以志愿者代替随机样本,使调查对象不能代表总体。重复抽
2、样或加大使调查对象不能代表总体。重复抽样或加大样本含量并不能使这种误差减少或消失。流样本含量并不能使这种误差减少或消失。流行病学研究中常见的偏倚主要有三大类,即行病学研究中常见的偏倚主要有三大类,即选择偏倚、信息偏倚、混杂偏倚。选择偏倚、信息偏倚、混杂偏倚。第一节第一节 选择偏倚及控制选择偏倚及控制一、选择偏倚概念及类型一、选择偏倚概念及类型选择偏倚(selection bias)是由于选择研究对象的方法有问题,使入选者与未入选者在某些特征上存在着系统差异,从而导致研究结果偏离真实情况。在各类流行病学研究中均可发生选择偏倚,以病例对照研究中较为常见,如入院率偏倚、现患病例-新病例偏倚、检出症候
3、群偏倚等。1.入院率偏倚(admission rate bias)入院率偏倚是由于各种疾病的入院率不入院率偏倚是由于各种疾病的入院率不同而致的偏倚。现举例说明。同而致的偏倚。现举例说明。某研究者计划研究某研究者计划研究A病与病与X因素的关系,因素的关系,A病例取自某医院,同时,他以同一医院病例取自某医院,同时,他以同一医院随机抽取相应人数的随机抽取相应人数的B病人作对照。病人作对照。表6-1 人群中病例对对照研究 X因素 A病(病例组)B病(对照组)合计 有 1200 1200 2400 无 4800 4800 9600 OROR1 1,2 2检验差异无显著性,说明检验差异无显著性,说明A A
4、病与病与X X因素无关系。因素无关系。假设假设A A病住院率为病住院率为2525,B B病住院率为病住院率为6060,具,具有有X X因素也有一定的入院率为因素也有一定的入院率为4040。现就上述。现就上述不同的入院率计算住院人数:不同的入院率计算住院人数:A A病无病无X X因素住院人数因素住院人数480048000.250.2512001200人人A A病有病有X X因素住院人数因素住院人数120012000.250.25(1200(1200300)300)0.40.4660660人人B B病无病无X X因素住院人数因素住院人数480048000.60.628002800人人B B病有病有
5、X X因素住院人数因素住院人数120012000.60.6(1200(1200720)720)0.40.4912912人人X因 素 A病(病 例组)B病(对 照组)合 计 有 660 912 1572 无 1200 2880 4080 表6-2 医院为基础的病例对照研究89.8137921860408015725652120091228806602274.112009122880660bcadORP0.01,上述结果表明人群中上述结果表明人群中A A病与病与X X因素本无关联,而以医院病例因素本无关联,而以医院病例作为样本所得观察结果则是有关联的。作为样本所得观察结果则是有关联的。2.现患病例
6、-新病例偏倚(prevalence-incidence bias)在病例对照研究,调查时选择的病例往在病例对照研究,调查时选择的病例往往是存活的现患病例,无法对那些因患往是存活的现患病例,无法对那些因患病已死亡的病例或轻型、非典型或已痊病已死亡的病例或轻型、非典型或已痊愈的病例进行调查,而队列研究中常采愈的病例进行调查,而队列研究中常采用新发生的病例,因而病例对照研究得用新发生的病例,因而病例对照研究得出的结论与队列研究的结果可能发生差出的结论与队列研究的结果可能发生差异,此即现患病例异,此即现患病例-新病例偏倚,也称为新病例偏倚,也称为奈曼偏倚(奈曼偏倚(NeymanNeyman bias
7、bias)。)。例如,Friedman等人在美国弗明汉地区对心血管系统疾病的研究中发现:男性居民在队列研究中,具有高胆固醇水平者,患冠心病的RR值为2.40,而另一项病例对照研究中,病例组与对照组却无明显差异,OR=1.16(表)。表6-3 费明汉地区男性居民血胆固醇水平与冠心病关系 定群研究 病例对照研究 检查时新病人总数 未发病人数 合计 检查时现患病人总数 未发病人数 合计 胆固醇P75 85 462 547 38 34 72 胆固醇0,即 1,则存在正向选择偏倚偏倚0,即 aRR为正混杂:混杂偏倚的存在使研究中暴露与疾病之间存在的真实联系被夸大。CRRaRR为负混杂,由于f的混杂作用,
8、使cRR低估研究因素与疾病之间的联系。(3)混杂偏倚=(CRR-aRR)/aRR。若值=0,无混杂。若值0,有正混杂;若值0.25第三节第三节 研究的偏倚研究的偏倚(4)结论吸烟对饮酒与肺癌的关联(cOR=3.69)有混杂作用(cOR ORMH)控制吸烟的混杂作用后,饮酒与肺癌无关联(=0.6509,P0.25)注意针对ORMH的2检验是在排除了混杂偏倚的基础上再排除随机误差,而针对cOR的2检验是建立在没有排除混杂偏倚的基础上的第三节第三节 研究的偏倚研究的偏倚+-病例 a b n 1 对照 c d n 0 m 1 m 0 分层分析法分层前:F+F-暴 露 暴 露 +-+-病 例 a 1 b
9、 1 a 2 b 2 对 照 c 1 d 1 c 2 d 2 分层后:COR=ad/bc1111/iiMHNIbiciNiaidiOR)(22aiVarNibiciaidiMH)1()(21001NiNiimimininaiVar 的方差:ai例如,病例组为某地医院诊疗的25-49岁患心肌梗死的妇女234名,对照组为该地年龄为25-49岁妇女的随机样本1742名。病例组和对照组均按同一方法和标准收集三个月前避孕药的暴露情况。不考虑对口服避孕药与心肌梗死的关系其粗比数比为1.86(表6-17)口服避孕药 病例组 对照组 合计 有 29 135 164 无 205 1607 1812 合计 234
10、 1742 1976 表6-17 口服避孕药与心肌梗死的关系=5.84,OR=1.862 口服避孕药暴露 无口服避孕药暴露 年龄 病例 对照 病例 对照 25 6(2.6)286(16.4)4(67)62(22)30 21(9.0)423(24.3)9(43)33(8)35 37(15.8)356(20.4)4(11)26(7)40 71(30.3)371(21.3)6(8)9(2)45 71(42.3)306(17.6)6(6)5(2)合计 234(100)1742(100)29(12.4)1607(7.7)年龄与口服避孕药与心肌梗死的关系列于表6-18表6-18 年龄与心肌梗死与口服避孕药
11、的关系自上表可发现年龄与心肌梗死和口服避孕药均不关联。且在病例组和对照组分布不均。年龄有可能为混杂因子,应予调整,按年龄分层,口服避孕药与心肌梗死的关系列于表6-19,按Mantel-Halnszel方法估计调整比数比aOR(f),列于表6-20。年 龄 分 层 服 药 病 例 对 照 O R i 2 2 5-2 9 有 4 6 2 7.2 3 无 2 2 9 2 6.7 8 3 0-3 4 有 9 3 3 8.8 6 无 1 2 4 4 4 2 8.6 4 3 5-3 9 有 4 2 6 1.5 4 无 3 3 3 9 3 0.5 8 4 0-4 4 有 6 9 3.7 1 无 6 5 4
12、4 2 5.9 4 4 5-4 9 有 6 5 3.8 8 无 9 3 4 0 5 5.5 3 合 计 有 2 3 4 1 7 4 2 1.8 6 表6-19 按年龄分层心肌梗死与近期使用口服避孕药的关系Niaidi Nicibi Nicibiaidi )1(21001NiNiimiminin3.07 0.43 2.6438 1.0316 7.91 0.89 7.0135 1.7174 3.36 2.18 1.1756 2.3692 4.91 1.32 3.5405 2.1646 4.46 1.15 3.3112 1.9813 23.71 5.97 17.7346 9.2641 2表6-20
13、M-H法计ORMH、MHORMH=23.71/5.97=3.97 ORMH OR 95.332641.9)7346.17(22MH)31.6,50.2(97.3)95.33/96.11(577.097.329.297.397.318.1OR的95%可信区间:混杂偏倚=表明年龄对口服避孕药与心肌梗死的关系起负向混杂作用,使比数比低57.57%。(2)数学模型对于二项分类变量(患病,不患病),亦可用Logistic回归模型分析,仍以上例痢疾发病病因资料说明如下:冷饮史 X1=1 阳性2 阴性用膳地点 X2=1 本部食堂2 西部食堂y=3.101X1+0.325X22.22101.31eeORP0.05表示控制了用膳地点,冷饮史仍为危险因素。38.1325.02eeOR表示控制冷饮史后,用膳地点的作用消失了,结论与分层分析一致P0.05