1、第五章第五章 队列研究队列研究Cohort studyCohort study1 流行病学研究方法 病因 那些能使人群发病概率升高的因素,就可认为是病因,其中某个或多个因素不存在时,人群疾病频率就会下降第一节 概 述2一、概念与基本原理队列研究cohort study随访研究follow-up study前瞻性研究prospective study发生率研究incidence study纵向研究longitudinal study 将某一特定人群按是否暴露于某可疑因素或暴露程度分为不同的亚组(队列),追踪观察(随访)两组或多组成员的(预期/研究)结局发生情况,比较各组之间结局发生率的差异,从而
2、判断暴露因素与结局之间有无因果关联及关联程度的一种观察性研究方法3Cause Effect时间间隔时间间隔易感人群易感人群队列研究结构模式暴暴 露露结结 局局Cause Effect暴暴 露露4队列cohort 特定的研究人群组 有共同经历或共同状态的一群人 根据条件不同 出生队列:有相同的出生年代 暴露队列:有共同暴露或特征的一群人 根据实际进入研究的时间不同 固定队列fixed cohort-固定时间/短时期 动态队列dynamic cohort-不断退出与随时加入567暴露exposure 研究对象接触过某种待研究的物质或具有某种待研究的特征或行为 在描述性研究和病例对照研究的基础上确定
3、 与结局有关 危险因素:使发病率增加 保护因素:使发病率降低 根据暴露的普遍性 一般暴露:暴露在人群中较常见 职业暴露:职业人群中的暴露 特殊暴露:较为罕见的暴露8结局outcome 研究队列中规定的、体现研究因素作用的预期结果事件 终末结局:发病或死亡 中间结果:健康状况或生命质量变化 通过随访得到,个体一旦出现结局则结束观察 一次队列研究可有一个或多个结局 一种疾病的多种状态或临床表现 多种疾病,提高研究效率 定义明确:采用国际或国内通用的标准9比较 基本思想:如果某因素是某事件发生的影响因素,暴露人群发生率一定与未暴露人群有差别 比较的范围:未患有研究疾病人群 比较的对象:暴露组和未暴露
4、组 比较的内容:结局发生情况 比较的基础:基线和随访10二、特点 属于观察法范畴 属于分析性研究的范畴 分析暴露与疾病的联系 因果研究,由因到果 前瞻性研究:结局发生前开始研究 时间顺序明确,因果关联的证实力强 研究对象按照暴露与否进行分组 计算发病率,比较差异,确证暴露的病因作用11三、用途 检验病因假设 暴露因素与一种疾病的关联 暴露因素与多种疾病的关联一因多果 评价预防效果 考查自发预防措施的效果-人群自然实验 研究疾病自然史-临床、队列研究 新药临床实验上市后监测 大人群中,用药/不用药人群远期不良事件比较12四、类型 根据研究对象过去暴露情况分组根据研究对象过去暴露情况分组 确定研究
5、队列的时间是过去确定研究队列的时间是过去 结局在研究开始时已经出现结局在研究开始时已经出现 无需随访无需随访 根据研究对象过去暴露情况分组根据研究对象过去暴露情况分组 确定研究队列确定研究队列的时间是过去的时间是过去 结局在研究开始时可能已经出现,结局在研究开始时可能已经出现,也可能在将来出现也可能在将来出现 需要随访需要随访 根据研究对象现在暴露情况分组根据研究对象现在暴露情况分组 确定研究队列的时间是现在确定研究队列的时间是现在 结局在将来某时刻出现结局在将来某时刻出现 需要随访需要随访(follow-up)(follow-up)+-+-前瞻性前瞻性+-+-前瞻性前瞻性13特点 前瞻性:足
6、够的人、财、物力来支持长期工作,并且所选观察人群相当稳定,可长期随访 历史性:足够数量完整可靠的历史记录和档案资料 双向性:满足历史性但需继续随访14第二节 研究设计与实施15乙肝病毒感染与原发性肝细胞癌的队列研究16一、研究目的检验病因假设,即暴露与疾病间的因果关联 提出假设:根据前期描述性研究、病例对照研究基础上,检验病因假设 乙肝病毒感染是原发性肝细胞癌的危险因素 确定研究因素/暴露:乙肝病毒感染 确定结局:原发性肝细胞癌死亡17二、研究方法 观察法 实验法 数理法18三、研究人群 确定研究现场:江苏省海门市目标人群 研究目的、暴露特征 代表性 可行性:稳定、发病率高、组织管理方便 确定
7、研究人群研究对象 从目标人群中抽出的具有代表性、未患所研究疾病的人群 根据暴露情况分为 暴露人群 非暴露人群19(一)暴露人群暴露于待研究因素的人群 具有暴露:暴露的定义明确 暴露水平 累计暴露时间 暴露方式 外部特征的限制:增强针对性及组间可比性20暴露人群的选择 一般暴露人群:暴露与疾病在人群中均较常见 地区性人群中的暴露者作为暴露组 有组织的人群团体:便于组织、随访,职业和经历往往相同,可增加其同质性 特殊暴露人群:一般人群中罕见的特殊暴露 职业暴露人群:某种可疑的职业暴露因素与疾病或健康的关系21(二)非暴露人群/对照组的选择 基本原则 未暴露于/低水平暴露于研究因素 可比性除暴露因素
8、与暴露组不同外,其它因素或人口学特征应尽可能与暴露组相同或一致 对照形式 内对照internal control 外对照external control/平行对照parallel control 总人口对照total population control 多重对照multiple controls221.内对照 在同一研究人群中,采用没有暴露的人群作为对照 形式 根据是否暴露分成暴露组与对照组-定性变量 将研究对象的暴露情况分级,最低水平的人群作为对照组-定量变量 特点 简单易行,可比性好 对研究人群的代表性强,对发病率的估计准确 可能存在“污染”,即对照组不可避免接受暴露232.外对照/平行
9、对照 在暴露组所在的人群之外寻找对照组 在职业暴露、特殊暴露中常用 免受“污染“注意可比性243.总人口对照/一般人群对照 以现成的、整个地区发病或死亡资料为对照,相当于以全人群作为对照 节约时间和经费 对照中可能也存在暴露-常用于暴露比例小 可比性-资料的完整性和准确性差254.多重对照 同时用两种或者两种以上的方式选择多个对照组 减少偏倚 增加工作量26本例:在一般人群中选择研究对象 整群抽取当地符合条件的居民90236人作为研究对象 两次检测HBsAg,阳性14338人作为暴露组,阴性75898人作为对照组27四、研究类型 前瞻性 历史性 双向性28五、抽样方法和样本含量估计 抽样方法与
10、横断面研究相同-随机化原则 对照组样本量暴露组样本量 估计失访率,扩大样本量-增加10%或20%29样本含量估计 样本量过大 人力、物力和时间上的浪费 样本量过小:抽样误差大 代表性差 假设检验时检验效能过低 估计的基本原则 足够代表性和检验效能前提下的最小样本量30 比较暴露组与对照组结局(疾病)事件发生率的差异 已知条件 对照组发病率0 病例组的发病率 1,或相对危险度RR值及单双侧:一般取0.05双侧 检验效能(把握度)1-:一般要求不低于75%,常取80%或90%10RR31 两组例数相等 两组例数不等2/2101021012,2ZZnn2/21012100111 1,1ZZcnccn
11、nc 32本例:设=0.05(双侧),=0.10,根据文献,估计对照组发病率p0=0.003,暴露组发病率p1=0.0075=542033六、研究内容与资料收集方式 研究目的转化成具体可测量的指标或项目 相关性:紧扣研究目的,做到少而精 与目的有关的指标不能少,且要细致-暴露剂量反应关系 定义明确,标准统一-结局判断 敏感性和特异性:真实反映暴露的效应 客观性 可行性:具体、可测量 可接受性:测量方法简单、可靠、易被接受341.基线资料baseline information每个对象在进入队列/研究开始时的情况 研究对象的一般特征 暴露情况:评定暴露状况,分组的依据 暴露定义明确:定量测量时应
12、明确分类/分级标准 内容 暴露水平 暴露方式 累计暴露时间:累计暴露量 疾病与健康状况:研究对象为易感者 已患或疑似已患所研究疾病(结局)者 对暴露不易感者 可能的混杂因素信息35本例:年龄、性别、职业 血清HBsAg-酶标法半年内连续两次检测阳性 肝炎史、原发性肝细胞癌家族史 吸烟、饮酒、饮茶、水源类型、主食类型362.随访follow up对研究对象进行定期追踪观察 随访内容:基线资料:了解其随时间变化的情况 暴露:随访过程中对象的暴露变化,自发预防措施 一般人口学信息的变化 研究结局:重点 定义明确、标准统一 发生情况、发生时间 随访对象:所有被选定的研究对象37 随访方法:相同、不变
13、观察终点:研究对象出现了预期的研究结局 观察终止时间:完成研究工作 随访期:潜伏期长、暴露与疾病关联强度 随访间隔:视随访期、研究结局的变化速度、研究的人力、物力等条件而定-慢性病1-2年38失访loss to follow-up及失访原因没有获得研究结局的信息 失访:拒绝随访、失去联系或中途退出等(主动失访)退出:死于与研究疾病无关的原因(竞争性失访)研究终止:研究终止时观察对象仍然存活(被动失访)39本例:所有研究对象1992年进入队列 从1993年到2003年,每年随访一次 观察终点:原发性肝细胞癌死亡 诊断依据-临床表现、影像学、病理学检查40资料收集方式 问卷调查:对对象或知情人询问
14、调查获得面访自填问卷间接采访:电话采访、信访、网络访问等 直接观察 查阅记录或档案 体格检查或实验室检查 环境调查与检测41七、现场实施办法及组织管理质量控制 调查员的选择:严谨、亲和力强、专业 调查员培训:研究目的、调查技巧、统一调查内容和态度 制定调查员手册:操作程序、注意事项、问卷说明 监督:复查、数据核查、调查员一致性检查42八、资料整理及统计分析(一)资料的核查清理保证数据的完整、准确1.抽样核查2.逻辑检查3.修正4.验收5.归档资料编码,形成数据库43(二)一般特征的描述 对两组人群的特征进行描述,从而了解资料的一般情况 两组的入组人数 失访人数、失访率及失访原因分析 研究对象的
15、一般特征分组描述 年龄、性别、民族、地区等44(三)均衡性分析 两组基线特征的可比性进行统计学检验 若假设检验P,认为两组在该特征上可比 若假设检验P,认为两组在该特征上不可比,应结合实际意义,考虑该因素为混杂因素 在发生率比较及RR计算时进行控制 分层分析 多因素分析45(四)结局发生率的计算 结局发生率:说明暴露组和非暴露组结局事件的发生频度或强度的指标 累积发病/死亡率cumulative incidence,CI 发病/死亡密度incidence density,ID 标化发病/死亡比standardized morbidity mortality ratio,SMR 标化比例死亡比s
16、tandardized proportional mortality ratio,SPMR46定性资料分组整理 根据暴露和结局进行交叉分组统计频数,形成列联表47本例:48定量资料分组整理 根据暴露分级情况和疾病状态进行交叉分组统计频数,形成列联表队列研究资料的列联表结局暴露分级合计E0E1E2Ei发生a0(=c)a1a2ain1未发生b0(=d)b1b2bin0合计m0m1m2mit4940-59岁男子不同基线血清胆固醇水平冠心病6年发生情况冠心病基线血清胆固醇(mg/dl)合计1:两组发生率有差别,结局发生的危险因素 RR1:两组发生率有差别,结局发生的保护因素0eRRII61RRRR与关
17、联强度与关联强度RR关联强度保护因素危险因素0.91.01.01.1无0.70.81.21.4弱0.40.61.52.9中0.10.33.09.9强0.110.0很强本例:危险度比RR=14.75,率比RR=14.7562估计总体RR 当研究为抽样研究时,所计算的RR为根据样本信息计算的样本统计量,由于抽样误差的存在,外推到总体时,需对总体RR进行估计 如果RR95%CI不包括1,说明暴露与疾病的关联有统计学意义 点估计:总体 RR=3.57 区间估计 Miettinen法:Woolf法:21 1.96/95%RRCIRR()11 11ln1.96()ln1.96(ln)95%expexpRR
18、RRVarRRabcdRRCI 本例:RR95%CI:13.1216.60632.归因危险度Attributable risk,AR 特异危险度/率差/超额危险度 暴露组与非暴露组结局发生率之差(绝对值)完全由暴露所引起的发生率,暴露因素消除后所减少的发生率000001eRR IIeARIIRRIIRRI 本例:AR=70.1564意义 RR:暴露的病因学意义较大 AR:暴露的公共卫生意义较大疾病吸烟者(1/10万人年)非吸烟者(1/10万人年)RRAR(1/10万人年)肺癌48.334.4910.843.84心血管疾病294.67169.541.7125.13吸烟者和非吸烟者死于不同疾病的R
19、R与AR653.归因危险度百分比attributable risk percent,AR%/病因分值etiologic fraction,EF 暴露人群中由暴露所致的发病率(或死亡率)占全部发病率(或死亡率)的比例本例:AR%=93.2%,说明HBV 感染者中发生的PHCC有93.2%可以归因于HBV 感染664.人群归因危险度population attributable risk,PAR 总人群与非暴露组结局发生率之差 总人群中因暴露于某因素所致的发病率或死亡率 暴露对于总人群的特异危险度 暴露因素消除后所减少的发生率0tPARII675.人群归因危险度百分比population attr
20、ibutable risk,PAR%/人群病因分值etiologic fraction,PEF 说明人群中因暴露于某因素所致的发病率/死亡率在所有病因发病率/死亡率中所占的比例 暴露对总人群的危害程度 与RR、人群中暴露者比例有关68第三节 偏倚/偏性bias及其控制 流行病学研究过程中,由一些已知或可控制的因素引起的、使研究结果或推论系统地偏离真实情况的系统误差偏倚偏倚选择偏倚选择偏倚入院率偏倚入院率偏倚Neyman偏倚偏倚检出症候偏倚检出症候偏倚易感性偏倚易感性偏倚健康工人效应健康工人效应志愿者偏倚志愿者偏倚无应答偏倚无应答偏倚时间效应时间效应领先时间偏倚领先时间偏倚信息偏倚信息偏倚回忆偏
21、倚回忆偏倚报告偏倚报告偏倚调查者偏倚调查者偏倚测量仪器偏倚测量仪器偏倚粘染与干扰粘染与干扰判断不一致判断不一致 混杂偏倚混杂偏倚不依从不依从69一、选择偏倚 研究人群在一些重要因素方面与一般人群或待研究的总体人群存在的差异 产生原因 选择性偏倚:选择对象的方法不当 无应答偏倚 应参加研究的对象拒绝参加 历史性队列研究中部分档案丢失或记录不全 失访偏倚:迁移、拒绝、其他原因死亡 志愿者偏倚:志愿者队列 时间效应偏倚:研究开始时未能发现早期病人70 失访率不超过10%比较暴露组和对照组失访率 比较随访者和失访者的基线特征 尽量收集失访者的死亡及死因资料 控制措施 选择便于随访的人群 提高依从性 随
22、访方法简便易行 利用多种来源收集结局资料 多次反复随访失访偏倚71二、信息偏倚/错分偏倚 在获取暴露、结局或其他信息时所出现的系统误差或偏差 常见情况 判断不一致:疾病、暴露标准不明确 测量仪器偏倚:检验仪器不精确、检验技术不熟 调查者偏倚 询问技巧不佳、记录错误、造假等 诊断怀疑偏倚72信息偏倚的控制措施 提高临床诊断技术、明确各项标准 选择精确稳定的测量方法,事前调准仪器,严格实验操作规程 培训调查员,提高技巧,统一标准,同等对待每个研究对象73混杂偏倚 与所研究因素和结果均有联系的第三因素在暴露组与对照组的分布不均衡,混淆了研究因素和结果间的真实联系 控制措施 研究设计阶段:限制研究对象 分析阶段 分层分析 标准化 多因素分析74第五节 优点与局限性优点1.收集的资料完整可靠,一般不存在回忆偏倚2.可获得发病率或死亡率,直接估计危险度RR、AR等反应病因效应的指标3.由因及果,符合时间顺序,检验病因假说能力强4.获得一种暴露与多种结局的关系(一因多果)5.可研究疾病的自然史75 局限性 耗时,耗人力、物力、财力,设计、实施难度较大 不适用于发病率很低疾病的病因研究 易发生失访偏倚 随访过程中已知变量的变化或未知变量的引入增加分析难度76