1、常用流行病学研究方法(一)常用流行病学研究方法(一)描述性研究描述性研究公共卫生学院流行病与卫生统计学系公共卫生学院流行病与卫生统计学系 吴静吴静 1854年秋季,伦敦宽街暴发霍乱,年秋季,伦敦宽街暴发霍乱,10天内死去天内死去500多多人,在霍乱暴发后的人,在霍乱暴发后的6天内发病严重的街道有天内发病严重的街道有3/4以以上的居民离去。据上的居民离去。据1853年统计,在过去几次霍乱流年统计,在过去几次霍乱流行中,该地区虽曾流行,但远比其他各区轻微。行中,该地区虽曾流行,但远比其他各区轻微。死亡无数死亡无数人们纷纷逃散人们纷纷逃散引引 言言 当时霍乱病原体尚未发现,Snow集中精力调查发生疫
2、情的地点和死亡病例,发现几乎所有的死亡病例都发生于离宽街水井不远的地方,且他们都饮用宽街供水站的水,Snow根据疾病分布进行分析,教根据疾病分布进行分析,教区霍乱暴发与宽街供水站的水井有密切区霍乱暴发与宽街供水站的水井有密切关系,关系,而以后的研究进一步证实了这一假设。经封闭水井,暴发即告终止。英国医师英国医师John.Snow运用流行病学运用流行病学调查,分析了霍乱的流行情况调查,分析了霍乱的流行情况 Snow关于霍乱的调查,正是运用了关于霍乱的调查,正是运用了描述性研究描述性研究的方法,分析霍乱的人群现象、的方法,分析霍乱的人群现象、地区差异等情况,了解霍乱的分布,根据地区差异等情况,了解
3、霍乱的分布,根据分布特点,提出霍乱暴发与宽街供水站有分布特点,提出霍乱暴发与宽街供水站有关这一假设。关这一假设。定义定义 描述性研究(descriptive study),又称描述流行病学(descriptive epidemiology),是指利用常规监测记录或通过专门调查获得的数据资料包括实验室检查结果,按照不同地区、不同时间及不同人群特征分组,描述人群中疾病或健康状态或暴露因素的分布情况,在此基础上进行比较分析,获得疾病三间分布的特征,进而提出病因假设和线索。它既是流行病学研它既是流行病学研究工作的起点,也是其他流行病学研究方法的基础。究工作的起点,也是其他流行病学研究方法的基础。描述性
4、资料的来源描述性资料的来源专门设计的专门设计的调查研究调查研究现况研究现况研究生态学研究生态学研究个案调查个案调查暴发调查暴发调查常规记录常规记录资料资料死亡报告死亡报告出生登记出生登记出生缺陷监测出生缺陷监测药物不良反应监测药物不良反应监测疾病监测疾病监测概 述研究设计与实施研究实例目 录第一节第一节 概述概述现况研究是应用普查或抽样调查的方法收集特现况研究是应用普查或抽样调查的方法收集特定时间、特定人群中疾病、健康状况及有关因定时间、特定人群中疾病、健康状况及有关因素的资料,并对资料的分布状况、疾病与因素素的资料,并对资料的分布状况、疾病与因素的关系加以描述的关系加以描述又称横断面研究(又
5、称横断面研究(cross-sectional study),),患病率研究(患病率研究(prevalence study)一、基本概念一、基本概念开始时一般不设有对照组开始时一般不设有对照组具有特定的时间具有特定的时间在确定因果联系时受到限制,但对某些不会发在确定因果联系时受到限制,但对某些不会发生改变的暴露因素,可以提示因果联系生改变的暴露因素,可以提示因果联系定期重复进行可以获得发病率资料定期重复进行可以获得发病率资料二、研究特点二、研究特点掌握目标群体中疾病或健康状况的分布掌握目标群体中疾病或健康状况的分布 提供疾病病因研究的线索提供疾病病因研究的线索 确定高危人群确定高危人群 评价疾病
6、监测、预防接种等防治措施效果评价疾病监测、预防接种等防治措施效果 确定机体各项指标的正常值范围确定机体各项指标的正常值范围三、研究目的与应用范围三、研究目的与应用范围普查(普查(census)四、研究类型四、研究类型 是指在特定时间对特定范围内人群中的每一个成员进行的全面调查或检查。特定时间一般较短,1-2天或1-2周,大规模的普查最长不应超过2-3个月。特定范围可以是某地区、某单位、某居民区的全部居民或全部具有某特征的人群。优点优点不存在抽样误差不存在抽样误差可以同时调查多种疾病或健康状况的分布情况可以同时调查多种疾病或健康状况的分布情况能发现目标人群中的全部病例,在实现能发现目标人群中的全
7、部病例,在实现“三早三早”预防预防的同时,全面描述疾病的分布与特征,为病因研究提的同时,全面描述疾病的分布与特征,为病因研究提供线索供线索四、研究类型四、研究类型缺点缺点工作量大,不易深入细致,易发生漏查工作量大,不易深入细致,易发生漏查调查质量不易控制调查质量不易控制耗费人力、物力,成本高耗费人力、物力,成本高不适用于患病率低及无简便易行诊断手段的疾病不适用于患病率低及无简便易行诊断手段的疾病抽样调查抽样调查(sampling survey)四、研究类型四、研究类型 是指从研究对象的总体中随机抽取随机抽取有代表性代表性的部分人群进行调查,统计学称为样本人群的调查,以所得的结果估计总体人群某病
8、的患病率或某些特征的情况,即以局部推论总体的调查方法。样本代表性是抽样调查能否成功的关键所在样本代表性是抽样调查能否成功的关键所在 随机抽样和样本含量适当是保证样本代表性的两个基本随机抽样和样本含量适当是保证样本代表性的两个基本原则原则在一个有在一个有N个观察单位的总体中,若个观察单位的总体中,若抽取抽取n个单位组成随机样本,则每个个单位组成随机样本,则每个单位被抽到的概率均应为单位被抽到的概率均应为n/N将样本的随机误差控制在允许范围将样本的随机误差控制在允许范围之内时所需的最小样本含量之内时所需的最小样本含量优点优点节省时间、人力和物力节省时间、人力和物力调查范围小,调查工作容易做得细致调
9、查范围小,调查工作容易做得细致四、研究类型四、研究类型缺点缺点调查设计、实施和资料分析均比较复杂调查设计、实施和资料分析均比较复杂重复和遗漏不易发现重复和遗漏不易发现不适用于变异过大的资料和需要普查普治的疾病不适用于变异过大的资料和需要普查普治的疾病不适用于患病率很低的疾病不适用于患病率很低的疾病第二节第二节 研究设计与实施研究设计与实施 明确调查目的和类型明确调查目的和类型 确定研究对象确定研究对象 确定样本量和抽样方法确定样本量和抽样方法 资料的收集资料的收集 资料的整理与分析资料的整理与分析 常见偏倚及其控制常见偏倚及其控制 研究的优点与局限性研究的优点与局限性研究设计与实施研究设计与实
10、施一、明确调查目的和类型一、明确调查目的和类型 根据研究提出的问题,明确调查目的根据研究提出的问题,明确调查目的 根据具体研究目的确定是普查还是抽样调查根据具体研究目的确定是普查还是抽样调查二、确定研究对象二、确定研究对象 根据研究目的规定对象的人群分布特根据研究目的规定对象的人群分布特征、地域范围以及时间点:征、地域范围以及时间点:某个区域内的全体居民或其中一部分某个区域内的全体居民或其中一部分 某一时点上的流动人员某一时点上的流动人员 某些特殊群体某些特殊群体三、确定样本量和抽样方法三、确定样本量和抽样方法 确定样本量确定样本量 预期现患率(预期现患率(P)允许误差(允许误差(d)显著性水
11、平(显著性水平()计数资料样本含量的估计方法:用以样本率估计总体计数资料样本含量的估计方法:用以样本率估计总体率的样本含量计算公式。当总体率接近率的样本含量计算公式。当总体率接近0.5(比如(比如0.20.8)时,可按正态近似原理,采用下式计算样)时,可按正态近似原理,采用下式计算样本含量:本含量:式中:式中:n为所需样本含量为所需样本含量 p为总体率的估计值,为总体率的估计值,q=1-p d为允许误差,即允许抽样率与总体率之间的差别可以有多大,一为允许误差,即允许抽样率与总体率之间的差别可以有多大,一般用般用p的百分比估计的百分比估计 为第一类错误的概率,为第一类错误的概率,为确定为确定后的
12、后的u值,可查值,可查u值表获得值表获得u22dpqun流行病学现况研究中常用的抽样条件是:流行病学现况研究中常用的抽样条件是:允许误差允许误差d=0.1p 0.05 u0.05=1.962此时上式可简化为:此时上式可简化为:例题:某地欲了解其例题:某地欲了解其50岁以上人口中高血压病的患病率,岁以上人口中高血压病的患病率,估计该人口的患病率估计该人口的患病率p=25%,设,设为为0.05,允许误,允许误差为差为0.1p,样本含量为:,样本含量为:人)(120025.075.0400400pqnpqn 400若总体率很低时,如肿瘤、某种出生缺陷,可按下若总体率很低时,如肿瘤、某种出生缺陷,可按
13、下式估计样本含量,也可参照泊松分布可信限表估计样本式估计样本含量,也可参照泊松分布可信限表估计样本含量。含量。21)1(/(sin3.57ppdun计量资料样本含量的估计方法计量资料样本含量的估计方法用以样本均数估计总体均数的样本含量的计算公式用以样本均数估计总体均数的样本含量的计算公式 式中:式中:n和和 同前式同前式 为估计的总体标准差为估计的总体标准差 为允许误差,即允许的样本均数与总体均数的误差为允许误差,即允许的样本均数与总体均数的误差2unu例题:拟用抽样调查了解某地健康成人白细胞计数的平均水例题:拟用抽样调查了解某地健康成人白细胞计数的平均水平,希望误差不超过平,希望误差不超过1
14、00/mm。已知健康成人白细胞。已知健康成人白细胞计数的标准差约计数的标准差约1000/mm,如定,如定为为0.05需查多少人?需查多少人?注意:注意:简单随机抽样、系统抽样、分层抽样的样本含量皆按式计算简单随机抽样、系统抽样、分层抽样的样本含量皆按式计算整群抽样需扩大整群抽样需扩大50样本含量以减少抽样误差样本含量以减少抽样误差人)(3852.384100100096.12n随机抽样随机抽样 遵循遵循随机化随机化原则,保证总体中每一个对象都有原则,保证总体中每一个对象都有同等机会被选入作为研究对象同等机会被选入作为研究对象 方法:单纯随机抽样方法:单纯随机抽样 系统抽样系统抽样 分层抽样分层
15、抽样 整群抽样整群抽样 多级抽样多级抽样单纯随机抽样(简单随机抽样)单纯随机抽样(简单随机抽样)最简单、最基本的抽样方法从总体N个对象中,利用抽签或其他随机方法(如随机数字)抽取n个总体中每个对象被抽到的概率相等 Simple random sampling图图3-1 总体与样本示意图总体与样本示意图系统抽样系统抽样(机械抽样机械抽样)按照一定顺序,机械地每隔若干单位抽取按照一定顺序,机械地每隔若干单位抽取一个单位的抽样方法一个单位的抽样方法将总体各个个体单位按某种标志排列、连续编号根据总体数N和确定的样本数n,计算抽样距离(N/n)用单纯随机方法在第一组中确定一个起始号从此起始点开始,每隔K
16、(K=N/n)个单位抽取一个作为研究对象 Systematic sampling图图3-2 系统抽样示意图系统抽样示意图例如:某人群有2万人,决定抽取1千个人组成样本,则K=20000/1000=20,抽样间隔20119,应从120号中按照单纯随机抽样的方法抽取1个号码作为起点,之后每隔19个号码抽取一个单位。注意:注意:假如总体各单位的排列有某种规律,而该规律与研究结果有关,若利用该排列抽样,可使样本产生偏倚。例如:全班同学由矮到高排好队,按1/3比例做系统抽样,调查身体发育情况。若恰巧抽样起点是队列中的第一名,之后每间隔两人抽一人,该样本的平均身高应低于全班平均身高。分层抽样分层抽样 将总
17、体单位按某种特征分为若干次级(层),然将总体单位按某种特征分为若干次级(层),然后从每一层内单纯随机抽样组成一个样本后从每一层内单纯随机抽样组成一个样本按比例分配(proportional allocation)分层随机抽样 各层内抽样比例相同最优分配(optimum allocation)分层随机抽样 各层抽样比例不同,内部变异小的层抽样比例小,内部变异大的层抽样比例大 Stratified sampling图图3-3 分层抽样示意图分层抽样示意图整群抽样整群抽样 将总体分成若干群组,抽取其中部分群将总体分成若干群组,抽取其中部分群组作为观察单位组成样本组作为观察单位组成样本单纯整群抽样(S
18、imple cluster sampling)被抽到的群组中的全部个体均作为调查对象二阶段抽样(Two stages sampling)通过再次抽样后调查部分个体 Cluster sampling图图3-4 整群抽样示意图整群抽样示意图单纯随机抽样单纯随机抽样系统抽样系统抽样整群抽样整群抽样分层抽样分层抽样优优点点简单直观,是其他抽样方法的基础;均数(或比率)及标准误计算简便易理解,简便易行;可得到按比例分配的样本;样本在总体中的分布较均匀便于组织调查;节省经费;容易控制调查质量减少抽样误差;可对不同层采用不同得抽样方法;可对不同层独立进行分析缺缺点点例数较多时,编号麻烦,实际工作中难以办到;
19、当总体变异大时,代表性不如分层抽样;样本分散,难以组织调查观察单位按顺序有周期趋势或单调递增(减)时易产生偏差样本例数一定时,抽样误差大于单纯随机抽样(因样本未广泛散布于总体中)分层变量选择不当,层内变异较大,层间变异小,分层抽样就失去意义适适用用范范围围是其他抽样方法的基础,主要用于总体不太大的情形主要用于按抽样顺序个体随机分布的情形主要用于群间差异较小的情形主要用于层间差异较大的对象四种基本抽样方法比较四种基本抽样方法比较多阶段抽样多阶段抽样 将抽样过程分阶段进行,每个阶段使用的抽样方法将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将以上抽样方法结合使用,在大型流行往往不同,即将
20、以上抽样方法结合使用,在大型流行病学调查中常用。在抽样之前要掌握各级调查单位的病学调查中常用。在抽样之前要掌握各级调查单位的人口资料及特点。人口资料及特点。方法:方法:从总体中抽取范围较大的单元,称为一级抽样单位(primary sampling unit,PSU)从一级单元中抽取范围较小的二级单元依此类推Multistage sampling四、资料的收集四、资料的收集 确定拟收集资料的内容确定拟收集资料的内容 个人的基本情况个人的基本情况 职业情况职业情况 生活习惯及保健情况生活习惯及保健情况 妇女生育情况妇女生育情况 环境资料环境资料 人口学资料人口学资料 在调查之前应对参加调查的人员按
21、照标准的在调查之前应对参加调查的人员按照标准的方法进行统一的培训,使其掌握调查的方法,保方法进行统一的培训,使其掌握调查的方法,保证收集资料方法和标准的一致性。这是保证收集证收集资料方法和标准的一致性。这是保证收集的研究资料准确性的重要环节。的研究资料准确性的重要环节。调查员培训调查员培训 资料的收集方式资料的收集方式 通过实验室测定或检查的方法通过实验室测定或检查的方法 通过调查表对研究对象进行调查通过调查表对研究对象进行调查 利用常规资料利用常规资料 检查资料完整性和准确性检查资料完整性和准确性 按标准归类、核实按标准归类、核实 五、资料的整理与分析五、资料的整理与分析检查资料的完整准确性
22、,补缺、补漏,删除检查资料的完整准确性,补缺、补漏,删除重复,纠正错误重复,纠正错误对疾病或某健康状态按规定的标准归类核实对疾病或某健康状态按规定的标准归类核实按不同空间、时间、人群描述分布特征和差按不同空间、时间、人群描述分布特征和差异,进行显著性检验异,进行显著性检验按是否暴露研究因素进行分组作有对照组的按是否暴露研究因素进行分组作有对照组的比较分析比较分析五、资料的整理与分析五、资料的整理与分析 偏倚(偏倚(bias)六、常见偏倚及其控制六、常见偏倚及其控制从研究设计、实施、到数据处理和分析的各个环节中产生的系统误差,以及结果解释、推论中的片面性,导致研究结果与真实值之间出现倾向性的差异
23、,从而错误地描述暴露与疾病之间的联系,称之为偏倚。主观选择研究对象任意变换抽样方法调查对象不合作或因种种原因拒绝参加调查到的对象均为幸存者,无法调查死亡者回答不准确或回忆不清,报告偏倚调查偏倚测量误差 产生原因产生原因六、常见偏倚及其控制六、常见偏倚及其控制严格遵照抽样方法要求,确保随机化原则提高研究对象的依从性和受检率正确选择测量工具和检测方法培训调查员,统一标准和认识做好资料的复查复核工作选择正确的统计分析方法,辨析混杂因素 偏倚的控制偏倚的控制六、常见偏倚及其控制六、常见偏倚及其控制 优点优点常用抽样调查,结果有较强推广意义常用抽样调查,结果有较强推广意义有来自同一群体的自然形成的同期对
24、有来自同一群体的自然形成的同期对照组,结果具有可比性照组,结果具有可比性可同时观察多种因素可同时观察多种因素七、现况研究的优点与局限性七、现况研究的优点与局限性 局限性局限性难以确定先因后果的时相关系难以确定先因后果的时相关系不能获得发病率资料不能获得发病率资料研究对象可能处于临床前期而被误定研究对象可能处于临床前期而被误定为正常人为正常人七、现况研究的优点与局限性七、现况研究的优点与局限性第三节第三节 研究实例研究实例 20002000年第四次全国结核病年第四次全国结核病流行病学抽样调查流行病学抽样调查 一、明确调查目的和类型一、明确调查目的和类型目的目的 获得全国结核病的患病率及相关的基础
25、资料。类型类型 普查和抽样调查都可以采用,但结核病属较常见病种,抽样调查是最优的选择。二、确定研究对象、样本量和抽样方法二、确定研究对象、样本量和抽样方法研究对象 全国的居民样本量 约38万人抽样方法 分层整群等比例随机抽样 具体方案具体方案 全国设257个调查点 抽样比例为13200 每个调查的群体人数保持在1500人左右 折算后全国抽样人数约为38万人左右,约每480万人口中调查1500人 实际调查实际调查 平均每个调查点实检人数为1420人抽样人口为418456人应检人口为375599人实检人口为365097人受检人口占应检人口的97.2%,占抽样人口的87.3%三、确定研究内容和资料的
26、收集方法三、确定研究内容和资料的收集方法 收集方法收集方法 实验室检测 问卷调查 调查、检测项目调查、检测项目 肺结核的患病率 涂阳患病率和菌阳患病率 野生株的菌种鉴定和药物敏感试验 结核病及肺结核的死亡专率 结核病防治措施及肺结核患者社会经济情况四、资料整理与分析四、资料整理与分析 主要对结核病现患流行情况及其人群、空间和 时间分布特征进行了描述结果结果 流行状况 活动性肺结核患病率 367/10万 菌阳患病率 160/10万 涂阳患病率 122/10万 估算全国有活动性肺结核患者451万,菌阳肺结核196万,涂阳肺结核150万。结论我国人群结核患病率依然很高 人群分布人群分布 35岁年龄组
27、的涂阳和菌阳肺结核患病率的男女性别无差异 其余年龄组的各类患病率男性均高于女性 患病率随年龄的增长呈不断增高趋势,55岁后 更为明显,至75岁达到最高 空间分布空间分布 将我国分成东、中、西部三类地区,各地区的肺结核疫情有明显差异 农村是结核病疫情最严重的地区 项目地区活动性、涂阳和菌阳肺结核患病 率明显低于其他非项目地区表表3 31 1 结核病流行的空间分布结核病流行的空间分布 因素活动性肺结核(例)涂阳肺结核(例)菌阳肺结核(例)地理位置 东部地区24593120 中部地区 436 148178 西部地区 451137199城乡分布 城市 21168117 城镇 319101129 农村
28、393116169地区 项目地区 328110150 非项目地区 429143180时间趋势 标准化处理后 2000年活动性、涂阳和菌阳肺结核患病率 300/10万、97/10万和124/10万 1990年活动性、涂阳和菌阳肺结核患病率 523/10万、134/10万和177/10万 涂阳患病率2000年比1990年下降27.6%,年递降率 为3.2%五、调查结论五、调查结论 我国结核病的流行虽然呈缓慢下降趋势,但患病率依然较高 结核病患病率男性高于女性,随着年龄的增长患病率不断提高 经济不发达地区和农村结核病疫情较为严重 某市区疾控部门为摸清本区人群中乙型肝炎表面抗原某市区疾控部门为摸清本区
29、人群中乙型肝炎表面抗原(HBsAg)携带情况及其家庭分布特点,拟进行一次现况研)携带情况及其家庭分布特点,拟进行一次现况研究。该市区约究。该市区约16万余人,分为万余人,分为6个街道居委会,每个街道居委个街道居委会,每个街道居委会下设会下设1315个居民委员会,每个居民委员会由个居民委员会,每个居民委员会由19002100人,人,约约500个家庭(平均每个家庭个家庭(平均每个家庭4口人)。该市区为一般居民,由口人)。该市区为一般居民,由各种职业人员组成。已知邻区调查结果各种职业人员组成。已知邻区调查结果HBsAg阳性率为阳性率为9.5%。Q1:本次调查的目的是什么?预期分析指标有哪些?:本次调查的目的是什么?预期分析指标有哪些?Q2:根据你所确定的调查目的,本次调查应采用普查还是抽:根据你所确定的调查目的,本次调查应采用普查还是抽样调查?如果采用抽样调查,样调查?如果采用抽样调查,如何抽样?如何抽样?Q3:根据所选抽样方法,确定本次调查的样本大小。:根据所选抽样方法,确定本次调查的样本大小。Q4:本次调查中可能会遇到哪些影响调查质量的因素?应如:本次调查中可能会遇到哪些影响调查质量的因素?应如何控制和评价调查资料的质量?何控制和评价调查资料的质量?Q5:制定一份现况调查设计。:制定一份现况调查设计。思考题思考题