1、1山东大学公共卫生学院山东大学公共卫生学院School of Public HealthShandong University流行病与卫生统计学研究所流行病与卫生统计学研究所山东大学公共卫生学院山东大学公共卫生学院2 一、原始数据的检查一、原始数据的检查 在数据分析前需要对原始的流行病学调查研究数据进行一在数据分析前需要对原始的流行病学调查研究数据进行一次次审查审查,发现可能存在的错误、遗漏的研究变量取值和其他问,发现可能存在的错误、遗漏的研究变量取值和其他问题,并题,并采取相应的措施进行处理采取相应的措施进行处理。u若在调查表中发现有若在调查表中发现有缺失的数据缺失的数据,可以通过电话再次询
2、问,可以通过电话再次询问研究对象、查阅有关的记录、应用储存的血液标本重新检研究对象、查阅有关的记录、应用储存的血液标本重新检测或再次取样等措施进行补充。测或再次取样等措施进行补充。u若发现若发现逻辑错误逻辑错误,也要及时改正。需要对调查问卷进行编,也要及时改正。需要对调查问卷进行编码或者对已编码的问卷进行核查,避免重复和遗漏。码或者对已编码的问卷进行核查,避免重复和遗漏。山东大学公共卫生学院山东大学公共卫生学院3 二、选择合适的数据管理和数据分析软件二、选择合适的数据管理和数据分析软件u常用的数据管理软件常用的数据管理软件 Microsoft FoxProMicrosoft FoxPro、Mi
3、crosoft AccessMicrosoft Access、Microsoft ExcelMicrosoft Excel 这些数据管理软件也具有简单这些数据管理软件也具有简单的数据分析功能,的数据分析功能,ExcelExcel的数据分析功能更强,不的数据分析功能更强,不仅可实现描述性统计,还可以做仅可实现描述性统计,还可以做t t检验、方差分析、检验、方差分析、相关回归分析等相关回归分析等u常用的数据分析软件常用的数据分析软件 SASSAS(Statistical Analysis SystemStatistical Analysis System)和和SPSSSPSS(Statistica
4、l Package for Social ScienceStatistical Package for Social Science),它们均具有很强的数据分析和数据管理的功能它们均具有很强的数据分析和数据管理的功能山东大学公共卫生学院山东大学公共卫生学院4 三、数据的计算机录入三、数据的计算机录入 (编号、定义变量名、变量数量化)编号、定义变量名、变量数量化)u编号:给编号:给每一个每一个调查表或调查对象调查表或调查对象一个一个编号编号以识别录入的数据与调查表或调查对象的对以识别录入的数据与调查表或调查对象的对应关系应关系(唯一性)(唯一性)p使用阿拉伯数字使用阿拉伯数字1 1、2 2、3
5、3等给每份调查表按照顺等给每份调查表按照顺序编号,这样有利于以后对输入的数据进行检查、序编号,这样有利于以后对输入的数据进行检查、核对与修改错误。核对与修改错误。p可以给编号以时间、地区、单位、调查对象编号可以给编号以时间、地区、单位、调查对象编号等,如:等,如:200501200501(济南)(济南)0202(历下)(历下)00010001(调查(调查对象)对象)山东大学公共卫生学院山东大学公共卫生学院5 u定义变量名称:定义变量名称:命名:可以应用中文、拼音、也可以应用英文,但以命名:可以应用中文、拼音、也可以应用英文,但以使用拼音或英文为好,这样可以方便输入。使用拼音或英文为好,这样可以
6、方便输入。注意:注意:p 变量名应简短、易懂易记:如对性别、年龄、身高、体重可变量名应简短、易懂易记:如对性别、年龄、身高、体重可以使用以使用gender,age,height 和和weight进行命名。对名称较进行命名。对名称较长的变量,可以使用长的变量,可以使用简写简写,如,如wt表示表示weight、ht表示表示height。p 标记或说明:有些数据管理和分析软件可变量进行标记或说标记或说明:有些数据管理和分析软件可变量进行标记或说明,避免时间长久了而忘记数据库中的变量名字,如对上述明,避免时间长久了而忘记数据库中的变量名字,如对上述Wt可标记为可标记为“weight”。山东大学公共卫生
7、学院山东大学公共卫生学院6 u变量数量化变量数量化 如果调查表的设计是如果调查表的设计是编码式编码式的,则此步骤可省略,的,则此步骤可省略,直接直接将变量取值编码的结果输入计算机。将变量取值编码的结果输入计算机。若若不是编码式不是编码式的调查结果,则需要对变量的取值的调查结果,则需要对变量的取值结果进行结果进行编码编码(数量化)数量化)。山东大学公共卫生学院山东大学公共卫生学院7 l 常见变量的类型常见变量的类型 1 1、字符型、字符型(character type)(character type):输入字符如中文或英文输入字符如中文或英文 2 2、数值型、数值型(numerical type
8、)(numerical type):以数值的形式输入以数值的形式输入 3 3、日期型、日期型(data type)(data type):按照规定的格式输入日期数值按照规定的格式输入日期数值 4 4、逻辑性(、逻辑性(logical typelogical type):山东大学公共卫生学院山东大学公共卫生学院8 l变量数量化时应注意:变量数量化时应注意:(1)除日期型变量外)除日期型变量外尽量使用数值型变量尽量使用数值型变量 (2)某些数值变量)某些数值变量(numerical variable)可可直接输入变量的取值直接输入变量的取值,如研究对象的身高、,如研究对象的身高、体重、血压水平等。
9、体重、血压水平等。(3)分类变量分类变量(categorical variable)及有及有 序变量序变量(ordinal variable)则可将其取值进行则可将其取值进行量化量化,然后再输入计算机,然后再输入计算机 山东大学公共卫生学院山东大学公共卫生学院9 白人白人1 黑人黑人2 西班牙裔人西班牙裔人3 亚太裔亚太裔4 其它种族其它种族5注意:注意:分类变量在进行多因素分析时,分类变量在进行多因素分析时,必须转换成哑变量必须转换成哑变量(dummy variabledummy variable),不能直接将前述的取值),不能直接将前述的取值1 1、2 2、3 3、4 4、5 5放入方程中
10、进行分析。放入方程中进行分析。山东大学公共卫生学院山东大学公共卫生学院10 l 有序变量的数量化顺序合理,则可以直接进行分析有序变量的数量化顺序合理,则可以直接进行分析 如:教育程度如:教育程度 文盲:文盲:0 小学:小学:1 中学:中学:2 高中及中专:高中及中专:3 大学:大学:4 硕士及以上:硕士及以上:5山东大学公共卫生学院山东大学公共卫生学院11 山东大学公共卫生学院山东大学公共卫生学院12 五、数据的整理五、数据的整理(一)数据分组(一)数据分组l分类变量:分类变量:按其原有的分类进行分组,若有必要,可将性按其原有的分类进行分组,若有必要,可将性质相近或差别不大的类别进行合并。如教
11、育程度。质相近或差别不大的类别进行合并。如教育程度。l数值变量:数值变量:按照按照实际的生理、病理或临床意义分组实际的生理、病理或临床意义分组,如体重,如体重指数:低体重、正常体重、超重和肥胖指数:低体重、正常体重、超重和肥胖 山东大学公共卫生学院山东大学公共卫生学院13 按使用的按使用的方便程度和专业上惯用方便程度和专业上惯用的方法分的方法分组,如年龄在某一个合适的范围内每组,如年龄在某一个合适的范围内每5 5岁或岁或1010岁岁分成一组。分成一组。按按分位数分组分位数分组,即首先找出四分位数,即首先找出四分位数(quartile)或五分位数()或五分位数(quintile)的界值,)的界值
12、,然后应用这些界值将研究对象平均分成然后应用这些界值将研究对象平均分成4组(每组(每组组25%的研究对象)或的研究对象)或5组(每组组(每组20%的研究对的研究对象)。象)。山东大学公共卫生学院山东大学公共卫生学院14 (二)数据的转换二)数据的转换1、非正态数据的变量转换、非正态数据的变量转换原理:原理:正态分布正态分布 参数检验参数检验(parametric test)非正态数据非正态数据非参数检验非参数检验(non-parametric test)(不是对原始数据检验)如:秩和检验(不是对原始数据检验)如:秩和检验(是对(是对原始数据的秩次检验)原始数据的秩次检验)检验:正态性检验、方差
13、齐性检验检验:正态性检验、方差齐性检验 方法:对数变换;平方根变换;倒数变换方法:对数变换;平方根变换;倒数变换 山东大学公共卫生学院山东大学公共卫生学院15 2 2、分类变量转换成哑变量、分类变量转换成哑变量u原理:原理:分类变量是分类变量是二分类尺度及顺序尺度二分类尺度及顺序尺度,则可,则可直接应用其原有的数量化数值。直接应用其原有的数量化数值。名义尺度名义尺度因为各类别间没有顺序关系,在因为各类别间没有顺序关系,在进行不同分析(包括多元分析、进行不同分析(包括多元分析、logisticlogistic回归、回归、CoxCox回归等)时,不能使用原始的计算机录入回归等)时,不能使用原始的计
14、算机录入数值,必经进行变量转换数值,必经进行变量转换即将该变量转换即将该变量转换成(水平数成(水平数-1-1)个哑变量)个哑变量,再将这些新转换的再将这些新转换的变量放入多因素模型中。变量放入多因素模型中。山东大学公共卫生学院山东大学公共卫生学院16 u方法:方法:例如:将种族原始取值转换成哑变量(新变量)例如:将种族原始取值转换成哑变量(新变量)表表1.分类变量转换成哑变量的方法分类变量转换成哑变量的方法 新变量新变量 .种族种族 原始取值原始取值(x1)x1-1 x1-2 x1-3 x1-4白人白人 1 0 0 0 0黑人黑人 2 1 0 0 0亚太裔亚太裔 3 0 1 0 0西班牙裔人西
15、班牙裔人 4 0 0 1 0其它种族其它种族 5 0 0 0 1新变量以白人为参照,新变量以白人为参照,X1X11 1表示黑人与白人比较,依此类推表示黑人与白人比较,依此类推山东大学公共卫生学院山东大学公共卫生学院17 六、确定拟分析的因变量和应变量六、确定拟分析的因变量和应变量l因(自)变量因(自)变量(independent variable):是指是指影响疾病的发生或健康状况的分布的变量,影响疾病的发生或健康状况的分布的变量,是原因变量是原因变量、已知变量、已知变量、x变量。变量。l应变量应变量(dependent variable):是指随因变量是指随因变量的变化而发生变化的变量,是结
16、果变量、预的变化而发生变化的变量,是结果变量、预测变量、测变量、y变量。变量。应变量是在自变量作用下产生反应的变量应变量是在自变量作用下产生反应的变量山东大学公共卫生学院山东大学公共卫生学院18 意义意义l有助于选择拟研究的变量:有助于选择拟研究的变量:对调查表的设计具有指导对调查表的设计具有指导作用作用 l可以指导数据分析方法的选择可以指导数据分析方法的选择:因变量是分类变量:因变量是分类变量:采用采用2检验,检验,logistic回归回归分析等。分析等。因变量是数值变量:因变量是数值变量:采用采用t检验、方差分析,协检验、方差分析,协方差分析、多元回归等方差分析、多元回归等。l有助于模型的
17、建立有助于模型的建立:应变量(:应变量(y)放在模型的左侧,)放在模型的左侧,因变量(因变量(x)放在模型的右侧。)放在模型的右侧。山东大学公共卫生学院山东大学公共卫生学院19 l例例1.欲评价不同治疗方法(口服药物、注射胰岛素及欲评价不同治疗方法(口服药物、注射胰岛素及膳食控制)对糖尿病人的治疗效果(血糖水平),分膳食控制)对糖尿病人的治疗效果(血糖水平),分析时要求调整病人的性别、年龄和病程的影响析时要求调整病人的性别、年龄和病程的影响。血糖水平(应变量血糖水平(应变量y y)=治疗方法(因变量治疗方法(因变量x)+x)+其它协变量其它协变量 (covariate,性别、年龄和病程),性别
18、、年龄和病程)l例例2.欲分析脂蛋白(欲分析脂蛋白(a)与冠心病发生的关系。)与冠心病发生的关系。冠心病冠心病(应变量应变量y)=y)=脂蛋白脂蛋白(a)(a)(因变量因变量x)x)山东大学公共卫生学院山东大学公共卫生学院20 七、缺失数据(七、缺失数据(missing data)的处理)的处理 l 缺失数据:是指其测量结果缺失。缺失数据:是指其测量结果缺失。产生的原因:产生的原因:p 问卷调查:遗漏出生日期和年龄,调查结束后又无法补救问卷调查:遗漏出生日期和年龄,调查结束后又无法补救p 实验室检测:血脂或血糖因为血清量不足或研究对象拒绝采血实验室检测:血脂或血糖因为血清量不足或研究对象拒绝采
19、血而致而致p 过去处理:仅用无缺失的数据进行分析过去处理:仅用无缺失的数据进行分析损失样本量损失样本量 缺失数据缺失数据“合理合理”赋值赋值人为赋值不一定合人为赋值不一定合理理山东大学公共卫生学院山东大学公共卫生学院21 u现在处理现在处理 数据分析处理件软处理数据分析处理件软处理:SAS自动分析处理自动分析处理 如一个数据库中有性别和年龄等变量,性别有如一个数据库中有性别和年龄等变量,性别有1010个缺个缺失数据,年龄有失数据,年龄有3 3个缺失数据:个缺失数据:分析性别时不包括性别缺失的分析性别时不包括性别缺失的10个个体个个体分析年龄时不包括缺失年龄的分析年龄时不包括缺失年龄的3个个体个
20、个体当分析中(如多因素分析)共同使用了性别和年龄时,分析当分析中(如多因素分析)共同使用了性别和年龄时,分析的实际样本数量是性别和年龄这两个变量均不含缺失数据的的实际样本数量是性别和年龄这两个变量均不含缺失数据的样本样本 山东大学公共卫生学院山东大学公共卫生学院22流行病学数据分析方法的选择流行病学数据分析方法的选择一、流行病学数据的分析程序一、流行病学数据的分析程序 数值变量数值变量 正态性检验正态性检验 正态正态 数据转换数据转换 非正态非正态 参数检验参数检验 非参数检验非参数检验 图图1.数值变量的分析程序数值变量的分析程序 山东大学公共卫生学院山东大学公共卫生学院23 单因素分析单因
21、素分析 2检验检验 分类变量分类变量 分层分析分层分析 多因素分析多因素分析 logistic回归分析回归分析 Cox回归分析回归分析 其它分析方法其它分析方法 图图2.2.分类分类变量的分析程序变量的分析程序 山东大学公共卫生学院山东大学公共卫生学院24 二、根据研究设计类型选择二、根据研究设计类型选择(一)成组比较的设计(一)成组比较的设计 两组比较:两组比较:t t检验或检验或2 2检验检验多组比较:方差分析、行多组比较:方差分析、行列表列表2 2检验检验病例对照研究:按其分析方法分析病例对照研究:按其分析方法分析分级的病列对照研究:按其分析方法分析分级的病列对照研究:按其分析方法分析(
22、二)配对(自身实验前后)设计(二)配对(自身实验前后)设计配比的配比的t t检验、检验、2 2检验检验配对的病例对照研究方法进行数据配对的病例对照研究方法进行数据 山东大学公共卫生学院山东大学公共卫生学院25 (三)重复测量的设计(三)重复测量的设计 在给定一个处理因素后在不同的时间重复测量某在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果,在接种后的免疫学效果,在接种后的2 2周、周、4 4周、周、6 6周和周和8 8周测定抗周测定抗体滴度:体滴度:重复测量的方差分析方法重复测量的方差分析方法 (
23、四)多因素设计(四)多因素设计自变量是数值变量:多元回归分析方法、协方差分自变量是数值变量:多元回归分析方法、协方差分析方法析方法 自变量分类变量:自变量分类变量:logisticlogistic回归分析方法、判别分回归分析方法、判别分析方法、聚类分析方法析方法、聚类分析方法 山东大学公共卫生学院山东大学公共卫生学院26 三、根据变量的类型选择三、根据变量的类型选择 因变量 应变量(y)(x)数值变量 分类变量有序变量数值变量相关分析,多元回归分析 t检验,方差分析,协方差分析,多元回归分析 相关分析,多元回归分析 分类变量t检验,方差分析,logistic回归分析,判别分析,聚类分析 2检验
24、,logistic回归分析 2检验有序变量方差分析,logistic回归分析,判别分析,聚类分析 2检验,logistic回归分析 相关分析,2检验 生存时间生存分析 山东大学公共卫生学院山东大学公共卫生学院27表表3.3.不同研究设计和数据类型的数据分析方法选择不同研究设计和数据类型的数据分析方法选择 研究设计类型变量类型 两组比较两组以上比较实验前后比较重复测量两变量间的联系数值变量t检验方差分析配对t检验重复测量的方差分析线性回归Pearson相关系数 分类变量2检验2检验配对2检验列联表相关系数 有序变量Mann-Whitney秩和检验 Kruskal-Wallis分析(成组设计多个样
25、本比较的秩和检验)Wilcoxon符号秩和检验(配对设计差值的符号检验)Spearman相关系数 生存时间生存分析山东大学公共卫生学院山东大学公共卫生学院28不同流行病学研究类型的数据分析方法不同流行病学研究类型的数据分析方法一、描述性研究一、描述性研究(一)现况研究(一)现况研究分布描述:患病率、危险因素流行率、数值变量分布分布描述:患病率、危险因素流行率、数值变量分布探讨因素:相关回归分析、探讨因素:相关回归分析、2 2检验、检验、t t检验、方差分析、多因检验、方差分析、多因素分析、人群归因危险度素分析、人群归因危险度 (二)生态学研究(二)生态学研究 同现况研究同现况研究(三)筛检(三
26、)筛检筛检试验的真实性和可靠性筛检试验的真实性和可靠性 人群中疾病、健康状况、危险因素筛选结果分析方法:同现人群中疾病、健康状况、危险因素筛选结果分析方法:同现况研究况研究 山东大学公共卫生学院山东大学公共卫生学院29(一)病例对照研究 病例对照研究数据病例对照研究数据 成组设计成组设计 配比设计配比设计 粗粗OR分级分级OR剂量反应剂量反应 分层分层OR 分级分级OR剂量反应剂量反应 (趋势趋势2检验检验)(趋势趋势2检验检验)分层分层OR 混杂与效应修饰分析混杂与效应修饰分析混杂与效应修饰分析混杂与效应修饰分析 图图3.3.病例对照研究数据的分析程序病例对照研究数据的分析程序 山东大学公共
27、卫生学院山东大学公共卫生学院30(二)队列研究二)队列研究 队列研究数据队列研究数据 人时、发病密度人时、发病密度/累积发病率累积发病率 粗粗RR、AR、AR%、PAR及及PAR%分层分层RR、AR、AR%、PAR、PAR%分级分级RR、AR、AR%、PAR、PAR 山东大学公共卫生学院山东大学公共卫生学院31 山东大学公共卫生学院山东大学公共卫生学院32一、数据的报告顺序一、数据的报告顺序1、按分析顺序、按分析顺序描述性结果:如人口学数据(性别、年龄、职业、文化程描述性结果:如人口学数据(性别、年龄、职业、文化程度,居住地)、某病发病率度,居住地)、某病发病率/患病率、危险因素流行率、数患病
28、率、危险因素流行率、数值变量的集中趋势及变异情况值变量的集中趋势及变异情况单因素分析结果单因素分析结果多因素的分析结果多因素的分析结果2、按变量的特点及逻辑顺序、按变量的特点及逻辑顺序按某疾病的人群、地区及时间的分布特征按某疾病的人群、地区及时间的分布特征按个人生活方式因素、家族遗传因素、社会心理因素、实按个人生活方式因素、家族遗传因素、社会心理因素、实验室及体格检查结果等顺序验室及体格检查结果等顺序山东大学公共卫生学院山东大学公共卫生学院33 二、非正态数据的表达与报告二、非正态数据的表达与报告1 1、未进行变量转换:、未进行变量转换:报告中位数、最小值及最大值报告中位数、最小值及最大值报告
29、中位数、报告中位数、25%25%分位数、分位数、75%75%分位数、最小值及分位数、最小值及最大值最大值报告均值、中位数再配合以上的变异指标报告均值、中位数再配合以上的变异指标2 2、进行变量转换数据、进行变量转换数据报告原始值报告原始值报告其转换值报告其转换值山东大学公共卫生学院山东大学公共卫生学院34 三、数据表达与报告中图、表及文字的使用三、数据表达与报告中图、表及文字的使用u合理合理u生动活泼、简洁明了生动活泼、简洁明了u协调好三者关系协调好三者关系如用盒状图(均值、如用盒状图(均值、25%25%分位数、分位数、75%75%分位数、最小值及最分位数、最小值及最大值)表达数据的集中趋势及变异情况大值)表达数据的集中趋势及变异情况以表格的形式报告以表格的形式报告OROR值或值或RRRR值值以条图的形式报告以条图的形式报告OROR或或RRRR的点估计值、的点估计值、95%95%或或99%99%可信区间可信区间山东大学公共卫生学院山东大学公共卫生学院35