1、医学研究的数据管理与分析Data Management and Analysis目录第一章第一章 绪论绪论第二章第二章 现场调查技术现场调查技术第三章第三章 调查表设计调查表设计第四章第四章 常用研究设计的数据统计分常用研究设计的数据统计分 析过程析过程第五章第五章 数据处理及其质量控制数据处理及其质量控制第六章第六章 数据库和常用数据库管理软数据库和常用数据库管理软 件简介件简介第七章第七章 EpiData软件应用软件应用第八章第八章 SPSS软件应用(一)软件应用(一)第九章第九章 SPSS软件应用(二)软件应用(二)第十章第十章 SPSS软件应用(三)软件应用(三)第十一章第十一章 SP
2、SS软件应用(四)软件应用(四)第十二章第十二章 常见统计图表的软件实现常见统计图表的软件实现第十三章第十三章 EpiCalC软件应用软件应用第十四章第十四章 Review Manager软件应软件应用用第十五章第十五章 Epi Info 2002软件简介软件简介第十六章第十六章 SAS软件简介软件简介课程教学目标 能利用统计学的思维解决医学研究中遇到的问题;能够掌握EpiData、SPSS等软件的常规运用;能够进一步自学EpiData、SPSS等软件;提高医学研究数据处理和统计分析的能力。课程教学计划 绪论调查研究基础 数据管理 EpiData软件应用 数据分析 SPSS软件应用 表格数据分
3、析 EpiCalc软件应用(自学)数据综合分析实际资料演练主要参考书目主要参考书目 卫生统计学(第七版)方积亁 主编,人民卫生出版社,2012年8月。医学统计学(第五版)马斌荣 主编,人民卫生出版社,2008年6月。中医统计学(第二版)申杰、王泓午等编著,科学出版社,2012年7月。医学科研中的统计方法(第四版)马斌荣 主编,科学出版社,2012年6月。临床医学研究设计和数据分析 赵耐青 主编,复旦大学出版社,2005年7月。医学科研数据的处理与分析方法 陈大方、陈常中 主编,北京医科大学出版社,2006年5月。医学统计学与SPSS软件实现方法 郭秀花、刘美娜等编著,科学出版社,2012年8月
4、。数据决策n立题立题n设计设计n观察和实验观察和实验n资料整理和数据统计分析资料整理和数据统计分析n理性概括理性概括确定题目(选题过程)确定题目(选题过程)1提出问题提出问题(problem)2文献查阅文献查阅(critical review of literatures)3假说形成假说形成(formulation of hypothesis)4陈述问题陈述问题(statement of the problem)安排实验安排实验5实验设计实验设计(experimental design)6实验观察实验观察(experimental investigation)7数据资料积累数据资料积累(acc
5、umulation of raw data)总结成文总结成文8数据资料处理数据资料处理(treatment of raw data)9统计学分析统计学分析(statistical analysis)10.提炼出新发现、新概念、新理论,总结、论文提炼出新发现、新概念、新理论,总结、论文n进行一项科研课题如同造一座大桥、一座大厦。如果进行一项科研课题如同造一座大桥、一座大厦。如果大厦事先没有良好的设计就会倒塌,同样科研课题事大厦事先没有良好的设计就会倒塌,同样科研课题事先没有良好的设计就会失败。先没有良好的设计就会失败。n科研设计如同建筑设计一样举足轻重科研设计如同建筑设计一样举足轻重。n研究设计
6、的好坏,直接关系到研究结果的可靠信,任研究设计的好坏,直接关系到研究结果的可靠信,任何设计上的缺陷,都不能期望事后弥补。何设计上的缺陷,都不能期望事后弥补。n进行完试验后再找统计学家分析数据,如同病人进行完试验后再找统计学家分析数据,如同病人死后再找医生进行尸体解剖,医生会告诉病人死死后再找医生进行尸体解剖,医生会告诉病人死亡的原因是什么。同样,统计学家会告诉你试验亡的原因是什么。同样,统计学家会告诉你试验失败的原因是什么。失败的原因是什么。Ronand A.Fisher,1890-1962搜集资料整理与分析资料调查(研究)项目分析表(指标)研究目的回答统计分析步骤调查研究步骤解释、呈现结果1
7、5设 计 思 路 确定调查和研究的目的是选定研究指标的依据确定调查和研究的目的是选定研究指标的依据 研究指标又是研究目的的具体体现研究指标又是研究目的的具体体现n了解了解,用以说明总体。,用以说明总体。n 研究研究,通过确立统计学联系来,通过确立统计学联系来 探索病因或验证疗效等。探索病因或验证疗效等。16:对象来源总体是什么?:对象来源总体是什么?如何抽样?代表性?如何抽样?代表性?:个体?群体?:个体?群体?17根据研究目的选择合适的设计类型:描描述述疾疾病病的的或或健健康康状状况况的的三三间间分分布布 探探讨讨病病因因 验验证证预预防防和和控控制制措措施施的的效效果果 评评价价疫疫苗苗的
8、的效效果果 新新药药上上市市前前临临床床试试验验18常用的实验设计方法(completely random design)(paired design)(randomized block design)(factorial design)(Latin square design)(orthogonal design)(sequential design)20TimeT1n 描述疾病或健康状况的三间分布情况,进行描述疾病或健康状况的三间分布情况,进行社区诊断社区诊断 (community diagnosis)。)。n 描述某些因素或特征与疾病或健康状态的联系,描述某些因素或特征与疾病或健康状态的
9、联系,提出提出病因假设或提供病因线索病因假设或提供病因线索 。n 评价防制措施的效果评价防制措施的效果。n 确定高危人群、筛查确定高危人群、筛查出患有研究疾病的人群,从而达出患有研究疾病的人群,从而达到早发现、早诊断和早治疗的目的。到早发现、早诊断和早治疗的目的。二级预防二级预防n 为进一步流行病学研究为进一步流行病学研究提供基础。提供基础。研究对象研究对象对照组对照组病例组病例组暴露暴露不暴露不暴露暴露暴露不暴露不暴露abcdbaadccTimeNown 回顾性研究回顾性研究n广泛探索病因广泛探索病因,或,或初步验证病因假设初步验证病因假设。特别适用于罕。特别适用于罕见病的病因研究见病的病因
10、研究n省力、省钱、省时间,易于组织实施省力、省钱、省时间,易于组织实施n同时调查多个暴露因素与疾病的关系同时调查多个暴露因素与疾病的关系abcdbaadccTimen前瞻性研究前瞻性研究n因果时间顺序明确,因果时间顺序明确,检验病因假说检验病因假说能力较强,可证实能力较强,可证实病因联系病因联系n有助于了解疾病的自然史,并可获得一种暴露与多种有助于了解疾病的自然史,并可获得一种暴露与多种疾病结局的关系疾病结局的关系n研究费时间、费人力、费物力研究费时间、费人力、费物力研究研究对象对象随机分组随机分组实验组实验组对照组对照组有效应有效应无效应无效应有效应有效应无效应无效应29 调查表也称“调查问
11、卷(Questionnaire)”,通过把拟收集的数据项目用恰当的措词构成一系列问题的“答卷”。调查表是医学研究资料收集的最主要工具。调查表如何设计取决于研究目的和分析手段的需要,关键在于保证所获得信息的准确性和可靠性。p第一类错误的概率:即检验水准,越小所需样本含量越多,对于相同的检验水准,双侧检验比单侧检验所需的样本含量更大,通常取0.05。p把握度(power)1-,一般0.8-0.9p单侧检验还是双侧检验,单侧检验所需样本量小,双侧检验所需样本量大。3132常用软件:EpiCalc 2000333435 直接观察法 采访法 包括面访、调查会及信访、电话访问等 原始资料的收集方式36面访
12、面访信访信访电话电话自填自填其它,如其它,如internet体检检查体检检查实验室检查实验室检查敏感问题调查敏感问题调查37选择偏倚选择偏倚信息偏倚信息偏倚混杂偏倚混杂偏倚n 真实性真实性(效度)(效度)n 可靠性可靠性(信度)(信度)Excel、Access、EpiData、STATA、SPSS、SAS软件等软件等逻辑检查、核对逻辑检查、核对 排序(排序(sorting)建立新变量建立新变量数据的编码和转换数据的编码和转换缺失值的处理缺失值的处理39常用数据录入、管理软件Visual FoxPro,FoxBase,Lotus等常用数据分析软件SAS,Stata,R等特殊类型:特殊类型:两分类
13、数据两分类数据(dichotomic data)()()43(1)(1)统计描述统计描述(descriptive statisticdescriptive statistic)指用统)指用统计指标、统计表、统计图等方法,对资料计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行描述。的数量特征及其分布规律进行描述。(2)(2)统计推断统计推断(inferential statisticinferential statistic)指如何)指如何由样本信息推断总体特征问题。由样本信息推断总体特征问题。45定量数据定量数据统计资料的描述统计资料的描述v指标描述指标描述 集中位置:集中位置:
14、算术均数、几何均数、中位数、百分位数算术均数、几何均数、中位数、百分位数 离散程度:离散程度:极差、标准差、方差、四分位数间距极差、标准差、方差、四分位数间距v图形描述图形描述频数分布图频数分布图 趋势图趋势图定量数据定量数据集中趋势的描述集中趋势的描述算术均数算术均数几何均数几何均数中位数中位数百分位数百分位数46定量数据定量数据集中趋势的描述集中趋势的描述算术均数算术均数几何均数几何均数中位数中位数百分位数百分位数4712nXXXXn1niiiXXXnnmean最适于最适于对称分布对称分布资料,特别是资料,特别是正态分布正态分布资料资料;对于偏态资料,均数对于偏态资料,均数不能不能较好地反
15、映其集中趋势。较好地反映其集中趋势。定量数据定量数据集中趋势的描述集中趋势的描述算术均数算术均数几何均数几何均数中位数中位数百分位数百分位数48geometric mean1.1.等比资料,如抗体平均滴度等比资料,如抗体平均滴度2.2.对数正态分布资料对数正态分布资料12 nnGXXX f lgx fG=lg-1定量数据定量数据集中趋势的描述集中趋势的描述算术均数算术均数几何均数几何均数中位数中位数百分位数百分位数49 Median 将一组数据按从小到将一组数据按从小到大的顺序排列,位置大的顺序排列,位置居中的数即是中位数。居中的数即是中位数。中位数常用于描述中位数常用于描述偏态资料,开口资料
16、,有不确定偏态资料,开口资料,有不确定值的资料值的资料的集中趋势;的集中趋势;中位数和均数在对称分布上理论上是相同的。中位数和均数在对称分布上理论上是相同的。定量数据定量数据集中趋势的描述集中趋势的描述算术均数算术均数几何均数几何均数中位数中位数百分位数百分位数50Percentile用于描述某个观察用于描述某个观察序列在某百分位序列在某百分位置上的水平。置上的水平。u常用于确定参考值范围,亦称正常值范围。常用于确定参考值范围,亦称正常值范围。u50%50%分位数就是中位数分位数就是中位数u25%,75%25%,75%分位数称四分位数分位数称四分位数(quartile)(quartile)X%
17、PX (100-X)%定量数据定量数据51均数应用时的注意事项均数应用时的注意事项v均数适用于:单峰对称分布的资料均数适用于:单峰对称分布的资料v几何均数适用于:对数变换后单峰对称的几何均数适用于:对数变换后单峰对称的资料资料v中位数适用于:任何分布资料,有不确定中位数适用于:任何分布资料,有不确定值的资料值的资料定量数据定量数据52v极差极差/全距全距 (range)v四分位数间距四分位数间距 (inter-quartile range)v方差方差 (variance)v标准差标准差 SD (standard deviation)v变异系数变异系数 CV (coefficient of va
18、riation)描述离散程度的指标描述离散程度的指标:定量数据定量数据53v极差极差/全距全距v四分位数间距四分位数间距 v方差方差 v标准差标准差v变异系数变异系数 描述离散程度的指标描述离散程度的指标:v极差(全距),描述数据分布的范围。极差大,说明数据分布较分散。v方法简单明了。v不灵敏。v不稳定。定量数据定量数据54v极差极差/全距全距v四分位数间距四分位数间距 v方差方差 v标准差标准差v变异系数变异系数 描述离散程度的指标描述离散程度的指标:四分位数四分位数(quartile)QQU U-Q-QL Lp下四分位数即第下四分位数即第2525百分位百分位数,常用数,常用QQL L表示;
19、表示;p上四分位数即第上四分位数即第7575百分位百分位数,常用数,常用QQU U表示表示定量数据定量数据55v极差极差/全距全距v四分位数间距四分位数间距 v方差方差 v标准差标准差v变异系数变异系数 描述离散程度的指标描述离散程度的指标:方差是实际值与期望值之差平方的平均值,而标准差是方差的平方根。一般情况下,总体均一般情况下,总体均数未知,需用样本均数未知,需用样本均数估计数估计定量数据定量数据56v极差极差/全距全距v四分位数间距四分位数间距 v方差方差 v标准差标准差v变异系数变异系数 描述离散程度的指标描述离散程度的指标:100%sCVX 变异系数变异系数CVcoefficient
20、 of variation定量数据定量数据57集中趋势集中趋势+离散趋势离散趋势共同描述v均数标准差(min,max)v中位数四分位数间距(min,max)v变异度小,则均数代表性好!v变异度大,数据分散,则均数代表性差!v平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!定量数据定量数据样本均数与总体均数比较样本均数与总体均数比较 成组设计成组设计两样本均数比较(两样本均数比较(成组成组t t 检验检验)配对设计配对设计资料均数比较(资料均数比较(配对配对t t 检验检验)t 检验检验方差分析方差分析成组设计成组设计多个样本均数的比较多个样本均数的比较(one-
21、way ANOVAone-way ANOVA)配伍组设计配伍组设计多个样本均数比较多个样本均数比较(two-way ANOVAtwo-way ANOVA)多个样本均数的两两比较多个样本均数的两两比较(q q检验,检验,Student-Newman-KeulsStudent-Newman-Keuls法法)多个实验组和一个对照组均数间的两两比较多个实验组和一个对照组均数间的两两比较(LSDLSD法和法和DuncanDuncan法法)58定量数据定量数据定量数据差别的统计意义检验小结定量数据差别的统计意义检验小结 59定量数据定量数据两连续变量间的关系分析两连续变量间的关系分析60定量数据定量数据定
22、性数据定性数据统计分析统计分析统计分析统计分析统计描述统计描述统计推断统计推断参数估计参数估计假设检验假设检验Example分类分类资料资料率、比、构成比率、比、构成比总体率的可信区间总体率的可信区间2 2检验、检验、u u检验检验定性数据定性数据常用的相对数率 Rate构成比 Proportion比 Ratio62定性数据定性数据定性数据统计描述定性数据统计描述 比可以是任意两个数值之比,包括比和比率。当分子是分母的一部分时,称为比例;当比例与观察时限有关时,称为率。比例又分为构成比和频率。而率与时间单位有关,即率有速率和强度的含义,它表示单位时间某事件发生的可能性大小。流行病学研究中常用的
23、两个比是相对危险度和优势比(比值比)。联系强度联系强度63定性数据统计推断定性数据统计推断定性数据定性数据数据类型的转换数据类型的转换 定量数据转换为定性数据一般比较简单,但定量数据转换为定性数据一般比较简单,但从名义变量、等级数据转换为定量数据,则比从名义变量、等级数据转换为定量数据,则比较繁琐且损失数据信息。较繁琐且损失数据信息。对两组或多组研究单项的某项指标进行统计对两组或多组研究单项的某项指标进行统计学检验时,数据从定量转换为定性或等级数据学检验时,数据从定量转换为定性或等级数据时,统计学的效率会下降。时,统计学的效率会下降。64以以正常参考值或临床诊断标准正常参考值或临床诊断标准作为
24、分组依据。作为分组依据。某些定量指标尚无公认的正常参考值,可根据某些定量指标尚无公认的正常参考值,可根据均数、均数、中位数或三分位、四分位间距值中位数或三分位、四分位间距值,将其分为两组或多,将其分为两组或多组。组。根据数据的根据数据的分布特点分布特点和和研究需要研究需要,自行确定,但要,自行确定,但要能对统计分析结果做出合理的解释。能对统计分析结果做出合理的解释。定量数据转换为定性或等级数据定量数据转换为定性或等级数据分组切分组切割值确定方法割值确定方法65数据类型数据类型 计量资料?计量资料?计数资料?计数资料?分布类型分布类型 是否正态分布?是否正态分布?数据转换数据转换研究设计研究设计
25、 成组?配对?配伍组?其他?成组?配对?配伍组?其他?统计分析方法和指标的选择统计分析方法和指标的选择取决于66 常用的数据转换类型及方法常用的数据转换类型及方法xx pxarcsinxxlog数据类型转换方法举例Poisson分布平方根转换水中细菌数、单位时间放射性计数等二项分布反正弦函数转换非传染病患病率、白细胞百分数、淋巴细胞转换率等标准差与均数呈正比关系对数转换发汞含量67检验方法正态性用直方图或正态概率纸进行观察用矩法、W 法或 D 法进行统计检验两组方差齐性F 检验多组方差齐性Bartlett检验常用正态性及方差齐性检验的方法常用正态性及方差齐性检验的方法 68常用非参数统计方法小
26、结常用非参数统计方法小结设计方法设计方法参数统计方法参数统计方法非参数统计方法非参数统计方法配对比较配对比较配对配对t t 检验检验符号检验符号检验*、符号等级检验、符号等级检验(WilcoxonWilcoxon法)法)两组比较两组比较成组比较成组比较t t 检验检验两样本等级秩和检验(两样本等级秩和检验(Wilcoxon Wilcoxon Mann and WhitneyMann and Whitney法)、中位数检验法)、中位数检验*配 伍 组 比配 伍 组 比较较随机区组随机区组ANOVAANOVAMM检验(检验(FriedmanFriedman法)法)多组比较多组比较完全随机设计完全随
27、机设计ANOVAANOVAHH检验(检验(Kruskal and WallisKruskal and Wallis法)法)6970(三组及以上均数比较)(三组及以上均数比较)7172 忠实于原始数据 重视数据整理过程 选择合适的统计方法和指标 科学合理地解释统计分析结果一、忠实于原始数据是必须具备的科学精神一、忠实于原始数据是必须具备的科学精神 医学研究的结果和客观现实之间,总会存在或多或少的不一致(即误差,error)随机误差 系统误差 医学研究过程中,应尽量通过科学的设计和严格的质量控制措施,控制系统误差。任何篡改研究数据的行为,不管出自什么目的,都违背科学精神。二、重视研究数据资料的处理
28、过程二、重视研究数据资料的处理过程 保证被分析数据的正确性,和获得的客观结果尽可能保持一致,控制信息偏倚;使原始数据经过编码、转换、重新赋值后符合进一步统计分析的需要。三、选择合适的统计分析方法和指标三、选择合适的统计分析方法和指标 取决于数据及其分布得类型(一)数据转换 (二)正态性检验(三)非参数统计法 (四)分析指标的选择 四、医学研究数据分析结果的解释 一般来说,要从统计学、逻辑学和生物医学三个方面科学、合理地解释数据统计分析结果,正确认识统计学联系和因果联系的区别,并应用因果关系判定的标准进行评判。统计学解释 了解不同研究设计的效率、优点和局限性 理解样本和总体的关系应从抽样的随机化
29、程度和样本含量两方面解释样本的代表性 合理分析抽样误差和选择性偏倚对研究结果的影响 应推算抽样总体指标的95CI,用样本资料推断总体可能的范围 正确认识P值大小和统计学意义,合理解释分析结果逻辑学解释 假设演绎法 Mill准则 科学实验五法 求同法(method of agreement)求异法(method of difference)同异并用法(joint method of agreement and difference)共变法(method of concomitant variation)剩余法(method of residues)生物医学解释 根据现有的生物医学知识对所获结果进
30、行客观评价是否与现有的理论知识相矛盾?是否符合疾病自然史和生物学原理?和现有生物医学领域的研究成果是否一致?可通过下述方式进行评价:和国内外既往的研究结果比较和国内外同期的研究结果比较从相关学科中寻找支持和不支持该结论的证据深刻理解统计学联系的本质 真实的联系 机遇(chance)偏倚(bias)医学研究设计的目的(本质)估计随机误差、控制偏倚,凸现真实联系。估计随机误差、控制偏倚,凸现真实联系。From association to causation课后作业 回顾统计学的理论方法;着手撰写一份研究计划书,你所选的研究课题应该关系到人类健康(或大学生活)。简单叙述立题依据、研究背景、研究目的、研究内容、研究方法和需要什么样的资料,如何获得和分析资料,用什么方法表达与展示结果等,请保留你的这份作业,并在学习完本课程后再重新翻阅。你发现了什么问题,应如何修改?你的收获是什么?