1、医学统计学专题讲座第十一章第十一章 多元线性回归分析多元线性回归分析第十二章第十二章 logistic回归分析回归分析第十三章第十三章 生存分析生存分析第十四章第十四章 协方差分析协方差分析第十五章第十五章 析因设计资料的方差分析析因设计资料的方差分析第十六章第十六章 重复测量资料的方差分析重复测量资料的方差分析第十七章第十七章 判别分析判别分析第十八章第十八章 聚类分析聚类分析第十九章第十九章 量表研制与量表资料的统计分析方法量表研制与量表资料的统计分析方法医学统计学专题讲座2 “非常痛心地看到,因为数据分析的缺陷和错误,那么非常痛心地看到,因为数据分析的缺陷和错误,那么多好的生物研究工作面
2、临着被葬送的危险多好的生物研究工作面临着被葬送的危险”。-F.Yates,M.J.R.Healy 统计知识统计知识的运用的运用撰写论文:报告自己观撰写论文:报告自己观察或实验的研究结果。察或实验的研究结果。阅读论文:吸收新知识,阅读论文:吸收新知识,了解学术进展。了解学术进展。为什么要学医学统计学?医学统计学专题讲座3 60年代到年代到80年代,国外医学杂志调查表明:年代,国外医学杂志调查表明:20%72%的论文有的论文有统计错误。统计错误。1984年对中华医学杂志、中华内科杂志、中华外科杂年对中华医学杂志、中华内科杂志、中华外科杂志、中华妇产科杂志、中华儿科杂志志、中华妇产科杂志、中华儿科杂
3、志595篇论文的调查结篇论文的调查结果为:相对数误用占果为:相对数误用占 11.2%,抽样方法误用占抽样方法误用占15.9%,统计图表误用统计图表误用占占11.7%1996年对年对4586篇论文统计(中华医学会系列杂志占篇论文统计(中华医学会系列杂志占6.9%),数),数据分析方法误用达据分析方法误用达55.7%。2001年中华预防医学杂志:中华医学会系列杂志误用约年中华预防医学杂志:中华医学会系列杂志误用约54%(1995)。)。1996年,有机构对申报科技成果的年,有机构对申报科技成果的4586篇科研论文分篇科研论文分析,统计方法使用率为析,统计方法使用率为76%。医学论文中统计运用错误,
4、除了影响论文的科学性,医学论文中统计运用错误,除了影响论文的科学性,还可能导致严重的伦理学问题。还可能导致严重的伦理学问题。为什么要学医学统计学?为什么要学医学统计学?医学统计学专题讲座4绪论Introduction讲授内容:一、医学统计学的意义二、统计学中的几个基本概念三、统计资料的类型四、医学统计工作的基本步骤五、学习医学统计学应注意的问题医学统计学专题讲座5一、医学统计学的意义1.统计学(statistics):应用数学的原理与方法,研究数据的搜集、整理与分析的科学,对不确定性数据作出科学的推断。2.医学统计学(statistics of medicine):统计学的原理与方法应用于医学
5、科研与实践。医学统计学专题讲座6一、医学统计学的意义3.统计学方法的特点:(1)用数量反映质量 1)体格检查体格检查(量血压、脉搏量血压、脉搏)个体健康质量个体健康质量 2)考试分数考试分数个体学习质量个体学习质量 3)期望寿命期望寿命反映人群健康状况的指标反映人群健康状况的指标 4)婴儿死亡率婴儿死亡率反映卫生服务质量的指标反映卫生服务质量的指标 .医学统计学专题讲座7一、医学统计学的意义(2)用群体归纳个体 请大家回答:2012年太原市18岁男孩身高是多少?医学统计学专题讲座81)18岁男孩身高有高有矮2)n=100,平均身高=169.5cm 95%的太原市7岁男孩的身高在 160.20c
6、m179.20cm之间医学统计学专题讲座9二、统计学中的几个基本概念研究单位(观察单位、unit)和 变量(variable)、变量值(value of variable)(1)研究单位(unit):研究中的个体(individual),是根据研究目的确定的。医学统计学专题讲座10二、统计学中的几个基本概念例如:研究7岁男孩身高的正常值范围 一个人 研究大学生视力 一只眼睛 研究水污染情况 一毫升水 研究细胞变性 一个细胞 研究肝癌的地区分布 一个地区医学统计学专题讲座11二、统计学中的几个基本概念(2)变量(variable):研究单位的研究特征。例如:研究7岁男孩身高的正常值范围 变量:身
7、高(3)变量值(value of variable):变量的观察结果。医学统计学专题讲座12二、统计学中的几个基本概念 例如:研究7岁男孩身高 变量值:测得的身高值 (120.2cm,118.6cm,121.8cm,)研究某人群性别构成 变量值:男、女。医学统计学专题讲座13二、统计学中的几个基本概念 2、同质同质(homogeneity)和变异和变异 (variation)(1)、同质(homogeneity):根据研究目的给研 究单位确定的相同性质。研究太原市2012年7岁男孩身高的正常值范围?同质:同太原市、同7岁、同男孩、同无影响身高的疾病。医学统计学专题讲座14二、统计学中的几个基本
8、概念(2)、变异 (variation):同质研究单位中变量值间的差异。例如:1)太原市2012年7岁男孩身高有高有矮 2)相同的药方治疗相同的疾病的病人,疗效有好有坏医学统计学专题讲座15二、统计学中的几个基本概念 3、总体(population)和样本(sample)(1)、总体(population):是根据研究目的确定的同质研究单位的全体。更确切地说是同质研究单位某种变量值的集合。例如:调查某地2012年正常成年男子的红细胞数的 正常值范围医学统计学专题讲座16二、统计学中的几个基本概念 研究单位:一个人 变量:红细胞数 同质:同某地、同2012年、同成年男子、同正常。总体:1)某地所
9、有的正常成年男子 2)某地所有的正常成年男子的红细胞数医学统计学专题讲座17二、统计学中的几个基本概念 1)有限总体(finite population):研究单位数是有限的研究单位数是有限的 例如:调查某地2012年正常成年男子的红细胞数的 正常值范围 2)无限总体(infinite population):研究单位数是无限的研究单位数是无限的 例如:高血压患者无时间、空间限制。医学统计学专题讲座18二、统计学中的几个基本概念(2)样本(sample):是总体中抽取的有代表性的一部分。注意:随机抽样(无主观性)注意:随机抽样(无主观性)样本含量(sample size):样本中包含的研究单位
10、数。例如:某药治疗高血压患者30名 样本含量(n)为30医学统计学专题讲座19二、统计学中的几个基本概念 4、参数(parameter)和统计量(statistic)(1)参数(parameter):根据总体个体值统计计算出来的描述总体的特征量。(2)统计量(statistic):根据样本个体值统计计算出来的描述样本的特征量。医学统计学专题讲座20二、统计学中的几个基本概念 总体参数一般是不知道的 统计学抽样研究的目的就是:样本统计量样本统计量总体参数总体参数医学统计学专题讲座21二、统计学中的几个基本概念 5、系统误差(systematic error)、非系统误差(nonsystemati
11、c error)、抽样误差(sampling error)误差(error)是指实际观察值与观察真值之差、样本指标与总体指标之差。医学统计学专题讲座22二、统计学中的几个基本概念(1)系统误差(systematic error):由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。例如:测量血糖,有斑氏法和葡萄糖氧化法,斑氏法的测量结果偏高易受体内还原性物质的影响。医学统计学专题讲座23二、统计学中的几个基本概念 这类误差可以通过实验设计和技术措实验设计和技术措施施来消除或使之减少。观察性研究由于组间不可比
12、性产生的系统误差称为偏倚偏倚(bias),如吸烟组的平均年龄大于吸烟组,两组死亡率的差异包含年龄偏倚。医学统计学专题讲座24二、统计学中的几个基本概念(2)非系统误差(nonsystematic error)由于研究者偶然失误而造成的误差。例如:仪器失灵、抄错数据、点错小数点、写错单位等,亦称过失误差(gross error)这类误差应当通过认真检查核对予以清除,否则将会影响研究结果的准确性。医学统计学专题讲座25二、统计学中的几个基本概念(3)抽样误差(sampling error):由于抽样所造成的样本统计量与总体参数的差别。例如:N=5万 n=100 =120.0cm =118.6cm
13、特点:1)不可避免性 2)有统计规律性 产生原因:个体差异(生物变异)X医学统计学专题讲座26二、统计学中的几个基本概念 6、频率(relative frequency)、概率(probability)、小概率事件 (1)频率()频率(relative frequency):一次随机试验有几种可能结果,在重复进行试验时,个别结果看来是偶然发生的,但当重复试验次数相当多时,将显现某种规律性。例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种,现在,我们看一掷币模拟试验:医学统计学专题讲座27二、统计学中的几个基本概念实验者 投掷次数 出现“正面”次数 频率Hu Pingcheng 1 1
14、1.0000Hu Pingcheng 2 0 0.0000Hu Pingcheng 3 2 0.6667Hu Pingcheng 4 3 0.7500Hu Pingcheng 5 3 0.6000Hu Pingcheng 6 2 0.4000Hu Pingcheng 7 4 0.5714 Buffon 4040 2048 0.5069K.Pearson 12000 6019 0.5016K.Pearson 24000 12012 0.5005医学统计学专题讲座28二、统计学中的几个基本概念 可见,在相同条件下重复试验,试验结果为“正面”或“反面”虽不能事先断定,但我们知道试验的所有可能结果只有
15、两种。在重复多次后,出现“正面”或“反面”这个结果的比例称之为频率频率。医学统计学专题讲座29二、统计学中的几个基本概念 (2)概率(概率(probability):概率是度量随机事件发生可能性大小的一个数值。概率是度量随机事件发生可能性大小的一个数值。设在相同条件下,独立地重复设在相同条件下,独立地重复n次试验,次试验,随机事件随机事件A出现出现 次,则称次,则称 为随机事件为随机事件A出现的频率。当出现的频率。当n逐渐增大时,逐渐增大时,频率频率 趋趋向于一个常数,则称该常数为随机事件向于一个常数,则称该常数为随机事件A的的概率,可记为概率,可记为 P(A)。0 P(A)1 ff nf n
16、医学统计学专题讲座30二、统计学中的几个基本概念 0 P(A)1 随机事件 P(A)=1 必然事件 P(A)=0 不可能事件。医学统计学专题讲座31二、统计学中的几个基本概念 频率是就样本而言的,而概率从总体的意义上说的,m/n是概率 p(A)的估计值。试验次数越多,估计越可靠。医学统计学专题讲座32二、统计学中的几个基本概念(3 3)小概率事件)小概率事件:统计分析中的很多结论都基于一定置信程度下的概率推断,习惯上将 称为小概率事件,我们认为小概率事件在一次试验中不可能发生。()0.05()0.01P AP A或医学统计学专题讲座33三、统计资料的类型 变量与统计资料的分类方法 1.概述 .
17、数值变量(numerical variable)和定量资料(measurement data).无序分类变量(unordered categories variable)和计数资料 (enumeration data).有序分类变量(ordinal categories variable)和等级资料(ranked data)医学统计学专题讲座34三、统计资料的类型1.概述 数值变量数值变量.构成定量资料构成定量资料 分类变量 无序分类变量无序分类变量.构成计数资料构成计数资料 有序分类变量有序分类变量.构成等级资料构成等级资料变量医学统计学专题讲座35三、统计资料的类型.数值变量与定量资料 1
18、).数值变量(numerical variable):变量值是定量的,表现为数值大小,一般有度量衡单位。如:身高(cm)、体重(kg)、血压(pa)、坐高/身高。2).定量资料(measurement data):由一群个体的数值变量值构成的资料,即一群变量值。如:太原市2012年7岁男孩身高值(120.2cm,118.6cm,121.8cm)医学统计学专题讲座36三、统计资料的类型3.无序分类变量与计数资料1).无序分类变量(unordered categories variable):变量值是定性的,有类别。特点:类别是客观存在的,各类无秩序,可任意排列;类与类之间界限清楚,(理论上)不会
19、错判。如:性别:男、女。血型:O、A、B、AB。2).计数资料(enumeration data):一群个体按无序分类变量的类别清点每类有多少个个体,即分类个体数。如:某科室性别构成:男:,女:7。某人群血型构成:O:20 A:35 B:30 AB:10医学统计学专题讲座37三、统计资料的类型4.有序分类变量与等级资料 1).有序分类变量(ordinal categories variable):变量值是定性的、分等级。特点:等级是主观划分的,各级没有大小但有秩序,必须从低到高或由高到低;级和级之间界限模糊,可能错判。如:疗效:无效、好转、显效、治愈。血清反应:、+、+、+2).等级资料(ra
20、nked data):一群个体按有序分类变量的级别清点每级有多少个个体,即分级个体数。如:某地某人群EB病毒抗体反应:26 +:15 +:30 +:10医学统计学专题讲座38四、医学统计工作的基本步骤设计设计分析资料分析资料收集资料收集资料整理资料整理资料医学统计学专题讲座39四、医学统计工作的基本步骤 1、设计(、设计(design)专业设计 统计设计 调查设计 医学科研设计 实验设计 临床实验设计 医学统计学专题讲座40 医学科研设计的程序医学科研设计的程序 科研选题科研选题:选题又叫立题,确定所要研究的问选题又叫立题,确定所要研究的问 题。选题是科研的起点,也是关系到成败题。选题是科研的
21、起点,也是关系到成败的关键。的关键。(1 1)题意产生:)题意产生:(综述综述)背景材料来源:个人经验的积累;背景材料来源:个人经验的积累;向有关专家请教向有关专家请教 ;文献检索文献检索等等.专业设计医学统计学专题讲座41文献检索的要点文献检索的要点(1 1)有助于认识本课题的重要性)有助于认识本课题的重要性(2 2)了解有关的既往研究工作情况)了解有关的既往研究工作情况(3 3)了解有关研究现状)了解有关研究现状(4 4)寻找可借鉴的研究方法)寻找可借鉴的研究方法(5 5)注意有关的不同见解与争论。)注意有关的不同见解与争论。如:与如:与*商榷类文章商榷类文章专业设计医学统计学专题讲座42
22、文献检索的几种查法文献检索的几种查法(1 1)先查国内文献,再查国外文献先查国内文献,再查国外文献(2 2)先查综述性文章,后原始文章。先查综述性文章,后原始文章。(3 3)先近期后远期先近期后远期(4 4)先核心期刊后一般期刊。先核心期刊后一般期刊。专业设计医学统计学专题讲座43 综述性文章:是收集大量文献资料经综述性文章:是收集大量文献资料经过分析综合,结合自己的工作和体会整理过分析综合,结合自己的工作和体会整理成的文章。它是对某一课题或新进展作出成的文章。它是对某一课题或新进展作出的总结,并指明发展方向,有较大的参考的总结,并指明发展方向,有较大的参考价值,是专题性文献资料最集中的表现形
23、价值,是专题性文献资料最集中的表现形式。式。专业设计医学统计学专题讲座44科研选题的原则科研选题的原则(1 1)创新性)创新性:包括探索和创新两个连续的过程,创:包括探索和创新两个连续的过程,创新就是选择前人没有解决或没有完全解决的问题。新就是选择前人没有解决或没有完全解决的问题。是本学科的空白点,或者将会在理论上或应用上有是本学科的空白点,或者将会在理论上或应用上有新的发展和补充。新的发展和补充。(2 2)科学性)科学性:以科学理论为指导,符合客观规律。:以科学理论为指导,符合客观规律。(3 3)先进性)先进性:先进性是相对的,有国际先进和国内:先进性是相对的,有国际先进和国内先进。更重要的
24、是结合实际条件选择适合的先进技先进。更重要的是结合实际条件选择适合的先进技术。术。(4 4)可行性)可行性:研究课题的主要技术指标实现的可能:研究课题的主要技术指标实现的可能性。它包括人、财、物的支持和工作基础。性。它包括人、财、物的支持和工作基础。专业设计医学统计学专题讲座45选题方法选题方法(1 1)从招标范围中选题。从招标范围中选题。(2 2)从碰到的问题中选题从碰到的问题中选题(3 3)从文献的空白点选题从文献的空白点选题(4 4)从已有的课题延伸中选题从已有的课题延伸中选题(5 5)从改变研究内容组合中选题从改变研究内容组合中选题(6 6)从其他学科移植中选题。从其他学科移植中选题。
25、专业设计医学统计学专题讲座46四、医学统计工作的基本步骤 统计设计统计设计的内容要包括资料的收集、整理和的内容要包括资料的收集、整理和分析全过和的设想和安排。分析全过和的设想和安排。例如:研究目的和假说?研究对象和研究单位?研究因素(变量)?收集哪些原始资料?用什么方式和方法取得这些原始资料?怎样整理汇总和计算统计指标?如何控制误差?预期会得到什么结果?需要多少经费?统统计设计医学统计学专题讲座47四、医学统计工作的基本步骤 在研究者对统计设计的构思过程中,有以下几个问题最为关键:如何进行抽样?如何安排设计所规定的干预如何进行抽样?如何安排设计所规定的干预措施或称处理(措施或称处理(treat
26、ment)。)。要达到研究目的应抽取多少个观察单位?要达到研究目的应抽取多少个观察单位?如何在诸多的影响因素中,分离出研究同素对如何在诸多的影响因素中,分离出研究同素对结果的效应?结果的效应?统计设计医学统计学专题讲座48四、医学统计工作的基本步骤(1)对照的原则 对照(control)原则,即在均衡条件下实现实验组与对照组间科学对比的原则,它回答如何从诸多影响因素中,分离出研究因素对实验结果的效应问题。所谓均衡性,即可比性,是指在对比组中,除研究因素不同外,或施加的处理不同外,其他影响实验结果的非研究因素,包括实验过程中的实验条件和辅助措施,都应相同。统计设计医学统计学专题讲座49统计学家统
27、计学家 Student 1930年年2月至月至6月月主持的牛奶营养主持的牛奶营养试验的现场观察试验的现场观察研究:研究:对照组(对照组(1万儿童)万儿童)饮奶组(饮奶组(1万儿童)万儿童)对照组对照组饮奶组饮奶组 年龄(岁)年龄(岁)体重(磅)体重(磅)结论:对照组体重饮奶组结论:对照组体重饮奶组统计设计医学统计学专题讲座51四、医学统计工作的基本步骤(2)重复(repetition)的原则 重复(repetition)原则,即确定样本含量的原则,它回答至少应抽取多少个观察单位的问题。统计设计医学统计学专题讲座52四、医学统计工作的基本步骤(3)随机化(randomization)的原则 1)
28、随机抽样(randomized sampling):指总体中的每一个观察单位都有同等机会进入样本;2)随机分配(randomized allocation):指本次研究所选定的实验受试对象都有同等机会进入根据研究目的而设定的处理组和对照组。统计设计医学统计学专题讲座53四、医学统计工作的基本步骤 2、收集资料(、收集资料(collection of data)(1)资料来源第一手资料 1)经常性:统计报表(传染病报表、职业病报表、医 院工作报表、死亡登记、疫情报告等),工作记录 (卫生监督记录、健康检查记录、病历等);2)一时性:专题调查、实验或临床试验。第二手资料:已公布的资料,如数据银行、
29、全国、全省卫生统计资料。医学统计学专题讲座54四、医学统计工作的基本步骤(2)资料要求1)完整:观察单位及观察项目完整。2)准确:即真实、可靠。真实是统计学的灵魂。3)及时:即时限性。如人口普查规定调查开始 日期和截止日期。医学统计学专题讲座55四、医学统计工作的基本步骤 3、整理(、整理(sorting data)资料资料 即原始数据的条理化、系统化的过程。医学统计学专题讲座56 Data CollectionData AnalysisDataScreening Time consuming,even tedious Fundamental to an honest analysis of
30、the data医学统计学专题讲座57The issues should be concerned in data screeningThe accuracy of the dataMissing dataOutliersThe fit between your data and the assumptionsPerfect or near-perfect correlations among variables医学统计学专题讲座58四、医学统计工作的基本步骤 4、分析(、分析(analysis of data)资料资料 任务:计算有关指标,反映数据的综合 特征、阐明事物的内在联系和规律。工具
31、:1)SPSS 13.0 2)SAS 3)LISREL8.70 医学统计学专题讲座59四、医学统计工作的基本步骤 统计描述统计描述 统计分析统计分析 统计推断参数估计统计推断参数估计 假设检验假设检验医学统计学专题讲座60五、学习医学统计学应注意的问题1、医学统计学研究的是群体的数量特征 适当的统计指标2、学会统计学的思维方法 抽样研究抽样误差结论具有概率性 医学专业知识解释 医学统计学专题讲座61五、学习医学统计学应注意的问题3、正确选用统计学方法(1)资料类型不同统计学方法不同(2)设计类型不同统计学方法不同(3)研究目的不同统计学方法不同 .医学统计学专题讲座62五、学习医学统计学应注意的问题 4、不管公式来源、推导,只要求了解其意 义、用途和应用条件。举例:1)看电视,知道开、关就行。2)牛吃的是草,挤出来的是牛奶。数据 结果医学统计学专题讲座63谢谢 谢谢!医学统计学专题讲座64