1、LOGO华北理工大学华北理工大学附属医院附属医院评审办评审办 陈陈 超超LOGO绪绪 论论1.1.医学统计学的定义。医学统计学的定义。什么是统计学,统计学能够做什么?什么是统计学,统计学能够做什么?2.2.医学统计工作的基本步骤。医学统计工作的基本步骤。研究设计、搜集资料、整理资料、分析资料研究设计、搜集资料、整理资料、分析资料3.3.医学统计学的若干概念。医学统计学的若干概念。同质与变异、总体与样本、抽样与误差、概率同质与变异、总体与样本、抽样与误差、概率4.4.临床常用的医学统计学方法临床常用的医学统计学方法了解了解熟悉熟悉掌握掌握介绍介绍LOGOv1、统计学统计学(statistics)
2、是以社会现象总体数量为对象的方法论学科,是是以社会现象总体数量为对象的方法论学科,是研究如何有效地收集、整理与分析受研究如何有效地收集、整理与分析受随机影响随机影响的数据的数据,面对不确定数据作出科学的推断,从而发现偶然现,面对不确定数据作出科学的推断,从而发现偶然现象背后象背后规律性规律性的科学。的科学。v2、医学统计学医学统计学(health statistics)是运用是运用概率论概率论和和数理统计数理统计的原理和方法并结合医的原理和方法并结合医学实践来研究资料的学实践来研究资料的搜集搜集、整理整理、分析分析与与推断推断的一门的一门方法学科方法学科。第一节第一节 统计学的定义及应用统计学
3、的定义及应用LOGOv医学统计学的用途医学统计学的用途 指导人们如何指导人们如何对科研问题进行严密的设计、获取可靠对科研问题进行严密的设计、获取可靠的数据、正确的归纳、分析与推理判断,帮助揭示疾的数据、正确的归纳、分析与推理判断,帮助揭示疾病或现象的发生、发展规律,病或现象的发生、发展规律,为预防疾病、促进健康为预防疾病、促进健康提供客观依据。提供客观依据。v在卫生决策制定、基金申请、药物开发、在卫生决策制定、基金申请、药物开发、科研论文科研论文 撰写与审稿等方面,都需要应用到统计学的知识。撰写与审稿等方面,都需要应用到统计学的知识。LOGO(一)(一)研究设计研究设计(experiment
4、design)(二)(二)收集资料收集资料(collecting data)(三)(三)整理资料整理资料(sorting data)(四)(四)分析资料分析资料(analyzing data)第二节第二节 医学统计工作的基本步骤医学统计工作的基本步骤LOGO6(一)研究设计(一)研究设计定义:定义:是在保证科学性、可重复性和高效性的前提下,为验证是在保证科学性、可重复性和高效性的前提下,为验证研究假说而制定周密的医学研究计划。研究假说而制定周密的医学研究计划。是对资料收集、整理和是对资料收集、整理和分析全过程的总设想和安排。分析全过程的总设想和安排。实验设计是整个工作中最重要的环节。实验设计是
5、整个工作中最重要的环节。LOGO过程:按研究设计的要求,及时取得准确、完整的原始数据。过程:按研究设计的要求,及时取得准确、完整的原始数据。医学统计资料的来源主要有三个方面:1 1)统计报表:)统计报表:如传染病报表、职业病报表、医院工作 年报表等,报表应做到完整、准确、及时。2 2)工作记录)工作记录:如医院的病案首页,各种化验 单,检测单,出生、死亡登记卡。3 3)专项调查表:)专项调查表:实验研究,调查研究等。(二)收集资料(二)收集资料LOGO1、资料的逻辑检查、资料的逻辑检查2、一致性检查、一致性检查3、原始数据的加工、原始数据的加工原始资料原始资料分析资料分析资料(三)整理资料(三
6、)整理资料 过程:按研究设计的要求,使原始数据系统化、条理化,过程:按研究设计的要求,使原始数据系统化、条理化,便于进一步计算统计指标和进行统计分析。便于进一步计算统计指标和进行统计分析。LOGO 表表1 数据的数据的Excel输入格式输入格式(原始记录原始记录)LOGO 表表2 数据的数据的Excel输入格式输入格式(数据整理数据整理)LOGO过程:按研究设计的要求,计算有关指标,阐明事物的内在关系和规律。统计方法统计方法统计描述统计描述统计推断统计推断参数估计参数估计假设检验假设检验(四)分析资料(四)分析资料LOGO一、同质与变异一、同质与变异二、总体与样本二、总体与样本三、抽样三、抽样
7、 四、误差四、误差五、概率五、概率六、参数与统计量六、参数与统计量第三节第三节 医学统计学的基本概念医学统计学的基本概念LOGO 同质(homogeneity)是针对被研究指标来讲,其影响因素相同。简单地理解同质就是指对研究指标影响较大的,可以控制的主要因素应尽可能相同。如研究方法相同,观察时间相等,以及民族、地区、年龄、性别等客观条件一致。同质基础上的个体差异称为变异(variation)。一、同质一、同质(homogeneity)与变异与变异(variance)LOGO 同质与变异的例子同质与变异的例子v例例 调查调查2019年唐山市年唐山市7岁男童身高和体重岁男童身高和体重 同质因素:同
8、质因素:2019年、唐山市、年、唐山市、7岁男童岁男童 变异因素:变异因素:身高和体重各不相同身高和体重各不相同 LOGO二、总体(二、总体(population)和样本(和样本(sample)总体:总体:根据研究目的根据研究目的确定的确定的同质同质个体所构成的全体。个体所构成的全体。例如:研究唐山市区居民的健康状况,则所有唐山例如:研究唐山市区居民的健康状况,则所有唐山市区居民就构成一个总体。市区居民就构成一个总体。样本:从总体中样本:从总体中随机抽取随机抽取具有代表性的部分个体。具有代表性的部分个体。LOGO三、抽样(三、抽样(sampling)抽样(抽样(sampling):):从总体中
9、抽取部分个体的过程。从总体中抽取部分个体的过程。抽样时必须遵循抽样时必须遵循随机化随机化原则,即原则,即总体中每个个体都有总体中每个个体都有相同的机会被抽取为样本相同的机会被抽取为样本。总体总体唐山市唐山市12岁健康岁健康男生身高男生身高样本样本n=120随机抽样随机随机随便随便LOGO医学统计中常用的抽样方法:医学统计中常用的抽样方法:单纯随机抽样单纯随机抽样 先对总体中全部观察单位编号,然后用抽签、随机数字表或计算机产生先对总体中全部观察单位编号,然后用抽签、随机数字表或计算机产生随机数字等方法从中抽取一部分观察单位组成样本。随机数字等方法从中抽取一部分观察单位组成样本。系统抽样系统抽样
10、如要在如要在1000名新生中抽取名新生中抽取200人,其抽样间隔为人,其抽样间隔为1000/200=5,若随机抽取的第一号为若随机抽取的第一号为2,则抽取的个体号依次为,则抽取的个体号依次为2、7、12、17、22、27分层抽样分层抽样 一项研究欲调查某农村妇女下生殖道感染情况,可按乡镇分层(好、中、一项研究欲调查某农村妇女下生殖道感染情况,可按乡镇分层(好、中、差三层),在各层中再进行随机抽样。差三层),在各层中再进行随机抽样。整群抽样整群抽样 LOGO四、误差(四、误差(error)误差误差系统误差系统误差随机误差随机误差随机测量误差随机测量误差抽样误差抽样误差泛指观测值与真实值,以及样本
11、指标与总体指标之间的差值。泛指观测值与真实值,以及样本指标与总体指标之间的差值。LOGO观察观察 次数次数系统误差系统误差随机测量误差随机测量误差动脉内血压值动脉内血压值血压计测量值血压计测量值80舒张压舒张压(mmHg)90系统误差与随机误差之间的关系系统误差与随机误差之间的关系LOGO五、概率(五、概率(probability)描述某一事件发生的可能性大小的一个量度。描述某一事件发生的可能性大小的一个量度。概率的范围在概率的范围在0与与1之间。之间。当某事件不可能发生时,概率为当某事件不可能发生时,概率为0;必然发生时概率为;必然发生时概率为1。小概率事件小概率事件:在统计学上,习惯将:在
12、统计学上,习惯将P0.05或或P 0.01称称为小概率事件,表示该事件在一次抽样(试验中)发生为小概率事件,表示该事件在一次抽样(试验中)发生的可能性很小,几乎为零。的可能性很小,几乎为零。常以常以P 0.05作为差异有统计学意义;作为差异有统计学意义;P0.01作为差异有高度统计意义的界限。作为差异有高度统计意义的界限。LOGO参数:参数:总体总体的统计指标,如总体均数、标准差,采用希腊的统计指标,如总体均数、标准差,采用希腊字母分别记为字母分别记为、。固定的常数固定的常数 统计量:统计量:样本样本的的统计指标,如样本均数、标准差,采用拉统计指标,如样本均数、标准差,采用拉丁字母分别记为丁字
13、母分别记为 。参数附近波动的随机变量参数附近波动的随机变量。SX?总体参数是固定的常数,统计量是在总体参数总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。附近波动的随机变量。六、参数与统计量六、参数与统计量 parameter and statisticLOGO资料的类型资料的类型 定量资料(计量资料)定量资料(计量资料)定性资料定性资料(分类资料)(分类资料)计数资料计数资料(二项分类(二项分类 、无序多分类无序多分类)等级资料等级资料(有序多分类有序多分类 )有序分类:如血清反应、疗效划分等。有序分类:如血清反应、疗效划分等。第四节第四节 医学统计学的资料类型医学统计学的资料类
14、型LOGO对每个观察对象的观察指标用定量方法测定其数值用定量方法测定其数值大小所得的资料,大小所得的资料,一般有度量衡单位。身高值身高值(m):1.65,1.70 1.58.住院天数住院天数(天):(天):15,18,10.脉搏数脉搏数(次(次/分):分):72,66,80.(一)计量资料(一)计量资料(定量资料、测量资料)定量资料、测量资料)计量资料:计量资料:变量值是定量的,有单位的,表示为数值的大小。变量值是定量的,有单位的,表示为数值的大小。LOGO二项分类资料:二项分类资料:性别性别:男、女;男、女;疗效疗效:有效、无效有效、无效各种检验结果各种检验结果:阴性、阳性;阴性、阳性;多项
15、分类资料:多项分类资料:血血 型型:A、B、AB、O;婚姻状况婚姻状况:未婚、已婚、离婚、丧偶。未婚、已婚、离婚、丧偶。(二)计数资料(二)计数资料(定性资料)定性资料)计数资料:计数资料:变量值是定性的,没有单位,表示为互不相容的类别。变量值是定性的,没有单位,表示为互不相容的类别。LOGO有些资料具有计数资料的特性,同时兼有半定量的性质。有些资料具有计数资料的特性,同时兼有半定量的性质。尿蛋白尿蛋白:-+;问卷调查常对某事情的满意程度问卷调查常对某事情的满意程度:极不满意极不满意 有点满意有点满意 中度满意中度满意 很满意很满意 极满意。极满意。(三)等级分组资料(三)等级分组资料实践实践
16、等级资料:等级资料:变量取值不仅表示互不相容的类别而且表示各类的变量取值不仅表示互不相容的类别而且表示各类的不同程度不同程度的等级顺序,的等级顺序,LOGO住院号住院号年龄年龄身高身高体重体重住院天数住院天数职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局20256552025655272716516571.571.55 5无无中学中学顺产顺产足月足月20256532025653222216016074.074.05 5无无小学小学助产助产足月足月20258302025830252515815868.068.06 6管理员管理员大学大学顺产顺产足月足月20225432022543232
17、316116169.069.05 5无无中学中学剖宫产剖宫产足月足月20224662022466252515915962.062.01111商业商业中学中学剖宫产剖宫产足月足月20245352024535272715715768.068.02 2无无小学小学顺产顺产早产早产20258342025834202015815866.066.04 4无无中学中学助产助产早产早产20194642019464242415815870.570.53 3无无中学中学助产助产足月足月20257832025783292915415457.057.07 7干部干部中学中学剖宫产剖宫产足月足月观察单位observat
18、ions个体individuals变量variablesQuantitative data Quantitative data 计量资料计量资料Qualitative data Qualitative data 计数资料计数资料LOGO一组一组20-40岁成人的血压值岁成人的血压值8.2 7.6 9.4 10.5 11.5 13.0 18 17 19 21 13.6 以以12kPa为界限分为正常与异常两组,分别统计两组的例数为界限分为正常与异常两组,分别统计两组的例数8 低血压低血压8 正常血压正常血压12 轻度高血压轻度高血压15 中度高血压中度高血压17 重度高血压重度高血压计量资料计量资
19、料计数资料计数资料等等级级资资料料要注意只能由高级向低级转化。要注意只能由高级向低级转化。LOGO比较比较差别:差别:2、t、F、q、log-rank、秩和检验等秩和检验等联系:联系:相关、回归分析相关、回归分析分类:回归分析、判别分析分类:回归分析、判别分析推测:回归分析推测:回归分析筛选影响因素:回归分析筛选影响因素:回归分析综合变量信息:主成分分析综合变量信息:主成分分析寻找潜在支配因素:因子分析寻找潜在支配因素:因子分析假设假设检验检验方法方法常用的统计学方法常用的统计学方法()(Statistical Analysis System,需编程基础,需编程基础)(方法新、提供源程序、免费
20、方法新、提供源程序、免费)假设检验基本思想:n小概率反证法思想。n小概率思想是指小概率事件(P0.01或P T 1 N 40 或或 T 1 LOGO独立设计四格表的独立设计四格表的2 2检验检验例例 将将2323名精神抑郁症患者随机分到两组,分别用两种药物名精神抑郁症患者随机分到两组,分别用两种药物治疗,结果见下表,问两种药物的治疗效果是否不同。治疗,结果见下表,问两种药物的治疗效果是否不同。分组分组治疗效果治疗效果合计合计有效率有效率%有效有效无效无效甲药甲药7 75 5121258.358.3乙药乙药3 38 8111127.327.3合计合计10101313232343.543.5表表
21、两种药物治疗精神抑郁症的效果两种药物治疗精神抑郁症的效果LOGO配对设计四格表的配对设计四格表的2 2检验检验例例 某医生现有某医生现有9090份胃肠消化病患者的标本,把每份标本分份胃肠消化病患者的标本,把每份标本分成两份,分别用细菌培养法和快速脲酶试验诊断患者幽门螺成两份,分别用细菌培养法和快速脲酶试验诊断患者幽门螺杆菌的感染情况,结果如表杆菌的感染情况,结果如表9-59-5所示,问两种方法的检测结果所示,问两种方法的检测结果有无差别?有无差别?LOGO四、相关与回归四、相关与回归v直线相关分析直线相关分析 医学研究中存在着许多相互联系的现象。如年龄与血压、药物剂量与效果等,可以利用相关与回
22、归来分析。v多变量资料的回归分析多变量资料的回归分析 包括:多重线性回归(用于分析一个应变量Y与多个自变量X的线性关系)Logistic回归(Y为二分类或多分类变量,以分析影响Y的危险因素为主要目的)LOGO例 为了研究有关糖尿病患者体内脂联素(Y)水平的影响因素,某医师测定了30名患者的体重指数BMI(kg/m2)、病程DY(年)、瘦素LEP(ng/ml)、空腹血糖FPG(mmol/L)及脂联素ADI(ng/ml)水平,数据如表所示。多重线性回归多重线性回归LOGO1.1.培养严谨、科学的态度培养严谨、科学的态度2.2.抓住三基,即基本概念,基本原理,基本方法抓住三基,即基本概念,基本原理,基本方法3.3.重视统计应用,把实际问题转化为统计问题重视统计应用,把实际问题转化为统计问题4.4.熟练掌握统计软件的使用熟练掌握统计软件的使用如何学好如何学好LOGO48