1、 医学统计学方法的基本概念和医学统计学方法的基本概念和基本步骤基本步骤2医学统计学的学习要求:v理解基本的统计原理理解基本的统计原理v正确选择、运用统计分析方法正确选择、运用统计分析方法v培养基本的统计思维能力培养基本的统计思维能力不要求:不要求:公式的推导和记忆、公式的推导和记忆、复杂的手工计算复杂的手工计算内容:内容:1、医学统计学方法的基本概念和基本步骤医学统计学方法的基本概念和基本步骤2、数值变量的统计描述数值变量的统计描述3、数值变量的统计推断数值变量的统计推断4、分类变量的统计描述分类变量的统计描述5、分类资料的统计推断分类资料的统计推断 6、秩和检验秩和检验7、直线相关与回归分析
2、直线相关与回归分析8、统计表和统计图统计表和统计图本节主要内容v第一节第一节 统计学的几个基本概念统计学的几个基本概念v第二节第二节 医学统计工作的基本步骤医学统计工作的基本步骤一、什么是医学统计学?v例例1 1:比较两种疗法对活动期十二指肠球部溃:比较两种疗法对活动期十二指肠球部溃疡疡v一组:口服呋喃硝铵,有效率一组:口服呋喃硝铵,有效率90%90%;v另一组:口服西咪替丁,有效率另一组:口服西咪替丁,有效率85%85%v问:能否立即下结论,呋喃硝铵疗效高于西咪问:能否立即下结论,呋喃硝铵疗效高于西咪替丁?替丁?v医学统计学:应用概率论和数理统计的基本原应用概率论和数理统计的基本原理和方法,
3、研究医学领域中数据的收集、整理理和方法,研究医学领域中数据的收集、整理和分析的一门应用性学科和分析的一门应用性学科。v指导人们如何指导人们如何对科研问题进行严密的设计、获取可靠对科研问题进行严密的设计、获取可靠的数据、正确的归纳、分析与推理判断的科学,帮助的数据、正确的归纳、分析与推理判断的科学,帮助揭示疾病或现象的发生、发展规律,揭示疾病或现象的发生、发展规律,为预防疾病、促为预防疾病、促进健康提供客观依据。进健康提供客观依据。二、为什么要学统计学?v 1.采用统计学方法,发现不确定现象背后隐采用统计学方法,发现不确定现象背后隐藏的规律。藏的规律。变异(变异(variationvariati
4、on):):是社会和医学中的普遍现象。是社会和医学中的普遍现象。变异使得实验或观察的结果具有变异使得实验或观察的结果具有不确定性不确定性,如每个人,如每个人的身高、体重、血压等各有不同。的身高、体重、血压等各有不同。v 2.2.用统计学思维方式考虑有关医学研究中的问题用统计学思维方式考虑有关医学研究中的问题 v v “阳性阳性”结果结果是否是虚假联系?是否是虚假联系?某感冒药治疗某感冒药治疗1 1周后,治愈率为周后,治愈率为90%90%,能否说该感,能否说该感冒药十分有效?冒药十分有效?“阴性阴性”结果是否是样本含量不足?结果是否是样本含量不足?有人曾对发表在有人曾对发表在Lancet,Med
5、Lancet,Med,JAMAJAMA等著名医学等著名医学杂志上的杂志上的7171篇阴性结果的论文作过分析,发现其中有篇阴性结果的论文作过分析,发现其中有6262篇(篇(93%93%)可能是由于样本含量不足造成的假阴)可能是由于样本含量不足造成的假阴性。性。v3.3.保证你的研究论文能通过统计学审查保证你的研究论文能通过统计学审查 据国外据国外60608080年代对不同医学杂志发表论文的年代对不同医学杂志发表论文的调查结果显示,调查结果显示,有统计错误的论文所占比例高达有统计错误的论文所占比例高达72%72%,最低也有,最低也有20%20%。某研究者某研究者19961996年对年对458645
6、86篇论文统计(中华医学篇论文统计(中华医学会系列杂志仅占会系列杂志仅占6.9%6.9%),),数据分析方法误用数据分析方法误用55.7%55.7%。第一节第一节 统计学的几个基本概念统计学的几个基本概念v同质:同质:是指除了实验因素外,影响被研究指标的非实验因素相同。即研究对象的性质相同。v变异:是指在同质的基础上,被观察个体之间观察指标的差异。同质和变异同质和变异homogeneity and variationv例例1 1 调查调查20072007年上海市年上海市7 7岁男童的身高和体重岁男童的身高和体重 同质:同质:20072007年、上海市、年、上海市、7 7岁男童岁男童 变异:身高
7、和体重各不相同变异:身高和体重各不相同v例例2 2 研究某降压药的疗效研究某降压药的疗效 同质:高血压患者、用某药治疗同质:高血压患者、用某药治疗 变异:疗效各不相同变异:疗效各不相同一、同质和变异一、同质和变异 二、总体和样本二、总体和样本 总体总体:是指是指根据研究目的根据研究目的确定的确定的性质相同的性质相同的观察观察单位的全体。单位的全体。更确切地说,是同质的所有观察单位某项观更确切地说,是同质的所有观察单位某项观察值(变量值)的集合。察值(变量值)的集合。population and sample 总体和样本总体和样本研究目的研究目的总总 体体该地该地20022002年全部正常成人的
8、白年全部正常成人的白细胞数细胞数 观察单位观察单位每个正常成人每个正常成人变变 量量 值值每人测得的白细胞数每人测得的白细胞数 研究某地研究某地20022002年正常成人白细年正常成人白细胞数胞数 同质基础:同质基础:同一地区、同一年份、同为正常人、同一地区、同一年份、同为正常人、有有限限总总体体例如:研究用珍菊降压片高血压患者治疗后例如:研究用珍菊降压片高血压患者治疗后的疗效的疗效同质基础:同质基础:同为高血压患者、同用珍菊降压片治疗同为高血压患者、同用珍菊降压片治疗总体:总体:包括设想用该药治疗的所有高血压患者的治包括设想用该药治疗的所有高血压患者的治疗效果疗效果 这个结果这个结果没有时间
9、和空间的限制没有时间和空间的限制,观察单位数,观察单位数无限无限无限总体无限总体无限总体无限总体 有限总体:有限总体:总体中所包含的个体数目是可以总体中所包含的个体数目是可以掌握的,有空间、时间的限制。掌握的,有空间、时间的限制。无限总体:无限总体:没有具体的空间、时间的限制,没有具体的空间、时间的限制,所包含的个体数目是未知的。(设想的、或所包含的个体数目是未知的。(设想的、或抽象的)抽象的)有限总体和无限总体有限总体和无限总体v调查某地调查某地2002002 2年正常成人的白细胞数年正常成人的白细胞数 总体总体v从某地从某地2002002 2年正常成人年正常成人随机抽取随机抽取150150
10、人,分别测人,分别测其白细胞数,组成样本。其白细胞数,组成样本。样本样本样本样本抽取部分观察单位抽取部分观察单位 推断推断inferenceinference样本样本:是从总体中是从总体中随机抽取随机抽取的具有的具有代表性代表性的一部的一部分观察单位其某项指标的实测值的集合。分观察单位其某项指标的实测值的集合。抽样抽样(sampling):):从总体中抽取部分个体的过程。从总体中抽取部分个体的过程。如何正确地如何正确地由样本反映由样本反映总体呢?总体呢?抽样时必须遵循随机化原则抽样时必须遵循随机化原则v随机性随机性:总体中每个个体都有相同的机会被抽取到样本总体中每个个体都有相同的机会被抽取到样
11、本v随机不等于随意随机不等于随意v随机抽样的实现:随机抽样的实现:随机数字表随机数字表 三、参数和统计量三、参数和统计量 parameter and statistic参数:参数:l 根据总体个体值计算出来根据总体个体值计算出来的描述的描述的指标的指标 l希腊字母表示:如总体均数希腊字母表示:如总体均数、总体标准差总体标准差、总体率总体率 等。等。l是固定的常数是固定的常数 但一般未知。但一般未知。l普查普查统计量:统计量:l根据样本个体值计算出来描根据样本个体值计算出来描述述样本特征样本特征的指标的指标l拉丁字母表示:如样本均数拉丁字母表示:如样本均数、样样本率本率p p等。等。l在参数附近
12、随机波动。在参数附近随机波动。l抽样调查抽样调查xv由于抽样所引起的样本统计量与总体参数之间的差异由于抽样所引起的样本统计量与总体参数之间的差异称为称为抽样误差抽样误差。v产生的原因:产生的原因:1.1.个体之间存在变异个体之间存在变异 2.2.抽样时只能抽取总体中的一部分作为样本抽样时只能抽取总体中的一部分作为样本 不可避免 但有一定的分布规律,可估计;并在一定范围内控但有一定的分布规律,可估计;并在一定范围内控制抽样误差制抽样误差四、抽样误差(四、抽样误差(random sampling errorrandom sampling error):):v概率概率(probability)pro
13、bability):是反映某一随机事件发生的可能性大小的一个量度。v记为P,取值0,1。必然事件:必然事件:P P1 1 不可能事件:不可能事件:P P0 0 随机事件:随机事件:00P P11五、五、概率概率(probability probability)P0.05或P0.01的随机事件称为小概率事件的随机事件称为小概率事件 统计学上认为统计学上认为1 1次抽样中不大可能发生。次抽样中不大可能发生。第二节第二节 统计数据的类型统计数据的类型v 实验或调查研究中的观察指标称为随机变量实验或调查研究中的观察指标称为随机变量(random variable);v 变量的观测值称为变量值变量的观测
14、值称为变量值(variable value)或观察值或观察值(observed value)v 由变量值构成资料(由变量值构成资料(data)根据变量值是否定量可分为根据变量值是否定量可分为 数值变量(numerical variablenumerical variable):):计量资料计量资料 分类变量(categorical variablecategorical variable):):无序分类变量(无序分类变量(unordered categorical variable unordered categorical variable)计数资料有序分类变量(有序分类变量(ordinal
15、 categorical variable ordinal categorical variable)等级资料261.1.计量资料(计量资料(measurement data):measurement data):v 定义:用用定量方法定量方法对观察单位准确测量后所得的资料。对观察单位准确测量后所得的资料。变量值是定量的,表现为数值大小变量值是定量的,表现为数值大小,多有度量衡单位,多有度量衡单位。v 特点:有度量衡单位有度量衡单位 多为连续性资料多为连续性资料v 例如:身高(身高(cm)、)、体重(体重(kg)血压(血压(mmHg)、)、脉搏(次脉搏(次/分)分)红细胞计数(红细胞计数(10
16、12/L)272.2.无序分类变量无序分类变量 (计数资料)(计数资料)v 定义:定义:用定性的方法得到的资料。用定性的方法得到的资料。按观察单位某种性质或特征分组后,再分别清点各按观察单位某种性质或特征分组后,再分别清点各组观察单位的个数组观察单位的个数 特点:特点:没有度量衡单位没有度量衡单位 多为间断性资料多为间断性资料 变量表现为互不相容的类别或属性变量表现为互不相容的类别或属性v 例如:例如:肤色(黑、白)肤色(黑、白)二项分类二项分类 血型(血型(ABO)多项分类多项分类 职业(工农兵职业(工农兵)多项分类多项分类 性别(男女)性别(男女)二项分类二项分类3.3.等级资料等级资料(
17、ranked data)ranked data)v定义:定义:将观察单位按某种属性的不同程度分成等级后将观察单位按某种属性的不同程度分成等级后分组计数所得的资料。分组计数所得的资料。是介于计量资料和计数资料之间的一种资料是介于计量资料和计数资料之间的一种资料v特点:特点:其变量值具有其变量值具有半定量性质半定量性质 表现为等级大小或属性程度表现为等级大小或属性程度v例如:例如:癌症分期:早、中、晚。癌症分期:早、中、晚。药物疗效:治愈、好转、无效、死亡。药物疗效:治愈、好转、无效、死亡。尿蛋白:尿蛋白:,+,+,+,+及以上及以上胆胆 管管 癌癌 患患 者者 部部 分分 指指 标标 编编 号号
18、 性性 别别 年年 龄龄(岁岁)部部 位位 分分 化化 程程 度度 分分 期期 肝肝 转转 移移 P PC CN NA A指指 数数 生生 存存 时时 间间(月月)(1 1)(2 2)(3 3)(4 4)(5 5)(6 6)(7 7)(8 8)(9 9)1 1 男男 6 61 1 上上 低低 分分 化化 阳阳 性性 5 52 2 1 14 4 2 2 女女 5 58 8 中中 高高 分分 化化 阴阴 性性 8 89 9 2 20 0 3 3 女女 6 63 3 上上 高高 分分 化化 阴阴 性性 9 93 3 1 19 9 4 4 女女 7 71 1 下下 中中 分分 化化 阳阳 性性 7 7
19、8 8 5 5 5 5 男男 5 59 9 上上 高高 分分 化化 阴阴 性性 8 85 5 3 35 5 实例数据实例数据1 14.4.三类资料间关系三类资料间关系 例:一组例:一组2020 4040岁成年人的血压岁成年人的血压以以1212kPakPa为界分为正常与异常两组,统计每组例数为界分为正常与异常两组,统计每组例数 8 8 低血压低血压 8 8 正常血压正常血压 12 12 轻度高血压轻度高血压 15 15 中度高血压中度高血压 17 17 重度高血压重度高血压计量计量资料资料等级等级资料资料计数计数资料资料 不不同同资资料料转转化化(每每分分钟钟脉脉搏搏次次数数)计计量量资资料料
20、计计数数资资料料 等等级级资资料料 7 75 5 缓缓 脉脉(6 60 0 )8 82 2 正正常常(6 60 0 1 10 00 0)1 12 25 5 正正常常脉脉(6 60 01 10 00 0)9 96 6 异异常常(1 10 00 0)5 56 6 速速 脉脉(1 10 00 0 )第三节第三节 医学统计学的基本步骤医学统计学的基本步骤1.1.设设 计:计:包括观察性研究设计和实验性包括观察性研究设计和实验性 研究设计研究设计2.2.收集资料:收集资料:取得准确可靠的原始资料取得准确可靠的原始资料3.3.整理资料:整理资料:对资料进行清理、改错,数量化对资料进行清理、改错,数量化4.
21、4.分析资料:分析资料:统计描述、统计推断统计描述、统计推断v定义:定义:是在保证科学性、可重复性和高效性的是在保证科学性、可重复性和高效性的前提下,为验证研究假说而制定周密的医学研前提下,为验证研究假说而制定周密的医学研究计划。究计划。v 在广泛的查阅文献、全面了解现状、广泛征询意在广泛的查阅文献、全面了解现状、广泛征询意见的基础上,对将要进行的研究工作所作的全面的设见的基础上,对将要进行的研究工作所作的全面的设想。想。1 1、设计(、设计(designdesign)1、设计(设计(designdesign)的分类的分类:调查设计(调查设计(survey designsurvey desig
22、n):):对研究对象不施加任何对研究对象不施加任何干预,通常建立随机抽样(干预,通常建立随机抽样(random samplingrandom sampling)方案。方案。搜集资料在整个研究设计中占主要地位搜集资料在整个研究设计中占主要地位.实验设计(实验设计(experiment designexperiment design):):对研究对象施加对研究对象施加干预,如动物实验研究、临床试验,通常建立随机分组干预,如动物实验研究、临床试验,通常建立随机分组(random allocationrandom allocation)方案。方案。2 2、设计(、设计(designdesign)的内容
23、的内容(1)1)明确研究目的和研究假说。明确研究目的和研究假说。(2)(2)确定研究对象与观察单位、确定研究对象与观察单位、样本含量和抽样方法样本含量和抽样方法。(3)(3)是否施加干预是否施加干预,如何施加干预?如何设置对照?,如何施加干预?如何设置对照?(4)(4)设置观察指标。设置观察指标。(5)(5)需搜集哪些原始资料需搜集哪些原始资料,用什么方法,用什么方法?(6)(6)如何对取得资料作进一步的整理和汇总,计算统计如何对取得资料作进一步的整理和汇总,计算统计指标。指标。(7)(7)如何控制误差。如何控制误差。(8)(8)预期会得到什么结果。预期会得到什么结果。(9)(9)研究进度和经
24、费的安排等研究进度和经费的安排等。vFisher Fisher 在他的著作中多次强调,统计学家与科在他的著作中多次强调,统计学家与科学研究者的合作应该在实验设计阶段,而不是学研究者的合作应该在实验设计阶段,而不是在需要数据处理的时候。在需要数据处理的时候。v“试验完成后再找统计学家,无异于请统计学家为试验进行“尸体解剖”。统计学家或许只能告诉你试验失败的原因。”2 2、收集资料(、收集资料(data collectiondata collection)资料的来源:资料的来源:1 1、统计报表、统计报表:疫情报表、医院工作报表等;:疫情报表、医院工作报表等;2 2、登记和报告卡(单)、登记和报告
25、卡(单):传染病和职业病发病报告卡,肿瘤发病:传染病和职业病发病报告卡,肿瘤发病及死亡报告卡,出生及死亡报告单等;及死亡报告卡,出生及死亡报告单等;3 3、日常医疗卫生工作记录:、日常医疗卫生工作记录:如门诊病例、住院病例、健康检查记如门诊病例、住院病例、健康检查记录、卫生监测记录等录、卫生监测记录等4 4、专题调查或实验研究:、专题调查或实验研究:开展医学科研的主要资料来源前三种都开展医学科研的主要资料来源前三种都有局限性。有局限性。v资料收集计划资料收集计划 选择搜集资料的地点、人员和时间;选择搜集资料的地点、人员和时间;搜集资料人员的培训方案;搜集资料人员的培训方案;预调查或预实验方案拟
26、定;预调查或预实验方案拟定;资料的记录方式;资料的记录方式;调查表的拟订和印刷;调查表的拟订和印刷;调查或实验仪器、试剂的准备;调查或实验仪器、试剂的准备;调查资料的抽样复核比例和方法;调查资料的抽样复核比例和方法;搜集资料所需经费的准备等。搜集资料所需经费的准备等。v目的目的是对搜集到的原始资料其系统化和条是对搜集到的原始资料其系统化和条理化,便于进一步计算统计指标和深入分理化,便于进一步计算统计指标和深入分析。析。v资料整理前资料整理前要对资料要对资料再次检查与核对再次检查与核对,发,发现缺项或错项较多的调查表,须补查或剔现缺项或错项较多的调查表,须补查或剔除。审查无误后,设计分组除。审查
27、无误后,设计分组。3 3、整理资料(、整理资料(data sortingdata sorting)资料整理的过程资料整理的过程v1 1、对原始数据进行核对和检查。、对原始数据进行核对和检查。v2 2、设计分组。、设计分组。v(1 1)质量分组:按属性或类别归类分组;)质量分组:按属性或类别归类分组;v(2 2)数量分组)数量分组:按数值大小分组。按数值大小分组。v3 3、按分组要求设计整理表,汇总资料。、按分组要求设计整理表,汇总资料。v 可借助于计算机软件(可借助于计算机软件(EpiData,Study-EpiData,Study-Builder,ExcelBuilder,Excel)来完成
28、。来完成。1 1、编码,将数据输入计算机、编码,将数据输入计算机2 2、纠错改错、补漏等、纠错改错、补漏等 v运用统计学的基本原理和方法,根据研究设计运用统计学的基本原理和方法,根据研究设计的目的、要求、资料的类型和分布特征选择正的目的、要求、资料的类型和分布特征选择正确的统计分析方法,进行一系列的确的统计分析方法,进行一系列的统计描述统计描述和和统计推断统计推断,揭示事物内部的规律。,揭示事物内部的规律。v可借助于计算机(常用软件:可借助于计算机(常用软件:SPSSSPSS、SASSAS、STATASTATA)完成。完成。4、分析资料(、分析资料(data analysis)4、分析资料(、
29、分析资料(data analysis)统计描述(统计描述(descriptive statisticsdescriptive statistics)是指用统计指标和适宜的统计图、统计表等是指用统计指标和适宜的统计图、统计表等方法,描述统计资料的分布规律及其数量特征方法,描述统计资料的分布规律及其数量特征。统计推断(统计推断(inferential statisticsinferential statistics)是通过随机样本信息推断总体特征的过程。是通过随机样本信息推断总体特征的过程。参数估计(参数估计(parameter estimationparameter estimation)假设检
30、验(假设检验(hypothesis testhypothesis test)常用统计分析软件简介常用统计分析软件简介v一、一、SPSSSPSS(PASWPASW)软件:)软件:v二、二、SASSAS软件软件:统计专业用户统计专业用户v三、三、STATASTATA软件:分析能力强,速度极快!软件:分析能力强,速度极快!图形精美图形精美v四、四、EPI INFOEPI INFO:流行病学调查得数据管理软件。:流行病学调查得数据管理软件。SPSSSPSS软件软件v美国斯坦福大学研制,目前已被美国斯坦福大学研制,目前已被IBMIBM兼并。最兼并。最新版本新版本19.0.19.0.v特点:界面友好、使用
31、方便、功能齐全。特点:界面友好、使用方便、功能齐全。小结:小结:1.医学统计工作的基本步骤是医学统计工作的基本步骤是A.调查、搜集资料、整理资料、分析资料调查、搜集资料、整理资料、分析资料B.统计资料收集、整理资料、统计描述、统计资料收集、整理资料、统计描述、统计推断统计推断C.设计、搜集资料、整理资料、分析资料设计、搜集资料、整理资料、分析资料D.调查、统计描述、统计推断、统计图表调查、统计描述、统计推断、统计图表E.设计、统计描述、统计推断、统计图表设计、统计描述、统计推断、统计图表C2.抽样误差是指抽样误差是指A.不同样本指标之间的差别不同样本指标之间的差别B.样本指标与总体指标之间由于
32、抽样产生样本指标与总体指标之间由于抽样产生的差别(参数与统计量之间由于抽样而产生的的差别(参数与统计量之间由于抽样而产生的差别)差别)C.由于抽样产生的观测值之间的差别由于抽样产生的观测值之间的差别D.样本中每个个体之间的差别样本中每个个体之间的差别E.随机测量误差与过失误差的总称随机测量误差与过失误差的总称B3.概率是描述某随机事件发生可能性大小的数值,概率是描述某随机事件发生可能性大小的数值,以下对概率的描述哪项是错误的以下对概率的描述哪项是错误的A.其值的大小在其值的大小在0和和1之间之间B.当样本含量当样本含量n充分大时,我们有理由将频率近似充分大时,我们有理由将频率近似为概率为概率C
33、.随机事件发生的概率小于随机事件发生的概率小于0.05或或0.01时,可认为时,可认为在一次抽样中它不可能发生在一次抽样中它不可能发生D.必然事件发生的概率为必然事件发生的概率为1E.其值必须由某一统计量对应的概率分布表中得到其值必须由某一统计量对应的概率分布表中得到E4.统计学中所说的总体是指统计学中所说的总体是指A.任意想象的研究对象的全体任意想象的研究对象的全体B.根据研究目的确定的研究对象的全体根据研究目的确定的研究对象的全体C.根据时间划分的研究对象的全体根据时间划分的研究对象的全体D.根据人群划分的研究对象的全体根据人群划分的研究对象的全体E.根据地区划分的研究对象的全体根据地区划分的研究对象的全体B5、从一个数值变量资料的总体中抽样,产、从一个数值变量资料的总体中抽样,产生抽样误差的原因是:生抽样误差的原因是:A、总体中的个体值存在差别;、总体中的个体值存在差别;B、总体均数不等于零、总体均数不等于零;C、样本中的个体值存在差别;、样本中的个体值存在差别;D、样本均数不等于零;、样本均数不等于零;E、样本只包含总体的一部分。、样本只包含总体的一部分。ASPSSSPSS软件软件