1、 预防医学预防医学 医学统计学方法概述1第六章提纲第六章提纲医学统计学的概念医学统计学的概念统计学的基本概念统计学的基本概念统计工作的基本步骤统计工作的基本步骤医学统计学的学习要求医学统计学的学习要求医学统计学方法概述2一、医学统计学的概念一、医学统计学的概念日常生活中的统计学应用日常生活中的统计学应用n如何判断药物的疗效?如何判断药物的疗效?(假设检验假设检验)n体育彩票能否中大奖?(概率论)体育彩票能否中大奖?(概率论)n子女为什么象父母,有多象?子女为什么象父母,有多象?(相关与回归相关与回归)n政治人物的支持度,民意测验政治人物的支持度,民意测验(设计设计,抽样抽样)n不同民族智商测量
2、、税收标准(均数)不同民族智商测量、税收标准(均数)医学统计学方法概述3一、医学统计学的概念一、医学统计学的概念统计学的概念:统计学的概念:Statistics is the science dealing with the collections,analysis,interpretation and presentation of masses of numerical data医学统计学的概念:医学统计学的概念:是应用数统计学的原理与是应用数统计学的原理与方法研究方法研究生物医学领域(临床和基础医学领域)生物医学领域(临床和基础医学领域)中数据的收集、整理、分析和推断的一门科学中数据的收
3、集、整理、分析和推断的一门科学 医学统计学方法概述4一、医学统计学的概念一、医学统计学的概念医学专业学生为何需要学习统计学?医学专业学生为何需要学习统计学?n医学的特点:存在着大量变异、不确定性医学的特点:存在着大量变异、不确定性 的量化学科的量化学科n在医学实践中大量应用医疗经验;在医学实践中大量应用医疗经验;n医学研究结果的科学解释医学研究结果的科学解释医学统计学方法概述5二、统计学的基本概念统计学的基本概念变量、变量值及其分类变量、变量值及其分类同质、异质与变异同质、异质与变异个体、总体与样本个体、总体与样本参数与统计量参数与统计量抽样和抽样误差抽样和抽样误差频率与概率频率与概率医学统计
4、学方法概述6变量与变量值变量与变量值在医学研究中,根据研究目的的要求对在医学研究中,根据研究目的的要求对一些观察项目或研究指标在一些研究对一些观察项目或研究指标在一些研究对象中进行观察象中进行观察(或测量或测量),由于这些指标存,由于这些指标存在着变异,故把这些观察项目或研究指在着变异,故把这些观察项目或研究指标(属性、特征)称为标(属性、特征)称为随机变量,简称随机变量,简称变量变量(variable),而观察结果对应的取值,而观察结果对应的取值称为称为变量值变量值或或资料资料(value of variable)医学统计学方法概述7变量的不同类型变量的不同类型多分类多分类二分类二分类bin
5、ominal定量变量定量变量numerical定性变量定性变量categorical有序分类有序分类ordinal无序分类无序分类nominal变量变量variable医学统计学方法概述8定量变量定量变量n定义:又称为数值变量、计量资料,指通过度量衡的方定义:又称为数值变量、计量资料,指通过度量衡的方 法,测量每一个观察单位的某项研究指标的量的大小,法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料得到的一系列数据资料n特点:具体意义的数值特点:具体意义的数值 取值即可以是连续性也可为间断性取值即可以是连续性也可为间断性 有度量衡单位有度量衡单位 n如患者的身高(如患者的身高
6、(cmcm)、体重()、体重(kgkg)、血压()、血压(mmHgmmHg)、)、脉搏(次脉搏(次/分)、红细胞计数(分)、红细胞计数(10101212/L/L)医学统计学方法概述9定义:又称为分类变量、计数资料,指将全体观测单定义:又称为分类变量、计数资料,指将全体观测单位按照某种性质或特征分组,取值表现为互不相容的位按照某种性质或特征分组,取值表现为互不相容的类别和属性类别和属性特点:没有度量衡单位特点:没有度量衡单位 取值为某种属性,通常无法直接运算取值为某种属性,通常无法直接运算 统计时多转化为间断性的计数值统计时多转化为间断性的计数值如肤色(黑、白)、血型(如肤色(黑、白)、血型(A
7、BO)、职业(工农兵)、)、职业(工农兵)、性别(男女)性别(男女)定性变量定性变量医学统计学方法概述10定义:介于计量资料和计数资料之间的一种资料,通定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到,分类间有大小强弱之别。过半定量方法测量得到,分类间有大小强弱之别。特点:没有度量衡单位特点:没有度量衡单位 取值为某种属性取值为某种属性 各属性有强弱大小之别各属性有强弱大小之别如:癌症分期:早、中、晚。如:癌症分期:早、中、晚。药物疗效:治愈、好转、无效、死亡。药物疗效:治愈、好转、无效、死亡。尿蛋白:尿蛋白:,+,+,+,+及以上及以上有序变量有序变量医学统计学方法概述11
8、变量与变量值变量与变量值病例号病例号年龄年龄(岁岁)性别性别治疗治疗分组分组*病程病程(年)(年)溃疡面积溃疡面积(cm2)上腹部上腹部疼痛疼痛疗效疗效137男男T41.1减轻减轻显效显效245男男C151.8未减轻未减轻无效无效343女女C20.7减轻减轻显效显效454男男T91.5未减轻未减轻恶化恶化561女女T101.2减轻减轻有效有效8031男男C31.0未减轻未减轻无效无效*T T为试验药,为试验药,C C为对照药为对照药医学统计学方法概述12变量转换变量转换变量的分类不是固定、死板的,在一定的情况下,通变量的分类不是固定、死板的,在一定的情况下,通过相应的规则相互转换过相应的规则相
9、互转换例如:测得例如:测得5人的人的WBC(个(个/m3)数如下:)数如下:3000 6000 5000 8000 12000 数值变量数值变量 过低过低 正常正常 正常正常 正常正常 过高过高 分类变量分类变量若按正常若按正常3人,异常人,异常2人分组人分组二分类变量二分类变量若按过低若按过低1人,正常人,正常3人,过高人,过高1人分组人分组等级资料等级资料医学统计学方法概述13变量的转换变量的转换数值变量的性质化转换(制定标准)数值变量的性质化转换(制定标准)数值变量数值变量无序分类变量无序分类变量数值变量数值变量有序分类变量有序分类变量分类变量的数量化转换(赋值)分类变量的数量化转换(赋
10、值)n无序分类变量无序分类变量数值变量数值变量n有序分类变量有序分类变量数值变量数值变量n请注意转换后得到的数值变量的含义请注意转换后得到的数值变量的含义*n数字无大小强弱之别;或有大小之别,却不一定数字无大小强弱之别;或有大小之别,却不一定有具体意义有具体意义医学统计学方法概述14同质和异质同质和异质具有相同性质的事物(或者决定事物的关键属具有相同性质的事物(或者决定事物的关键属性和特征相同)称为性和特征相同)称为同质同质的的(homogeneous)。否。否则称为则称为异质异质的或者间杂的的或者间杂的(heterogeneous)。同质和异质是相对的概念。在不同的情况下同同质和异质是相对的
11、概念。在不同的情况下同质与异质的标准会发生改变。质与异质的标准会发生改变。不同质的个体不能笼统地混在一起分析。不同质的个体不能笼统地混在一起分析。医学统计学方法概述15在研究事物的形状时在研究事物的形状时同质和异质示例同质和异质示例在研究事物的颜色时在研究事物的颜色时医学统计学方法概述16变异变异 同质事物之间变量值的差别称为同质事物之间变量值的差别称为变异变异(variation)变异的两个方面:变异的两个方面:不同观察单位(个体)间的差别不同观察单位(个体)间的差别同一个体在不同阶段的差别(重复测量)同一个体在不同阶段的差别(重复测量)医学统计学方法概述17变异变异建立在同质的基础上建立在
12、同质的基础上一种或多种不可控因素一种或多种不可控因素(已知的或未知的已知的或未知的)作用作用下的综合表现,其结果是不可预知的(下的综合表现,其结果是不可预知的(随机的随机的)个体变异是普遍存在的;个体变异是有规律的个体变异是普遍存在的;个体变异是有规律的统计学就是要研究变异的规律;没有个体变异,统计学就是要研究变异的规律;没有个体变异,就没有统计学就没有统计学医学统计学方法概述18变异示例变异示例在研究事物的颜色时在研究事物的颜色时在研究相同颜色事物的形状时在研究相同颜色事物的形状时医学统计学方法概述19变异示例变异示例发热者体温波动发热者体温波动正常人体温波动正常人体温波动医学统计学方法概述
13、20同质个体变异是有规律的,表现为观察值出现同质个体变异是有规律的,表现为观察值出现在不同范围中的概率大小在不同范围中的概率大小随机现象或随机变异都有其固有的分布规律,随机现象或随机变异都有其固有的分布规律,即概率分布,在大量重复观察的条件下就会呈即概率分布,在大量重复观察的条件下就会呈现其规律性现其规律性资料分布:称随机变异的规律性为该指标取值资料分布:称随机变异的规律性为该指标取值的概率分布,简称为资料的分布的概率分布,简称为资料的分布个体变异的规律性个体变异的规律性医学统计学方法概述21个体、总体和样本个体、总体和样本 个体个体 Individual:是构成总体的最基本观察单:是构成总体
14、的最基本观察单位。位。总体总体 Population:根据研究目的所确定的同质:根据研究目的所确定的同质观察单位的全体;分为观察单位的全体;分为有限总体有限总体和和无限总体无限总体。样本样本 Sample:是从总体中按照一定的目的按照:是从总体中按照一定的目的按照一定的原则抽取的一部分个体。一定的原则抽取的一部分个体。请考虑如何判断样本是否有代表性;抽样研究请考虑如何判断样本是否有代表性;抽样研究的目的的目的*随机、样本含量;推断总体信息随机、样本含量;推断总体信息医学统计学方法概述22总体与样本总体与样本例:假定某该地在例:假定某该地在1998年的年的7岁男孩有岁男孩有10万人,现研究万人,
15、现研究1998年该地年该地7岁男孩的身高岁男孩的身高情况情况现在随机抽样调查了解现在随机抽样调查了解200名名7岁男孩的岁男孩的身高情况,测量他们的身高,通过分析身高情况,测量他们的身高,通过分析这这200个儿童的身高推断该地个儿童的身高推断该地10万个万个7岁岁男孩身高情况男孩身高情况医学统计学方法概述23总体与样本总体与样本 上述例子中涉及到下列概念:上述例子中涉及到下列概念:观察单位观察单位(个体个体):每个:每个7岁男孩。岁男孩。观察指标:身高观察指标:身高(观察指标又称为变量观察指标又称为变量)观察值:身高测量值观察值:身高测量值(亦称变量的取值亦称变量的取值)总体:该地总体:该地1
16、998年的年的10万个万个7岁男孩身高观察值的全体岁男孩身高观察值的全体(即:即:10万个身高观察值构成的一个集合万个身高观察值构成的一个集合)。样本:随机抽样的样本:随机抽样的200个个7岁男孩身高观察值岁男孩身高观察值医学统计学方法概述24参数和统计量参数和统计量 总体参数总体参数 Parameter:描述总体特征的指标:描述总体特征的指标统计量统计量 Statistic:反映样本特征的指标:反映样本特征的指标在总体被确定之后,总体参数就是唯一的;而在总体被确定之后,总体参数就是唯一的;而统计量是几乎总是随着样本而变的统计量是几乎总是随着样本而变的为了区分参数与统计量通常用希腊字母表示参为
17、了区分参数与统计量通常用希腊字母表示参数;用拉丁文字母表示统计量数;用拉丁文字母表示统计量通常参数是未知的,而统计量则可以通过抽样通常参数是未知的,而统计量则可以通过抽样研究得到,故统计学通常用统计量估计参数研究得到,故统计学通常用统计量估计参数(参数估计参数估计)医学统计学方法概述25误差误差误差误差 error:实际观察值与真实值之差:实际观察值与真实值之差误差分类:误差分类:随机误差随机误差random非随机误差非随机误差systematic误差误差error抽样误差抽样误差sampling测量误差测量误差measurement医学统计学方法概述26系统误差系统误差在实际观测过程中,由受
18、试对象、研究者、仪器设备、在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之为性或规律性的误差。流行病学称之为偏倚偏倚(bias)特点:观察值有系统性、方向性、周期性的偏离真值特点:观察值有系统性、方向性、周期性的偏离真值可以通过严格的实验设计和技术措施消除。可以通过严格的实验设计和技术措施消除。医学统计学方法概述27随机误差随机误差排除上述误差后尚存的误差,受多种无法控制排除上述误差后尚存的误差,受多种无法控制的因素的影响。的因素的影响。特点:大小方向不一的随机变化特点:大
19、小方向不一的随机变化随机测量误差随机测量误差random measurement error:不:不可避免,提高操作者熟练程度可以减少这种误可避免,提高操作者熟练程度可以减少这种误差差随机抽样误差随机抽样误差 random sampling error:由抽样:由抽样造成的样本统计量和总体参数间的差异,不可造成的样本统计量和总体参数间的差异,不可避免,但有一定的分布规律,可估计避免,但有一定的分布规律,可估计医学统计学方法概述28频率和概率频率和概率频率频率 Frequency:在:在n次随机试验中,事件次随机试验中,事件A发生发生了了m次,则比值次,则比值 称为事件称为事件A在这在这n次试验
20、中出现的频率次试验中出现的频率nmf总总试试验验次次数数随随机机事事件件发发生生的的次次数数医学统计学方法概述29频率和概率频率和概率抛硬币试验在概率的统计学定义上的诠释抛硬币试验在概率的统计学定义上的诠释试验者试验者投掷次数投掷次数出现出现“正面正面”次数次数频率频率X X202012120.60000.6000BuffonBuffon40404040204820480.50690.5069K.PearsonK.Pearson1200012000601960190.50160.5016K.PearsonK.Pearson240002400012012120120.50050.5005医学统计
21、学方法概述30频率和概率频率和概率概率的统计学定义:概率的统计学定义:数理统计学中的大数定理表明:当观察次数数理统计学中的大数定理表明:当观察次数n越来越大,频率越来越大,频率f的波动幅度越来越小,并最终的波动幅度越来越小,并最终趋向于一个常数趋向于一个常数p:随机事件:随机事件A发生的发生的概率概率(Probability)。概率描述了随机事件发生的可能性的大小,是概率描述了随机事件发生的可能性的大小,是一种参数;频率作为概率的估计值,是统计量一种参数;频率作为概率的估计值,是统计量0P 1 医学统计学方法概述31小概率事件小概率事件小概率事件小概率事件 医学研究中,将概率小于等于医学研究中
22、,将概率小于等于0.05或或0.01的的事件称为小概率事件。事件称为小概率事件。小概率原理小概率原理 小概率事件并不表示不可能发生,但在某一小概率事件并不表示不可能发生,但在某一次试验中,由于其发生的可能性十分小,近似次试验中,由于其发生的可能性十分小,近似认为是不会发生的。认为是不会发生的。医学统计学方法概述32三、统计工作的步骤(了解)三、统计工作的步骤(了解)研究设计:正确、周密的设计是研究成败的关键研究设计:正确、周密的设计是研究成败的关键资料收集:准确可靠。资料收集:准确可靠。来源:统计报表、工作记录、专题调查或实验来源:统计报表、工作记录、专题调查或实验资料整理:原始资料的核对、清
23、理、录入、检查资料整理:原始资料的核对、清理、录入、检查资料分析:资料分析:n统计描述和统计推断,由样本估计总体,由样本统计统计描述和统计推断,由样本估计总体,由样本统计量估计总体参数;量估计总体参数;n阐明事物的内在联系和规律,合理呈现阐明事物的内在联系和规律,合理呈现医学统计学方法概述33四、医学统计学的学习要求四、医学统计学的学习要求1984年对中华医学类杂志年对中华医学类杂志595篇论文调查:相篇论文调查:相对数误用对数误用11.2、抽样误差误用、抽样误差误用15.9、统计、统计图表误用图表误用11.71996年对年对4586篇申报科技成果的论文调查:数篇申报科技成果的论文调查:数据分析方法误用达据分析方法误用达55.720012002年对国内外的医学论著调查:误用年对国内外的医学论著调查:误用情况中所占比例最大的来自于常用的基本统计情况中所占比例最大的来自于常用的基本统计学方法学方法医学统计学方法概述34四、医学统计学的学习要求四、医学统计学的学习要求医学统计学,重在医学应用医学统计学,重在医学应用建立统计观念,培养统计逻辑建立统计观念,培养统计逻辑多作练习多作练习多阅读参考文献多阅读参考文献医学统计学方法概述35