1、医学统计学,Medical Statistics,1 引言 . 1.2 生物医学数据的来源与类型 . 1.3 常用的基本概念 . 4 统计工作贯穿医学研究的全过程,1.1 什么是医学统计学?,变异(variation)是社会和生物医学中的普遍现象,变异使得实验或观察的结果具有不确定性。,采用同种药物治疗某病患者疗效却有好有坏? 同父母所生子女为什么身高、体重各不相同?,随机现象,随机现象的描述,强化化疗治疗小儿急性淋巴细胞白血病临床缓解率达80.0%。 据国家统计局资料,2000年中国人口平均预期寿命是71.4岁,2004年71.8岁,按此计算,平均每年提高0.1岁。 .,厨房品尝菜肴的故事:
2、抽样 临床试验纳入的20个急性淋巴细胞白血病的患儿,接受标准方案的化疗后15人缓解,请问:急性淋巴白血病患儿临床缓解率是多少?,随机性中寻找规律性 把复杂的问题简单化,统计,通过推理,随机现象的推断:,什么是医学统计学? (Definition of Medical Statictics),统 计 学 :处理医学数据中变异性的科学和艺术 研究内容:搜集、整理、解释与呈现数据并作 出推断。 。 研究方法:概率论和数理统计。 研究目的:求得可靠结果,探索现象的本质。 现实地位:论文审稿、科研合作、基金申请、 药物开发与申报、药效评定、卫生决策 .,统计学的起源,Singular form,stat
3、istics,“统计学”,“统计数字”,Plural form,统计学是关于数字的学科,早期的统计数字应官方要求,为作某种决策提供依据的信息。,为什么要学习统计学?,1. 用统计学方法发现不确定现象背后隐藏的规律,是医学科学研究工作的基本需要。,是变异还是有病?,最大值=6.18, 最小值=3.29, 极差=2.89算术均数=4.72,标准差=0.57。,【经典案例问题1】:,北京某医院某大夫使用“乌贝散”中药冲服治疗胃溃疡病出血107例,有效101例,有效率为94.4% 那么,别的医院,其他大夫也使用“乌贝散”来治疗胃溃疡病出血,其有效率也一定是94.4%吗?,答:参数估计,求置信区间,【经
4、典案例问题2】:,北京某医院有位老大夫,用“冠心灵”治疗冠心病,其对照组用单纯西药,观察结果如下表:,答:假设检验(test of significance), 要算值。,2. 用统计学思维方式,正确地理解医学相关的 问题 ,“阳性”结果是否是虚假联系? 某感冒药治疗1周后,治愈率为90%,能否说该感冒药十分有效? “阴性”结果是否真是阴性? 有人曾对发表在Lancet, N Engl J Med,JAMA等著名医学杂志上的71篇阴性结果的论文作过分析,发现其中有62篇( 93%)可能是由于样本含量不足造成的假阴性检验效能低所致。,多年以前统计学家也许会宣称,统计学是做数据列表的。如今的统计学
5、家很可能说,统计学考虑的是不确定性如何做决策。 chernoff 和Moses( 1959年) 斯坦福大学教授,相当多的人忽略研究中的统计设计; 用正态分布法表达呈偏态分布分布的定量资料; 因误判资料类型而误用统计方法; 把 t 检验当成处理定量资料的万能工具; 把 2检验当作定性资料的万能工具; 脱离专业知识去做相关与回归; 用直线回归代替曲线回归; 用单因素分析代替多因素统计分析。,3. 目前医学科研活动中,统计学应用面临的窘境:,国际论文的统计学问题:,希腊某大学有学者对19902003年期间发表在Lancet(柳叶刀), N Engl Med(新英格兰),JAMA(美国医学会)三大著名
6、医学杂志上,且引用的次数1000次以上的文献进行调查。 49 篇高引用率的原始文献中, 45 篇称干预有效。而结果被以后的研究结果否定 7篇( 15.6%),最初报告的疗效被夸大 7篇,接近 1/3 的研究没有经住时间的考验。,国内论文的统计学问题:,国内2006年对48种高影响因子的生物医学期刊进行审查,重点审查“论著”,其中有相当高的比例是国家各类基金资助的科研课题。 截止到2007年6月,期刊23种约300篇论著。几乎所有的论著都涉及到统计分析;而在统计研究设计、统计表达和描述、分析方法的选择与实施上,都完全正确比例非常低,统计误用率达90。,绝大部分是:“回顾性描述临床诊疗过程 和“回
7、归性的整理和分析临床资料”两大类。实验设计的四个基本原则(随机、对照、重复、均衡 ),实施过程中的质量控制都存在问题。 研究还发现:除了少量介绍新药期、期临床实验论文外,我国严重缺乏 “前瞻性的完全随机对照的临床研究”。,尤其是临床研究论文:,【经典案例 1】:,某科研人员为研究 A、B两种药物的疗效, 设计了如下实验,每组用小白鼠20只,观测定量指标为血小板、白细胞等。4个组设计如下: 第1组:空白对照 组 第2组:单用A药 第3组:A、B药联合应用 第4组:第3组的空白对照。,正确的设计方案为:两因素析因设计(16章),设计优势:不仅反映A、B单独作用的大小,也可 反映A、B之间的交互作用
8、大小。 统计推断:析因设计资料的方差分析,第1组:空白对照 组 第2组:单用A药 第3组:单用A药 第4组:A、B药联合应用,正确的分组方式,【经典案例 2】:,某杂志中一篇文章报导,用某种中草药治疗玫瑰糠疹,有效率为78,平均疗程为3周左右。由此结论,该药治疗玫瑰糠疹的确有效。,答:1.玫瑰糠疹是自然治愈性疾病,一般不服药,多喝水,到3周左右绝大多数患者也会自愈,故此药的78疗效有待探讨 2.设立对照组!,美国医学会(JAMA),新英格兰医学杂志(NEJM)、英国医学杂志、中华医学会杂志对来稿都有统计学要求或统计学指导。 国际生物医学杂志编辑协会在生物医学期刊投稿的统一要求中也包含了统计学要
9、求。,4.统计数字造假问题,统计是支持研究结论的证据之一,一些想在研究中走捷径的人,不惜抛开科学道德伪造统计数字。 据1976年New Science杂志关于科研舞弊行为调查,74的调查反映有不正当修改数据情况。其中,17拼凑实验结果,7凭空捏造数据。2故意曲解结果。 国内大有人在!,历史上许多事实说明,科学来不得半点虚假,造假者一旦被揭露,背上永远洗不掉的耻辱,断送自己的学术生涯!,【经典案例】:,著名的美国贝尔实验室自1925年成立来,共计推出2.8万专利,所属科学家曾获6个诺贝尔物理学奖。 但2002年9月,该实验室传出77年历史上最大的丑闻,某研究者至少在16篇论文中捏造或篡改了试验数
10、据:其人的论文中描述试验结果采用的一系列不同的仪器设备,但报告的部分数据却一摸一样。众所周知,生物实验运气再好,也是随机的,相同的试验也不会得出完全一样的试验结果。这位科学家是该实验室查出首起造假人员,立即开除。,综上所述,针对前人“痛苦的经历。”,如何找到我们学习的东西,焕发学好医学统计学的力量,提高效率,打消心理障碍,建立信心,寻找解决问题的对策。 让我们共同努力,揭开医学研究统计方法的面纱。,研究生阶段: 该如何学习医学统计学?,体会领悟统计学的思维特征(抽象思维及逻辑推断模式),充分认识所作结论的概率性; 原理、概念的理解比算题重要得多 ; 统计方法高级不一定好,简单有效最好; 应用医
11、学统计学方法解决实际问题,学以致用是根本目的。,在潜移黙化中改良我们的思想。,教学内容,统计 描述,抽样分布参数估计:点估计、区间估计,定量资料,定性资料:频率型指标、强度型指标、比,统计表和统计图,统计 推断,变量,概率分布:正态分布,假设检验,实验设计,分组数,实验设计:三要素、四原则、实验设计方案、样本含量估算,教学内容:,教学日历:,1.2 医学数据的来源与类型,生物医学数据的来源: 1. 常规记录:医院信息科病案、首页等 2. 实验记录:实验室数据,主要来源 3. 现场调查:根据目的进行收集资料 4. 其他数据:历史资料,统计年鉴等,1.变量(variable): 个体特性的数量描述
12、,如身高168cm,体重56kg 等。,变量的类型,2. 变量的分类:,定性变量:分类/计数 qualitative 定量变量: quantitative,分类变量/名义变量 categorical /nominative variable 有序变量/等级变量 ordinal variable,数值/计量变量,观察单位observations 个体individuals,变量variables,Quantitative data 定量资料,Qualitative data 定性数据,Units;elements,定义:种种可能的“取值”中自然地存在着次序,即各类别之间有程度的差别。,例:尿糖(
13、 、 、+ 、 + 、 +) 无症状、轻、中、重度,有序变量/等级变量,分类变量/名义变量,多分类变量,例: 血型(O、A、B、AB)、职业(工、农、商、学、兵等)、种族等。 通常用0、1、3、4等代表各个分类或水平,例:男、女 感染、未感染 有效、无效,(一)定性变量,(二)定量变量,特点:其变量值是定量的,可经测量表现为数值的大小,多有度量衡单位。,例:身高(cm)、体重( kg) 血压(mmHg)、脉博(次/分) 白细胞计数( 109/L),例: 一个月中手术病人有1020人;一年内的新生作人数等。,连续型变量,离散型变量,定义:指数轴上的连续变动,在一区间中可任意取值,定义:其取值范围
14、是有限个值,或中断的数列,如只能取整数,变通:红细胞计数109个/L也可看作连续型变量变量,因为其1个、2个、3个的差别并不重要。,3. 变量之间的转换:,变量只能由高级向低级转化,不能作相反方向转化,定量变量,有序变量,分类变量,二值变量,4. 变量的编码 定量数据:直接录入原始数据。 定性数据:需进行编码(仅为一个数字代码,并无实际意义)后方可录入,否则不便于进一步运算。 性别: 女(0),男(1); 血型: A( 1 ), B( 2 ), AB( 3 ), O( 4 ) 化验结果 :-(1),+(2),+(3),+(4),5. 各类变量的计算,定量数据:允许计算均数、标准差等(可采用t、
15、F 检验等,可当做有序或定性数据处理) 定性数据:编码是任意的,不能对编码执行均数标准差等计算,但可计算率或比(可采用卡方检验等) 调查14名男子的婚姻状况,有序数据:允许基于顺序的计算,如计算中位数、百分位数(可当做定性数据处理),对无序变量(名义变量)的哑变量转化:,多分类变量举例:职业编码,1=工人:40人 4=知识分子:20人 2=农民:80人 5=商业服务:15人 3=管理人员:20人 6=其它:10人,我们为什么要详细分析资料的性质?,不同类型资料(变量)采用不同的统计描述和统计推断方法,这一点不能有误,但在工作实践中经常出现错误。,1.3 常用的基本概念,同质与变异(homoge
16、neity/variation),总体和样本(population/sample),参数和统计量(parameter/statistic),误差与抽样误差(error/sampling error),随机事件与概率(Probality),基本概念:,一、总体与样本,总体(Population):是大同小异的对象的全体。,目标总体(Target Population) :试图对其下结论的总体 研究总体(Study Population) :研究中资料来源的较小的总体,区分:,举例: Doll和Hill关于研究吸烟与肺癌的关系 目标总体:英国成年男子 研究总体:1951年英国全部男性注册医生 注意
17、:就研究总体下的总论未必适用于目标总体,举例:郑州20岁健康男大学生的身高情况,已知郑州2010年 20岁男大学生有10万人,List of Individuals 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17,随机抽样,样 本,抽样(Sampling) :从研究总体中抽取少量有代表性的个体,这一过程称为抽样。 样本(Sample):所抽取的部分个体形成样本 数据(Data):观察所得的资料 推断(Inference) :分析样本数据获得关于总体的知识,抽样研究:从确定的同质总体中随机抽取部分样本进 行观察,用样本信息来推断总体特征,该 研究方法叫抽样研究
18、。,为什么要进行抽样研究?,总体太大,费时费力且难以保证测量的精度。 抽样研究能得到精确的结果。 某些实验有破坏性,不可能对总体进行测量。,统计学的主要任务之一,是进行统计推断,统计推断:,以样本的现象推断所研究总体的特征。即分析样本数据,获得关于总体的知识。,统计推断的工具:有关概率的理论。,从样本对总体得出的是一个概率性的结论,从来不是完全肯定的或完全否定的。 推断的关键和核心是抽样方法、样本的代表性和推断的方法,怎样确保所抽取的样本合格? 样本的代表性,样本必须是从总体中随机抽取的一部分,即采用随机的抽样方法,使总体中每个个体都有相同的机会被抽到。 样本量必须足够大。,二、同质与变异,同
19、质(homogeneity):就是共性,大同小异。 性质相同的事物构成一个总体;但没有完全相同的个体,同质只是一个相对概念。,变异(variation): 同质基础上的个体间的差异 ,指事物的多样性。,没有同质性(homogeneity)就构不成一个总体, 总体内没有变异性( variation )就无需统计学,统计学的根本任务:,在变异的背景上: 描述同一总体的同质性(homogeneity) , 提示不同总体的异质性(heterogeneity) 。,随机抽取部分观察单位,总 体,样 本,三、参数与统计量,四、误差和抽样误差:12岁健康女孩的身高情况,4,6,7,Population:10
20、万人,5,8,9,13,15,抽样A (100人),抽样B (100人),A=139.95cm,B=138.83cm,普查 (10万人),总体均数 =139.04cm,抽样误差(sampling error) :由抽样造成的样本统计量和总体参数的差别、以及样本统计量之间的差别称为抽样误差。,抽样误差产生的根本原因:研究个体间的差异,抽样误差特征 :(1)不可避免。 (2)可通过扩大样本量等控制。,随机事件(Radom event):随机试验中可能出现的各种结果,叫随机事件。即在一定条件下具有多种可能发生的结果,而究竟发生那一个结果不能肯定。,五、随机事件与概率,概率(Probability):
21、描述随机事件 发生的可能性大小的一种度量,常用P 表示。,随机事件概率的大小在0与1之间,即: 0 P 1,常用小数或百分数表示。,P=1 必然事件 P=0 不可能事件 P0.05或 P0.01为小概率事件,Certain,Impossible,0,1,小概率事件:当随机事件A的概率P,习惯上,当=0.05时,就称A为小概率事件;其统计学意义是小概率事件在一次随机试验中不可能发生。,概率学原则,大数原则:概率足够大时, 例P = .99时,认为事件会发生。,小概率事件:P0.05或 P0.01时,即认为事件不可能发生。,小概率事件在一次随机试验中不太可能发生,小概率事件在一次随机试验中不会发生
22、,注意:,正确理解:小概率事件在一次随机试验中并不是不会发生的,而是指在一般的情况下不会发生,但特殊情况下也会发生。,?,从基本概念的学习中慢慢领会统计学思想。,在定性分析的基础上要更注重定量分析 量化思想 在个案研究的基础上更要大量观察 总体思想 既要看到平均水平也要分析其变异趋势 均值与变异 通过抽样研究进行估计推断并注意对事物间关联性进行分析 推断与关联 最后所形成结论为概率结论,所以会犯型错误和型错误 概率思想,1.4 科研活动中统计工作的基本步骤,1. 医学科学研究的特点 医学统计学的任务,风 险,2. 90%及以上的研究都是抽样研究 :,研究的是样本,要对总体作出推断,需进行参数估
23、计和假设检验,抽样研究,抽样误差,利用“小概率原则”进行统计推断,3. 抽样研究的特点决定了统计工作的一般步骤:,通过研究设计获得有代表性的样本,用统计描述的方法发现样本的特征及其它有用信息,通过样本推断总体特征,抽样,抽样研究 (实验性研究、观察性研究),描述统计量(数值、分类) 统计表、统计图,参数估计和假设检验,统计工作的全过程可分为4个基本步骤:,整理资料 Sorting data 统计设计 搜集资料 Statistical design collection of data 分析资料 analysis of data,一项完整的科研设计(design)包括:,专业设计:指研究者对专业
24、知识的把握能力,直接影响着实验的深度和水平。说明你要开题之前了解你所研究的事物在自己研究的领域,在国内外的水平,是重复别人的内容(方法)?还是在别人基础上创新?创新点在哪里?有什么突破? 统计设计:包括调查、实验和临床试验设计。,包括,一、 统计设计( Statistical design ),设计是统计工作的先导和依据,其任务是对研究的全过程有一个全面的设想。,调查设计,专业设计,统计设计,实验设计,处理因素,统计设计的内容:,研究对象,如何选?,:随机的原则,选多少?,如何分组?,:样本含量的估计,:代表性,随机性,统计指标,统计报表,二、 搜集资料(Collecting data ),原
25、则:及时、准确、完整。,任务:遵循统计学原理,按照设计要求,采取必要措施得到准确可靠的原始资料。,资料主要源:,经常性工作记录,专题调查或实验,三、整理资料(sorting data),原始 资料,编码,将数据输入计算机; 纠错改错、补漏等; 根据研究目的将原始数据进行归纳、 分组或计算。,集中趋势指标和离散趋势指标? 计量资料分析方法:u检验、t检验、F检验等? 计数资料分析方法:2检验、秩和检验等? 还有相关与回归分析?各种多因素统计分析方法?,四、分析资料(analysis of data),分析内容,统计推断 (inferential statistics),统计描述 (descrip
26、tive statistics),五、对统计结果作出正确的解释,通常计算机输出的结果很多,需要有一定统计学知识去选取其中的主要内容;不仅如此,还要对变量间或依赖关系、因素对结果的影响等作出合理的解释,这不仅需要统计学知识,还需要专业知识。,准确的收集数据; 准确的录入数据; 正确的选用统计分析方法、调用统计分析程序; 对输出的结果作出合理的解释。,统计学学习的重点是掌握如何:,小 结,统计学是处理医学数据中变异性的科学和艺术,内容包括搜集、整理、解释与呈现数据并作出统计推断;研究方法主要基于概率论和数理统计的原则。 变量可分为定量变量、定性变量两大类,定性变量可根据类别之间有无大小顺序,分为有
27、序分类变量、以及无序分类变量。 需要特别关注的统计学基本概念有:总体和样本、同质和变异、参数和统计量、误差和抽样误差,以及小概率事件等。 统计工作贯穿于医学研究的全过程,体现在研究设计、数据搜集、数据整理、数据分析及结果报告等各方面。,案例分析:见教材P11 案例1 案例4 。 见每章后:常见疑问,案例辨析1:教材p11,某研究者的论文题目为“大学生身心健康状况及其影响因素研究”,以某地职业技术学院理、工、文、医学生(三年级)为研究对象,分别在该人群中挑选了,60、38、19和46人,以问卷方式调查每位学生的一般健康状态、焦虑、抑郁程度等。得出结论是:“大学生身心健康状态不容乐观,学业问题、就
28、业压力、身体健康状况差、人际交往不良、社会支持不力为主要因素”。请问该结论合理吗?为什么?应该如何?,案例辨析2:,某部队共有1 200人,在某段时间内患某病的人数有120人,其中男性114人,女性6人。某卫生员进行统计分析后说,经假设检验,该病的两性发病率(114/120=95%与6/120=5%)之间的差别有统计学意义,由此得出结论:“该病男性易得”。你对这个结论有何看法?若结论是错误的,那么,错误的实质是什么?,最佳选择题 1.下面的变量中,属于分类变量的是_。 A.脉搏 B. 血型 C.肺活量 D.红细胞计数 E.血压 2下面的变量中,属于定量变量的是_。 A.性别 B.体重 C.血型
29、 D.职业 E.民族 3.某人记录了50名病人体重的测定结果:小于50Kg的13人,介于50Kg和70 Kg间的20人,大于70 Kg的17人 ,此种资料属于_。 A.定量资料 B. 有序资料 C.二分类资料 D. 多项无序分类资料,4.若要通过样本作统计推断, 样本应是_。 A.总体中典型的一部分 B.总体中任一部分 C.总体中随机抽取的一部分 D.总体中选取的有意义的一部分 E.总体中信息明确的一部分,5.统计量_。 A.是统计总体数据得到的量 B.反映总体统计特征的量 C.是根据总体中的全部数据计算出的统计指标 D.是用参数估计出来的 E. 是由样本数据计算出的统计指标 6.任何一个随机事件发生的概率的取值区间是( ) A. 0P1 B. 0P1 C. 0P1 D. -1P1,简答题: 1.举例说明随机事件、概率和小概率事件的 基本含义。 2.试说明什么是抽样误差,它产生的原因及主要特征。,名词解释: 1. 同质/变异 2.总体/ 样本 3. 概率 4.参数/统计量 5.抽样研究/抽样误差,THANK YOU!,
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。