1、,2020/4/6,1,第一章 绪论,医学统计学 人民卫生出版社,2020/4/6,2,学习要求 掌握:统计工作的基本步骤、统计资料的类型和统计学的基本概念:总体与样本、同质与变异、变量的类型、参数与统计量。 熟悉:医学统计学的研究内容;医学统计学学习的目标与方法。 了解:医学统计学的发展史;统计学和医学的关系。,2020/4/6,3,第一节 概述 一、统计学、医学统计学的定义 统计学(statistics):统计学是处理数据中变异性的科学与艺术,内容包括数据的收集 (collection)、分析(analysis)、解释(interpretation)和表达(presentation),目的
2、是求得可靠的结果。 统计学是帮助人们分析所占有的信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段。,2020/4/6,4,根据研究领域和研究对象的不同,统计学又分为:数理统计、经济统计、生物统计、卫生统计、医学统计 医学统计学(medical statistics):用统计学的原理和方法研究医学领域中数据的收集、整理、分析和结果正确解释与表达的一门科学。,2020/4/6,5,为何要学习医学统计学? 1. 采用统计学方法,发现不确定现象背后隐藏的规律。 变异(variation)是个体间存在的差异,是绝对的,是社会和生物医学中的普遍现象。 变异使得实验或观察的结果具有不确定性,如每个人
3、的身高、体重、血压等各有不同。,2020/4/6,6,2. 用统计学思维方式考虑有关医学研究中的问题 如试验设计是否合理?样本含量是否满足要求?不同药物间临床疗效是否不同?发病的主要因素是什么?联合用药是否效果更好?如何能延长癌症病人的生存年限? 3.科学研究和科研论文的需要,2020/4/6,7,二、统计学和医学统计学的发展简史 统计学“statistics”一词源于国家“state”,拉丁语中“statisticus”就是治国术的意思。 1.早期:早在奴隶社会,当时的统治阶级为了征兵和征税,需要了解土地、人口等数量,就有了原始的统计活动。公元前3050年古埃及人为修建金字塔筹集建筑费,对全
4、国的人口和财产进行了普查。公元前2200年夏禹时代,“禹平水土,还为九州”,人口数1355万人,土地3431万顷。,2020/4/6,8,2.近代:19世纪应用数学家为了解决赌徒们在博彩中出现的输赢概率问题逐渐形成和发展了概率论,从而为统计学的发展奠定了坚实的基础。 19世纪,比利时的凯特勒(Quetelet, 17961874),把概率论的理论引入统 计学中,使统计学的研究方法发生了 质的飞跃。被称为数理统计学派创始 人。,2020/4/6,9,卡尔 皮尔逊(Karl Prarson,1857-1936),英国生物学家和统计学家,现代统计科学的创立者,公认为统计学之父。他对统计学的最大贡献为
5、:,导出一般化的频数曲线体系。包括正态分布、矩形分布、J型分布、U型分布等13种曲线及其方程式。 提出卡方(2)检验。 发展了相关和回归理论。 重视个体变异性的数量表现和变异数据的处理。提出了“标准差”及其符号。,2020/4/6,10,为了推广统计在生物学上的应用,于1901年创立统计的元老期刊生物统计,他的学生W.Gosset(1876-1937)关于Student t分布的著名文章于1908年就发表在生物统计上。,1747年英国医生詹姆斯.林德(James Lind,1716 1794)1747年对坏血病进行干预研究。,1840年法国医生皮尔.路易斯(Pierre Louis,1787-
6、1872)用临床对照方法证明放血对治疗伤寒、肺炎和扁桃体咽颊炎无效 。,2020/4/6,11,1854年,英国医生约翰斯诺 (John Snow,1813-1858)对1854年伦敦西部西敏市苏活区霍乱爆发的研究被认为是流行病学研究的先驱。,2020/4/6,12,1948年,英国发表了评价链霉素治疗肺结核疗效的随机对照的临床试验告,第一次用生物统计方法进行临床干预试验。 1960年英国医生Doll和Hill发现吸烟与肺癌有关,相对危险度RR=1.66/0.77=23.7。,1948年郭祖超教授(1912-1999,我国医学统计学主要奠基人)编著的医学与生物统计方法一书,是我国第一部医学统计
7、方法的教科书。1964年更名为医用数理统计方法 ,由人民卫生出版社出版。1988年10月,140万字的医用数理统计方法 (第三版),由人民卫生出版社出版。,2020/4/6,13,3.现代:计算机和统计软件如SAS、SPSS的出现,使统计学得到突飞猛进的发展。 三、医学统计学的研究内容: 1.统计设计 (statistical design) 包括实验设计和调查设计,它可以合理地、科学地安排实验和调查工作,使之能较少地花费人力、物力和时间,取得较满意和可靠的结果。,2020/4/6,14,2.统计描述(descriptive statistics)和参数估计(parameter estimat
8、ion) 通过计算各种统计指标和统计图表来描述资料的集中趋势、离散趋势和分布特征况(如正态分布或偏态分布);利用样本指标来估计总体指标的大小。 3.假设检验 (hypothesis test) 假设检验是统计学的主要内容,是通过统计检验方法(如t检验、u检验、F检验、2 检验、秩和检验等)来推断两组或多组统计指标的差异是抽样误差造成的还是有本质的差别。,2020/4/6,15,4.相关与回归(correlation and regression) 医学中存在许多相互联系、相互制约的现象。如儿童的身高与体重、胸围与肺活量、血糖与尿糖等,都需要利用相关与回归来分析。 5.多因素分析(multipl
9、e analysis) 如多重回归、判别分析、聚类分析、正交设计分析、主成分分析、因子分析、logistic回归、Cox比例风险回归等,都是分析医学中多因素有效的方法。这些方法计算复杂,大部分需借助计算机来完成。,2020/4/6,16,6.健康统计(health statistics) 研究人群健康的指标与统计方法,除了用上述的某些方法外,他还有其特有的方法,如寿命表、生存分析、死因分析、人口预测等方法。,2020/4/6,17,第二节 统计工作的基本步骤,统计设计 搜集资料 整理资料 分析资料 一、统计设计(statistical design) 统计工作的第一步,也是关键的一步,是对统计
10、工作全过程的设想和计划安排。 Fisher 在他的著作中多次强调,统计学家与科学研究者的合作应该在实验设计阶段,而不是在需要数据处理的时候。“试验完成后再找统计学家,无异于请统计学家为试验进行“尸体解剖”。 统计学家或许只能告诉你试验失败的原因。”,2020/4/6,18,二、收集资料(collection of date) 是根据设计的要求,获取准确可靠的原始资料,是统计分析结果可靠的重要保证。资料收集必须满足及时、完整和准确的要求。 医学资料的主要来源: 1.统计报表 2.医疗卫生工作记录 3.专题调查或实验研究,2020/4/6,19,三、整理资料 整理资料(sorting data)的
11、目的就是将收集到的原始资料进行反复核对和认真检查,纠正错误,分类汇总,使其系统化、条理化,便于进一步的计算和分析。 1.审核 2.分组 (1)质量分组 (2)数量分组 3.汇总,2020/4/6,20,四、分析资料 分析资料(analysis of data)是根据设计的要求,对整理后的数据进行统计学分析,结合专业知识,作出科学合理的解释。统计分析包括以下两大内容: 1. 统计描述(descriptive statistics) 将计算出的统计指标与统计表、统计图相结合,全面描述资料的数量特征及分布规律。 2. 统计推断(inferential statistics) 包括总体参数的估计和假设
12、检验。,2020/4/6,21,第三节 统计资料的类型,一、定量资料 定量资料(quantitative data)亦称计量资料(measurement data),是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量资料。定量资料一般有度量衡单位,其观察指标为数值变量(numerical variable)。,2020/4/6,22,特点:表现为数值大小;有度量衡 单位;多为连续性资料。 统计分析:常用均数、标准差进行 统计描述;用t检验、F 检验进行假设检验。,定量变量 分类,连续型变量(continuous variable):在一个区 间中任意取值。如血压、身高、体重
13、。 离散型变量(discrete variable): 只能取整 数。如新生儿出生数、手术病人数。,2020/4/6,23,二、定性资料 定性资料(qualitative data)亦称计数资料(enumeration data)或分类资料(categorical data),是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料称为定性资料。定性资料的观察指标为定性变量(qualitative variable),亦称分类变量(categorical variable)。,2020/4/6,24,特点:没有度量衡单位;多为间断性资料。 统计分析:常用率、构成比进行统计描述;用卡方
14、检验、 秩和检验进行假设检验。,二分类变量:如男女、生死、有无 等。常 用0和1编码。 名义变量:如职业、地区等。常用多个0 和1 “假变量”编码。 等级变量:如优、良、中、差;检验结果 -、+、+、+等。常用1,2,3,4,编码。,无序变量,有序变量,定性变量,2020/4/6,25,三、等级资料 等级资料(ranked data)亦称有序分类资料(ordered categorical data),是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料。等级资料的观察指标为有序分类变量,亦称为又称为半定量资料。,2020/4/6,26,变量转换,定量 变量,有 序 变 量
15、,血压值kpa,8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压,二分类变量,12 正常 12 异常,变量转换不能以上相反的方向,2020/4/6,27,一、同质与变异(homogeneity & variation) 同质或同质性是指观察单位(研究个体)间被研究指标的主要影响因素相同或基本相同。 变异是指同质的各观察单位,其某变量值之间的差异。 同质事物个体间的差异来源于一些未加控制或无法控制的甚至不明原因的因素。 变异是绝对的,同质是相对的。 从本质上说,统计学就是研究变异的科学,第四节 统计学中的几个基本概念,2020/4/6,28,二、总体与样本(popu
16、lation & sample ) 总体是根据研究目的所确定的同质观察单位某项变量值的集合(全体)。 如调查山东省12岁男孩的身高值,每个12岁男孩称为一个观察单位(个体),同质的基础是同地区、同年龄、同性别。山东省所有12岁男孩的身高值就构成一个总体。,2020/4/6,29,有限总体(finite population)有明确的空间 范围 。 无限总体(infinite population) 没有明确的 空间范围。,目标总体(target population) 如目标为全国 12岁孩生长发育情况。 研究总体(study population) 实际研究山东省 12岁男孩情况。,总体的分
17、类:,空间范围,研究范围,2020/4/6,30,样本是指从总体中随机抽取的部分有代表性的观察单位的变量值的集合。 样本的例数称为样本含量。对样本的研究称为抽样研究(sampling study),医学研究中大部分是抽样研究,用样本研究的信息推断总体的特征。 如抽取1万名山东省12岁男孩做调查,分析各种生长发育指标,推论山东省12岁男孩的生长发育情况。,2020/4/6,31,2020/4/6,32,三、 参数与统计量(parameter and statistic),参数:总体的统计指标,如总体均数、总体标准差,分别用希腊字母记为、。固定的常数,推断inference,统计量:样本的统计指标
18、,如样本均数、标准差,采用拉丁字母分别记为 。 参数附近波动的随机变量 。,2020/4/6,33,四、误差(error) 误差泛指测量值与真值之差。医学研究中资料中主要存在系统误差和随机误差。,系统误差,随机误差,随机测量误差,抽样误差,误差,指数据搜集和测量过程 中由于仪器不准确、标 准不规范等原因,造成 观察结果呈倾向性的偏 大或偏小,这种误差称 为系统误差。 特点:具有累加性。,2020/4/6,34,1.系统误差(systemic error),2020/4/6,35,2.随机测量误差(random measurement error),在消除了系统误差的前提下,由于非人为的偶然因素
19、,对于同一样本多次测定结果不完全一样,结果有时偏大有时偏小,没有倾向性,这种误差叫随机测量误差。,特点:没有倾向性,多次测量计算平均值可以减 小甚至消除随机测量误差。,2020/4/6,36,3.抽样误差(sampling error),由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异称为抽样误差。, ,2020/4/6,37,特点:抽样误差是不可避免的,但有一定的规律性。 统计上可以计算并在一定范围内控制抽样误差。,减少抽样误差的方法: 增加样本量n; 选择变异程度较小的研究指标; 改进抽样方法,增加样本的代表性。 样本量 n 相等的情况下: 整群抽样单纯随机抽样
20、系统抽样分层抽样,2020/4/6,38,五、频率与概率(frequency & probability),频率:样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现m次,则事件A出现的频率为f = m /n。 概率:随机事件发生的可能性大小,用大写的P 表示,取值0,1,即0P1 。,2020/4/6,39,必然事件 P = 1 随机事件 0 P 1 不可能事件 P = 0 统计学上把P 0.05 或P 0.01 称为小概率事件(习惯) ,认为不大可能发生。,Certain,Impossible,0.5,0,1,通常我们把经常遇到的事件分为三种类型:,2020/4/6,
21、40,频率与概率间的关系: 1. 样本频率总是围绕概率上下波动; 2. 样本含量n越大,波动幅度越小,频率越接近概率。,图 抛硬币“正面”向上的频率摆动示意图,2020/4/6,41,第五节 学习卫生统计学应注意的问题,1.重点掌握卫生统计学的基本知识、基本技能、基本概念和基本方法,掌握使用范围和注意事项。学习过程中必须注意结合专业、联系实际,如在阅读医学文献时,评价其统计设计和分析方法的优缺点等。对于书中所用的统计公式,只要求了解其意义、用途、应用条件和计算方法,不必深究其数学推导。,2020/4/6,42,2.要培养科学的统计思维方法,提高分析问题、解决问题的能力。例如,由于事物存在个体差
22、异,抽样误差不可避免,但这种误差是有规律性的,据此可引出统计推断的理论;通过假设检验的逻辑推理,就能理解统计结论的概率性。,2020/4/6,43,3.掌握调查设计和实验设计的原则,培养搜集、整理、分析统计资料的系统工作能力。首先要重视原始资料的完整性和准确性,对数据处理持严肃、认真、实事求是的科学态度,反对伪造和篡改统计数据。能综合评价人群的健康状况和卫生部门的工作状况,为卫生决策提供科学、正确的统计信息。,2020/4/6,44,学习小结 1.本章介绍了医学统计学的定义,医学统计学在医学科研中的地位和作用、医学统计学的基本内容和统计工作的基本步骤,尤其强调了统计设计是医学统计学的重要内容之一,统计设计和统计分析是统计学不可分割的两个重要组成部分。 2.介绍了统计学的若干基本概念,包括同质与变异、总体与样本、参数与统计量、变量的类型、系统误差与随机误差、概率与频率,它们是学习医学统计学的重要基础。 3.学习医学统计学的目的是培养统计学逻辑思维方法,掌握统计设计方法和收集准确可靠的数据,运用统计分析方法正确分析数据、正确解释和表达研究结果。,2020/4/6,45,Thank You !,