1、第1章绪论第2页 共666页The teaching planfor medical studentsProfessor Cheng CongDept.of Preventive Medicine Taishan Medical College第1章绪论第3页 共666页 预防医学教授,硕士生导师。男,预防医学教授,硕士生导师。男,19591959年年6 6月出生。汉族,无党派。月出生。汉族,无党派。19821982年年1212月,山东医学院公共卫生专业五年本科毕业,获医学学士学位。月,山东医学院公共卫生专业五年本科毕业,获医学学士学位。19941994年年7 7月,上海医科大学公共卫生学院研
2、究生毕业,获医学硕士学位。月,上海医科大学公共卫生学院研究生毕业,获医学硕士学位。20032003年年1212月晋升教授。现任预防医学教研室副主任。主要从事月晋升教授。现任预防医学教研室副主任。主要从事医学统医学统计学计学、预防医学预防医学,医学人口统计学医学人口统计学等课程的教学及科研工作,等课程的教学及科研工作,每年听课学生每年听课学生500-800500-800人。自人。自20002000年起连续六年,为硕士研究生开设年起连续六年,为硕士研究生开设医医学统计学学统计学、SPSSSPSS统计分析简明教程统计分析简明教程、卫生经济学卫生经济学等课程,同等课程,同时指导研究生的科研设计、开题报
3、告及科研资料的统计处理与分析。发时指导研究生的科研设计、开题报告及科研资料的统计处理与分析。发表医学统计学及预防医学的科研论文表医学统计学及预防医学的科研论文3030多篇。代表作有多篇。代表作有“锌对乳癌细胞锌对乳癌细胞生长、增殖与基因表达的影响生长、增殖与基因表达的影响”,“行列相关的测度行列相关的测度”等。主编、副等。主编、副主编各类教材及专著主编各类教材及专著8 8部,代表作有部,代表作有医学统计学医学统计学、SPSSSPSS统计分析简统计分析简明教程明教程获得院级科研论文及科技进步奖获得院级科研论文及科技进步奖8 8项,院第四届教学能手比赛二项,院第四届教学能手比赛二等奖一项,院教学评
4、建先进工作者一项。获等奖一项,院教学评建先进工作者一项。获20042004年泰山医学院首届十大年泰山医学院首届十大教学名师奖。教学名师奖。程琮教授简介程琮教授简介第1章绪论第4页 共666页医学统计学总目录医学统计学总目录q 第第1章绪论章绪论q 第第2章定量资料统计描述章定量资料统计描述q 第第3章总体均数的区间估计和假设检验章总体均数的区间估计和假设检验q 第第4章方差分析章方差分析 q 第第5章定性资料的统计描述章定性资料的统计描述q 第第6章总体率的区间估计和假设检验章总体率的区间估计和假设检验q 第第7章二项分布与泊松分布章二项分布与泊松分布 q 第第8章秩和检验章秩和检验q 第第9
5、章直线相关与回归章直线相关与回归q 第第10章实验设计章实验设计q 第第11章调查设计章调查设计q 第第12章统计表与统计图章统计表与统计图第1章绪论第5页 共666页第第1章绪论章绪论 目录目录q 第五节第五节 学习统计学应注意的几个问题学习统计学应注意的几个问题q 第二节第二节 统计工作的基本步骤统计工作的基本步骤q 第三节第三节 统计资料的类型统计资料的类型q 第四节第四节 统计学中的几个基本概念统计学中的几个基本概念q 第一节第一节 医学医学统计学的定义和内容统计学的定义和内容第1章绪论第6页 共666页第一章第一章 绪论绪论第一节第一节 医学统计学的定义和内容医学统计学的定义和内容
6、医学统计学医学统计学(medical statistics)(medical statistics)-是以是以医学理论为指导,运用数理统计学的原理和方医学理论为指导,运用数理统计学的原理和方法研究医学资料的搜集、整理与分析,从而掌法研究医学资料的搜集、整理与分析,从而掌握事物内在客观规律的一门学科。握事物内在客观规律的一门学科。第1章绪论第7页 共666页 医学研究的对象医学研究的对象-主要是人以及与其健康有关的各主要是人以及与其健康有关的各种影响因素。种影响因素。医学统计学的主要内容医学统计学的主要内容 :1 1.统计设计统计设计 包括实验设计和调查设计,它可以合理地、包括实验设计和调查设计
7、,它可以合理地、科学地安排实验和调查工作,使之能较少地花费人力、科学地安排实验和调查工作,使之能较少地花费人力、物力和时间,取得较满意和可靠的结果。物力和时间,取得较满意和可靠的结果。2.2.资料的统计描述和总体指标的估计资料的统计描述和总体指标的估计 通过计算各种统通过计算各种统计指标和统计图表来描述资料的集中趋势、离散趋势计指标和统计图表来描述资料的集中趋势、离散趋势和分布特征况(如正态分布或偏态分布);利用样本和分布特征况(如正态分布或偏态分布);利用样本指标来估计总体指标的大小。指标来估计总体指标的大小。第1章绪论第8页 共666页3.3.假设检验假设检验 是通过统计检验方法(如是通过
8、统计检验方法(如t t检验、检验、u u检验、检验、F F检验、卡方检验、秩和检验等)来推检验、卡方检验、秩和检验等)来推断两组或多组统计指标的差异是抽样误差造成断两组或多组统计指标的差异是抽样误差造成的还是有本质的差别。的还是有本质的差别。4.4.相关与回归相关与回归 医学中存在许多相互联系、相互医学中存在许多相互联系、相互制约的现象。如儿童的身高与体重、胸围与肺制约的现象。如儿童的身高与体重、胸围与肺活量、血糖与尿糖等,都需要利用相关与回归活量、血糖与尿糖等,都需要利用相关与回归来分析。来分析。第1章绪论第9页 共666页 5.5.多因素分析多因素分析 如多元回归、判别分析、聚类如多元回归
9、、判别分析、聚类分析、正交设计分析、主成分分析、因子分析、分析、正交设计分析、主成分分析、因子分析、logisticlogistic回归、回归、CoxCox比例风险回归等,都是分比例风险回归等,都是分析医学中多因素有效的方法(本书不涉及,请析医学中多因素有效的方法(本书不涉及,请参考有关统计书籍)。这些方法计算复杂,大参考有关统计书籍)。这些方法计算复杂,大部分需借助计算机来完成。部分需借助计算机来完成。6.6.健康统计健康统计 研究人群健康的指标与统计方法,研究人群健康的指标与统计方法,除了用上述的某些方法外,他还有其特有的方除了用上述的某些方法外,他还有其特有的方法,如寿命表、生存分析、死
10、因分析、人口预法,如寿命表、生存分析、死因分析、人口预测等方法测等方法第1章绪论第10页 共666页 医学统计工作可分为四个步骤:医学统计工作可分为四个步骤:统计设计、搜集资料、整理资料和分析资料。统计设计、搜集资料、整理资料和分析资料。这四个步骤密切联系,缺一不可,任何一个步骤这四个步骤密切联系,缺一不可,任何一个步骤的缺陷和失误,都会影响统计结果的正确性。的缺陷和失误,都会影响统计结果的正确性。第二节第二节 统计工作的基本步骤统计工作的基本步骤 第1章绪论第11页 共666页 设计(设计(designdesign)是统计工作的第一步,也是关是统计工作的第一步,也是关键的一步,是对统计工作全
11、过程的设想和计划键的一步,是对统计工作全过程的设想和计划安排。安排。统计设计统计设计就是根据研究目的确定试验因就是根据研究目的确定试验因素、受试对象和观察指标,并在现有的客观条素、受试对象和观察指标,并在现有的客观条件下决定用什么方式和方法来获取原始资料,件下决定用什么方式和方法来获取原始资料,并对原始资料如何进行整理,以及整理后的资并对原始资料如何进行整理,以及整理后的资料应该计算什么统计指标和统计分析的预期结料应该计算什么统计指标和统计分析的预期结果如何等。果如何等。一、统计设计一、统计设计 第1章绪论第12页 共666页 搜集资料搜集资料(collection of date)是根据设计
12、是根据设计的要求,获取准确可靠的原始资料,是统计分的要求,获取准确可靠的原始资料,是统计分析结果可靠的重要保证。析结果可靠的重要保证。医学统计资料的来源主要有以下三个方面:医学统计资料的来源主要有以下三个方面:1.统计报表统计报表 统计报表是医疗卫生机构根据国家统计报表是医疗卫生机构根据国家规定的报告制度,定期逐级上报的有关报表。规定的报告制度,定期逐级上报的有关报表。如法定传染病报表、出生死亡报表、医院工作如法定传染病报表、出生死亡报表、医院工作报表等,报表要完整、准确、及时。报表等,报表要完整、准确、及时。二、搜集资料二、搜集资料第1章绪论第13页 共666页2.2.医疗卫生工作记录医疗卫
13、生工作记录 如病历、医学检查如病历、医学检查记录、卫生监测记录等。记录、卫生监测记录等。3.3.专题调查或实验研究专题调查或实验研究 它是根据研究目它是根据研究目的选定的专题调查或实验研究,搜集资的选定的专题调查或实验研究,搜集资料有明确的目的与针对性。它是医学科料有明确的目的与针对性。它是医学科研资料的主要来源。研资料的主要来源。第1章绪论第14页 共666页 整理资料(整理资料(sorting data)的目的就是将搜集到的原始资的目的就是将搜集到的原始资料进行反复核对和认真检查,纠正错误,分类汇总,使其料进行反复核对和认真检查,纠正错误,分类汇总,使其系统化、条理化,便于进一步的计算和分
14、析。整理资料的系统化、条理化,便于进一步的计算和分析。整理资料的过程如下:过程如下:1.审核:认真检查核对,保证资料的准确性和完整性。审核:认真检查核对,保证资料的准确性和完整性。2.分组:归纳分组,分组方法有两种:分组:归纳分组,分组方法有两种:质量分组质量分组,即将观察单位按其类别或属性分组,如按性别、,即将观察单位按其类别或属性分组,如按性别、职业、阳性和阴性等分组。职业、阳性和阴性等分组。数量分组数量分组,即将观察单位按其数值的大小分组,如按年龄,即将观察单位按其数值的大小分组,如按年龄的大小、药物剂量的大小等分组。的大小、药物剂量的大小等分组。三、整理资料三、整理资料 第1章绪论第1
15、5页 共666页3.汇总汇总:分组后的资料要按照设计的要求进行分组后的资料要按照设计的要求进行汇总,整理成统计表。原始资料较少时用手工汇汇总,整理成统计表。原始资料较少时用手工汇总,当原始资料较多时,可使用计算机汇总。总,当原始资料较多时,可使用计算机汇总。四、分析资料四、分析资料 分析资料分析资料(analysis of data)是根据设计的是根据设计的要求,对整理后的数据进行统计学分析,结合要求,对整理后的数据进行统计学分析,结合专业知识,作出科学合理的解释。专业知识,作出科学合理的解释。第1章绪论第16页 共666页1.1.统计描述统计描述(descriptive statistics
16、)(descriptive statistics)将计算出将计算出的统计指标与统计表、统计图相结合,全面描述的统计指标与统计表、统计图相结合,全面描述资料的数量特征及分布规律。资料的数量特征及分布规律。2.2.统计推断统计推断(inferential statistics)(inferential statistics)使使用样本信息推断总体特征。通过样本统计量进行用样本信息推断总体特征。通过样本统计量进行总体参数的估计和假设检验,以达到了解总体的总体参数的估计和假设检验,以达到了解总体的数量特征及其分布规律,才是最终的研究目的。数量特征及其分布规律,才是最终的研究目的。统计分析包括以下两大内
17、容:统计分析包括以下两大内容:第1章绪论第17页 共666页v 医学统计资料按研究指标的性质一般分为定量资料、医学统计资料按研究指标的性质一般分为定量资料、定性资料和等级资料三大类。定性资料和等级资料三大类。一、一、定量资料定量资料v 定量资料(定量资料(quantitative data)亦称计量资料亦称计量资料(measurement data),是用定量的方法测定观察单),是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量位(个体)某项指标数值的大小,所得的资料称定量资料。如身高()、体重()、脉搏(次资料。如身高()、体重()、脉搏(次/分)、分)、血压(血压(kP
18、a)等为数值变量,其组成的资料为定量资料。)等为数值变量,其组成的资料为定量资料。第三节第三节 统计资料的类型统计资料的类型 第1章绪论第18页 共666页v 定性资料(定性资料(qualitative dataqualitative data)亦称计数资料亦称计数资料(enumeration dataenumeration data)或分类资料()或分类资料(categorical categorical datadata),是将观察单位按某种属性或类别分组,清点),是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料称定性资料。各组的观察单位数,所得的资料称定性资料。v 定性
19、资料的观察指标为定性资料的观察指标为分类变量(分类变量(categorical categorical variablevariable)。如人的性别按男、女分组;化验结果按。如人的性别按男、女分组;化验结果按阳性、阴性分组;动物实验按生存、死亡分组;调查阳性、阴性分组;动物实验按生存、死亡分组;调查某人群的血型按某人群的血型按A A、B B、O O、ABAB分组等,观察单位出现的分组等,观察单位出现的结果为分类变量,分类变量没有量的差别,只有质的结果为分类变量,分类变量没有量的差别,只有质的不同,其组成的资料为定性资料。不同,其组成的资料为定性资料。二、定性资料二、定性资料 第1章绪论第19
20、页 共666页三、等级资料三、等级资料v等级资料(等级资料(ranked dataranked data)亦称有序分类亦称有序分类资料(资料(ordinal categorical dataordinal categorical data),是),是将观察单位按属性的等级分组,清点各组将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料。的观察单位数,所得的资料为等级资料。v如治疗结果分为治愈、显效、好转、无效如治疗结果分为治愈、显效、好转、无效四个等级。四个等级。第1章绪论第20页 共666页v 根据需要,根据需要,各类变量可以互相转化各类变量可以互相转化。若。若按贫血的诊
21、断标准将血红蛋白分为四个等按贫血的诊断标准将血红蛋白分为四个等级:重度贫血、中度贫血、轻度贫血、正级:重度贫血、中度贫血、轻度贫血、正常,可按等级资料处理。有时亦可将定性常,可按等级资料处理。有时亦可将定性资料或等级资料数量化,如将等级资料的资料或等级资料数量化,如将等级资料的治疗结果赋以分值,分别用治疗结果赋以分值,分别用0 0、1 1、22等表等表示,则可按定量资料处理。示,则可按定量资料处理。v 如调查某人群的尿糖的情况,以人为观如调查某人群的尿糖的情况,以人为观察单位,结果可分察单位,结果可分、五个等级。五个等级。第1章绪论第21页 共666页 同质(同质(homogeneity)是指
22、观察单位或研究个是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相体间被研究指标的主要影响因素相同或基本相同。如研究儿童的生长发育,同性别、同年龄、同。如研究儿童的生长发育,同性别、同年龄、同地区、同民族、健康的儿童即为同质儿童。同地区、同民族、健康的儿童即为同质儿童。变异变异(variation)由于生物个体的各种指标由于生物个体的各种指标所受影响因素极为复杂,同质的个体间各种指所受影响因素极为复杂,同质的个体间各种指标存在差异,这种差异称为变异。如同质的儿标存在差异,这种差异称为变异。如同质的儿童身高、体重、血压、脉搏等指标会有一定的童身高、体重、血压、脉搏等指标会有一定的差别。
23、差别。第四节第四节 统计学中的几个基本概念统计学中的几个基本概念一、同质与变异一、同质与变异第1章绪论第22页 共666页二、总体与样本二、总体与样本 样本(样本(sample):是从总体中随机抽取的部分是从总体中随机抽取的部分观察单位变量值的集合。样本的例数称为样本观察单位变量值的集合。样本的例数称为样本含量含量(sample size)。注意:注意:1。总体是相对的,总体的大小是根据研究目。总体是相对的,总体的大小是根据研究目的而确定的。的而确定的。2。样本应有代表性,即应该随机抽样并有足。样本应有代表性,即应该随机抽样并有足够的样本含量。够的样本含量。第1章绪论第23页 共666页图示:
24、总体与样本图示:总体与样本第1章绪论第24页 共666页三、参数与统计量三、参数与统计量v参数(参数(parameterparameter):由总体计算或得到的统计由总体计算或得到的统计指标称为参数。总体参数具有很重要的参考价指标称为参数。总体参数具有很重要的参考价值。如总体均数值。如总体均数,总体标准差,总体标准差等。等。v统计量(统计量(statisticstatistic):由样本计算的指标称为由样本计算的指标称为统计量。如样本均数,样本标准差统计量。如样本均数,样本标准差s s等。等。v注意:注意:一般不容易得到参数,而容易获得样本一般不容易得到参数,而容易获得样本统计量。统计量。第1
25、章绪论第25页 共666页四、抽样误差四、抽样误差v抽样误差(抽样误差(sample error):由于随机抽样所由于随机抽样所引起的引起的样本统计量与总体参数之间的差异样本统计量与总体参数之间的差异以及以及样本统计量之间的差别称为抽样误差。如样本样本统计量之间的差别称为抽样误差。如样本均数与总体均数之间的差别,样本率与总体率均数与总体均数之间的差别,样本率与总体率的差别等。的差别等。v注意:注意:抽样误差是抽样误差是不可避免的不可避免的。无论抽样抽得。无论抽样抽得多么好,也会存在抽样误差。多么好,也会存在抽样误差。第1章绪论第26页 共666页五、概率五、概率 概率(概率(probabili
26、ty):是描述随机事件发生可能是描述随机事件发生可能性大小的量值。用英文大写字母性大小的量值。用英文大写字母P来表示。概来表示。概率的取值范围在率的取值范围在01之间。当之间。当P0时,称为不时,称为不可能事件;当可能事件;当P1时,称为必然事件。时,称为必然事件。小概率事件:小概率事件:统计学上一般把统计学上一般把P0.05或或P0.01的事件称为小概率事件。的事件称为小概率事件。小概率原理:小概率原理:小概率事件在一次试验中几乎不小概率事件在一次试验中几乎不可能发生。利用该原理可对科研资料进行假设可能发生。利用该原理可对科研资料进行假设检验。检验。第1章绪论第27页 共666页第五节第五节
27、 学习医学统计学应注意的问题学习医学统计学应注意的问题 v1.1.重点掌握医学统计学的基本知识、基本技能、重点掌握医学统计学的基本知识、基本技能、基本概念和基本方法,掌握使用范围和注意事基本概念和基本方法,掌握使用范围和注意事项。项。v2.2.要培养科学的统计思维方法,提高分析问题、要培养科学的统计思维方法,提高分析问题、解决问题的能力。解决问题的能力。v3.3.掌握调查设计和实验设计的原则,培养搜集、掌握调查设计和实验设计的原则,培养搜集、整理、分析统计资料的系统工作能力。整理、分析统计资料的系统工作能力。第1章绪论第28页 共666页课后作业课后作业 列举出计量资料、分类资料、等级资料列举
28、出计量资料、分类资料、等级资料各各10个实例。个实例。列举出可能事件、必然事件、不可能事列举出可能事件、必然事件、不可能事件及小概率事件各件及小概率事件各10个。个。认真复习本章已学过的基本概念认真复习本章已学过的基本概念23遍。遍。第1章绪论第29页 共666页 Best Wishes to All of You!Thank You for Listening!第2章定量资料统计描述第30页医学本科生用医学本科生用主讲主讲 程程 琮琮泰山医学院预防医学教研室医学统计学医学统计学第2章定量资料统计描述第31页The teaching planfor medical studentsProfes
29、sor Cheng CongDept.of Preventive Medicine Taishan Medical College第2章定量资料统计描述第32页第第2 2章定量资料的统计描述章定量资料的统计描述 目录目录q 第二节第二节 集中趋势的描述集中趋势的描述q 第三节第三节 离散趋势的描述离散趋势的描述q 第四节第四节 正态分布正态分布q 第一节第一节 频数分布表频数分布表第2章定量资料统计描述第33页 统计描述:统计描述:是是用统计图表、统计指标来描述资用统计图表、统计指标来描述资料的分布规律及其数量特征。料的分布规律及其数量特征。频数分布表频数分布表(frequency distr
30、ibution table):主要由组段和频数两部分组成表格。主要由组段和频数两部分组成表格。第一节第一节 频数分布表频数分布表第二章第二章 定量资料的统计描述定量资料的统计描述第2章定量资料统计描述第34页二、频数分布表的编制 编制步骤:1.计算全距(range):一组变量值最大值和最小值之差称为全距(range),亦称极差,常用R表示。2.确定组距(class interval):组距用i表示;3.划分组段:每个组段的起点称组下限,终点称组上限。一般分为815组。;4.统计频数:将所有变量值通过划记逐个归入相应组段;5.频率与累计频率:将各组的频数除以n所得的比值被称为频率。累计频率等于累
31、计频数除以总例数。第2章定量资料统计描述第35页表2-2 某年某市120名12岁健康男孩身高(cm)的频数分布 第2章定量资料统计描述第36页第2章定量资料统计描述第37页二、频数分布表的用途二、频数分布表的用途 1.1.揭示资料的分布类型揭示资料的分布类型 2.2.观察资料的集中趋势和离散趋势观察资料的集中趋势和离散趋势 3.3.便于发现某些特大或特小的可疑值便于发现某些特大或特小的可疑值 4.4.便于进一步计算统计指标和作统计处理便于进一步计算统计指标和作统计处理 第2章定量资料统计描述第38页第2章定量资料统计描述第39页第二节第二节 集中趋势的描述集中趋势的描述 v集中趋势集中趋势 :
32、代表一组同质变量值的集中趋势:代表一组同质变量值的集中趋势 或平均水平。或平均水平。v常用的平均数有算术均数、几何均数和中位数。常用的平均数有算术均数、几何均数和中位数。v另外不常用的有:众数,调和平均数和调整均另外不常用的有:众数,调和平均数和调整均数等。数等。第2章定量资料统计描述第40页一、算术均数一、算术均数算术均数算术均数 (arithmetic mean)(arithmetic mean):简称均数。简称均数。适用条件:适用条件:对称分布或近似对称分布的资料。对称分布或近似对称分布的资料。习惯上以希腊字母习惯上以希腊字母表示总体均数表示总体均数(population(populat
33、ion mean)mean),以英文字母表示样本均数,以英文字母表示样本均数(sample mean)(sample mean)第2章定量资料统计描述第41页1.1.直接法:用于观察值个数不多时直接法:用于观察值个数不多时 nXX计算方法计算方法第2章定量资料统计描述第42页2.2.加权法加权法(weighting method)(weighting method):用于变量值个数:用于变量值个数 较多时。较多时。ffXffffffkkk212211XXXX注意:权数即频数f,为权重权衡之意。第2章定量资料统计描述第43页 表表2-4 120名名12岁健康男孩身高岁健康男孩身高(cm)均数和标
34、准差加权法计算表均数和标准差加权法计算表 第2章定量资料统计描述第44页第2章定量资料统计描述第45页 120名名12岁健康男孩身高均数为岁健康男孩身高均数为143.07cm。07.14312017168X计算结果计算结果第2章定量资料统计描述第46页 几何均数几何均数(geometric mean(geometric mean,简记为,简记为):表示表示其平均水平。其平均水平。适用条件:适用条件:对于变量值呈倍数关系或呈对数正对于变量值呈倍数关系或呈对数正态分布态分布(正偏态分布正偏态分布),如抗体效价及抗体滴度,如抗体效价及抗体滴度,某些传染病的潜伏期,细菌计数等。某些传染病的潜伏期,细菌
35、计数等。计算公式:计算公式:有直接法和加权法。有直接法和加权法。二、几何均数二、几何均数 第2章定量资料统计描述第47页1.1.直接法:直接法:用于用于变量值的个数变量值的个数n n较少时较少时 nnXXXXG321nXnXXXGnlglglglglglg1211第2章定量资料统计描述第48页31.116432168426G31.110536.1lg664lg32lg16lg8lg4lg2lglg11G直接法计算实例直接法计算实例第2章定量资料统计描述第49页2.2.加权法加权法 :用于资料中相同变量值的个数用于资料中相同变量值的个数f f(即频数)较多时。(即频数)较多时。fXfGlglg1
36、第2章定量资料统计描述第50页 表表2-5 50名儿童麻疹疫苗接种后血凝抑制抗体滴度几何均数计算表名儿童麻疹疫苗接种后血凝抑制抗体滴度几何均数计算表第2章定量资料统计描述第51页第2章定量资料统计描述第52页55.607821.1lg501045.89lg11G50名儿童麻疹疫苗接种后平均血凝抑制抗体滴度为1:60.55。计算结果:将有关已知数据代入公式有第2章定量资料统计描述第53页变量值中不能有变量值中不能有0 0;不能同时有正值和负值;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结若全是负值,计算时可先把负号去掉,得出结果后再加上负号。果后再加上负号。计算几何均数注意事项
37、:计算几何均数注意事项:第2章定量资料统计描述第54页中位数中位数v 定义:定义:将一组变量值从小到大按顺序排列,位次将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数居中的变量值称为中位数(medianmedian,简记为,简记为M M)。v适用条件:适用条件:变量值中出现个别特小或特大的数变量值中出现个别特小或特大的数值值;资料的分布呈明显偏态,即大部分的变量值资料的分布呈明显偏态,即大部分的变量值偏向一侧偏向一侧;变量值分布一端或两端无确定数值,变量值分布一端或两端无确定数值,只有小于或大于某个数值只有小于或大于某个数值;资料的分布不清。资料的分布不清。三、中位数及百分位数三、中
38、位数及百分位数 第2章定量资料统计描述第55页 定义:定义:百分位数百分位数(percentilepercentile)是一种位置是一种位置指标,以指标,以P Px x表示。百分位数是将频数等分表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按为一百的分位数。一组观察值从小到大按顺序排列,理论上有顺序排列,理论上有x%x%的变量值比的变量值比P Px x小,小,有有(100-(100-x x)%)%的变量值比的变量值比P Px x大。故大。故P P5050分位数分位数也就是中位数,即也就是中位数,即P P5050=M=M 。百分位数百分位数 第2章定量资料统计描述第56页v描述一组
39、资料在某百分位置上的水平;描述一组资料在某百分位置上的水平;v用于确定正常值范围;用于确定正常值范围;v计算四分位数间距。计算四分位数间距。百分位数的应用条件:百分位数的应用条件:第2章定量资料统计描述第57页计算方法:有直接法和加权法计算方法:有直接法和加权法1.1.直接法:用于例数较少时直接法:用于例数较少时 )21(nXM2/)12()2(nnXXMn为奇数时 n为偶数时 第2章定量资料统计描述第58页2.2.频数表法:频数表法:用于例数较多时用于例数较多时 )2(LmfnfiLM)%(LxxfxnfiLP中位数百分位数第2章定量资料统计描述第59页 表表2-6 145例食物中毒病人潜伏
40、期分布表例食物中毒病人潜伏期分布表 第2章定量资料统计描述第60页第2章定量资料统计描述第61页先找到包含先找到包含PxPx的最小累计频率;的最小累计频率;该累计频率同行左边的组段值为该累计频率同行左边的组段值为L L;L L同行右边的频数为同行右边的频数为fx(fx(或或fm)fm);L L前一行的累计频数为前一行的累计频数为fLfL;将上述已知条件代入公式计算将上述已知条件代入公式计算PxPx或或P50 P50 。计算中位数及百分位数的步骤:计算中位数及百分位数的步骤:第2章定量资料统计描述第62页计算结果:计算结果:5.13)63%50145(38612M51.8)17%25145(46
41、6625P45.19)101%75145(3261875P第2章定量资料统计描述第63页 定义:定义:用来说明变量值的离散程度或变异程度。用来说明变量值的离散程度或变异程度。注意:注意:仅用集中趋势尚不能完全反映一组数据的仅用集中趋势尚不能完全反映一组数据的特征。故应将集中趋势和离散趋势结合起来才能特征。故应将集中趋势和离散趋势结合起来才能更好地反映一组数据的特征。更好地反映一组数据的特征。常用离散指标有:常用离散指标有:极差、四分位数间距、标准差、极差、四分位数间距、标准差、方差、变异系数。方差、变异系数。第三节第三节 离散趋势的描述离散趋势的描述 第2章定量资料统计描述第64页 甲组:甲组
42、:184 186 188 190 192184 186 188 190 192 乙组:乙组:180 184 188 192 196180 184 188 192 196 两组球员的平均身高都是两组球员的平均身高都是188188cmcm,但甲组球员,但甲组球员身高比较集中,乙组球员身高比较分散。为了身高比较集中,乙组球员身高比较分散。为了说明离散趋势,就要用离散指标。说明离散趋势,就要用离散指标。实例分析实例分析第2章定量资料统计描述第65页极差极差v 极差极差(range,(range,简记为简记为R)R)亦称全距亦称全距,即一组变,即一组变量值中最大值与最小值之差量值中最大值与最小值之差 。
43、v特点:特点:计算简单,不稳定,不全面,易变化;计算简单,不稳定,不全面,易变化;可用于各种分布的资料。可用于各种分布的资料。一、极差和四分位数间距一、极差和四分位数间距 第2章定量资料统计描述第66页四分位数间距四分位数间距 公式公式:Q=P75P25 特点特点:比极差稳定,只反映中间两端值的差异。比极差稳定,只反映中间两端值的差异。计算不太方便。可用于各种分布的资料。计算不太方便。可用于各种分布的资料。第2章定量资料统计描述第67页二、方差和标准差二、方差和标准差 方差(方差(variancevariance)NX22)(1)(22nXXS总体方差总体方差 样本方差样本方差 第2章定量资料
44、统计描述第68页自由度自由度(degree of freedom)(degree of freedom)的概念的概念vn-1n-1是自由度是自由度,用希腊小写字母,用希腊小写字母表示,读作表示,读作nju:nju:。v定义:在定义:在N N维或维或N N度空间中能够自由选择的维数度空间中能够自由选择的维数或度数。或度数。v例:例:A AB BC C,共有,共有n=3n=3个元素,其中只能任选个元素,其中只能任选2 2个元素的值,故自由度个元素的值,故自由度n-1=3-1=2n-1=3-1=2。第2章定量资料统计描述第69页方差的特点方差的特点充分反映每个数据间的离散状况,意义深刻;充分反映每个
45、数据间的离散状况,意义深刻;指标稳定,应用广泛,但计算较为复杂,不指标稳定,应用广泛,但计算较为复杂,不易理解;易理解;方差的单位与原数据不同,有时使用时不太方差的单位与原数据不同,有时使用时不太方便;方便;在方差分析中应用甚广而极为重要。在方差分析中应用甚广而极为重要。第2章定量资料统计描述第70页(二)标准差(二)标准差(standard deviation)(standard deviation)NX2)(1)(2nXXS总体标准差总体标准差 样本标准差样本标准差 第2章定量资料统计描述第71页牢记:离均差平方和展开式:牢记:离均差平方和展开式:nxxxxl222)()(第2章定量资料统
46、计描述第72页标准差的特点:标准差的特点:意义同方差,是方差的开平方;意义同方差,是方差的开平方;标准差的单位与原数据相同,使用方便,标准差的单位与原数据相同,使用方便,意义深刻,应用广泛;故一般已作为医意义深刻,应用广泛;故一般已作为医学生物学领域中反映变异的标准,故称学生物学领域中反映变异的标准,故称标准差。标准差。第2章定量资料统计描述第73页标准差的计算方法:可分为直接法和加权法。标准差的计算方法:可分为直接法和加权法。1.直接法直接法 1)(22nnXXS 2.加权法加权法 1)(22fffXfXS第2章定量资料统计描述第74页直接法:标准差计算实例:直接法:标准差计算实例:例例2.
47、12 例例2.2中中7名正常男子红细胞数(名正常男子红细胞数(1012/L)如)如下下:4.67,4.74,4.77,4.88,4.76,4.72,4.92,计算其,计算其标准差。标准差。v x=4.67+4.74+4.77+4.88+4.76+4.72+4.92=33.46 vx2=4.672+4.742+4.772+4.882+4.762+4.722+4.922=159.99 第2章定量资料统计描述第75页计算结果:计算结果:089.0177/46.3399.159.2S第2章定量资料统计描述第76页 例例2.13 对表对表2-4资料用加权法计算资料用加权法计算120名名12岁健岁健康男孩
48、身高值的标准差。康男孩身高值的标准差。加权法:标准差计算实例:加权法:标准差计算实例:)(70.51120120/1716824600402cmS在表在表2-42-4中已算得中已算得fx=17168,fxfx=17168,fx2 2=2460040,=2460040,代入公式代入公式 第2章定量资料统计描述第77页 变异系数变异系数(coefficient of variation):简记为简记为CV;特征:特征:变异系数为无量纲单位,可以比较变异系数为无量纲单位,可以比较不同单位指标间的变异度;不同单位指标间的变异度;变异系数消除变异系数消除了均数的大小对标准差的影响,所以可以比了均数的大小
49、对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。较两均数相差较大时指标间的变异度。三、变异系数三、变异系数%100XSCV第2章定量资料统计描述第78页 例例2.14 2.14 某地某地2020岁男子岁男子160160人,身高均数为人,身高均数为166.06166.06cmcm,标准差为,标准差为4.954.95cmcm;体重均数为体重均数为53.7253.72kgkg,标准差为标准差为4.964.96kgkg。试比较身高与体重的。试比较身高与体重的变异程度。变异程度。变异系数变异系数 计算实例计算实例第2章定量资料统计描述第79页身高身高%98.2%10006.16695.4CV
50、 体重%23.9%10072.5396.4CV变异系数变异系数 计算结果计算结果第2章定量资料统计描述第80页第四节第四节 正态分布正态分布一、正态分布的概念和特征一、正态分布的概念和特征v 正态分布(正态分布(normal distributionnormal distribution):):也也称高斯分布,是医学和生物学最常见的连续性称高斯分布,是医学和生物学最常见的连续性分布。如身高、体重、红细胞数、血红蛋白等。分布。如身高、体重、红细胞数、血红蛋白等。第2章定量资料统计描述第81页图图2-1 120名名12岁健康男孩身高的频数分布岁健康男孩身高的频数分布第2章定量资料统计描述第82页