1、卫生统计学卫生统计学刘金辉刘金辉宝坻区疾病预防控制中心宝坻区疾病预防控制中心 第一章 绪 论统计学统计学概念:概念:统计学是处理数据中统计学是处理数据中变异性变异性的科学与的科学与 艺术,内容包括数据的艺术,内容包括数据的收集收集 、 分析分析、 解释解释和和表达表达,目的是求得,目的是求得可靠的结果可靠的结果。 以往教材以往教材中概念:是研究数据的中概念:是研究数据的收集收集、整整 理理、分析分析和和推断推断的一门科学。的一门科学。第一节第一节 概述概述 根据根据研究领域研究领域和和研究对象研究对象的不同,统的不同,统计学又分为:数理统计、经济统计、生物计学又分为:数理统计、经济统计、生物统
2、计、卫生统计、医学统计统计、卫生统计、医学统计医学统计学(医学统计学(medical statistics):用统计学:用统计学的原理和方法研究医学中的问题。的原理和方法研究医学中的问题。卫生统计学(卫生统计学(health statistics):与医学统:与医学统计学基本相同,但更侧重于计学基本相同,但更侧重于社会社会、人群人群的卫生的卫生问题。问题。 1.1. 采用统计学方法,发现采用统计学方法,发现不确定不确定现象背后隐藏的规律现象背后隐藏的规律。 变异变异是个体间存在的差异,是绝对的,是个体间存在的差异,是绝对的,是社会和生物医学中的普遍现象。是社会和生物医学中的普遍现象。 变异使得
3、实验或观察的结果具有变异使得实验或观察的结果具有不确定不确定性性,如每个人的身高、体重、血压等各有不,如每个人的身高、体重、血压等各有不同。同。 为什么要学习统计学?为什么要学习统计学? 最大值=6.18, 最小值=3.29, 极差=2.892. 用统计学思维方式考虑有关医学研用统计学思维方式考虑有关医学研究中的问题究中的问题 “阳性阳性”结果是否是虚假联系?结果是否是虚假联系? 某感冒药治疗某感冒药治疗1周后,治愈率为周后,治愈率为90%,能否说该感冒药十,能否说该感冒药十分有效?分有效? “阴性阴性”结果是否是样本含量不足?结果是否是样本含量不足? 有人曾对发表在有人曾对发表在Lancet
4、, N Engl J Med,JAMA等著名医等著名医学杂志上的学杂志上的71篇阴性结果的论文作过分析,发现其中有篇阴性结果的论文作过分析,发现其中有62篇篇( 93%)可能是由于)可能是由于样本含量样本含量不足造成的假阴性。不足造成的假阴性。3. 保证你的研究论文能通过统计学审查保证你的研究论文能通过统计学审查 据据国外国外6080年代对不同医学杂志发表论文的年代对不同医学杂志发表论文的调查,有调查,有统计错误统计错误的论文的百分比的论文的百分比最高达最高达72%,最,最低也有低也有20%。国内国内1984年对年对中华医学杂志中华医学杂志、中华内科杂中华内科杂志志、中华外科杂志中华外科杂志、
5、中华妇产科杂志中华妇产科杂志、中华儿科杂志中华儿科杂志595篇论文的调查结果,篇论文的调查结果,相对数相对数误误用为用为11.2%,抽样方法抽样方法误用误用15.9%,统计图表,统计图表误用误用11.7%。某研究者某研究者1996年对年对4586篇论文统计(中华医学会系篇论文统计(中华医学会系列杂志仅占列杂志仅占6.9%),数据分析方法误用达),数据分析方法误用达55.7%。4. 获得循证医学证据的主要手段获得循证医学证据的主要手段“良好愿望的医学良好愿望的医学”(well-meaning medicine)转入)转入“以证据为基础的医学以证据为基础的医学” (evidence-based m
6、edicine,EBM)需要)需要有统计学方法的支持。有统计学方法的支持。 全世界的医学期刊每年大约刊登全世界的医学期刊每年大约刊登600600万学术万学术论文,但能作为可靠论文,但能作为可靠“证据证据”的论文并不多。的论文并不多。 第二节第二节 医学统计工作内容及资料类型医学统计工作内容及资料类型一、原始统计数据的来源:一、原始统计数据的来源:1.常规保存数据常规保存数据医院信息系统(医院信息系统(HIS)、统计报表等)、统计报表等2. 现场调查记录现场调查记录3. 实验记录实验记录4. 其他其他 一、研究设计一、研究设计二、搜集资料二、搜集资料三、整理资料三、整理资料四、分析资料四、分析资
7、料五、结果表达五、结果表达二、统计工作的内容二、统计工作的内容 设计的内容包括资料的收集、整理和分析设计的内容包括资料的收集、整理和分析全过程的设想和安排。常有:全过程的设想和安排。常有:1.调查设计(调查设计(survey design)对研究对象不施加任何干预,通常建立对研究对象不施加任何干预,通常建立随机抽随机抽样样(random sampling)方案。)方案。2.实验设计(实验设计(experiment design)对研究对象施加干预,如动物实验研究、临床对研究对象施加干预,如动物实验研究、临床试 验 , 通 常 建 立试 验 , 通 常 建 立 随 机 分 组随 机 分 组 (
8、r a n d o m allocation)方案。)方案。(一)、研究设计(一)、研究设计实验设计的三个基本原则实验设计的三个基本原则1. 随机化随机化(randomization)2. 对照对照(control)3. 重复重复(replication) (二)、收集资料(二)、收集资料 收集资料要遵循收集资料要遵循完整、准确、及时完整、准确、及时三个原则。三个原则。 卫生工作中统计资料主要来源于三个方面:卫生工作中统计资料主要来源于三个方面: 1.统计报表:由国家统一设计,要求医疗卫生机构统计报表:由国家统一设计,要求医疗卫生机构 定期逐级上报。定期逐级上报。如传染病防治法如传染病防治法。
9、 2.经常性工作记录:如经常性卫生监测记录等。经常性工作记录:如经常性卫生监测记录等。 3.专题调查和实验:专题调查和实验:我们常把前两个来源称我们常把前两个来源称经常性资料经常性资料,后者称为后者称为一时性资料。一时性资料。(三)、整理资料(三)、整理资料 目的是将搜集到的原始资料目的是将搜集到的原始资料系统化系统化、条条理化理化,便于进一步计算与分析。,便于进一步计算与分析。1. 编码,将数据输入计算机编码,将数据输入计算机2. 纠错改错、补漏等纠错改错、补漏等(四)、分析资料(四)、分析资料(data analysis) 运用各种统计分析方法,结合专业知识,从经过运用各种统计分析方法,结
10、合专业知识,从经过整理的资料中,计算出各种指标,进行整理的资料中,计算出各种指标,进行统计描述统计描述和和统统计推断计推断, 反映数据的综合特征,阐明事物的内在联系与规律。反映数据的综合特征,阐明事物的内在联系与规律。1. 统计描述(统计描述(descriptive statistics):):指用统计指标、指用统计指标、统计表、统计图等方法对资料的数量特征及分布规律统计表、统计图等方法对资料的数量特征及分布规律进行测定和描述。进行测定和描述。2.统计推断(统计推断(inferential statistics) : 指如何抽样,指如何抽样,以及如何由样本信息推断总体特征问题。以及如何由样本信
11、息推断总体特征问题。 总体均数、总体率的可信区间及其假设检验总体均数、总体率的可信区间及其假设检验 两个总体均数、总体率差值的可信区间及其假设检验两个总体均数、总体率差值的可信区间及其假设检验 多个总体指标之间的假设检验。多个总体指标之间的假设检验。 (五)、结果表达(五)、结果表达 使用的统计学方法使用的统计学方法 使用的统计学软件(使用的统计学软件(SAS、SPSS) 假设检验的统计量、假设检验的统计量、P值等值等 结论结论三、资料的类型三、资料的类型: 只有认识了数据的特点,才只有认识了数据的特点,才 能正确地选用统能正确地选用统计分析方法计分析方法 基本概念:基本概念:变量变量及及变量
12、值变量值 研究者对每个观察单位的研究者对每个观察单位的某项特征某项特征进行进行观察和测量,这种特征称为观察和测量,这种特征称为变量变量,变量的测,变量的测得值叫得值叫变量值变量值(也叫观察值),全部变量(也叫观察值),全部变量值的集合也称为值的集合也称为资料资料。按按变量值的性质变量值的性质可将资料分为:可将资料分为: 计量资料计量资料 计数资料计数资料 等级分组资料等级分组资料1.计量资料计量资料(定量资料、数值变量)(定量资料、数值变量)定义:定义:通过通过度量衡度量衡的方法,测量每一个观的方法,测量每一个观察单位的某项研究指标的量的大小,得到察单位的某项研究指标的量的大小,得到的一系列数
13、据资料。例如:体重与身高的一系列数据资料。例如:体重与身高特点:表现为数值大小特点:表现为数值大小 有度量衡有度量衡单位单位 多为多为连续性连续性资料资料 (通过测量得到通过测量得到)定义:定义:将全体观测单位按照将全体观测单位按照某种性质或特征某种性质或特征 分组,然后再分别清点各组观察单位分组,然后再分别清点各组观察单位 的个数。的个数。特点:没有特点:没有度量衡度量衡单位单位 多为多为间断性间断性资料资料 (通过枚举或记数得来)(通过枚举或记数得来)可分为可分为二项二项与与多项多项定性资料定性资料2. 定性资料定性资料(分类资料、(分类资料、分类变量)分类变量)定义:定义: 介于计量资料
14、和计数资料之间的一种资介于计量资料和计数资料之间的一种资 料,通过料,通过半定量方法半定量方法测量得到。测量得到。特点:特点: 每一个观察单位没有确切值每一个观察单位没有确切值 各组之间有性质上的差别或程度上的不各组之间有性质上的差别或程度上的不 同。同。示例:示例: 检查尿蛋白,观察单位是每一份尿标本,检查尿蛋白,观察单位是每一份尿标本, 按结果等级不同可分为、按结果等级不同可分为、 、等。、等。3. 等级分组资料等级分组资料(有序变量)(有序变量)1、定性数据、定性数据 (二项与多项)分类数据(二项与多项)分类数据 计数数据计数数据2、定量数据、定量数据 计量数据计量数据 区间数据区间数据
15、 数值数据数值数据3、等级资料、等级资料 有序资料有序资料 定性与定量数据的别名定性与定量数据的别名三类数据间的关系三类数据间的关系 例:一组例:一组20 40岁成年人的岁成年人的血压(血压(变量变量)以以12kPa12kPa为界分为正常与异常两组,统计每组例数为界分为正常与异常两组,统计每组例数 8 低血压低血压 8 8 正常血压正常血压 1212 轻度高血压轻度高血压 1515 中度高血压中度高血压 1717 重度高血压重度高血压定量数据定量数据等级数据等级数据定性数据定性数据三类数据的编码与计算三类数据的编码与计算(1)(1) 例:一组例:一组20 40岁成年人的血压岁成年人的血压以以1
16、2kPa12kPa为界分为正常(为界分为正常(0 0)与异常()与异常(1 1)两组,)两组,统计每组例数统计每组例数 单纯随机抽样单纯随机抽样系统抽样系统抽样分层抽样分层抽样(2) 增加样本量增加样本量n ;(3)选择变异程度较小的研究指标。)选择变异程度较小的研究指标。减少抽样误差的方法减少抽样误差的方法:频率:样本的实际发生率频率:样本的实际发生率称为称为频率频率。设在相。设在相 同条件下,独立重复进行同条件下,独立重复进行n n次试验,次试验, 事件事件A A出现出现m m次,则事件次,则事件A A出现的频率出现的频率 为为f =f = m m / /n n。概率:随机事件发生的可能性
17、大小概率:随机事件发生的可能性大小,用大写,用大写 的的P P 表示;取值表示;取值00,11。 5 5、频率与概率、频率与概率 必然事件必然事件 P P = 1= 1随机事件随机事件 0 0 P P 1 1不可能事件不可能事件 P P = 0 = 0 统计学上把统计学上把P P 0.05 0.05(5 5)或)或P P 0.01 0.01(1 1)称为称为小概率事件小概率事件( (习惯习惯) ) ,认为不大可能发生。,认为不大可能发生。通常我们把经常遇到的事件分为三种类型通常我们把经常遇到的事件分为三种类型:频率与概率间的关系:频率与概率间的关系: 1. 样本频率总是围绕概率上下波动;样本频
18、率总是围绕概率上下波动; 2. 样本含量样本含量n越大,波动幅度越小,频越大,波动幅度越小,频 率越接近概率。率越接近概率。6、 参数与统计量参数与统计量 (parameter and statistic)参数参数:总体总体的统计指标,的统计指标,如总体均数、总体标准差,如总体均数、总体标准差,分别用希腊字母记为分别用希腊字母记为、。固定的常数固定的常数 样本样本抽取部分观察单位抽取部分观察单位 推断推断inference统计量统计量:样本样本的统计指标,如样本均数、标准差,采用拉的统计指标,如样本均数、标准差,采用拉丁字母分别记为丁字母分别记为 。 参数附近波动的随机变量参数附近波动的随机变
19、量 。SX、第二章第二章 集中趋势的统计描述集中趋势的统计描述主要内容主要内容2.1 频数分布频数分布2.2 平均数平均数 第一节第一节 频数分布频数分布 表表9-1 2002年某市年某市150名正常成年男子的尿酸浓度(名正常成年男子的尿酸浓度(mol/L) 142.3 148.8 142.7 144.4 144.7 145.1 143.3 154.2 152.3 142.7 156.6 137.9 143.9 141.2 139.3 145.8 142.2 137.9 141.2 150.6 142.7 151.3 142.4 141.5 141.9 147.9 125.9 139.9 14
20、8.9 154.9 145.7 140.8 139.6 148.8 147.8 146.7 132.7 149.7 154.0 158.2 138.2 149.8 151.1 140.1 140.5 143.4 152.9 147.5 147.7 162.6 141.6 143.6 144.0 150.6 138.9 150.8 147.9 136.9 146.5 130.6 142.5 149.0 145.4 139.5 148.9 144.5 141.8 148.1 145.4 134.6 130.5 145.2 146.2 146.4 142.4 137.1 141.4 144.0 12
21、9.4 142.8 132.1 141.8 143.3 143.8 134.7 147.1 140.9 137.4 142.5 146.6 135.5 146.8 156.3 150.0 147.3 142.9 141.4 134.7 138.5 146.6 134.5 135.1 141.9 142.1 138.1 134.9 146.7 138.5 139.6 139.2 148.8 150.3 140.7 143.5 140.2 143.6 138.7 138.9 143.5 139.9 134.4 133.1 145.9 139.2 137.4 142.3 160.9 137.7 14
22、2.9 126.8 频数分布及其制作频数分布及其制作 对某个随机事件进行重复观察,其对某个随机事件进行重复观察,其中某变量值出现的次数被称作中某变量值出现的次数被称作频数频数。 当汇总大量的原始数据时,把数据当汇总大量的原始数据时,把数据按类型分组,其中每个组的数据个数,按类型分组,其中每个组的数据个数,称为该组的频数。称为该组的频数。 频数表频数表是用于反映各组及其相对应是用于反映各组及其相对应的组的组频数频数之间的关系。频数表的制作步之间的关系。频数表的制作步骤如下骤如下,以例以例2.1为例:为例: 1. 计算极差计算极差R(最大值和最小值的差值最大值和最小值的差值) 本例中本例中R=5.
23、95-3.82=2.13 (1012/L ) 2. 决定组数决定组数(10-15组组,最常用最常用10-12组组) 3. 计算组距计算组距i (等于极差与组数的比值等于极差与组数的比值,取取 整数和取偶数的原则整数和取偶数的原则) 本例中本例中i=2.13/10=0.213 1012/L ,取整数,取整数等等 于于0.2 1012/L 4. 写组段写组段(第一组段应包含最小值第一组段应包含最小值,最后一最后一组段包含最大值组段包含最大值,每个组段为前闭后开每个组段为前闭后开区间区间,最后一个组段为闭区间。也应遵最后一个组段为闭区间。也应遵循取整数和偶数的原则循取整数和偶数的原则) 本例中第一组
24、段应包含最小值本例中第一组段应包含最小值3.82,取取3.80为第一组段的下限,写为前闭后为第一组段的下限,写为前闭后开区间,开区间,3.80。最后一组段应包括最。最后一组段应包括最大值大值,写为闭区间写为闭区间5.806.00。5. 列表划记列表划记(组段和频数是频数表的基本组段和频数是频数表的基本要素要素)表2-2 某地某地140名正常男子红细胞数的频数表(名正常男子红细胞数的频数表( 1012/ L)红细胞数(1012/L)5.95.75.55.35.14.94.74.54.34.13.9 频数4035302520151050Std. Dev = .38 Mean = 4.8N = 14
25、0.00图图 2-1 140名正常男子红细名正常男子红细胞数频数分布的直方图胞数频数分布的直方图 对频数表和图的观察,可以看出两个重对频数表和图的观察,可以看出两个重要特征:要特征: 1.集中趋势:平均水平集中趋势:平均水平,向中间集中向中间集中,中等数据的人数最多。中等数据的人数最多。 2.离散趋势:变异水平离散趋势:变异水平,即随着红细即随着红细胞数测量值逐渐变大或变小,人数越来胞数测量值逐渐变大或变小,人数越来越少越少,向两端分散。向两端分散。频数表的主要用途频数表的主要用途1.作为陈述资料的形式作为陈述资料的形式,可以替代繁杂的原始资料,可以替代繁杂的原始资料,便于进一步分析便于进一步
26、分析2.便于观察数据的分布类型便于观察数据的分布类型3.便于发现资料中某些远离群体的特大或特小的可便于发现资料中某些远离群体的特大或特小的可疑值疑值4.当样本含量比较大时当样本含量比较大时,可用各组段的频率作为概率可用各组段的频率作为概率的估计值的估计值5. 计算集中趋势指标与离散趋势指标计算集中趋势指标与离散趋势指标数据的分布类型数据的分布类型 对称分布和不对称分布对称分布和不对称分布 正态分布:图形中间的直条最高,高峰在正态分布:图形中间的直条最高,高峰在中央,两边对称或基本对称地减少。中央,两边对称或基本对称地减少。 偏态分布:若高峰不在中央,而位于一侧偏态分布:若高峰不在中央,而位于一
27、侧。若高峰位于左侧,称正偏态分布,如高。若高峰位于左侧,称正偏态分布,如高峰位于右侧,称负偏态分布。峰位于右侧,称负偏态分布。CHO8.007.507.006.506.005.505.004.504.003.503.002.50120100806040200Std. Dev = .85 Mean = 4.90N = 816.00TG15.0014.0013.0012.0011.0010.009.008.007.006.005.004.003.002.001.000.004003002001000Std. Dev = 1.12 Mean = 1.55N = 1049.00 对数据的描述指标也分为
28、两类:对数据的描述指标也分为两类:1. 描述集中趋势或描述集中趋势或 平均水平的指标平均水平的指标。2. 描述离散趋势或变异水平的指标。描述离散趋势或变异水平的指标。第二节第二节 平均数平均数常用几种平均值:常用几种平均值:1.算术均数算术均数2.几何均数几何均数3.中位数中位数 集中趋势常用平均值来描述。平均集中趋势常用平均值来描述。平均值是一组数据的典型或有代表性的值。值是一组数据的典型或有代表性的值。由于这样典型的值趋向于落在根据数据由于这样典型的值趋向于落在根据数据大小排列的数据的中心,因此可以用于大小排列的数据的中心,因此可以用于度量集中位置(位置指标)度量集中位置(位置指标) 算术
29、平均数(简称为均数)算术平均数(简称为均数) 一、定义:一、定义: 一组已知一组已知性质相同性质相同的数值之和除以数值个数的数值之和除以数值个数所得的商。以所得的商。以 (总体)(总体) (样本)表示。(样本)表示。 二、二、特征:特征: (X- )=0 估计误差之和为估计误差之和为0。xx 三、适用资料类型:三、适用资料类型: 1.描述正态分布和近似正态分布资料集中描述正态分布和近似正态分布资料集中 趋势的最好指标。趋势的最好指标。 2. 适用于大多数正常人的生理、生化指适用于大多数正常人的生理、生化指标。标。 四、计算方法:四、计算方法: 1.直接法直接法 2.加权法加权法 直接法直接法
30、适用适用条件:条件: 当观察例数不多时,或观察例当观察例数不多时,或观察例数虽然很多,但有计算机及统计软件,宜选择直数虽然很多,但有计算机及统计软件,宜选择直接法。接法。 式(式(2-1) 例例2.1 见书见书P10 nxxxnxxni21加权法加权法 适用条件:当无原始数据或观察例适用条件:当无原始数据或观察例数很多又缺乏计算机及统计软件时,若用数很多又缺乏计算机及统计软件时,若用直接法很容易出错,可以用加权法处理。直接法很容易出错,可以用加权法处理。 式(式(2-2) 利用表利用表2-2资料,用加权法计算资料,用加权法计算140名名正常男子红细胞数浓度的均数,计算见表正常男子红细胞数浓度的
31、均数,计算见表1nnniiifffXfXfXffXfx212211表表1 某地某地140名正常男子红细胞数均数和标准差(名正常男子红细胞数均数和标准差( 1012/ L )加权)加权法计算用表法计算用表加权法计算的结果加权法计算的结果 根据表根据表1得:得: =669.80/140=4.78( 1012/ L ) 而将该资料输入计算机用统计软件和直接而将该资料输入计算机用统计软件和直接法计算,得到均数为法计算,得到均数为4.77 (1012/ L) 。由此可。由此可见,加权法得到的均数是近似值,但这种见,加权法得到的均数是近似值,但这种算法的近似程度很好。算法的近似程度很好。x算术平均数有如下
32、特征:算术平均数有如下特征:(1)对于以定量化测量所得的计量数据存)对于以定量化测量所得的计量数据存在唯一的均数。在唯一的均数。(2)样本均数具有抽样的稳定性与对总体)样本均数具有抽样的稳定性与对总体均数的可估性特征;能方便地作进一步均数的可估性特征;能方便地作进一步计算分析。计算分析。(3)均数对极值特别敏感,极大值或极小值)均数对极值特别敏感,极大值或极小值通常将均数拉向自己。通常将均数拉向自己。(4)每个变量值到均数距离的和为零。)每个变量值到均数距离的和为零。(5)每个变量值到均数距离的平方和为最小)每个变量值到均数距离的平方和为最小。 几何均数几何均数一、定义:一、定义: 将将n个观
33、察值个观察值x的乘积再开的乘积再开n次次方所得的根,用方所得的根,用G表示。表示。二、适用条件:二、适用条件: 1、当一组观察值不呈正态分布、且其差距、当一组观察值不呈正态分布、且其差距较大时,用均数表示其平均水平会受少数较大时,用均数表示其平均水平会受少数特大或特小值影响;特大或特小值影响; 2、原始数据分布不对称,观察值呈倍数关、原始数据分布不对称,观察值呈倍数关系或近似倍数关系,经对数变换后呈正态系或近似倍数关系,经对数变换后呈正态分布的资料,又称对数正态分布资料。分布的资料,又称对数正态分布资料。 3、免疫学或微生物学领域中的某些指标,、免疫学或微生物学领域中的某些指标,如抗体滴度、药
34、物的平均效价等。如抗体滴度、药物的平均效价等。 直接法直接法 适用条件:适用条件: 当观察例数不多时,宜选择直接法。当观察例数不多时,宜选择直接法。 式(2-3) 例2.2见书P11 nxnxxxxxxGinnnlglglglglglg121121加权法适用条件: 当观察例数较多或无原始数据,仅有频数表资料时,宜选择加权法。 式(2-4)例2.3 见书P11 inniiifxfxfxffxfGlglglglglglg221111表表2-3 胎盘浸液钩端螺旋体菌苗接种两个月后血清胎盘浸液钩端螺旋体菌苗接种两个月后血清IgG抗体滴度的计算用表抗体滴度的计算用表G=lg-1(698.9792/326
35、)=139该地该地326名农民胎盘浸液钩端螺旋体名农民胎盘浸液钩端螺旋体菌苗接种两个月后菌苗接种两个月后血清血清IgG抗体的平均滴度为:抗体的平均滴度为:1:139 几何均数的特征:几何均数的特征: (1)变量)变量x服从对数正态分布,即表示变量服从对数正态分布,即表示变量log(x)服从正态分布。几何均数用以描述一群服从正态分布。几何均数用以描述一群服从对数正态分布的测量值在对数量值上的集服从对数正态分布的测量值在对数量值上的集中性特征与平均水平。中性特征与平均水平。 (2)变量)变量x在取对数后的在取对数后的log(x)具有算术均数具有算术均数的所有特征。的所有特征。中位数(中位数(Med
36、ian)和百分位数)和百分位数 一、定义:一、定义: 中位数是把一组观察值,按大小顺序中位数是把一组观察值,按大小顺序排列,位置居中的那个数值。排列,位置居中的那个数值。 中位数是一个中位数是一个位置指标,它将所有观察值分为两个相同的位置指标,它将所有观察值分为两个相同的部分,各占除中位数以外的观察值的百分之部分,各占除中位数以外的观察值的百分之五十。用五十。用M表示。表示。 百分位数也是一个位置指标百分位数也是一个位置指标,先把一组数据从小到大排列,先把一组数据从小到大排列, 将将数据中的所有观察值看成一个整体数据中的所有观察值看成一个整体,即,即100%。则百分位数将自身以外。则百分位数将
37、自身以外的观察值分成了两个部分,其中有的观察值分成了两个部分,其中有x%的观察值比它小,而(的观察值比它小,而(100-x)%的个体具有比它大的观察值。的个体具有比它大的观察值。 中位数就是一个特殊的百分位数,中位数就是一个特殊的百分位数,即即50。 中位数和百分位数中位数和百分位数 二、适用资料:二、适用资料: 偏态分布的资料偏态分布的资料 开口资料开口资料 分布未明的资料分布未明的资料 某些毒物指标,如血铅,发汞值;某些某些毒物指标,如血铅,发汞值;某些 传染病或食物中毒的潜伏期;生存时间传染病或食物中毒的潜伏期;生存时间等等中位数和百分位数中位数和百分位数 三、计算方法:三、计算方法:
38、直接法:适用于有原始数据;直接法:适用于有原始数据; 样本样本 例数不太多;例数不太多; 容易将原始数据排序容易将原始数据排序。 频数表法频数表法Take Median for example (n=odd number)100%X1 X2 X3 X4 X5 X6 X7X4Median(P50)50%(100-50)%=50%结论:结论:Median=X4中位数的计算中位数的计算公式公式直接法:直接法: 当当n=奇数时,中位数即为第(奇数时,中位数即为第(n+1)/2位的数值位的数值 例例1见书见书P1221nXMTake Median for example (n=even number)1
39、00% X1 X2 X3 X4 X5 X6 X7 X8Median(P50)50%(100-50)%=50%结论:结论:Median=1/2(X4+X5)X4 X5中位数的计算中位数的计算公式公式直接法:直接法: 当当n=偶数时,中位数并非直接对应某一数值,而偶数时,中位数并非直接对应某一数值,而是在两个数值之间,于是,取与中点位置相邻的是在两个数值之间,于是,取与中点位置相邻的两个变量值的算术平均数为中位数。两个变量值的算术平均数为中位数。 例例1见书见书12)(21122nnXXMPx的含义100%X1 X2 X3 X4 Xn-2 Xn-1 Xn(100-X)%结论:结论:Pxis a l
40、imit value or position indexX%PX 频数表法频数表法 适用于:适用于: 无原始数据,只有频数表提供的信息无原始数据,只有频数表提供的信息; 原始数据太多,排序比较麻烦原始数据太多,排序比较麻烦 此计算公式的前提条件为:此计算公式的前提条件为: 假设观察值在每个组段内是均匀分布的假设观察值在每个组段内是均匀分布的。 表表2 健康男子血清铅的浓度健康男子血清铅的浓度 组距为组距为5 (mol/L) 血清铅水平血清铅水平 频数频数 累计频数累计频数 累计频率累计频率 (mol/L) 0 18 18 0.0796 5 51 69 0.3053 10 43 106 0.46
41、90 15 36 142 0.6283 20 30 172 0.7611 25 26 198 0.8761 30 14 212 0.9381 35 6 218 0.9646 40 3 221 0.9779 45 3 224 0.9912 50 1 225 0.9956 55 0 225 0.9956 60 1 226 1.0000LxxxxfxnfiLP%PX所在组段所在组段的下限的下限PX所在组段所在组段的频数的频数PX所在组段所在组段的组距的组距PX所在组段前一组段所在组段前一组段的累计频数的累计频数 表表3 一健康男子骑自行车的行程情况一健康男子骑自行车的行程情况 距起点的距离距起点的距
42、离 时间时间 累计时间累计时间 累计时间构累计时间构成成% (公里)(公里) (分钟)(分钟) (分钟)(分钟) 0 18 18 0.0796 5 51 69 0.3053 10 43 106 0.4690 15 36 142 0.6283 20 30 172 0.7611 25 26 198 0.8761 30 14 212 0.9381 35 6 218 0.9646 40 3 221 0.9779 45 3 224 0.9912 50 1 225 0.9956 55 0 225 0.9956 60 1 226 1.0000假设该男子在每段距离内是匀速前进的假设该男子在每段距离内是匀速前进
43、的 问:时间过去一半,即问:时间过去一半,即113分时,该男子距起点的距离为多分时,该男子距起点的距离为多少少?第一步:找到在第一步:找到在113分钟时,该男子所在的组段分钟时,该男子所在的组段。组距为组距为5公里,用时公里,用时36分钟,速度为分钟,速度为5/36(公里(公里/分钟)分钟)距起点距起点15公里,公里,到达时间到达时间为为106分分距起点距起点20公里。公里。离开时间离开时间为为142分分这段距离时间这段距离时间速度速度(113-106)5/360.97公里公里惊人地相似!公里97.15106%502263651550YLxxxxfxnfiLP%表表2-4 某地某地630名正常
44、女性血清甘油三脂含量的频数表名正常女性血清甘油三脂含量的频数表例例2.4见书见书P12 表表4 某传染病的潜伏期(天)的中位数和百分位数计算表某传染病的潜伏期(天)的中位数和百分位数计算表 潜伏期(天)潜伏期(天) 人数人数 累计频数累计频数 累计频率累计频率(%) (1) (2) (3) (4) 4 26 26 24.07 8 48 74 68.52 12 25 99 91.67 16 6 105 97.22 20 3 108 100.00 中位数的特征:中位数的特征: (1)以定量化测定所得的计算数据存在惟一)以定量化测定所得的计算数据存在惟一的中位数,反映观测值在位次上的集中与平均的中位数,反映观测值在位次上的集中与平均特征。特征。 (2)中位数对极值不敏感。)中位数对极值不敏感。 (3)中位数并未考虑到每个观察值,因此对)中位数并未考虑到每个观察值,因此对进一步分析的统计学特征与计算不具有更多的进一步分析的统计学特征与计算不具有更多的应用价值。应用价值。THE ENDTHE END