1、柏建岭 南京医科大学公共卫生学院生物统计学系,Medical statistics 医学统计学,统计资料的整理与描述 数值变量资料,2020/4/7,柏建岭讲稿,2,主要内容,个体变异 频数分布表(图) 定量指标的描述 集中位置 离散趋势 总结,2020/4/7,柏建岭讲稿,3,个体变异(individual variation),是同质观察对象间表现出的差异。 变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。 就个体而言:变异是随机的(random)。 就总体而言:个体变异是有规律的。,2020/4/7,柏建岭讲稿,4,原始数据,100名成年男性血红细胞计数(1012
2、/L )资料如下:,频数分布表和频数分布图,原因:由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。 解决:频数分布表的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图。,2020/4/7,柏建岭讲稿,6,频数表编制步骤,求极差 选定适当的组段数后估计组距 列出组段 划记归组获得频数 求频率,完成频数表,2020/4/7,柏建岭讲稿,7,频数分布表的编制,求极差或全距(Range): R=Xmax-Xmin R = 6.18-3.29
3、=2.89 选定适当的组段数后估计组距( i ) 组段数的选取以能反映资料的分布特征为宜 一般取8 15组 i =2.89/10=0.2890.3,2020/4/7,柏建岭讲稿,8,频数分布表的编制,列出组段 组段的含义:包括组段的下限而不含组段的上限 。如:3.20 等价于 3.20,3.50) 第一个组段应包含最小值 最后一个组段应包含最大值,2020/4/7,柏建岭讲稿,9,频数分布表的编制,划记归组获得频数 常用的划记方法: “正” ;“|” 求频率,完成频数表 相应的频数除以总数即为频率 各组段的频率总和为1或者100%,100名成年男性血红细胞计数频数表,11,100名成年男子红细
4、胞计数频数图,图2.1 100名成年男性的血红细胞计数的频数分布,2020/4/7,柏建岭讲稿,12,频数分布表和频数分布图的用途,描述分布类型 描述分布的特征 便于发现特大、特小的可疑值 便于计算有关指标、统计分析与处理,2020/4/7,柏建岭讲稿,13,频数分布类型,对称分布:以正态分布较为常见 非对称分布:偏态分布 正偏态:右侧左侧 向右侧拖尾 负偏态:左侧右侧 向左侧拖尾,2020/4/7,柏建岭讲稿,14,频数分布特征,数据分布的范围: 3.296.18 集中位置:中等大小人数居多,向中间集中 数据最集中的区间:4.705.00 离散趋势:以中等大小的区间为中心,向两侧逐渐减少 分
5、布形态:基本对称,2020/4/7,柏建岭讲稿,15,2020/4/7,柏建岭讲稿,16,2020/4/7,柏建岭讲稿,17,2020/4/7,柏建岭讲稿,18,2020/4/7,柏建岭讲稿,19,数值变量资料的统计指标,集中位置的描述 离散趋势的描述,2020/4/7,柏建岭讲稿,20,集中位置的描述-平均数(average),均数(arithmetic mean, mean),总体均数,样本均数,2020/4/7,柏建岭讲稿,21,平均数(average),加权均数(weighted mean) 均数是加权均数的一个特例,2020/4/7,柏建岭讲稿,22,平均数(average),几何均
6、数(geometric mean),2020/4/7,柏建岭讲稿,23,几何均数例,1:10, 1:20, 1:40, 1:80, 1:160,2020/4/7,柏建岭讲稿,24,平均数(average),中位数(median) 将一组数据按从小到大的顺序排列,位置居中的数即是中位数。,2020/4/7,柏建岭讲稿,25,中位数例,9例正常人的发汞值(mol/kg ): 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.8 10例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3 M=(4.8+5.6)/2=
7、5.2,2020/4/7,柏建岭讲稿,26,平均数(average),同样有十分位数、四分位数,百分位数(percentile),2020/4/7,柏建岭讲稿,27,M = P50,排序数据:按从小到大顺序排列,2020/4/7,柏建岭讲稿,28,平均数应用的注意事项,同质的资料计算平均数才有意义 根据资料分布的特征选用适当的平均数 均数:单峰对称分布的资料 几何均数:各变量值之间成倍数关系,分布呈偏态,经对数变换后呈单峰对称分布资料 中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。(偏态分布、不规则分布资料、有不确定值的资料),2020/4/7,柏建岭讲稿,
8、29,平均数应用的注意事项,计算几何均数时: 变量值中不能有0 同一组变量值不能同时存在正、负值 若变量值全为负值,可先将负号除去,算出结果后再冠以负号 样本含量较少时不宜计算靠近两端的百分位数 平均数要与变异指标结合使用,2020/4/7,柏建岭讲稿,30,看一个例子:,有甲、乙两组同性别同年龄儿童体重(kg): 甲组 26,28,30,32,34 =30 kg n甲=5 乙组 24, 27, 30, 33, 36 =30 kg n乙=5 上述两组数据的特点: 集中位置 相同:均为30kg 离散程度不同:各观察值离均数的远近不同,2020/4/7,柏建岭讲稿,31,离散趋势的描述,全距(Ra
9、nge) 亦称极差,记为R,是一组变量值中最大值与最小值之差。 优点:简单明了 缺点:不灵敏、不稳定,2020/4/7,柏建岭讲稿,32,离散趋势的描述,四分位数间距(interquartile range) 定义为: QL QU,即中间一半观察值的极差。 四分位数(quartile)是两个特定的百分位数:第25%分位数P25,和第75%分位数P75,分别记为QL和QU。 四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。,2020/4/7,柏建岭讲稿,33,25 %,25%,25%,25%,排序数据:按从小到大顺序排列,M,QL,QU,inter-quartile range
10、,Q2,Q1,Q3,2020/4/7,柏建岭讲稿,34,离散趋势的描述,方差(Variance)和标准差(Standard Deviation) 总体均数未知,用样本均数估计,2020/4/7,柏建岭讲稿,35,标准差,“离均差平方之和 平均后的方根” “均方根”,n-1 称为(标准差的)自由度,即“可以自由变异的程度” 分子有n项离均差,但只有n-1项独立,根据 任一离均差均可以用另外n-1个离均差表示,所以“只有n-1个独立的离均差”。,2020/4/7,柏建岭讲稿,36,标准差大: 分布分散、不整齐、波动大; 标准差小: 分布集中、整齐、波动较小。,2020/4/7,柏建岭讲稿,37,离
11、散趋势的描述,变异系数(coefficient of variation) 亦称离散系数(coefficient of dispersion),是标准差s与均数之比,即:,2020/4/7,柏建岭讲稿,38,变异系数的两个特点及相应的用途,没有单位 反映标准差占均数的百分比或标准差是均数的几倍 可用来比较度量衡单位不同的资料的变异度 不受平均水平的影响 反映的是以均数为基数的相对变异的大小 比较均数相差悬殊的资料的变异度,2020/4/7,柏建岭讲稿,39,某地20岁男子100人,身高均数为171.06cm,标准差为4.95cm;体重均数为61.54kg,标准差为5.02kg,试比较身高和体重
12、的变异。,身高 体重,2020/4/7,柏建岭讲稿,40,绝对变异受平均水平的影响 相对变异排除了平均水平的影响,4个不同年龄组儿童身高(cm)的变异,2020/4/7,柏建岭讲稿,41,平均数与变异度的关系,平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差,2020/4/7,柏建岭讲稿,42,平均数与变异度的关系,通常,平均数与变异指标一起描述资料的分布特征。 用均数和标准差描述正态分布资料的特征; 用中位数和四分位数间距描述偏态分布资料的特征。,2020/4/7,柏建岭讲稿,43,资料的指标描述,统计描述的一个重要的组成部分 数值变量资料的统计指标 平均水平指标:算术均数、几何均数、中位数 等。 离散程度指标:全距、四分位数间距、方差、标准差、 变异系数。 分类资料的统计指标 相对数指标,2020/4/7,柏建岭讲稿,44,Thank you,