1、定量数据的统计描述定量数据的统计描述 第二章第二章 定量数据的统计描述定量数据的统计描述 例例2 2-1-1 某地用随机抽样方法检查了某地用随机抽样方法检查了140140名成年男子的红细胞数,检测结果如表所示:名成年男子的红细胞数,检测结果如表所示:如何有效地组织、整理和表达数据的信息?如何有效地组织、整理和表达数据的信息?4.765.024.634.524.785.054.944.444.714.975.245.504.635.274.405.044.934.814.705.344.474.735.004.884.774.274.925.184.314.574.465.955.615.264
2、.76 54.4 22.9 22.9 32 32 4.604.60 100.0 -140140合计合计 100.0 0.7 0.7 1 1 5.805.80 6.00 6.00 99.4 1.4 1.4 2 2 5.605.60 98.0 2.9 2.9 4 4 5.405.40 95.1 9.3 9.3 13 13 5.205.20 85.8 12.1 12.1 17 17 5.005.00 73.7 19.3 19.3 27 27 4.804.80 31.5 17.9 17.9 25 25 4.404.40 13.6 7.9 7.9 11 11 4.204.20 5.7 4.3 4.3 6
3、 6 4.004.00 1.4 1.4 1.4 2 2 3.803.80 累积频率累积频率(%)(%)频频 率率(%)(%)频频 数数 红细胞数红细胞数 表表2-2 某地某地140名正常男子红细胞数的频数表名正常男子红细胞数的频数表 直方图直方图:直观、形象地表示频数分布的形态和特征直观、形象地表示频数分布的形态和特征 图图2-1 1402-1 140名正常男子红细胞计数的直方图名正常男子红细胞计数的直方图 二、直方图二、直方图 Histogram三、频数表的用途三、频数表的用途 1.1.作为陈述资料的形式作为陈述资料的形式 2.2.便于观察数据的分布类型便于观察数据的分布类型 3.3.便于发
4、现资料中含有的异常值便于发现资料中含有的异常值4.4.可用各组段的频率作为概率的估计值可用各组段的频率作为概率的估计值 第二节第二节 集中趋势的统计指标集中趋势的统计指标u描述一组观察值集中位置或平均水平的统计指标。描述一组观察值集中位置或平均水平的统计指标。均数均数几何均数几何均数中位数中位数 Average一、均数一、均数 (算术均数)(算术均数)应用:主要适用于对称分布或偏斜度不大的资料,尤其适合正态分布资料。应用:主要适用于对称分布或偏斜度不大的资料,尤其适合正态分布资料。nXnXXXXn21AveragenfxnxfxfxfXnn2211应用:按倍数关系变化、对数变换后呈对称分布。在
5、医学中:血清学和微生学,如抗体滴度、细菌技术、血清凝集效价等nnXXXG21)lg(lg)lglglg(lg1211nXnXXXGn)lg(lg)lglglg(lg122111nxfnxfxfxfGnn例例2-2 测得测得10个人的血清滴度的倒数分别为个人的血清滴度的倒数分别为2,2,4,4,8,8,8,8,32,32,求平均滴度,求平均滴度例例2-3(频数表资料)(频数表资料)71032lg32lg8lg8lg8lg8lg4lg4lg2lg2lglg1GGeometric mean若观察值中有0或负数,可将所有观察值加上一个常数k,使x+k0,计算结果还原G=G-k。观察值若全是负数,计算时
6、把负号去掉,得出结果后再加上负号。u中位数:一组观察值从小到大按顺序排列,居中心位置的数值即为。中位数:一组观察值从小到大按顺序排列,居中心位置的数值即为。u应用:明显的偏态分布或两端数值不明确时应用:明显的偏态分布或两端数值不明确时 u1.1.原始资料原始资料如测得如测得5 5个人的个人的VLDL中的中的apo_B的含量的含量(mmol/L)为为0.0095,0.0322,0.0617,0.0970,0.1085,则,则 M=0.0617(mmol/L)若测量结果:若测量结果:0.0095,0.0322,0.0617,0.097,则,则 M=(0.0322+0.0617)/2=0.0470(
7、mmol/L)2.2.频数表资料频数表资料(例例2-4)2-4)表表2-4 2-4 某地某地630630名正常女性血清甘油三脂含量名正常女性血清甘油三脂含量(mmol/L)mmol/L)-630合计合计100.0 630 13.10 99.8629 32.80 99.4626 42.50 98.7622 142.20 96.5608 281.90 92.1580 421.60 85.4538 811.30 72.5457 941.00 57.6 M3631670.70 31.11961690.40 4.3 27 270.10累积频率累积频率(%)(%)累积频数累积频数频数频数 甘油三脂甘油三脂
8、Median03060901201501801频频数数甘油三脂甘油三脂(mg/dL)0.10.4 0.7 1.01.31.6 1.92.2 2.5 2.8 3.16300.5196ML、iM、fM分别为分别为M所在组段的下限、组距和频数,所在组段的下限、组距和频数,fL为为M所在组段之前各组段的累积频数所在组段之前各组段的累积频数。914.030.01671965.063070.0MMMLiffnLM5.0Median描述数据序列在某百分位置的水平。多个百分位数结合使用来描述某个问题。P25和P75可以描述数据的分散程度,用P2.5和P97.5计算医学95%的参考值范围等。xxLxiffxnL
9、P%L:组段的下限;组段的下限;iM:组距;组距;fx:频数;频数;fL:Px所在组段之前的累积频数。所在组段之前的累积频数。例例2-5 2-5 计算例计算例2.42.4的百分位数的百分位数P P2525 、P P7575 、P P9090。)mmol/L(632.030.01692725.063040.025P)mmol/L(357.130.08145775.063030.175P)mmol/L(807.130.04253890.063060.190P例例2-6 2-6 对甲乙两名高血压患者连续观察对甲乙两名高血压患者连续观察5 5天,测得的收缩压天,测得的收缩压(mmHg)结果如下:结果如
10、下:可以看出:两患者收缩压的均数十分接近可以看出:两患者收缩压的均数十分接近,但甲患者的血压波动较大,而乙患者相对稳定。通常,描但甲患者的血压波动较大,而乙患者相对稳定。通常,描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。患者患者第第1 1天天第第2 2天天第第3 3天天第第4 4天天第第5 5天天均数均数甲患者甲患者 162162145145178178142142186186162.6162.6乙患者乙患者 164164160160163163159159166166162.4162.4X极差四分位
11、数间距方差、标准差变异系数X 一、极差一、极差 极差(极差(rangerange)也称作全距,即观察值中最大值和最小值之差,用符号)也称作全距,即观察值中最大值和最小值之差,用符号R 表示。如前例甲乙两患者表示。如前例甲乙两患者收缩压的极差分别为收缩压的极差分别为该法简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等;缺点是结果不该法简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等;缺点是结果不稳定。稳定。(mmHg)44142186甲R(mmHg)7159166乙R主要用于衡量明显偏态分布资料的变异程度。主要用于衡量明显偏态分布资料的变异程度。2575P
12、PQ1.3570.6320.725(mmol/L)Q 如由上一章例2.4 算出,50岁60岁正常女性血清 甘油三脂含量的百分位数P25和P75的位置分别为0.632mmol/L和1.357mmol/L,则方差(方差(variance)是将离均差平方和再取平均,即)是将离均差平方和再取平均,即 ,注意:对于样本资料,分母用的是注意:对于样本资料,分母用的是n-1,称为自由度,称为自由度(degree of freedom,df)。方差的特点:便于数学上的处理,但由于有平方项,度量衡发生变化,不便于实际应用。方差的特点:便于数学上的处理,但由于有平方项,度量衡发生变化,不便于实际应用。1)(22n
13、XXS222()()XXXXn将方差取平方根,还原成与原始观察值单位相同的变异量度即为标准差将方差取平方根,还原成与原始观察值单位相同的变异量度即为标准差(standard deviation):例如对于例例如对于例3.13.1经计算有经计算有 甲患者:甲患者:,同理乙患者:同理乙患者:1)(1)(222nnXXnXXS813X1337132X5n(mmHg)49.19155/8131337132S(mmHg)88.2S 适用于正态分布与均数结合能完整表述一个正态分布u 变异系数:用于对均数相差较大或单位不同的几组观察值的变异程度进行比较。变异系数:用于对均数相差较大或单位不同的几组观察值的变
14、异程度进行比较。%8.13%1005.777.10舒张压CV%9.13%1009.1221.17收缩压CV%100XSCV例3.3 测得某地成年人舒张压均数为77.5mmHg,标准差10.7mmHg;收缩压均数为122.9mmHg,标准差为17.1mmHg。试比较舒张压和收缩压的变异程度。1.1.运用频数表、直方图和统计指标技巧能够有效地组织、整理和表达计量资料的信息。运用频数表、直方图和统计指标技巧能够有效地组织、整理和表达计量资料的信息。2.2.平均数是描述一组观察值集中位置或平均水平的统计指标,常用的有算术均数、几何均数和中位平均数是描述一组观察值集中位置或平均水平的统计指标,常用的有算
15、术均数、几何均数和中位数。其中均数的应用最为广泛,几何均数则多用于血清学和微生物学中,中位数主要用于偏度较数。其中均数的应用最为广泛,几何均数则多用于血清学和微生物学中,中位数主要用于偏度较大或无两端观测值的数据分布资料。大或无两端观测值的数据分布资料。3.3.百分位数可用来描述资料的观察值序列在某百分位置的水平,中位数是其中的一个特例。百分位数可用来描述资料的观察值序列在某百分位置的水平,中位数是其中的一个特例。4.4.衡量变异程度大小的指标有多种衡量变异程度大小的指标有多种:极差、四分位数间距、方差、标准差和变异系数。其中应用最多极差、四分位数间距、方差、标准差和变异系数。其中应用最多的是标准差和变异系数。的是标准差和变异系数。(李(李 康)康)正偏态(右偏态)正偏态(右偏态)负偏态(左偏态)负偏态(左偏态)正偏态分布(右偏态分布)正偏态分布(右偏态分布):频数分布的高峰向左偏移,长尾向右侧延伸;负偏态分布(左偏态分布)负偏态分布(左偏态分布):频数分布的高峰向右偏移,长尾向左延伸。