1、第二章第二章 计量资料的统计描述计量资料的统计描述第一节第一节 频数分布频数分布(frequency distribution)122.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35
2、 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26 101名正常成年女子的血清总胆固醇(名正常成年女子的血清总
3、胆固醇(mmol/L)频数分布表频数分布表u求极差求极差 极差(极差(range)也称全距,即最大值和最小值之差,记)也称全距,即最大值和最小值之差,记作作R。本例。本例:R=5.71-2.35=3.36(mmol/L)u确定组数与组距确定组数与组距根据原始数据多少,组段数通常取组根据原始数据多少,组段数通常取组 8 15组组组距组距 i=全距全距 R/组数组数 k,本例,本例 i=3.36/10=0.3360.30u确定组限确定组限 资料中的每一个数据都必须能够归属于某一组,且只资料中的每一个数据都必须能够归属于某一组,且只能归属于该组能归属于该组。u统计频数编制频数表统计频数编制频数表34
4、表2-1 某单位101名正常成年女子的血清总胆固醇(mmol/L)频数分布组段(1)频数 f(2)组中值 X(3)f X(4)=(2)(3)f X2(5)=(2)(3)22.3012.45 2.45 6.00 2.6032.75 8.25 22.69 2.9063.05 18.30 55.82 3.2083.35 26.80 89.78 3.50173.65 62.05 226.48 3.80203.95 79.00 312.05 4.10174.25 72.25 307.06 4.40124.55 54.60 248.43 4.7094.85 43.65 211.70 5.0055.15 2
5、5.75 132.61 5.3025.45 10.90 59.41 5.605.9015.75 5.75 33.06 合计101409.75 1705.09 56表2-2 某医院1123名产后出血孕妇的人流次数分布人流次数(1)产后出血人数(2)累计频数(3)累计频率(%)(4)040240235.80 1330732 65.18 2232964 85.84 31181082 96.35 4271109 98.75 5111120 99.73 631123 100.00 合计11237三、频数分布表的用途三、频数分布表的用途u可代替繁杂的原始资料,便于进一步分析。可代替繁杂的原始资料,便于进一
6、步分析。u便于观察数据的分布类型。便于观察数据的分布类型。u便于发现资料中某些远离群体的特大或特小的可便于发现资料中某些远离群体的特大或特小的可疑值。疑值。u当样本含量较大时,可用各组段的频率作为概率当样本含量较大时,可用各组段的频率作为概率的估计值。的估计值。8图图2-2 115名正常成年女子的血清转氨酶名正常成年女子的血清转氨酶的频数分布的频数分布右偏态分布或正偏态分布右偏态分布或正偏态分布图图2-3 101名正常人的血清肌红蛋白的名正常人的血清肌红蛋白的频数分布频数分布左偏态分布或负偏态分布左偏态分布或负偏态分布第二节第二节 集中趋势的描述集中趋势的描述910平平 均均 数(数(aver
7、age)平均数是描述一组观察值集中位置和平均平均数是描述一组观察值集中位置和平均水平的统计指标。常用的平均数包括:水平的统计指标。常用的平均数包括:算数均数(算数均数(mean)几何均数(几何均数(geometric mean)中位数(中位数(median)和百分位数()和百分位数(percentile)11算算 数数 均均 数数u直接法直接法 u加权法加权法u均数的应用均数的应用适用用于对称分布或偏度不大的资料,能够很好的反映数据的集中适用用于对称分布或偏度不大的资料,能够很好的反映数据的集中位置和平均水平。位置和平均水平。算数均数容易受到频数分布尾端极大或极小值的影响。算数均数容易受到频数
8、分布尾端极大或极小值的影响。nXnXXXXn 21 ffXfffXfXfXfXkkk212211101名正常成年女子的血清总胆固醇名正常成年女子的血清总胆固醇直接法:直接法:加权法:加权法:12)/(03.410126.321.435.2LmmolX )/(40610140913175.5175.2345.21LmmolX 13几何均数(几何均数(geometric mean)观察值间按倍数变化的资料可以计算几何均数(观察值间按倍数变化的资料可以计算几何均数(G)以描述其平均水平。以描述其平均水平。计算公式为:计算公式为:加权法为:加权法为:nnXXXG 21 nXffffXfXfXfGkkk
9、lglglglglglg12122111 nXXXGnlglglglg21114表2-5 69例RA患者血清EBV-VCA-IgG抗体测定结果抗体滴度(1)人数f(2)滴度倒数X(3)IgX(4)fIgX(5)1:10410 1.0000 4.0000 1:20320 1.3010 3.9030 1:401040 1.6021 16.0210 1:801080 1.9031 19.0310 1:16011160 2.2041 24.2451 1:32015320 2.5051 37.5765 1:64014640 2.8062 39.2868 1:128021280 3.1072 6.2144
10、 合 计69 150.2778 6.150691280lg220lg310lg4lg1 G15注意点:注意点:u适用于数据呈等比分布或呈对数正态分布适用于数据呈等比分布或呈对数正态分布的资料。的资料。u数据中出现数据中出现0或负数时,需对数据进行转换。或负数时,需对数据进行转换。16中位数和百分位数中位数和百分位数u中位数中位数 一组观察值按从大到小顺序排列,居中心位置的数即一组观察值按从大到小顺序排列,居中心位置的数即为中位数(为中位数(median)。将所以将所以n n 个观察值按升序排列,个观察值按升序排列,n为奇数时:中位数为奇数时:中位数n为偶数时:中位数为偶数时:中位数21nXM1
11、2221nnXXM17表2-2 某医院1123名产后出血孕妇的人流次数分布人流次数(1)产后出血人数(2)累计频数(3)累计频率(%)(4)040240235.80 1330732 65.18 2232964 85.84 31181082 96.35 4271109 98.75 5111120 99.73 631123 100.00 合计1123百分位数百分位数 百分位数(百分位数(percentile)是一种位置指标,)是一种位置指标,用用PX来表示。来表示。u直接法直接法当当nX%为带有小数位时:为带有小数位时:PX=X(trunc(nX%)+1)当当nX%为整数时:为整数时:PX=1/2
12、(X(nX%)+X(nX%+1)18u频数表法频数表法计算公式:计算公式:19XXLXiffXnLP%L、iX、fX分别为分别为PX所在组段的下限、组距和频数,所在组段的下限、组距和频数,fL为为PX所所在组段之前各组段的累计频数。在组段之前各组段的累计频数。20表2-6 118名链球菌咽喉炎患者的潜伏期天数(1)人数f(2)累计频数(3)累计频率(%)(4)12443.4 241721 17.8 363253 44.9 482477 65.3 601895 80.5 7212107 90.7 845112 94.9 964116 98.3 1082118 100.0 21注意点:注意点:算术
13、均数,几何均数以及中位数都能反映一组数据算术均数,几何均数以及中位数都能反映一组数据的集中趋势和水平。的集中趋势和水平。算术均数适用对称分布的计量资料算术均数适用对称分布的计量资料,几何均数适用于几何均数适用于呈等比分布计量资料,中位数适用于任何频数分布呈等比分布计量资料,中位数适用于任何频数分布资料。资料。中位数对于对称分布资料,没有均数稳定,不便于中位数对于对称分布资料,没有均数稳定,不便于进行统计运算。进行统计运算。多个百分位数结合使用常可以说明某一特定的问题。多个百分位数结合使用常可以说明某一特定的问题。第三节第三节离散趋势的描述离散趋势的描述2223 对甲乙对甲乙2名高血压患者连续观
14、察名高血压患者连续观察5天,测得的收缩压天,测得的收缩压分别为分别为:甲患者(mmHg)162 145 178 142 186 ()乙患者(mmHg)164 160 163 159 166 ()6.162甲X4.162乙X 甲乙患者收缩压的均数很相似,但是甲患者的甲乙患者收缩压的均数很相似,但是甲患者的血压波动范围较大。血压波动范围较大。24衡量离散趋势的指标衡量离散趋势的指标大体分为大体分为2大类:大类:u按间距计算:极差和四分位数间距按间距计算:极差和四分位数间距u按平均偏差计算:离均差平方和、方差、标准按平均偏差计算:离均差平方和、方差、标准差和变异系数差和变异系数25u极差和四分位数间
15、距极差和四分位数间距极差(极差(range):观测值中最大值和最小值之):观测值中最大值和最小值之差,用差,用R表示。表示。R甲甲=186-142=44(mmHg)R乙乙=166-159=7 (mmHg)四分位数间距(四分位数间距(quartile):百分位数):百分位数P75和和P25之间的差。之间的差。Q=P75 P25表表2-6中,已知中,已知P25=39.2,P75=67.7,计算,计算118名链球名链球菌咽喉炎患者潜伏期的四分位数间距。菌咽喉炎患者潜伏期的四分位数间距。QR=67.7-39.2=28.5(天天)四分位数间距主要用于衡量明显偏态分布资料的变四分位数间距主要用于衡量明显偏
16、态分布资料的变异程度。异程度。2627u离均差平方和(离均差平方和(sum of squaresum of square,SSSS)nXXXXSS222)()(u方差(方差(mean of square,MS)离均差平离均差平方和再取平均,其结果为方差。方和再取平均,其结果为方差。对于样本资料,分母对于样本资料,分母 取取n 1 作为自由度(作为自由度(degree of freedom,df),式中),式中MS为样本方差,方差越大说明数为样本方差,方差越大说明数据的变异越大。据的变异越大。1)(2nXXMS28u标准差(标准差(standard deviation,SD)方差的平方)方差的平
17、方根称为标准差。根称为标准差。SD越大说明其变异程度越大。越大说明其变异程度越大。如果是频数表资料,可用以下的公式:如果是频数表资料,可用以下的公式:1/)(1)(222nnXXnXXSD1/)(22nnfxfxS2929例如对于前例经计算有例如对于前例经计算有 甲患者:甲患者:乙患者乙患者:)(49.19155/813133713133713,813,522mmHgSXXn)(88.2155/812131902131902,812,522mmHgSXXn30标准差的量纲与原变量一致。标准差的量纲与原变量一致。标准差可以直接用于代数运算。标准差可以直接用于代数运算。标准差与均数结合能够完整地概
18、括一个标准差与均数结合能够完整地概括一个正态分布。正态分布。标准差越大意味着个体差异越大标准差越大意味着个体差异越大。31u变异系数(变异系数(coefficient of variation,CV)某地某地7岁男孩身高的均数为岁男孩身高的均数为123.10cm,标准差为,标准差为4.71;体重;体重均数为均数为22.59kg,标准差为,标准差为2.26kg,比较其变异度?比较其变异度?身高身高 体重体重不同量纲的变量间变异程度的比较。不同量纲的变量间变异程度的比较。均数差别较大的变量间变异程度的比较。均数差别较大的变量间变异程度的比较。%100XSCV%83.3%1001.12371.4CV
19、%14.10%10029.2226.2CV第四节第四节 正正 态态 分布分布32 正态分布首先由德国数学家和天文学家德正态分布首先由德国数学家和天文学家德莫阿弗尔(莫阿弗尔(A.de Movre,1667-1754)于)于1733年提出。德国数学家年提出。德国数学家Gauss将将其运用于天文学研究中,从而使正态分布为世人所知。其运用于天文学研究中,从而使正态分布为世人所知。因此,正态分布又称为因此,正态分布又称为Gauss分布。分布。33A.de MovreGauss34某单位101名正常成年女子的血清总胆固醇(mmol/L)频数分布组段(1)组中值X(3)频数f(2)频率(%)2.302.4
20、5 10.99%2.602.75 32.97%2.903.05 65.94%3.203.35 87.92%3.503.65 1716.83%3.803.95 2019.80%4.104.25 1716.83%4.404.55 1211.88%4.704.85 98.91%5.005.15 54.95%5.305.45 21.98%5.605.905.75 10.99%合计101100.00%将血清总胆固醇的横坐标用变量将血清总胆固醇的横坐标用变量X表示,第表示,第i组的组距和人数分别为组的组距和人数分别为Xi 和和 fi 表示,表示,n为总观察例数,则在为总观察例数,则在 X,X+Xi)区间内
21、每单位血区间内每单位血清总胆固醇的频率为:清总胆固醇的频率为:f(X)=(fi/n)/Xi 35 各矩形的面积恰好等于红细胞在区间内的频率(各矩形的面积恰好等于红细胞在区间内的频率(f(X)Xi=f i/n)面积的总和为面积的总和为1。36 假设观察的人数增多,组段不断细分,则直方图将逐渐假设观察的人数增多,组段不断细分,则直方图将逐渐接近于一条均匀连续的曲线,这条曲线所描述的分布,简接近于一条均匀连续的曲线,这条曲线所描述的分布,简称为正态分布。称为正态分布。37222)(21)(XeXfX-正态分布的密度函数,曲线方程为:正态分布的密度函数,曲线方程为:和和 e 是圆周率和自然对数的底,其
22、近似值分别为是圆周率和自然对数的底,其近似值分别为3.14159和和2.71828。和和是正态分布的两个参数,分别是总体的均数和标准差。是正态分布的两个参数,分别是总体的均数和标准差。nX2)(总体的自由度是总体的自由度是 n 而不是而不是 n-138正态分布的特征正态分布的特征正态分布以均数正态分布以均数为中心,左右对称。为中心,左右对称。正态分布曲线下面积集中在以均数正态分布曲线下面积集中在以均数为中心的中心部为中心的中心部分,越远离中心曲线下面积越小。分,越远离中心曲线下面积越小。正态分布曲线下面积分布有一定的规律。正态分布曲线下面积分布有一定的规律。正态分布曲线下面积的计算可以通过对其
23、概率密正态分布曲线下面积的计算可以通过对其概率密度函数积分来实现:度函数积分来实现:39dXeXFXX222)(21)(40正态分布完全由参数正态分布完全由参数和和决定。决定。标准正态分布及曲线下面积标准正态分布及曲线下面积 41 标准正态分布标准正态分布(Standard Normal Distribution)对任何参数的正态分布,都可以通过一个简单的变对任何参数的正态分布,都可以通过一个简单的变量变换量变换 化成化成 =0 和和 =1的标准正态分布。的标准正态分布。通常,可以利用标准正态分布表求出与原始变量通常,可以利用标准正态分布表求出与原始变量 X 有有关的概率值。关的概率值。XZ4
24、2ZeZZ,21)(22XeXfX,21)(222)(代入:代入:XZdZeZZZ2221)(43查附表查附表1 (-1.96)=?(-2.58)=?44 成年男性的红细胞数近似服从正态分布,假设其均数为成年男性的红细胞数近似服从正态分布,假设其均数为4.781012/L,标准差为,标准差为0.381012/L,想知道红细胞数在,想知道红细胞数在41012/L以下所占的比例。以下所占的比例。然后查附表然后查附表1得得(-2.05)=0.0202,表明红细胞数在,表明红细胞数在41012/L以下所占的比例为总体的以下所占的比例为总体的2%。05.238.078.44Z45u正态分布的应用正态分布
25、的应用利用正态分布可以很容易确定资料中任意数值利用正态分布可以很容易确定资料中任意数值出现的概率,医学参考值范围的估计。出现的概率,医学参考值范围的估计。准确地进行误差分析和质量控制。准确地进行误差分析和质量控制。正态分布是以后学习各种统计推断方法的理论正态分布是以后学习各种统计推断方法的理论基础基础。第五节第五节 医学参考值范围的制定医学参考值范围的制定4647u医学参考值范围的概念医学参考值范围的概念 正常人的解剖、生理、生化、免疫及组织代谢正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。产物的含量等各种数据的波动范围。目的:目的:1.基于临床事件,着眼于个体,作为
26、划分正常人和异常人的界基于临床事件,着眼于个体,作为划分正常人和异常人的界限。限。2.基于预防医学实践,着眼于人群,制定各种生理指标的等级基于预防医学实践,着眼于人群,制定各种生理指标的等级标准。标准。48u医学参考值范围的制定方法医学参考值范围的制定方法选择足够数量的正常人作为参照样本。选择足够数量的正常人作为参照样本。对选定的正常人进行准确的测定。对选定的正常人进行准确的测定。决定取单侧范围还是双侧范围值。决定取单侧范围还是双侧范围值。血清总胆固醇,过高或过低均属异常取双侧。血清总胆固醇,过高或过低均属异常取双侧。血清转氨酶仅过高属异常,取单侧。血清转氨酶仅过高属异常,取单侧。肺活量仅过低
27、属异常,取单侧。肺活量仅过低属异常,取单侧。49选择适当的百分范围。选择适当的百分范围。50正态分布法计算医学参考值范围。正态分布法计算医学参考值范围。单侧:单侧:双侧:双侧:SZXSZX2/表2-7 Z界值表参考值范围(%)单侧双侧800.841.28901.281.64951.641.96992.332.5851百分位数法计算医学参考值范围。百分位数法计算医学参考值范围。百分位数法参考值范围所对应的百分比百分范围单侧双侧(%)下限上限下限上限95P5P95P2.5P97.599P1P99P0.5P99.5XXLXiffXnLP%52百分位数法与正态分布法百分位数法与正态分布法前者适合任何分
28、布类型的资料,实际中最为常用。后前者适合任何分布类型的资料,实际中最为常用。后者仅适用于正态分布资料,适用范围较狭窄。者仅适用于正态分布资料,适用范围较狭窄。前者必须有较大的样本含量,否则结果不稳定。后者前者必须有较大的样本含量,否则结果不稳定。后者的结果比较稳定。的结果比较稳定。53表2-8 某年某地282名正常人尿汞值(g/L)测量结果尿汞值频数f累计频数f累计频率(%)0454516.0 8.064109 38.7 16.096205 72.7 24.038243 86.2 32.020263 93.3 40.011274 97.2 48.05279 98.9 56.02281 99.6
29、 64.01282 100.0 计算正常人尿汞的计算正常人尿汞的95%参考值范围。参考值范围。54)/(6.4381126395.02820.40%LgiffXnLPXXLX计算上侧界值第计算上侧界值第95的百分位数的百分位数小结小结u计量资料的统计描述,频数表的编制方法,及主要用途。计量资料的统计描述,频数表的编制方法,及主要用途。u集中趋势的统计描述,各类均数的计算方法,适用范围。集中趋势的统计描述,各类均数的计算方法,适用范围。u离散趋势的统计描述,衡量变异程度的各类统计学指标的离散趋势的统计描述,衡量变异程度的各类统计学指标的含义,以及其适用资料的类型。含义,以及其适用资料的类型。u正态分布、标准正态分布的特征,以及适用的资料类型。正态分布、标准正态分布的特征,以及适用的资料类型。u医学参考值制定的方法。医学参考值制定的方法。55