1、1第十五章第十五章 数值变量的统计分析数值变量的统计分析21频数分布表与频数分布图频数分布表与频数分布图2集中趋势的描述集中趋势的描述3离散趋势的描述离散趋势的描述4正态分布和医学参考值范围的估正态分布和医学参考值范围的估计计数值变量资料的统计描述数值变量资料的统计描述3 150 名名 3 岁女孩身高岁女孩身高(cm)资料如下资料如下80.1 100.1 97.0 96.7 97.9 100.7 86.2 91.7 94.7 90.8 97.1 95.8 92.5 82.5 102.6 99.1 96.6 99.3 85.2 89.2 90.6 95.1 93.6 93.7 95.1 97.3
2、84.4 104.8 101.3 98.7 101.5 87.1 89.0 92.7 96.8 92.7 94.9 99.4 91.187.2 83.5 103.2 101.6 84.4 88.4 91.8 93.6 99.2 94.4 86.4 91.7 88.489.3 84.2 82.3 84.5 87.9 89.4 91.9 94.5 86.9 95.6 96.5 92.5 85.789.1 86.5 85.0 87.6 89.3 90.4 92.1 95.0 89.3 96.3 96.2 94.3 99.591.3 89.7 87.4 89.8 88.7 90.2 92.9 97.2
3、 91.4 90.3 94.2 94.6 96.2一、数值变量资料的频数分布一、数值变量资料的频数分布4频数频数(frequency)对一组研究对象进行观察,某对一组研究对象进行观察,某变量或变量值出现的次数,就是变量值的个数。变量或变量值出现的次数,就是变量值的个数。频数分布:频数分布:变量在其取值范围内各组段分布情况。变量在其取值范围内各组段分布情况。用频数分布表(简称频数表)、频数分布图用频数分布表(简称频数表)、频数分布图表示表示。反映反映各变量值与其频数之间的关系,观察资料的各变量值与其频数之间的关系,观察资料的分布特征和分布类型,为进一步描述奠定基础。分布特征和分布类型,为进一步描
4、述奠定基础。5内容内容n 频数分布表的编制频数分布表的编制n 频数分布图频数分布图n 频数分布的特征频数分布的特征n 频数分布的类型频数分布的类型n 应用应用 6频数分布表的编制频数分布表的编制 例例1 1 某市随机测量了某市随机测量了150 名名 3 岁女孩的身岁女孩的身高高(cm)试编制频数分布表试编制频数分布表。测试结果如下:测试结果如下:频数分布表频数分布表780.1 100.1 97.0 96.7 97.9 100.7 86.2 91.7 94.7 90.8 97.1 95.8 92.5 82.5 102.6 99.1 96.6 99.3 85.2 89.2 90.6 95.1 93
5、.6 93.7 95.1 97.384.4 104.8 101.3 98.7 101.5 87.1 89.0 92.7 96.8 92.7 94.9 99.4 91.187.2 83.5 103.2 101.6 84.4 88.4 91.8 93.6 99.2 94.4 86.4 91.7 88.489.3 84.2 82.3 84.5 87.9 89.4 91.9 94.5 86.9 95.6 96.5 92.5 85.789.1 86.5 85.0 87.6 89.3 90.4 92.1 95.0 89.3 96.3 96.2 94.3 99.591.3 89.7 87.4 89.8 88
6、.7 90.2 92.9 97.2 91.4 90.3 94.2 94.6 96.2150 名名 3 岁女孩身高岁女孩身高(cm)资料如下资料如下81.计算全距:计算全距:全距又叫极差全距又叫极差(range),),以以R表示,指数据中最大值与最小值之差,表示,指数据中最大值与最小值之差,它描述了数据变异的幅度。它描述了数据变异的幅度。2.划分组段:划分组段:确定组数、组距和上下限。确定组数、组距和上下限。3.列表归组列表归组。为了简化资料为了简化资料组数不宜过多组数不宜过多组数也不能太少组数也不能太少否则就掩盖了数据分布的规律否则就掩盖了数据分布的规律一般取一般取815组,最常取组,最常取1
7、0组组具体视观察值个数具体视观察值个数n的多少而定的多少而定组距(组距(class interval)即每组间的距离即每组间的距离,以以i表示表示i=Rk 即全距组数即全距组数本例中本例中i=24.710=2.47为了便于分组,可以将为了便于分组,可以将 i 取整为取整为2确定了组数和组距就可以划分组段,确定了组数和组距就可以划分组段,每个组段的起点称每个组段的起点称“下限下限”,终点称,终点称“上限上限”。为避免含混,每个组段包含下限,为避免含混,每个组段包含下限,不包含上限,是个半开半闭区间不包含上限,是个半开半闭区间:)第一组必包含最小值,最后一组必包括最大值。第一组必包含最小值,最后一
8、组必包括最大值。本例:第一组下限取本例:第一组下限取80,上限,上限=下限下限+组距组距=82该值也是第二组的下限,以此类推。该值也是第二组的下限,以此类推。本例共划分本例共划分13个组段个组段。9 表表15-1 某市某市 150 名名 3 岁女孩身高的频数分布(岁女孩身高的频数分布(cm)组段组段 划记划记 频数频数 f (1)(2)(3)80 一一 1 82 T 3 84 正正T 8 86 正正正正 10 88 正正正正正正T 19 90 正正正正正正正正T 23 92 正正正正正一正正正正正一 26 94 正正正正正正正正T 24 96 正正正正正正T 17 98 正正正正 10 100
9、 正一正一 6 102 T 2 104106 一一 1 合计合计 150 -_-_10n 以直方图多见,更直观了解频数分布情况。以直方图多见,更直观了解频数分布情况。n 组距有等距与不等距之分。组距有等距与不等距之分。不等距是就变量值的划分而言,直方图的宽度不等距是就变量值的划分而言,直方图的宽度 始终相等始终相等。频数分布图频数分布图11图图15-1 15-1 某市某市150150名名3 3岁女孩身高的频数分布岁女孩身高的频数分布12年龄(岁)年龄(岁)患者人数患者人数 每岁患者人数每岁患者人数 年龄(岁)患者人数年龄(岁)患者人数 每岁患者人数每岁患者人数 0 3 3 8 8 8 1 3
10、3 9 6 6 2 9 9 10 36 3.6 3 11 11 20 13 1.3 4 23 23 30 11 1.1 5 22 22 40 4 0.4 6 11 11 5060 1 0.1 7 14 14某市某年乙脑患者的年龄分布某市某年乙脑患者的年龄分布1314集中趋势集中趋势(central tendency)3 3岁女孩身高虽然有高岁女孩身高虽然有高有矮,但向中间集中,中等身高(有矮,但向中间集中,中等身高(92-94cm92-94cm)的人数)的人数最多。最多。离散趋势离散趋势(tendency of dispersion)从中等身高向较)从中等身高向较矮或较高方向频数逐渐减少,向两
11、端离散矮或较高方向频数逐渐减少,向两端离散。频数分布频数分布特征特征15频数分布频数分布类型类型对称对称分布(正态分布)分布(正态分布)偏态偏态分布分布 16对称分布(正态分布):对称分布(正态分布):在频数分布图上在频数分布图上表现为中间高、两边低,左右两端对称并表现为中间高、两边低,左右两端对称并逐渐下降。逐渐下降。如:如:体温、血压、脉搏、体重、血糖值。体温、血压、脉搏、体重、血糖值。17偏态分布:偏态分布:频数分布不对称,在频数分布图上表现频数分布不对称,在频数分布图上表现为高峰偏向一侧,依高峰所在位置又分为正偏态分为高峰偏向一侧,依高峰所在位置又分为正偏态分布和负偏态分布两种。布和负
12、偏态分布两种。正偏态分布:正偏态分布:高峰偏高峰偏左侧左侧,即在观察值较小的一端,即在观察值较小的一端集中了较多的频数。集中了较多的频数。如:正常人体中某些非必需微量元素的频数分布。如:正常人体中某些非必需微量元素的频数分布。负偏态分布:负偏态分布:高峰偏高峰偏右侧右侧,较为少见。,较为少见。18238名正常人发汞值名正常人发汞值(g/g)的频数分布的频数分布发发 汞汞 值值 频频 数数 累计频数累计频数 累计频率累计频率 (1)(2)(3)(4)=(3)/238 0.3 20 20 8.4 0.7 6686 36.1 1.1 60 146 61.3 1.5 48 194 81.5 1.9 1
13、8 212 89.1 2.3 16 228 95.8 2.7 6 234 98.3 3.1 1 235 98.7 3.5 0 235 98.7 3.94.3 3 238 100.019 年龄组年龄组 恶性肿瘤死亡率恶性肿瘤死亡率(1/10万万)0 0.5 10 12 20 15 30 76 40 189 50 234 60 386 70 286某地某年恶性肿瘤死亡率的年龄分布某地某年恶性肿瘤死亡率的年龄分布20n 揭示资料的分布特征、分布类型。揭示资料的分布特征、分布类型。n 便于发现某些特大或特小的可疑值。便于发现某些特大或特小的可疑值。n 便于进一步计算统计学指标。便于进一步计算统计学指标
14、。频数分布表和频数分布图的频数分布表和频数分布图的应用应用21 又称又称平均数平均数(average),是统计学中应用最是统计学中应用最广泛、最重要的一个指标体系。广泛、最重要的一个指标体系。常用的有常用的有算术均数算术均数、几何均数几何均数、中位数中位数三个三个指标。用于描述一组同质计量资料的集中位置或指标。用于描述一组同质计量资料的集中位置或反映一组观察值的平均水平反映一组观察值的平均水平。二、集中趋势指标二、集中趋势指标(central tendency)22n 最常用,也简称最常用,也简称均数均数(meanmean)。n 反映一组数据在数量上的平均水平和在分布图上反映一组数据在数量上的
15、平均水平和在分布图上的集中位置。的集中位置。总体均数用总体均数用 表示,样本均数用表示,样本均数用 x x 表示表示n 适用于适用于描述描述对称分布、正态分布(或近似正态对称分布、正态分布(或近似正态 分布)资料分布)资料的集中趋势。的集中趋势。1 算术均数算术均数一一231.1.直接法直接法(用于(用于小样本小样本或有或有计算机及软件计算机及软件)将所有数据相加,再除以总例数。将所有数据相加,再除以总例数。X X1 1、X X2 2 Xn Xn为变量值为变量值,n n为总例数为总例数,为希腊字母为希腊字母,为求和符号为求和符号。nXnXXXXn 212410名名3岁女孩身高岁女孩身高(cm)
16、分别为:分别为:92.5、82.5、102.6、99.1、96.6、99.3、85.2、89.2、90.6、95.1,求其平均身高。求其平均身高。代入公式得:代入公式得:)()(cmX27.93101.955.825.92 252.加权法加权法(大样本大样本,一般以,一般以频数表频数表为基础)为基础)f1、f2fk为各组段频数为各组段频数,X1、X2 Xk 为为各组段各组段组中值组中值,即(本组下限,即(本组下限+下组下限下组下限)2,k为组数为组数。ffXfffXfXfXfXkkk21221126 1 1、编制频数表编制频数表 (1)(1)计算全距:计算全距:R=R=最大值最小值最大值最小值
17、 (2)(2)划分组段:划分组段:i i R/R/组数组数 (3)(3)列表划记:列表划记:2 2、计算公式、计算公式 3 3、列计算表计算均数、列计算表计算均数 ffXfffXfXfXfXkkk212211)(cmffXX79.9215013918加权法步骤加权法步骤27 表表 15-2 某市某市150名名3岁女孩身高均数的加权法计表岁女孩身高均数的加权法计表 组段组段 频数频数 组中值组中值 X fX (1)(2)(3)(4)(2)(3)80 1 81 8182 3 83 24984 8 85 68086 10 87 870 88 19 89 1691 90 23 91 209392 26
18、 93 2418 94 24 95 228096 17 97 164998 10 99 990 100 6 101 606102 2 103 206104 106 1 105 105合计合计 150(f)13918(fX)28用来描述用来描述对数正态分布对数正态分布(呈倍数关系呈倍数关系)资料。)资料。1.1.直接法直接法(用于小样本)(用于小样本)nn21XXXG nXnXXXnlglglglglglg12112 几何均数几何均数(geometric mean,G)29例例2 有有5人的血清抗体效价为人的血清抗体效价为:1:10,1:100,1:1000,1:10000,1:1000000。
19、求其平均效价求其平均效价?为计算方便,先求其倒数的平均效价:为计算方便,先求其倒数的平均效价:5份血清的平均抗体效价为份血清的平均抗体效价为1:1000。10003lg5100000lg100lg10lglglglg111 )(nXG302.加权法加权法(用于大样本、频数表资料)(用于大样本、频数表资料)f1、f2fk 为各组段频数为各组段频数,X1、X2 Xk 为倒数为倒数,k为组数为组数。fXffffXfXfXfGKKKlglg.lg.lglglg1212211131 例例3 3 35 35 人血清抗体滴度见下表,求平均滴度。人血清抗体滴度见下表,求平均滴度。代入公式:代入公式:得得 35
20、 35 人血清抗体平均滴度为人血清抗体平均滴度为 1:441:44。446428.1lg354967.57lglglg111)(fXfG32抗体滴度抗体滴度 人数人数f 滴度倒数滴度倒数X lgX flgX (1)(2)(3)(4)(5)=(2)(4)1:4 2 4 0.6021 1.2042 1:8 5 8 1.9031 4.5155 1:16 6 16 1.2041 7.2246 1:32 2 32 1.5051 3.0102 1:64 7 64 1.8061 12.6434 1:128 10 128 2.1072 21.0720 1:256 1 256 2.4082 2.4082 1:5
21、12 2 512 2.7093 5.4186 合计合计 35 57.4967(flgX)表表15-3 平均抗体滴度计算表平均抗体滴度计算表33n是将一组变量值是将一组变量值从小到大排序从小到大排序后后位次居中位次居中的变量值。的变量值。n主要用于描述主要用于描述偏态分布偏态分布资料;资料;开口资料开口资料(一端或两端无确定数据);(一端或两端无确定数据);变量值中有变量值中有个别过大或过小值个别过大或过小值资料的集资料的集中趋势。中趋势。3 中位数中位数(median,M)341.1.直接法直接法(用于小样本)(用于小样本)n n 为奇数时为奇数时,n n 为偶数时为偶数时,21nXM1222
22、1nnXXM35某病患者某病患者 5 人的潜伏期人的潜伏期(d)从小到从小到大排列为大排列为1,3,8,9,15天,求中位数天,求中位数。本例本例 n=5 为奇数为奇数,(天)8321XXMn36例例4 某病患者某病患者 10 人的潜伏期人的潜伏期(d)从小到大从小到大排列为排列为1,3,8,9,15,19,20,23,25,30,求中位数求中位数。此时此时 n 为偶数为偶数,(天)()(17191521212165122XXXXMnn37 百分位数百分位数是一种位置指标,以是一种位置指标,以 P PX X 表示,即表示,即将数据从小到大排列分为将数据从小到大排列分为100等份等份:P1、P2
23、P100。PX 就表示位于就表示位于X位置的数值位置的数值。中位数中位数就是位于就是位于50%位置的数值,是百分位位置的数值,是百分位数的一个特例。数的一个特例。2.频数表法频数表法38LX:第第X X百分位数所在组下限百分位数所在组下限iX:PX所在组的组距所在组的组距fX:PX所在组的频数所在组的频数 fL:PX所在组前一组的累计频数所在组前一组的累计频数LxxxxfxnfiLP%百分位数计算百分位数计算39中位数(频数表法)中位数(频数表法)LM:中位数所在组下限中位数所在组下限 iM:中位数所在组组距中位数所在组组距 fM:中位数所在组的频数中位数所在组的频数 fL:中位数所在组前一组
24、的累计频数中位数所在组前一组的累计频数LMMMfnfiLM240例例5 5 某医师调查了某医师调查了181181名食物中毒患者的潜名食物中毒患者的潜伏期,见下表,试用中位数反映其平均水平。伏期,见下表,试用中位数反映其平均水平。思路:思路:先判断中位数在哪一个组段,再用公式先判断中位数在哪一个组段,再用公式 计算。计算。41表表15-4 181名食物中毒患者的潜伏期名食物中毒患者的潜伏期潜伏期(小时)潜伏期(小时)人数人数f 累计频数累计频数 f 累计频率()累计频率()(1)(2)(3)(4)()(3)/n 0 30 30 16.57 12 63 93 51.38(16.57+34.81)2
25、4 47 140 77.35 36 20 160 88.40 48 12 172 95.03 60 8 180 99.45 72 84 1 181 100.0042本例中位数在第三组段,则本例中位数在第三组段,则L=12L=12,i=12i=12,f=63f=63,f fL L=30=30,代入公式得代入公式得:)(52.23)302/181(631212 2小时LMfnfiLM43n 先找到包含先找到包含PX的最小累计频数;的最小累计频数;n 该累计频数同行左边的组段值为该累计频数同行左边的组段值为L;n L同行右边的频数为同行右边的频数为fX(或(或fm););n L前一行的累计频数为前一
26、行的累计频数为fL;n 将上述已知条件代入计算将上述已知条件代入计算PX或或P50。计算百分位数及中位数技巧:计算百分位数及中位数技巧:44 描述一组同质计量资料离散程度。描述一组同质计量资料离散程度。常用指标常用指标有有极差极差、四分位数间距四分位数间距、方差方差、标准差标准差和和变异系数变异系数。例例 现有现有3 组健康女大学生口腔温度测得值,试分组健康女大学生口腔温度测得值,试分析其平均水平和离散趋势。析其平均水平和离散趋势。1组组 36.8 36.9 37.0 37.1 37.2 X1=37.0 2组组 36.5 36.9 37.0 37.1 37.5 X2=37.0 3组组 36.5
27、 36.7 37.0 37.3 37.5 X3=37.0三、离散趋势指标三、离散趋势指标45怎么才能完整的描述一组资料的特征?怎么才能完整的描述一组资料的特征?仅用集中趋势尚不能完全反映一组资料的特仅用集中趋势尚不能完全反映一组资料的特征。故应将征。故应将集中趋势集中趋势和和离散趋势离散趋势结合起来,才结合起来,才能更好地反映一组资料的特征。能更好地反映一组资料的特征。46 优点:优点:易理解易记忆。易理解易记忆。缺点:缺点:只能反映最大值与最小值的差距,组内其只能反映最大值与最小值的差距,组内其它数的变异反映不出来。它数的变异反映不出来。受最大值和最小值的影响,样本含量相差悬殊时受最大值和最
28、小值的影响,样本含量相差悬殊时不宜用。不宜用。适用范围:适用范围:适用于适用于开口资料除外的开口资料除外的任何分布资料。任何分布资料。1 极差极差(range,R)又称全距又称全距47 是特定的百分位数,把数列分为是特定的百分位数,把数列分为 100等份等份,前四分之一变量值比第前四分之一变量值比第25百分位数百分位数(P25)小小,称下四分位数,记作,称下四分位数,记作QL;后四分之一变量后四分之一变量值比第值比第75 5百分位数百分位数(P75)大,称上四分位数大,称上四分位数,记作,记作QU。四分位数间距四分位数间距=QU QL 2.四分位数四分位数(quartile,Q)48LX:第第
29、X X百分位数所在组下限百分位数所在组下限iX:PX所在组的组距所在组的组距fX:PX所在组的频数所在组的频数 fL:PX所在组前一组的累计频数所在组前一组的累计频数LxxxxfxnfiLP%百分位数计算百分位数计算49首先求资料的首先求资料的 P25 和和 P75由表可见由表可见P25 在在12 组段组段,L=12,i=12,f=63,fL=30,代入公式得:代入公式得:P25=同理可知同理可知 P75 在在24组段组段,L=24,i=12,f=47,fL=93,代入公式得:代入公式得:P75=)(90.14)30%25181(631212小时)(91.34)93%75181(471224小
30、时 例例6 求表求表15-4数据的四分位数间距数据的四分位数间距50表表15-4 18115-4 181名食物中毒患者的潜伏期名食物中毒患者的潜伏期潜伏期(小时)潜伏期(小时)人数人数f 累计频数累计频数 f 累计频率()累计频率()(1)(2)(3)(4)()(3)/n 0 30 30 16.57 12 63 93 51.38 24 47 140 77.35 36 20 160 88.40 48 12 172 95.03 60 8 180 99.45 72 84 1 181 100.0051 前面已计算出前面已计算出 P25=14.90,P75=34.91,代入公式得四分位数间距代入公式得四
31、分位数间距:QU QL=34.91 14.90=20.01(小时)(小时)52优点:优点:比极差稳定,误差较小。比极差稳定,误差较小。缺点:缺点:仍未考虑每一个数据的变异。仍未考虑每一个数据的变异。适用范围:适用范围:偏态分布资料偏态分布资料,特别是分布末端,特别是分布末端 无确定数据的资料。无确定数据的资料。53离均差:离均差:离均差平方和:离均差平方和:总体方差:总体方差:0X2X3 方差方差(variance)0XNX2254样本方差:样本方差:0X12_2nxXSn1 称称自由度自由度(degree of freedom),),常用常用 表示,表示,它描述了当它描述了当 X 选定时选定
32、时,n个变量值个变量值(X)中能自由变动的中能自由变动的 X 的个数。的个数。n1_ 55总体标准差:总体标准差:样本标准差:样本标准差:加权法:加权法:NX212nxXs1/22nnXX122fnfXfXs4 标准差标准差(standard deviation)56适用条件:适用条件:方差与标准差均用于描述方差与标准差均用于描述对称分布资料对称分布资料的的离散趋势,尤其是离散趋势,尤其是正态分布资料正态分布资料的离散趋势。的离散趋势。5745402X)(16.315515045401/222kgnnXXs150X例例7 5 个个 8 岁男孩的体重为:岁男孩的体重为:26,28,30,32,3
33、4,试求其标准差试求其标准差。5812945662fX)(61.411501501391812945661/222cmfnfXfXs13918fX例例 求表求表15-2中中150名名3岁女孩体重的标准差。岁女孩体重的标准差。59 表表 15-2 某市某市150名名3岁女孩身高均数的加权法计表岁女孩身高均数的加权法计表 组段组段 频数频数 组中值组中值 X fX fX2 (1)(2)(3)(4)(2)(3)(5)=(3)(4)80 1 81 81 656182 3 83 249 2066784 8 85 680 5780086 10 87 870 75690 88 19 89 1691 1504
34、99 90 23 91 2093 19046392 26 93 2418 224874 94 24 95 2280 21660096 17 97 1649 15995398 10 99 990 98010 100 6 101 606 61206102 2 103 206 21218104 106 1 105 105 11025合计合计 150(f)13918(fX)1294566(fX2)60n 描述事物描述事物变异程度变异程度:适用于正态分布资料:适用于正态分布资料(或或近似正态分布资料近似正态分布资料)。n 衡量均数的衡量均数的代表性代表性:当几组资料单位相同,均数相差不大时。当几组资料单
35、位相同,均数相差不大时。标准差大,表示变量值离均数较远,均数的标准差大,表示变量值离均数较远,均数的代表性差;代表性差;标准差小,表示变量值密集于均数两侧,均标准差小,表示变量值密集于均数两侧,均数的代表性好。数的代表性好。标准差的应用标准差的应用61n 标准差与均数共同描述正态分布资料的标准差与均数共同描述正态分布资料的特征,可用于特征,可用于确定医学参考值范围确定医学参考值范围。n 计算计算变异系数变异系数和和标准误标准误。62 用来用来比较度量衡单位不同比较度量衡单位不同或或均数相差均数相差悬殊悬殊的两组(或多组)资料的的两组(或多组)资料的变异程度变异程度。公式为:公式为:%100Xs
36、CV5 变异系数变异系数(coefficient of variation,CV)63 例例8 8 10 10名小学生,胸围名小学生,胸围 S S=3.0cm=3.0cm;背肌力背肌力 ,S S=2.5kg=2.5kg,试比较胸围与背肌力的离散程度。试比较胸围与背肌力的离散程度。cmX1.6737.0Xkg64胸围胸围 背肌力背肌力 变异指标变异指标显示显示:背肌力的变异程度大于胸围。:背肌力的变异程度大于胸围。%5.4%1001.670.3CV%8.6%1000.375.2CV65例例9 某地某地 200 名名 2 月月女婴的身高均数为女婴的身高均数为 56.9cm,标准差标准差2.3cm;
37、而同年该地而同年该地 150 名名 5 岁岁女孩的身高均数为女孩的身高均数为109.2cm,标准差标准差3.1cm。比比较不同年龄女性的身高的离散程度。较不同年龄女性的身高的离散程度。662 2月女婴身高:月女婴身高:5 5岁女孩身高:岁女孩身高:变异系数变异系数显示显示:2 2月女婴身高的离散度大于月女婴身高的离散度大于 5 5岁女孩身高的离散度岁女孩身高的离散度。%04.4%1009.563.2CV%84.2%1002.1091.3CV67 主要指标主要指标 资料类型资料类型 X、S 正态(近似正态)分布资料正态(近似正态)分布资料 G、lg-1 Slgx 对数正态分布(等比)资料对数正态
38、分布(等比)资料 M、QU QL 偏态分布、分布不明、分布末端偏态分布、分布不明、分布末端 无确定值资料无确定值资料总结:总结:一一68正态分布正态分布(normal distribution)也称高斯分布,是医学和生物学最常见也称高斯分布,是医学和生物学最常见的连续性分布。如正常人的生理生化指标:的连续性分布。如正常人的生理生化指标:身高、体重、红细胞数、血红蛋白等。身高、体重、红细胞数、血红蛋白等。1、正态分布的图形正态分布的图形四、正态分布和医学参考值范围的估计四、正态分布和医学参考值范围的估计6970正态分布的曲线函数:正态分布的曲线函数:为圆周率为圆周率:=3.1415926 e为自
39、然对数的底为自然对数的底:e=2.71828222)(21)(xexf71 为正态总体的均数:它描述了正态分布为正态总体的均数:它描述了正态分布的集中趋势位置,又称为的集中趋势位置,又称为位置参数位置参数。为为正态总体的标准差:它描述了正态分正态总体的标准差:它描述了正态分布的离散程度,又称为布的离散程度,又称为形状参数形状参数。727374 为了应用方便,将正态曲线进行为了应用方便,将正态曲线进行 u u 转换转换 使原来的正态分布变换为使原来的正态分布变换为=0,=1的标准正的标准正态分布态分布(standard normal distribution),亦称亦称 u 分布分布 ,此时公式
40、化成:此时公式化成:2221u)(ueXu标准正态分布标准正态分布7576n 正态曲线在横轴上方,均数处最高。正态曲线在横轴上方,均数处最高。n 以均数为中心,两侧对称,呈以均数为中心,两侧对称,呈“钟形钟形”分布。分布。n 正态分布有两个参数:正态分布有两个参数:位置参数位置参数 ;形状参数形状参数 正态分布可表示为正态分布可表示为 N N(,)标准正态分布可表示为标准正态分布可表示为 N N(0 0,1 1)n 正态曲线下横轴上方的面积有一定规律。正态曲线下横轴上方的面积有一定规律。正态分布正态分布特征特征77正态曲线下的正态曲线下的面积分布规律面积分布规律 正态分布正态分布 标准正态分布
41、标准正态分布 面积(概率)面积(概率)-1+1 -11 68.27%-1.64+1.64 -1.641.64 90.90%-1.96+1.96 -1.961.96 95.00%-2.58+2.58 -2.582.58 99.00%7880 又称为又称为正常值正常值,是指正常人的人体形,是指正常人的人体形态、功能和代谢产物等各种生理、生化指态、功能和代谢产物等各种生理、生化指标的波动范围。标的波动范围。医学参考值范围的估计医学参考值范围的估计81n 选择足够数量的正常人选择足够数量的正常人正常人:正常人:不具有对所研究指标有影响因素的不具有对所研究指标有影响因素的人,并不是指没有任何疾病或一切都
42、正常的人。人,并不是指没有任何疾病或一切都正常的人。n 对选定人的指标进行测量对选定人的指标进行测量n 确定确定单单、双侧双侧范围范围n 确定百分数范围:最常用确定百分数范围:最常用95%。制定医学参考值范围的制定医学参考值范围的步骤步骤8283n 资料必须呈正态分布或近似正态分布或经过变资料必须呈正态分布或近似正态分布或经过变量变换可变换成正态分布。否则,应当用其它方量变换可变换成正态分布。否则,应当用其它方法如百分位数法估计医学正常参考值范围。法如百分位数法估计医学正常参考值范围。应用正态分布理论估计医学参考值范围应用正态分布理论估计医学参考值范围必须注意必须注意:84n 样本含量必须足够
43、大,否则估计出的医学正样本含量必须足够大,否则估计出的医学正 常参考值范围就不够可靠。常参考值范围就不够可靠。n 总体必须有明确的定义和范围。总体必须有明确的定义和范围。n 观察仪器方法必须统一。观察仪器方法必须统一。85n 正态分布法:正态分布法:正态或近似正态分布资料正态或近似正态分布资料 双侧界值双侧界值 单侧上限单侧上限 单侧下限单侧下限 表表15-5 常用常用u值表值表医学参考值确定医学参考值确定方法方法(95%)uSX uSX uSX 参考值范围(参考值范围(%)单侧单侧 双侧双侧 80 0.842 1.282 90 1.282 1.645 95 1.645 1.960 99 1.
44、960 2.57686例例10 试根据表试根据表15-2中中150名名3岁女孩身岁女孩身高资料,估计该市高资料,估计该市3岁女孩身高的岁女孩身高的95%参考值范围参考值范围。83.8101.8cm6.496.18.9296.1SX87n 百分位数法:百分位数法:偏态分布资料(偏态分布资料(95%)双侧界限:双侧界限:(P2.5,P97.5)单侧上限:单侧上限:P95 单侧下限:单侧下限:P5 表表14-6 常用参考值范围对应得百分位数常用参考值范围对应得百分位数 Px百分范围百分范围 80 90 95 99 双侧双侧 单侧单侧 下限下限 P20 P10 P5 P1 上限上限 P80 P90 P
45、95 P99 下限下限 P10 P5 P2.5 P0.5 上限上限 P90 P95 P97.5 P99.5 n 百分位数法:百分位数法:偏态分布资料(偏态分布资料(95%)双侧界限:双侧界限:(P2.5,P97.5)单侧上限:单侧上限:P95 单侧下限:单侧下限:P5 表表15-6 常用参考值范围对应得百分位数常用参考值范围对应得百分位数 Px百分范围百分范围 80 90 95 99 双侧双侧 单侧单侧 下限下限 P20 P10 P5 P1 上限上限 P80 P90 P95 P99 下限下限 P10 P5 P2.5 P0.5 上限上限 P90 P95 P97.5 P99.5 (1)正态分布法:
46、正态或近似正态分布资料正态分布法:正态或近似正态分布资料(2)对数正态分布法:对数正态分布资料对数正态分布法:对数正态分布资料 (3)百分位数法:偏态分布资料百分位数法:偏态分布资料n双侧界限双侧界限(P2.5,P97.5)n单侧上限:单侧上限:P95;单侧下限:;单侧下限:P51lglglg(1.96)xxXS1.96XS1.64XS1.64XS1lglglg(1.64)xxXS1lglglg(1.64)xxXS89例例 将某地某年将某地某年200名正常成年人血铅名正常成年人血铅含量(含量(ug/100g)资料整理成下表,试)资料整理成下表,试估计该市正常成年人血铅含量的估计该市正常成年人血
47、铅含量的95%参考值范围。参考值范围。90组段组段 频数频数f 累计频数累计频数 f 累计频率()累计频率()3 47 47 23.59 50 97 48.515 44 141 70.5 21 27 168 84.027 18 186 93.033 5 191 95.539 5 196 98.045 2 198 99.051 1 199 99.55763 1 200 100.0200名血铅值频数表及名血铅值频数表及P95计算表计算表91此资料属偏态分布资料,且血铅含量过高此资料属偏态分布资料,且血铅含量过高属异常,因此应求上限属异常,因此应求上限P95。P95 =37.8(g/100g)即该市
48、成人血铅含量即该市成人血铅含量 95 医学参考值范医学参考值范围为围为37.8 g/100g 以下。以下。)186%95200(563392 应用正态统计理论或百分位数法估计医学正应用正态统计理论或百分位数法估计医学正常值时一定要防止绝对化,必须知道常值时一定要防止绝对化,必须知道 的范围只包括的范围只包括95%95%的正常人群的正常人群,必然会有必然会有5%5%的健康的健康者被遗漏;用者被遗漏;用 确定的医学正常值范围确定的医学正常值范围仍有仍有1%1%健康者被遗漏。因此在临床实践中应根据健康者被遗漏。因此在临床实践中应根据各方面情况综合考虑,防止漏诊或误诊。各方面情况综合考虑,防止漏诊或误
49、诊。sx96.1sx58.293例:例:某地调查正常成年男子某地调查正常成年男子144人的红细胞数人的红细胞数(近似正态分布),得均数(近似正态分布),得均数X=55.38 1012L,标准差标准差S=0.44 1012L。试估计该地正常成。试估计该地正常成 年男子红细胞数的年男子红细胞数的95%参考值范围。参考值范围。94因红细胞过多或过少都属异常,故此参考值范围应因红细胞过多或过少都属异常,故此参考值范围应是双侧范围。又因为此指标近似正态分布,故求法是双侧范围。又因为此指标近似正态分布,故求法如下:如下:X1.96 S=55.381.960.44=54.52(1012L)X1.96 S=5
50、5.381.960.44=56.24(1012L)由计算得该地正常成年男子红细胞数的由计算得该地正常成年男子红细胞数的95%参考参考值范围为值范围为54.52 56.24(1012L)。)。95例:例:某地调查某地调查110名健康成年男性的第一秒肺通气量名健康成年男性的第一秒肺通气量得均数得均数 X=4.2(L),标准差),标准差S=0.7(L)。据此估计)。据此估计该地成年男子第一秒肺通气量的该地成年男子第一秒肺通气量的95%参考值范围。参考值范围。96因第一秒肺通气量仅过低属异常,故此参考值范围因第一秒肺通气量仅过低属异常,故此参考值范围只需确定下限的单侧范围。又因近似正态分布,故只需确定