1、第九章第九章12 terminologystatistical description统计描述统计描述statistical inference统计推断统计推断parameter estimation参数估计参数估计Frequency distribution频数分布频数分布frequency table频数表频数表arithmetic Mean,average算术平均值算术平均值standard deviation标准差标准差variance方差方差range极差,全距,范围极差,全距,范围geometric mean几何平均值几何平均值median中位数中位数normal distribu
2、tion正态分布正态分布reference range参考值范围参考值范围3统计分析包括统计分析包括统计描述统计描述和和统计推断统计推断两大部分。两大部分。l统计描述统计描述(statistical description)是用统计指标、统计是用统计指标、统计表和统计图描述资料的分析规律及其数量特征;表和统计图描述资料的分析规律及其数量特征;l统计推断统计推断(statistical inference)包括总体参数估计和假包括总体参数估计和假设检验两个内容。设检验两个内容。参数估计参数估计:是用样本统计量估计总体参数所在范围。是用样本统计量估计总体参数所在范围。假设检验假设检验:是利用样本的
3、实际资料来检验事先对总体某是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否成立。些数量特征所作的假设是否成立。假设检验参数估计统计推断统计描述统计分析4一、一、数值变量资料的频数分布数值变量资料的频数分布二、二、平均水平指标平均水平指标三、三、离散程度指标离散程度指标5l1.频数表频数表(frequency table)的编制方法的编制方法 l2.频数分布的两个特征及两种类型频数分布的两个特征及两种类型 l3.频数表的用途频数表的用途 特征特征离散趋势离散趋势类型类型一、数值变量资料的频数分布一、数值变量资料的频数分布集中趋势集中趋势对称分布对称分布偏态分布偏态分布6例例9.1某
4、地用某地用随机抽样的方法对随机抽样的方法对140名健康成名健康成年男性血清尿素氮(年男性血清尿素氮(BUN)浓度进行了检测,浓度进行了检测,所得数据如表所得数据如表9-1,如何进行统计描述,如何进行统计描述。76.005.283.905.304.203.905.605.664.104.004.503.774.344.304.225.305.133.794.805.204.702.945.904.502.105.605.902.854.904.225.633.214.663.005.963.453.504.233.903.884.244.534.882.483.403.263.213.602.7
5、34.154.604.354.965.615.875.014.335.744.873.963.003.933.155.003.443.502.854.874.603.404.793.026.234.982.895.826.305.205.403.002.804.434.505.526.404.865.904.703.474.664.785.702.264.103.705.403.704.374.206.104.805.105.552.975.113.263.046.015.074.225.395.344.473.585.264.544.073.833.976.054.022.692.525.2
6、16.554.284.455.154.455.373.803.734.492.442.763.333.016.433.552.63表表9-1某地某地140名健康成年男性血清尿素氮浓度名健康成年男性血清尿素氮浓度(mmol/L)8统计描述的内容:统计描述的内容:一、制频数一、制频数(分布分布)表表(表表9-2)9-2)和频数分布图和频数分布图(图图9-1)9-1)频数表的用途频数表的用途(1)(1)揭示资料的分布特征和分布类型揭示资料的分布特征和分布类型(2)(2)便于发现某些特大或特小的可疑值便于发现某些特大或特小的可疑值(3)(3)便于进一步计算便于进一步计算统计统计指标和统计分析处理指标和
7、统计分析处理二、计算统计指标二、计算统计指标(1)(1)计算平均值计算平均值代表一组资料的平均水平;代表一组资料的平均水平;(2)(2)计算标准差计算标准差-反映资料的离散程度。反映资料的离散程度。三、绘制统计表和统计图三、绘制统计表和统计图9一、编制频数分布表:制表步骤:一、编制频数分布表:制表步骤:(1)(1)求求极差极差或全距或全距(range)(range):R=R=X Xmaxmax X Xminmin本例,本例,R=6.55R=6.552.102.104.45(4.45(m mmol/L)mol/L)。(2)(2)决定组数、组段数和划分组距决定组数、组段数和划分组距(class i
8、nterval)(class interval):根据样本含量的多少确定组数,一般设根据样本含量的多少确定组数,一般设8 81515组。组。组段数组段数=取整取整(极差极差/组数组数)。本例:组段数本例:组段数=取整取整(4.45/12)=0.37(4.45/12)=0.37 0.40.4划分组距:每组段的起点和终点分别称为划分组距:每组段的起点和终点分别称为下限下限和和上限上限。组距:本组内组距:本组内的的上上限限和下和下限限之差。之差。组段的划分组段的划分2.02.42.83.23.64.04.44.85.25.66.06.46.812345678910111210(3)(3)列频数表:按
9、上述组段序列列频数表:按上述组段序列制成表的形式,采用划记法或制成表的形式,采用划记法或计算机将原始数据汇总,得出计算机将原始数据汇总,得出各组段中所包含的观察例数,各组段中所包含的观察例数,即为频数,如表即为频数,如表9-29-2的第的第 (2)(2)栏。栏。将各组段及其相应的频数列成将各组段及其相应的频数列成表格,即为频数表表格,即为频数表(frequency(frequency table)table),如,如表表9-29-2。所绘的图形。所绘的图形见图见图9-19-1。表表9-2 140名健康成年男性血清尿名健康成年男性血清尿素氮浓度素氮浓度(mmol/L)频数表频数表尿尿素氮素氮浓度
10、浓度(mmol/L)频数频数频率频率(%)2.0021.432.4075.002.80139.293.201410.003.601510.714.001913.574.401812.864.801611.435.201410.005.60139.296.0064.286.406.8032.14合计合计140100.0011尿素氮浓度尿素氮浓度(mmol/L)频数频数累计频数累计频数频率频率(%)累计频率累计频率(%)2.00221.431.432.407956.42.8013229.2915.713.2014361025.713.60155110.7136.434.00197013.5750.
11、004.40188812.8662.864.801610411.4374.295.20141181084.295.60131319.2993.576.0061374.2897.866.406.8031402.14100.0合计合计140-100-12051015频数22.42.83.23.644.44.85.25.666.46.8X2713141519181614136227131415191816141362图9-1 图图9-1 140名健康成年男性血清尿素氮浓度名健康成年男性血清尿素氮浓度频数分布图频数分布图13资料的分布类型:资料的分布类型:1.对称分布或正态分布;对称分布或正态分布;2
12、.2.偏态分布偏态分布(正、负正、负):高峰在左侧或右侧;高峰在左侧或右侧;3.3.不规则分布:分布很散,无明显高峰不规则分布:分布很散,无明显高峰14l(1)可以将原来相对杂乱的数据以相对直可以将原来相对杂乱的数据以相对直观、有序的表格或图形的形式描述,便观、有序的表格或图形的形式描述,便于进一步分析。于进一步分析。l(2)揭示资料的分布类型,便于进一步计揭示资料的分布类型,便于进一步计算算统计统计指标和统计分析处理指标和统计分析处理l(3)用于描述频数分布的特征用于描述频数分布的特征(4)便于发现某些特大或特小的可疑值,)便于发现某些特大或特小的可疑值,15l1、1800,1900,190
13、0,2000,2000,2000,2000,2100,2100,2200,l平均工资为2000.l2、1800,1900,1900,2000,2000,2000,2000,2100,2100,10000l平均工资为2800,合理吗?16l1、8名某病患者血清抗体滴度为:1:2,1:4,1:8,1:16,1:32,1:64,1:128。l2、某医院收治某癌症患者6人,其生存时间(月)分别为10,8,19,6,20,2517 二、集中趋势的描述二、集中趋势的描述集中趋势:集中趋势:平均数平均数(average):是描述一组同质观察值的集中趋势或平是描述一组同质观察值的集中趋势或平均水平的指标体系。
14、均水平的指标体系。一、意义:一、意义:反映一组同质变量值的平均水平或分布的集中位置。反映一组同质变量值的平均水平或分布的集中位置。作为一组资料的代表值,便于组间的分析比较。作为一组资料的代表值,便于组间的分析比较。二、卫生领域常用的平均数指标:二、卫生领域常用的平均数指标:(一)算术均数(一)算术均数 (二)几何均数(二)几何均数 (三)中位数(三)中位数 其他平均数:调和平均值其他平均数:调和平均值、众数、众数 18算术均数算术均数(arithmetic mean,average):l 简称均数简称均数,等于所有观察值的总和除以观察值的个数等于所有观察值的总和除以观察值的个数l 常用常用 表
15、示样本均数,希腊字母表示样本均数,希腊字母表示总体均数。表示总体均数。l 计量资料最常用的平均数。计量资料最常用的平均数。l1、适用条件:服从对称分布(特别是服从正态分布、适用条件:服从对称分布(特别是服从正态分布 或近似正态分布)或偏度不大的的计或近似正态分布)或偏度不大的的计 量资料量资料 X19nXnXXXXin 2120l某班级中10名女孩身高测量值分别为132.4,151.3,137.6,求其平均身高。cmnXXi2.142106.1373.1514.132 21l加权法加权法:(weighting method)l xi 为第为第i组的组中值组的组中值,fi 为第为第i组的例数组的
16、例数iiikkkfXffffXfXfXfX 21221122表表9-2分组资料加权法计算平均值及标准差用表分组资料加权法计算平均值及标准差用表尿尿素氮素氮浓度浓度(mmol/L)组组中值(中值(xi)频数频数(fi)fi xifi xi22.002.2024.409.682.402.60718.2047.322.803.001339.00117.003.203.401447.60161.843.603.801557.00216.604.004.201979.80335.164.404.601882.80380.884.805.001680.00400.005.205.401475.60408.
17、245.605.801375.40437.326.006.20637.20230.646.406.806.60319.80130.68合计合计-140616.802875.36)/(41.414080.616LmmolfxfXiiil直接法结果为4.38mmol/L23(二二)几何均数几何均数(geometric mean,G)1、计算方法:、计算方法:直接法直接法:G等于所有等于所有n个观察值的乘积的个观察值的乘积的n次方根次方根 nnXXXG.21)lg(lg)lglglg(lg1211nXnXXXGin 24l8份血清的某种抗体效价分别为1:200,1:25,1:400,1:800,求其
18、平均效价。l先求其倒数的几何均数,l平均效价为1:100.100)816(lg)825lg25lg200lg(lg11 G25加权法加权法:i 为第为第i组的组中值组的组中值(或观察值或观察值),fi 为第为第i组例数组例数:)lg(lg).lg.lglg(lg12122111fXffffXfXfXfGkkk 26抗体滴度抗体滴度(i)人数人数fi滴度倒数滴度倒数Xilg(Xi)filg(Xi)(1)(2)(3)(4)(5)=(2)(4)1:4140.60210.60211:8380.90312.70931:1615161.204118.06151:3232321.505148.16321:6
19、443641.806277.66661:128111282.107223.17921:25652562.408212.04101:51225122.70935.4186合计合计112-187.8415表表9-4 某地某地34名儿童接种麻疹疫苗后血清血凝抑制抗体滴度名儿童接种麻疹疫苗后血清血凝抑制抗体滴度血清血凝抑制抗体的几何平均滴度为血清血凝抑制抗体的几何平均滴度为1:47.55。55.47)1128415.187(lg1G27l2、几何均数的适用条件、几何均数的适用条件:l(1)等比数列资料)等比数列资料.l(2)原始观察值呈偏态分布、但经过对数变)原始观察值呈偏态分布、但经过对数变换后呈正
20、态分布或近似正态分布的资料。如疾换后呈正态分布或近似正态分布的资料。如疾病的潜伏期、抗体滴度、平均效价等。病的潜伏期、抗体滴度、平均效价等。l注意:同一组观察值的几何均数总是小于它的注意:同一组观察值的几何均数总是小于它的算术均数。算术均数。28l1.几何均数常用于几何均数常用于等比资料,等比资料,或用于或用于对数正态对数正态分布资料。分布资料。l 多应用于血清学和微生物学。如抗体的平多应用于血清学和微生物学。如抗体的平均滴度和平均效价、卫生事业平均发展速度、均滴度和平均效价、卫生事业平均发展速度、人口的几何增长等;人口的几何增长等;l2.观察值观察值不能有不能有0。l 因为因为0 0不能取对
21、数,不能与任何其他数呈不能取对数,不能与任何其他数呈倍数关系。否则在作对数变换之前需要加一个倍数关系。否则在作对数变换之前需要加一个常数。常数。l3.观察值观察值不能同时有正值和负值不能同时有正值和负值。l 若全是负值,计算时可把负号去掉,得出若全是负值,计算时可把负号去掉,得出结果后再加上负号。结果后再加上负号。29(三三)中位数中位数(median,P50或或M)和百分位数和百分位数:中位数中位数:将观察值按大小排序后,位次居中的观察值。将观察值按大小排序后,位次居中的观察值。M=X(P=50%)1、计算方法、计算方法直接法直接法:设设n 为观察值的个数为观察值的个数,有公式有公式(9-5
22、)及及(9-6)/2/21nnnMXX()为偶数时:/2(1)/2nnMX为奇数:30把一组数据从小到大排列,分成把一组数据从小到大排列,分成100等份,等份,各等份含各等份含1的观察值,分割界限上的值就的观察值,分割界限上的值就是是百分位数百分位数,用,用PX表示。表示。它是一种位置指标,即一个百分位数它是一种位置指标,即一个百分位数PX将将总体或样本的全部变量值分为两部分,理总体或样本的全部变量值分为两部分,理论上有论上有X%的变量值比它小,有(的变量值比它小,有(100-X)%的变量值比它大。的变量值比它大。31例9-5 8 8名食物中毒患者的潜伏期分别为名食物中毒患者的潜伏期分别为1
23、1、2 2、3 3、3 3、4 4、5 5、8 8、1616小时,求中位数。小时,求中位数。M=(3+43+4)/2=3.5(/2=3.5(小时)小时)例例9-6 9-6 某传染病某传染病1111名患者的潜伏期(天)分别名患者的潜伏期(天)分别为为1 1、2 2、2 2、3 3、3 3、4 4、5 5、6 6、7 7、7 7、9 9 M=4 4(天)(天)32频数表法频数表法:Lx:第第x百分位数所在组段下限百分位数所在组段下限ix:第第x百分位数所在组段的组距百分位数所在组段的组距fx:第第x百分位数所在组段频数百分位数所在组段频数fL:小于小于L的累计频数的累计频数79%Lxxxfxnfi
24、LM33血血铅值铅值(mol/L)人数人数f累计频数累计频数f累计频率累计频率(%)(1)(2)(3)(4)=(3)n022226.470.25365817.060.50238123.820.754212336.181.004116448.241.255521964.411.503625575.001.752828383.242.001529887.652.252432294.712.50632896.472.75933799.123.003.253340100.00 合计合计340表表9-5 340名名7岁以下儿童血铅值的频数分布岁以下儿童血铅值的频数分布(中位数计算中位数计算)L:中位数组
25、段下限值中位数组段下限值,fL:小于小于L的累计频数的累计频数,i:中位数组距中位数组距,f50%:中位数组频数中位数组频数.L=1.25fL=164 i=00.25f50%=55LxxxfnfiLM%50.)/(28.1)164%50340(55625.025.1%50.50LmolfnfiLPMLxxx342、适用条件、适用条件 中位数不仅可以用于任何分布的定中位数不仅可以用于任何分布的定量资料,(对称分布、偏态分布,不规量资料,(对称分布、偏态分布,不规则分布),还可以用于开口资料(含不则分布),还可以用于开口资料(含不确定数值资料)。确定数值资料)。35(1)小于)小于M的观察值个数与
26、大于的观察值个数与大于M的观察值个数相等。的观察值个数相等。(2)不是由全部观察值计算出来的)不是由全部观察值计算出来的,因而因而M不受个别特小不受个别特小 或特大观察值的影响,这一点优于均数,适用于明显或特大观察值的影响,这一点优于均数,适用于明显 偏态、两端无确定值、分布不规则或分散度很高的资料偏态、两端无确定值、分布不规则或分散度很高的资料.(3)只受居中观察值波动的影响,因而)只受居中观察值波动的影响,因而不敏感不敏感(4)当数据分布对称的时候,理论上中位数等于算术均)当数据分布对称的时候,理论上中位数等于算术均 数,当数据分布对数转换后对称时,理论上中位数等数,当数据分布对数转换后对
27、称时,理论上中位数等 于几何均数。于几何均数。(5)用中位数代替均数、几何均数会减低灵敏度,且进一步统)用中位数代替均数、几何均数会减低灵敏度,且进一步统计处理的方法较少,所以实际工作中,应当尽量使用算术均计处理的方法较少,所以实际工作中,应当尽量使用算术均数或几何均数。数或几何均数。36l可用于任何频数分布的资料。可用于任何频数分布的资料。l可用来描述资料的观察值序列在某百分位置的水可用来描述资料的观察值序列在某百分位置的水平,中位数是其中的一个特例。平,中位数是其中的一个特例。l 多个百分位数结合使用常常可以用来说明某一特多个百分位数结合使用常常可以用来说明某一特定的问题,如用定的问题,如
28、用P25、P75描述资料的离散程度,用描述资料的离散程度,用P2.5、及、及P97.5规定医学规定医学95%的参考值范围。的参考值范围。l分布中部的百分位数稳定,具有较好的代表性;分布中部的百分位数稳定,具有较好的代表性;但靠近两端的百分位数仅在样本例数比较大时才但靠近两端的百分位数仅在样本例数比较大时才比较稳定(如比较稳定(如n大于大于100)。当样本例数不多时,)。当样本例数不多时,不宜取太近两端的百分位数。不宜取太近两端的百分位数。37计量资料集中趋势指标适用条件总结计量资料集中趋势指标适用条件总结反映资料的集反映资料的集中趋势的指标中趋势的指标适用的资料类型适用的资料类型1.算术均数算
29、术均数对称分布,特别是正态或近似正态分布资料。对称分布,特别是正态或近似正态分布资料。2.几何均数几何均数适用于对数正态或近似对数正态分布资料适用于对数正态或近似对数正态分布资料3.中位数中位数 分布不规则的资料,分散程度大的资料,明显分布不规则的资料,分散程度大的资料,明显偏态,分布不明偏态,分布不明38三、三、离散程度的统计描述离散程度的统计描述(Measures of DispersionMeasures of Dispersion)39 例例 对甲乙两名高血压患者连续观察对甲乙两名高血压患者连续观察5天,测得的天,测得的收缩压收缩压(mmHg)mmHg)结果结果如下:如下:可以看出:两
30、患者收缩压的均数十分接近可以看出:两患者收缩压的均数十分接近,但甲患者的血但甲患者的血压波动较大,而乙患者相对稳定。通常,描述一组观察值,压波动较大,而乙患者相对稳定。通常,描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情除需要表示其平均水平外,还要说明它的离散或变异的情况。况。患者患者第第1天天第第2天天第第3天天第第4天天第第5天天均数均数甲患者甲患者 162145178142186162.6乙患者乙患者 164160163159166162.4X40l一类是按一类是按间距间距计算:计算:l 极差、四分位数间距极差、四分位数间距l一类则按一类则按平均差距平均差距计算:计算
31、:l 方差、标准差等方差、标准差等 41(一)(一)全距全距(Range,(Range,用符号用符号R R表示表示)也称作也称作极差极差,即观察值中最大值和最小值之差,即观察值中最大值和最小值之差,用符号用符号R R 表示表示。如前例甲乙两患者收缩压的极差分别。如前例甲乙两患者收缩压的极差分别为为 该法简单明了、容易使用,如用于说明传染病、该法简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等;缺点是不全面,食物中毒等的最短、最长潜伏期等;缺点是不全面,易受极端值影响,结果不稳定。易受极端值影响,结果不稳定。(mmHg)44142186甲R(mmHg)7159166乙R42l
32、四分位数:四分位数:P P7575、P P5050、P P25253 3个点将全部观察值个点将全部观察值分为四个部分,处于分位点上的数值即为四分为四个部分,处于分位点上的数值即为四分位数分位数l四分位数间距四分位数间距Q:QQU QLP75 P25l 其间包括了一组观察值的一半,故四分位数其间包括了一组观察值的一半,故四分位数间距可看成是中间间距可看成是中间50%50%观察值的极差。观察值的极差。43四分位数间距的计算四分位数间距的计算(interquartile range,Q):25%位数计算公式:位数计算公式:75%位数计算公式位数计算公式)/(77.0)81%25340(4225.07
33、50.0%25.25LmolfnfiLPLxxx)/(75.1%75.75LmmolfnfiLPLxxx血血铅值铅值(mol/L)人数人数f累计频数累计频数f累计频率累计频率(%)(1)(2)(3)(4)=(3)n022226.470.25365817.060.50238123.820.754212336.181.004116448.241.255521964.411.503625575.001.752828383.242.001529887.652.252432294.712.50632896.472.75933799.123.003.253340100.00 合计合计34044四分位数间距
34、(四分位数间距(interquartile range,Q)计算公式:Q=P75 P25=1.75-0.77=0.98(mmol/L)X0%X25%X50%X75%X100%|Q|0 0.77 1.25 1.75X1 Xn45l适用于描述偏态分布、一端或两端无确切数值、适用于描述偏态分布、一端或两端无确切数值、分布不明确资料的离散程度。分布不明确资料的离散程度。l四分位数间距越大,数据分布的变异度越大四分位数间距越大,数据分布的变异度越大;反之,反之,变异度越小。变异度越小。l与中位数一起描述偏态分布资料的分布特征。与中位数一起描述偏态分布资料的分布特征。l作为描述数据分布离散程度的指标,比极
35、差稳定,作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,未考虑全部观察但仍未考虑到每个数据的大小,未考虑全部观察值的变异度,在统计分析中应用的不够普遍。值的变异度,在统计分析中应用的不够普遍。46l为了全面考虑每个观察值的变异情况,克服极差和为了全面考虑每个观察值的变异情况,克服极差和四分位数间距的缺点,引入了四分位数间距的缺点,引入了“方差方差”l均方差(均方差(mean square deviation,MS,均方),反均方),反映一组数据的平均离散水平。映一组数据的平均离散水平。X0)(X2)(XNX22)(1)(22 nXXS47l 计算:22()XN1)(1)
36、(2222 nnXXnXXS48l随机变量能够自由取值的个数随机变量能够自由取值的个数l符号为符号为 ,读作,读作niu。l如如n4的样本受到的样本受到 的条件限制,可自的条件限制,可自由取值的数字只有由取值的数字只有3个。个。限限制制条条件件的的个个数数 n 5 X49方差的特点方差的特点l适用条件:适用条件:对称分布资料,特别是正态分对称分布资料,特别是正态分布或近似正态分布资料。布或近似正态分布资料。l意义:意义:方差越大,数据间的变异越大方差越大,数据间的变异越大l优点:优点:利用了每个数据的信息,是常用的利用了每个数据的信息,是常用的 l 描述数据分布离散程度指标描述数据分布离散程度
37、指标l不足:不足:度量衡单位发生了改变,度量衡单位发生了改变,不便于实不便于实际应用。际应用。为此,更常用的是标准差。为此,更常用的是标准差。50l将方差开方,恢复成原度量单位,得总体标准差将方差开方,恢复成原度量单位,得总体标准差 和样本标准差和样本标准差 S Sl 计算:计算:直接法:直接法:加权法加权法:2()XN 222()()11XXXXnSnn 1/)(22 fffXfXS51(四)标准差(四)标准差(Standard Deviation)例如对于例例如对于例9-29-2,经计算经计算有有 1.1422X37.0292422X10n(cm)74.811010/1.142237.20
38、29242S52标准差的应用标准差的应用(1)适用条件同方差适用条件同方差,表示观察值的变异程度,表示观察值的变异程度(离散离散程度程度):在两组在两组(或几组或几组)资料均数相近、度量单位资料均数相近、度量单位相同的条件下,标准差大,表示观察值的变异度相同的条件下,标准差大,表示观察值的变异度大,即各观察值离均数较远,均数的代表性较差。大,即各观察值离均数较远,均数的代表性较差。53l例2-13:某地40名7岁男童的身高均数为121.48cm,标准差为4.65cm;体重均数为22.18kg,标准差为2.35kg。l 试比较其变异程度的大小?54l定义:标准差与算术均数之比,定义:标准差与算术
39、均数之比,l它描述了相对于算术均数它描述了相对于算术均数 而言,标准差的大小,而言,标准差的大小,即描述数据的变异相对于其平均水平来说是大还即描述数据的变异相对于其平均水平来说是大还是小。是小。l计算公式计算公式%100 XSCVX55l适用条件:适用条件:l 常用于比较常用于比较度量单位不同度量单位不同或或均数相差均数相差悬殊悬殊的两组的两组(或多组或多组)资料的变异度。资料的变异度。l意义:意义:CV大则说明变异较大大则说明变异较大56%60.10%10018.2235.2%83.3%10048.12165.4体重身高CVCV57描述性统计量归纳描述性统计量归纳反映资料的集中反映资料的集中
40、趋势的指标趋势的指标反映资料的离反映资料的离散情况指标散情况指标适用的资料类型适用的资料类型1.算术平均数算术平均数方差及标准差方差及标准差对称分布,特别是正态或近似对称分布,特别是正态或近似正态分布资料。正态分布资料。2.几何平均数几何平均数几何标准差几何标准差适用于对数正态或近似对数正适用于对数正态或近似对数正态分布资料态分布资料等比资料等比资料3.中位数中位数 四分位数间距四分位数间距或百分位数或百分位数分布不规则的资料,分散程度分布不规则的资料,分散程度大的资料大的资料5859第二节第二节 正态分布和医学参考值范围正态分布和医学参考值范围一、正态分布一、正态分布(normal dist
41、ribution)60图图9-2频数分布逐渐向正态分布接近频数分布逐渐向正态分布接近表表9-2 140名健康成年男性血名健康成年男性血清尿素氮浓度清尿素氮浓度(mmol/L)频数表频数表尿尿素氮素氮浓度浓度(mmol/L)频数频数 频率频率%2.002 1.432.407 5.002.8013 9.293.2014 10.003.6015 10.714.0019 13.514.4018 12.864.8016 11.435.2014 10.005.6013 9.296.006 4.286.406.803 2.14合计合计140 100.0061(一一)正态分布的图形正态分布的图形可以设想,可以
42、设想,如果如果观察例数逐渐增多,组段数也不断增多,观察例数逐渐增多,组段数也不断增多,就会形成一条光滑曲线就会形成一条光滑曲线图图9-2(3)。称为正态分布曲线。称为正态分布曲线。这条正态分布这条正态分布曲线的特点为曲线的特点为:高峰位于中央均数所在处、两侧逐渐降低高峰位于中央均数所在处、两侧逐渐降低;左右对称左右对称;曲线曲线在无穷远处在无穷远处与横轴相交。与横轴相交。把服从正态分布的变量表示为:把服从正态分布的变量表示为:XN(,2)正态分布正态分布曲线曲线由两个参数确定:由两个参数确定:平均数平均数,称位置参数,决定平均数所在的位置;称位置参数,决定平均数所在的位置;方差方差2,称形状参
43、数,决定曲线的高低宽窄。称形状参数,决定曲线的高低宽窄。62横坐标用变量横坐标用变量X X表示,第表示,第i i组的组距和人数分别用组的组距和人数分别用X Xi i和和f fi i表示,表示,n n为总观察例数,那么在为总观察例数,那么在 X,X+X,X+X Xi i)区间区间内每单位尿毒氮浓度的频率为内每单位尿毒氮浓度的频率为 f f(x x)称作密度函数。将图称作密度函数。将图2.12.1表示人数的表示人数的纵坐标换成纵坐标换成f f(x x)后可以得到下图。)后可以得到下图。iiXnfXf/)/()(63 虽然两个图的纵坐标含义各异,但图的形状却虽然两个图的纵坐标含义各异,但图的形状却完
44、全相同。完全相同。任意矩形的面积的特殊意义:任意矩形的面积的特殊意义:矩形的面积恰好等于尿素氮浓度在这一区间内矩形的面积恰好等于尿素氮浓度在这一区间内出现的频率出现的频率f f(x x)*Xi=Xi=fi/nfi/n,所有矩形面积的,所有矩形面积的总和,即为累计频率,应当为总和,即为累计频率,应当为1 1。64服从服从正态分布正态分布的变量的变量X的概率的概率密度函数密度函数f(X)为为 212(916)1X2XfeX 表示为:表示为:uN(0,1),即平均值为即平均值为0、方差为、方差为1的正态分布。的正态分布。212(917)12uf uueu 为实际应用方便,将一般正态分布转换为标准正态
45、分布。为实际应用方便,将一般正态分布转换为标准正态分布。转换公式为:转换公式为:u=(X-),u称为标准正态变量。称为标准正态变量。服从标准服从标准正态分布正态分布的变量的变量u的概率的概率密度函数密度函数f(u)为为65A.正态分布正态分布 B.标准正态分布标准正态分布图图9-3 正态分布与标准正态分布的面积与纵高正态分布与标准正态分布的面积与纵高按式按式(9-16),根据,根据X的不同取值,绘出正态分布的不同取值,绘出正态分布(normal distribution)的图形的图形(图图9-3A)。按式按式(9-16),根据,根据u的不同取值,绘出标准正态分布的不同取值,绘出标准正态分布(s
46、tandard normal distribution)的图形的图形(图图9-3B)。Xu66参数 和 参数:即正态总体的均数,它描述了正态分布的集中趋势位置,决定了分布曲线在横轴的位置。是位置参数。参数:是正态总体的标准差,它描述正态分布的离散程度,决定分布曲线的形态。是变异参数。越小,数据分布越集中,曲线的形状越“瘦高”;越大,数据分布越离散,曲线的形状越“肥胖”。已知、和变量值x,就能按公式绘出正态曲线的图形。67正态分布参数位置变化示意图正态分布参数位置变化示意图68正态分布变异度不同变化示意图正态分布变异度不同变化示意图69l正态分布曲线:l 高峰位于中央,两侧逐渐下降、低平,左右完
47、全对称、两端不与横轴相交的钟型曲线。l正态分布:l 以均数为中心,中间多,两侧呈对称性逐渐减少的钟型分布。70l1)正态曲线在横轴上方,钟形,且均数所在处最高;即当X=时,有最大值 2)(2121)(XeXf21)(Xf2 2)正态分布以均数为中心,左右对称;)正态分布以均数为中心,左右对称;对称轴为直线对称轴为直线X=X=,x x取值范围理论上没取值范围理论上没有边界(有边界(-X+-X100 3、抽样遵循随机化的原则89l4、根据指标的性质确定是否要分组:l 由于有些医学指标在不同的人群如男女间或年龄间有所不同,所以在制定医学参考值范围时,应首先确定指标是否存在不同,如果有不同,则应分为不
48、同的组分别制定医学参考值范围。l 如考虑性别、年龄、民族、地理位置等因素并加以区分,对不同人群分组制定参考值范围,l 例如,红细胞数及血红蛋白含量,男女各异,高原居民与平原不同,在这种情况下,应分组并保证每组有足够的例数。90(二)对选定的参照样本进行准确的测定 1、为保证原始数据可靠,要严格控制检测误差:包括分析仪器的灵敏度、试剂的纯度、操作技术及标准的掌握等。2、必须对测量条件做出统一的规定和说明。如临床化验参考值范围的制定,应对收集样本时的环境和生理条件(温度、季节、体育活动强度、饮食、妊娠等),收集、转运和储藏样品的方法及时间有明确的规定。91 有些指标如白细胞数过高或过低均属异常(a
49、),故其参考值范围需要分别确定下限和上限,称作双侧。有些指标如24小时尿糖含量仅在过高(b)、肺活量仅在过低时为异常(c),只需确定其上限或下限,称作单侧参考值范围。(a)a)白细胞数参考值范围白细胞数参考值范围(b)24(b)24小时尿糖参考值范围小时尿糖参考值范围(c)(c)肺活量参考值范围肺活量参考值范围(三)决定取单侧范围还是双侧范围值(三)决定取单侧范围还是双侧范围值92(四)选择适当的百分范围 参考值的百分范围应根据资料的性质和研究目的选择,它与诊断阈值有确定的关系。百分范围的不同将导致不同的假阳性率和假阴性率。图图3-6 3-6 正常人和病人数据分布重叠正常人和病人数据分布重叠9
50、3 daozhelile94 实际中最好结合正常人和病人的数据分布特点,权衡假阳性和假阴性的比例,选择一个适当的百分范围。若应用是主要目的在于减少假阳性(如确诊病人),则参考值范围的百分数范围要取大一些(如95%或99%);反之,若主要目的在于减少假阴性(如初筛病人),百分数范围可适当小一些(如90%或80%)。95(五)根据资料的分布类型选用恰当的界值(五)根据资料的分布类型选用恰当的界值估计方法估计方法正态分布资料-正态分布法对数正态分布资料-对数正态分布法偏态分布资料-百分位数法96表表9-7 三种参考值估计方法的适用对象和三种参考值估计方法的适用对象和95%参考值范围的计算参考值范围的