1、第二章第二章 定量资料定量资料的统计描述的统计描述2022-8-21 学习要求学习要求 了解:了解:应用应用SASSAS程序编制频率表的方法和程序编制频率表的方法和meansmeans、univariateunivariate过程对定量资料的描述。过程对定量资料的描述。熟悉:熟悉:定量资料频率表的编制方法和用途。定量资料频率表的编制方法和用途。掌握:掌握:算术均数、几何均数、中位数的计算方法和算术均数、几何均数、中位数的计算方法和使用条件;四分位间距、方差、标准差、变异系数的使用条件;四分位间距、方差、标准差、变异系数的计算方法和使用条件。计算方法和使用条件。2022-8-22 统计描述是用统
2、计图表、统计指标来描述资料的分布统计描述是用统计图表、统计指标来描述资料的分布规律及其数量特征的。规律及其数量特征的。第一节第一节 频率分布表与频率分布图频率分布表与频率分布图 医学研究资料变量值的个数较多时医学研究资料变量值的个数较多时,对个变量值出现的对个变量值出现的频数或频率列表即为频数分布表或频率分布表(频数或频率列表即为频数分布表或频率分布表(frequency distribution table),简称),简称频数表频数表或或频率表频率表。2022-8-23 一、离散型定量变量的频率分布一、离散型定量变量的频率分布 例例2-1 1998年某山区年某山区96名孕妇产前检查次数资料,
3、编制频率表。名孕妇产前检查次数资料,编制频率表。表表2-1 1998年某地年某地96名孕妇产前检查次数频率分布名孕妇产前检查次数频率分布0123455 4 71113262312 4.2 7.311.513.527.124.012.5 4112235618496 4.211.522.936.563.587.5 100.0合计合计961002022-8-24 图2-1 1998年某地年某地96名孕妇产前检查次数频率分布名孕妇产前检查次数频率分布 离散型定量变量的频率分布图可用直条图表达,以等离散型定量变量的频率分布图可用直条图表达,以等宽直条的高度表示各组频率的多少宽直条的高度表示各组频率的多少
4、2022-8-25二、连续型定量变量的频率分布二、连续型定量变量的频率分布 例例2-2 抽样调查某地抽样调查某地120名名1835岁健康男性居民血清铁含量岁健康男性居民血清铁含量(mmo/L),数据如下。试编制血清铁含量的频率分布表。数据如下。试编制血清铁含量的频率分布表。2022-8-26频率表的编制步骤如下:频率表的编制步骤如下:1.计算极差计算极差(range,R),亦称全距,即最大值与最小值之差。本例最亦称全距,即最大值与最小值之差。本例最大值为大值为29.64,最小值为,最小值为7.42,故,故R=29.64-7.42=22.22(mmo/L)。2.确定组段数与组距确定组段数与组距(
5、class interval)组段数一般取组段数一般取10组左右。组距组左右。组距用用i表示,组距表示,组距=极差极差/组段数,本例拟分组段数,本例拟分10组,组,i=22.22/10=2.22,一般取,一般取靠近的整数作为组距,本例取靠近的整数作为组距,本例取i2。3.确定各组段的上、下限确定各组段的上、下限 每个组段的起点称为组段的下限,终点称每个组段的起点称为组段的下限,终点称为组段的上限。第一组段要包括最小值,其下限取小于或等于最小值的为组段的上限。第一组段要包括最小值,其下限取小于或等于最小值的整数,本例取整数,本例取6最为第一组段的下限(也可取最为第一组段的下限(也可取7),最后一
6、个组段要包括),最后一个组段要包括最大值。注意各组段不能重合,每组段只写出下限,如最大值。注意各组段不能重合,每组段只写出下限,如6,8,最后最后一个组段可包括其上限值,如本例一个组段可包括其上限值,如本例2830。4.列表列表 清点各组的频数,计算频率、累积频率数和累计频率。清点各组的频数,计算频率、累积频率数和累计频率。2022-8-27组段(1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)6810121416 18 20 22 24 26 2830 1 3 6 81220271812 8 4 1 0.83 2.50 5.00 6.6710.0016.6722.5015.0
7、010.00 6.67 3.33 0.83 1 4 10 18 30 50 77 95107115119120 0.83 3.33 8.33 15.00 25.00 41.67 64.17 79.17 89.17 95.83 99.17100.00合计120100.00表2-2 120名正常成年男子血清铁含量(mmo/L)频率分布2022-8-28图图2-2 120名健康成年男子血清铁含量(名健康成年男子血清铁含量(mol/L)分布分布2022-8-292-2 1202-2 120名健康成年男子血清铁含量名健康成年男子血清铁含量(mmommo/L)/L)分布分布2022-8-210三、频率分布
8、表(图)的用途三、频率分布表(图)的用途 1.1.揭示资料的分布类型揭示资料的分布类型 2022-8-211 正偏态(右偏态)负偏态(左偏态)2.2.观察资料的集中趋势和离散趋势观察资料的集中趋势和离散趋势 3.3.便于发现某些特大或特小的可疑值便于发现某些特大或特小的可疑值 4.4.便于进一步计算统计指标和作统计处理便于进一步计算统计指标和作统计处理2022-8-212第二节第二节 描述集中趋势的统计指标描述集中趋势的统计指标 医学定量资料中,描述集中趋势的统计指标主要有医学定量资料中,描述集中趋势的统计指标主要有算术均数、几何均数和中位数。算术均数、几何均数和中位数。一、算术均数一、算术均
9、数(arithmetic mean)(arithmetic mean)简称均数。均数适用于对称分布或近似对称分布的简称均数。均数适用于对称分布或近似对称分布的资料。习惯上以希腊字母资料。习惯上以希腊字母 表示总体均数表示总体均数(population(population mean)mean),以表示样本均数,以表示样本均数 (sample mean)(sample mean)。常用计算。常用计算方法有直接法和频率表法(亦称加权法)。方法有直接法和频率表法(亦称加权法)。X2022-8-2131.1.直接法直接法nXX 例例2-32-3 测得测得8至正常大白鼠血清总酸性磷酸酶(至正常大白鼠血清
10、总酸性磷酸酶(TACP)含量含量(U/L)为)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试。试求其算术均数。求其算术均数。本例本例9075.3826.31nXX(U/L)2022-8-214 2.频率表法频率表法 当变量值的个数较多时,在编制频率表当变量值的个数较多时,在编制频率表的基础上,应用加权法计算均数的近似值。的基础上,应用加权法计算均数的近似值。nfXffXX00 公式中,公式中,f 为各组段的频数,为各组段的频数,X0为各组段的组中值,为各组段的组中值,X0=(组段上限(组段上限+组段下限)组段下限)/2。例例2-4 57.181202228
11、0ffXX(mmo/L)如用直接法计算如用直接法计算,=18.61(mmo/L)X2022-8-215 表表2-3 2-3 频数表法计算均数频数表法计算均数组段组段(1)组中值组中值(X0)(2)频数频数(f)(3)fX0(4)=(2)(3)6 8 10 12 14 16 18 20 22 24 26 28 30 7 911131517192123252729 1 3 6 81220271812 8 4 1 7 27 66104180340513378276200108 29合计合计 120 22282022-8-216二、几何均数(geometric mean,)几何均数使用于原始变量不呈对
12、称分布几何均数使用于原始变量不呈对称分布,但对变量经对数但对变量经对数转换后呈对称分布的资料,又称对数正态分布资料。常见于转换后呈对称分布的资料,又称对数正态分布资料。常见于正偏态分布资料,如抗体滴度,某些传染病的潜伏期,细菌正偏态分布资料,如抗体滴度,某些传染病的潜伏期,细菌计数等。计算公式亦可用直接法和频数表法。计数等。计算公式亦可用直接法和频数表法。1.1.直接法直接法 对数的形式为对数的形式为 nnXXXXG321nXnXXXGnlglglglglglg12112022-8-217 例例2-5 7名慢性迁延型肝炎患者的名慢性迁延型肝炎患者的HBsAg滴度资料为滴度资料为:1:16,1:
13、32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。试计算其几何均数。本例先求平均滴度的倒数本例先求平均滴度的倒数6451212864643232167G648062.1lg7512lg128lg64lg64lg32lg32lg16lglg11G7 7名慢性迁延型肝炎患者的名慢性迁延型肝炎患者的HBsAgHBsAg滴度几何均数为滴度几何均数为1:641:64。2022-8-218 2.2.频率表法:频率表法:当资料中相同变量值的个数当资料中相同变量值的个数f(即频数)(即频数)较多时,可通过频率表法计算几何均数,公式为较多时,可通过频率表法计算几何均数,公式为fXfG
14、lglg1 表表2-4 52例慢性肝炎患者的例慢性肝炎患者的 HBsAg滴度资料滴度资料抗体滴度抗体滴度频数(频数(f)滴度倒数滴度倒数(X)logXflogX1:161:321:641:1281:2561:5122711131271632641282565121.204121.505151.806182.107212.408242.709272.4082410.5360519.8679827.3937328.8988818.96489合计合计52108.069772022-8-219本例本例f lgX=108.06977,f=52,代入公式得代入公式得 74705.1190783.2lg52
15、06977.108lg11G52例慢性肝炎患者的例慢性肝炎患者的 HBsAg滴度的几何均数为滴度的几何均数为1:119.75 计算几何均数应注意:计算几何均数应注意:变量值中不能有变量值中不能有0 0;不能同时有;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。结果后再加上负号。2022-8-220滴度倒数滴度倒数XlgX频数频数 f20.3010440.6021780.903115161.204120321.505116641.806271282.107232022-8-2212022-8-2222022-8-2
16、23三、中位数及百分位数三、中位数及百分位数 1.1.中位数(中位数(median,median,M M)将一组变量值从小到大按顺序排列,位次居中的变量值将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数。在全部变量值中,大于和小于中位数的变量值称为中位数。在全部变量值中,大于和小于中位数的变量值的个数相等。的个数相等。用中位数表示平均水平主要适用于:变量值中出现个用中位数表示平均水平主要适用于:变量值中出现个别特小或特大的数值别特小或特大的数值;资料的分布呈明显偏态,即大部分资料的分布呈明显偏态,即大部分的变量值偏向一侧的变量值偏向一侧;变量值分布一端或两端无确定数值,变量值分布一端
17、或两端无确定数值,只有小于或大于某个数值只有小于或大于某个数值;资料的分布不清。资料的分布不清。2022-8-224 (1 1)直接法)直接法 当例数较少时,先将变量值由小到大当例数较少时,先将变量值由小到大顺序排列,再按以下公式计算。顺序排列,再按以下公式计算。n为奇数时为奇数时)21(nXMn为偶数时为偶数时 2/)12()2(nnXXM式中式中X的下标为变量值的位置。的下标为变量值的位置。2022-8-225 例例2-7 某药厂观察某药厂观察9只小鼠口服高山红景天醇提物后在只小鼠口服高山红景天醇提物后在乏氧条件下的生存时间(乏氧条件下的生存时间(min)如下:如下:49.1,60.8,6
18、3.3,63.6,63.6,65.6,65.8,68.9,69.0。试求其中位数。试求其中位数。本例本例n=9,为奇数,为奇数6.635219XXM如果如果n=10例,生存时间为例,生存时间为69.6,则中位数为,则中位数为6.642/)6.656.63(2/)(2/)(651210210XXXXM2022-8-226 (2 2)频率表法)频率表法 当例数较多时,先将变量值从小到大编当例数较多时,先将变量值从小到大编制频率表,并分别计算累计频数和累计频率(见表制频率表,并分别计算累计频数和累计频率(见表2 2-5 5)。先)。先从累计频率找出从累计频率找出M M所在的组段,然后按下式计算。所在
19、的组段,然后按下式计算。)2(LmfnfiLM 式中式中L为中位数所在组段的下限,为中位数所在组段的下限,i为该组段的组距,为该组段的组距,fm为为该组段的频数,该组段的频数,fL为小于为小于L的各组段累计频数。的各组段累计频数。例例2-8 50例链球菌咽颊炎患者的潜伏期(小时)如表例链球菌咽颊炎患者的潜伏期(小时)如表2-5,试计算潜伏期的中位数。试计算潜伏期的中位数。2022-8-227表表2-52-5 50例链球菌咽颊炎患者的潜伏期(小时)的频率分布表例链球菌咽颊炎患者的潜伏期(小时)的频率分布表 组段组段组中值组中值(X0)频数(频数(f)累计频数累计频数累计频率(累计频率(%)122
20、436486072849610812018304254667890102114 1 71111 7 5 4 2 2 1 819303742464850 2 16 38 60 74 84 92 96100合计合计-5050-本例从累计频率看,本例从累计频率看,M位于位于48组段,即组段,即L=48,i=12,fm=11,fL=19,55.54)19250(111248)2(LmfnfiLM(小时)(小时)2022-8-228fLMfm)2(LmfnfiLfn22022-8-229 1.1.百分位数百分位数 百分位数百分位数(percentile,P)是一种位置指标,以是一种位置指标,以Px表示。
21、百表示。百分位数是将频数等分为一百的分位数。一组观察值从小到分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有大按顺序排列,理论上有x%的变量值比的变量值比Px小,有小,有(100 x)%的变量值比的变量值比Px大。故大。故P50分位数也就是中位数,即分位数也就是中位数,即P50=M。百分位数的计算公式为百分位数的计算公式为)%(LxxfxnfiLP 式中式中L为为Px所在组段的下限,所在组段的下限,i为该组段的组距,为该组段的组距,fx为该组为该组段的频数,段的频数,fL为小于为小于L的各组段累计频数。的各组段累计频数。2022-8-230 如如 试求表试求表2-5资料
22、中百分位数资料中百分位数P25、P75。由表由表2-5累计频数栏可见累计频数栏可见P25在在“36”组段,组段,L=36,i=12,fx=11,fL=8,代入公式得代入公式得91.40)8%2550(11123625P(小时(小时)同理可知同理可知 P75在在“72”组段,组段,L=72,i=12,fx=5,fL=74,代入公式得代入公式得2.73)37%7550(5127275P(小时(小时)百分位数的使用条件同中位数一样。主要用途为:描百分位数的使用条件同中位数一样。主要用途为:描述一组资料在某百分位置上的水平;用于确定正常值范述一组资料在某百分位置上的水平;用于确定正常值范围;计算四分位
23、数间距。围;计算四分位数间距。2022-8-231四、众数(四、众数(mode)一组数据中出现次数最多的数值,叫众数。众数在频率一组数据中出现次数最多的数值,叫众数。众数在频率分布表中是频数最多的那一组的组中值,有时众数在一组分布表中是频数最多的那一组的组中值,有时众数在一组数中有好几个或者没有众数。数中有好几个或者没有众数。例如:例如:1,2,3,3,4的众数是的众数是3;1,2,2,3,3,4的众数是的众数是2和和3;1,2,3,4,5没有众数;表没有众数;表2-5众数为众数为42和和54。2022-8-232第三节第三节 描述离散趋势的统计指标描述离散趋势的统计指标 例例2-10 是观察
24、三组数据的离散状况。是观察三组数据的离散状况。A组:组:26,28,30,32,34;B组:组:24,27,30,33,36;C组:组:26,29,30,31,34。三组均数都是。三组均数都是30。A组组 .B组组 .C组组 .常用的离散指标有:常用的离散指标有:极差、四分位数间距、方差、标准差和变异系数,最常极差、四分位数间距、方差、标准差和变异系数,最常用的指标为标准差。用的指标为标准差。2022-8-233一、极差和四分位数间距一、极差和四分位数间距 1.极差极差 极差极差(range,R)亦称全距,即一组变量值中最大值与最亦称全距,即一组变量值中最大值与最小值之差。小值之差。R值大,离
25、散度就大;值大,离散度就大;R值小,离散度就小。值小,离散度就小。A组组:R=34-26=8 B组:组:R=36-24=12 C组:组:R=34-26=8 极差的特点是计算简单,但只考虑最大值和最小值,极差的特点是计算简单,但只考虑最大值和最小值,容易受个别极端值的影响,且不能反映组内其他变量值的容易受个别极端值的影响,且不能反映组内其他变量值的离散情况。另外,当调查例数增多时,遇到较大或较小变离散情况。另外,当调查例数增多时,遇到较大或较小变量值的机会就大,极差就可能增大。量值的机会就大,极差就可能增大。2022-8-234 2.2.四分位数间距四分位数间距(quartile interva
26、l,Q)极差的不稳定主要受两端值的影响,如将两端数据各去掉极差的不稳定主要受两端值的影响,如将两端数据各去掉一部分,这样所得的数据就比较稳定了。例如两端各去掉一部分,这样所得的数据就比较稳定了。例如两端各去掉2525,取中间,取中间5050的数据的极差,这样可先计算的数据的极差,这样可先计算P P2525和和P P7575,求出求出P P7575与与P P2525之差,即为四分位数间距。之差,即为四分位数间距。Q=P75P25 P75又称为上四分位数又称为上四分位数(upper quartile);P25又称为下四分又称为下四分位数位数(lower quartile)。2022-8-235 例
27、例2-12 试计算表试计算表2-5中中 50例链球菌咽颊炎患者的潜伏例链球菌咽颊炎患者的潜伏期(小时)的四分位间距。期(小时)的四分位间距。已知已知P75=73.20小时,小时,P25=40.91小时,代入公式得小时,代入公式得 Q=73.2040.91=32.29(小时)(小时)由以上的结果可以看出:链球菌咽颊炎患者的潜伏由以上的结果可以看出:链球菌咽颊炎患者的潜伏期在期在40.9173.20小时之间,其四分位数间距为小时之间,其四分位数间距为32.29小小时。时。四分位数间距可用于各种分布资料,特别是偏态分四分位数间距可用于各种分布资料,特别是偏态分布资料,经常把布资料,经常把中位数和四分
28、位间结合起来描述资料的中位数和四分位间结合起来描述资料的集中趋势和离散趋势集中趋势和离散趋势。2022-8-236二、方差和标准差二、方差和标准差 方差方差(variance)和标准差和标准差(standard deviation)是描述对称是描述对称分布,特别是正态分布或近似正态分布资料离散趋势(变异分布,特别是正态分布或近似正态分布资料离散趋势(变异程度)的常用指标。程度)的常用指标。1.方差方差 总体方差用总体方差用 表示,样本方差用表示,样本方差用S2表示。表示。2NX22)(1/)(1)(2222nnXXnXXS2022-8-237 式中式中:n-1是自由度是自由度(degree o
29、f freedom),用希腊小写字母用希腊小写字母表示。它描述了当表示。它描述了当 不变的情况下,不变的情况下,n个变量值(个变量值(X)中能自中能自由变动的变量值的个数。用由变动的变量值的个数。用n-1作分母,作分母,S2可作为可作为 的无偏的无偏估计。估计。对于频率表资料对于频率表资料1015303430323030302830262222221SX21/)(20202nnfXfXS如例如例2-10三组数据其方差为三组数据其方差为5.2215303630333030302730242222222S5.815303430313030302930262222223S2022-8-238 2.2
30、.标准差标准差 标准差为方差的开方根,它与原始变量值单位相同。总体标准差为方差的开方根,它与原始变量值单位相同。总体标准差用标准差用 表示表示 ,样本标准差用,样本标准差用S表示。表示。总体标准差计算公式为总体标准差计算公式为 NX2)(样本标准差计算公式为样本标准差计算公式为 1/)(1)(222nnXXnXXS2022-8-239 对于频率表资料对于频率表资料37.41120120/22284364022S例例 2-14 计算例计算例2-2数据的标准差。数据的标准差。已算得已算得fX0=2228,n=f=120,=4364020fX1/)(20202nnfXfXS(mol/L)对于正态分布
31、资料,研究报告中经常用对于正态分布资料,研究报告中经常用 的形式来描述资料的集中趋势和离散趋势。的形式来描述资料的集中趋势和离散趋势。SX 2022-8-240三、变异系数三、变异系数(coefficient of variation,CV)当两组或多组变量值的单位不同或均数相差较大时,当两组或多组变量值的单位不同或均数相差较大时,不能或不宜用两个或多个标准差的大小来比较其离散不能或不宜用两个或多个标准差的大小来比较其离散程度的大小。程度的大小。此时可用变异系数反映变量值的相对离此时可用变异系数反映变量值的相对离散程度。样本变异系数散程度。样本变异系数CV的计算公式的计算公式%100XSCV
32、由上式可以看出:变异系数为无量纲单位,可以由上式可以看出:变异系数为无量纲单位,可以比较不同单位指标间的变异度;变异系数消除了均数比较不同单位指标间的变异度;变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。时指标间的变异度。2022-8-241 例例2.14 1985年通过十省调查得知,农村刚满周岁的女年通过十省调查得知,农村刚满周岁的女童体重均数为童体重均数为8.42kg,标准差为,标准差为0.98kg,身高均数为,身高均数为72.4cm,标准差为,标准差为3.0cm。试计算周岁女童身高与均数变。试计算周岁女
33、童身高与均数变异系数。异系数。身高身高%64.11%10042.898.0CV体重体重%14.4%1004.720.3CV 周岁女童体重的变异程度比身高的变异程度大。周岁女童体重的变异程度比身高的变异程度大。2022-8-242 第四节第四节 描述分布形态的统计指标描述分布形态的统计指标 1.1.偏度系数(偏度系数(coefficient of coefficient of skewnessskewness,SKEWSKEW)偏度系数(偏度系数(G G1 1)按照以下公式计算)按照以下公式计算31)2)(1(SXXnnnGG1=0为正态分布;为正态分布;G10为正偏态分布;为正偏态分布;G10
34、负偏态负偏态G1MX0,为尖峭峰;,为尖峭峰;G2|t|=|M|=|S|.0001 Tests for Normality Test -Statistic-p Value-Shapiro-Wilk(W检验)检验)W 0.992187 Pr D 0.1500 Cramer-von Mises W-Sq 0.060468 Pr W-Sq 0.2500 Anderson-Darling A-Sq 0.343631 Pr A-Sq 0.25002022-8-260Quantiles(Definition 5)Quantile Estimate 100%Max 29.640 99%27.900 95%2
35、5.180 90%24.135 75%Q3 21.570 50%Median 18.985 25%Q1 16.020 10%12.660 5%10.975 1%8.400 0%Min 7.4202022-8-261 Extreme Observations -Lowest-Highest-Value Obs Value Obs 7.42 1 26.02 54 8.40 14 26.13 63 8.65 2 27.81 101 9.97 7 27.90 116 10.25 57 29.64 162022-8-2622022-8-2632022-8-264四、频率表的编制四、频率表的编制 例例6
36、对例对例2-2某地某地120名健康男性居民血清铁含量资料用名健康男性居民血清铁含量资料用SAS过程编制频率表过程编制频率表DATA EX2_6;INPUT X;L=6;/*定义第一组的下限值定义第一组的下限值*/I=2;/*定义组距定义组距*/Y=X-MOD(X-L,I);/*y值取值取6,8,10,12,.,等整数等整数*/CARDS;7.42 8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.0712.65 18.48 19.83 23.1219.22 19.22 16.72 27.90 11.74 24.66 14.
37、18 16.52;PROC FREQ;/*用用freq语句输出频数表语句输出频数表*/TABLES Y;/*一维的分组变量一维的分组变量*/PROC UNIVARIATE ;VAR Y;HISTOGRAM Y/VSCAL=COUNT MIDPOINTS=7 TO 29 BY 2 CFILL=RED;RUN;2022-8-2652022-8-2662022-8-267思考题思考题 1.1.数值变量资料频数表的组段数目是否越多越好?数值变量资料频数表的组段数目是否越多越好?2.2.均数、几何均数和中位数的适用范围有何异同?均数、几何均数和中位数的适用范围有何异同?3.3.中位数与百分位数在意义、计算和应用上有何区别与中位数与百分位数在意义、计算和应用上有何区别与联系?联系?4.4.标准差和变异系数在计算公式上有何联系?在适用范标准差和变异系数在计算公式上有何联系?在适用范围上有何不同?围上有何不同?2022-8-2682022-8-269