1、第二章第二章 定量资料的统计描述定量资料的统计描述是同质观察对象间表现出的差异。变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。就每个观察单位而言,其观察指标的变异是不可预测的,或者说是随机的(random)。就总体而言,个体变异是有规律的。变异规律的体现:(distribution)熊猫分布在温暖多雨的山区,尤以中国西南部刀鱼分布在长江下游水域 长寿村的由来统计描述统计描述(descriptive statistics)统计分析统计推断(inferential statistics)统计描述:统计描述:用统计指标、统计表、统计图 等方法对资料的数量特征及其分布规律进行
2、测定和描述。频数频数:当汇总大量的原始数据时,:当汇总大量的原始数据时,把数据按类型分组,其中每个组的把数据按类型分组,其中每个组的数据个数,称为该组的频数。数据个数,称为该组的频数。频数表(频数分布)频数表(频数分布):表示各组及:表示各组及它们对应的组频数的表格称为频数它们对应的组频数的表格称为频数表或频数分布。表或频数分布。频数分布表频数分布表某市1997年12岁男童120人的身高(cm)142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.11
3、50.3133.1142.7143.9151.1144145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134
4、.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154147.7152.3146.6132.1145.9146.7144135.5144.4143.4137.4143.6150143.3146.5149142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.9(1 1)求)求极差极差(rangerange):即最大值与最小值之差,又称为):即最大值与最小值之差,又称为全距。全距。本例极差:本例极差:R R=160.9=160.9125.9=35125.9=35(cmcm)(2
5、2)决定决定组数组数、组段组段和和组距组距:根据研究目的和样本含量:根据研究目的和样本含量n n确定。组距确定。组距=极差极差/组数,通常分组数,通常分8-158-15个组,为方便计,个组,为方便计,组距常取整数或一位小数。组距常取整数或一位小数。本例本例i i=R/10=R/10=35/10=3.54=35/10=3.54。列出组段:第一组段的列出组段:第一组段的下限略小于最小值下限略小于最小值,最后一个组,最后一个组段段上限必须包含最大值上限必须包含最大值,其它组段上限值忽略。,其它组段上限值忽略。(3 3)划记计数划记计数:用划记法将所有数据归纳到各组段,得:用划记法将所有数据归纳到各组
6、段,得到各组段的频数。到各组段的频数。频数表的编制步骤频数表的编制步骤1997年某市年某市120名名12岁男童身高的频数分布岁男童身高的频数分布 组 段频 数频 率百分率12410.00830.8312820.01671.67132100.08338.33136220.183418.34140370.308330.83144260.216721.67148150.12512.515240.03333.3315620.01671.6716010.00830.83合 计1201100某市某市120名名12岁男童身高的频数分布岁男童身高的频数分布 12413214014815616401020304
7、0频数表的分布特征频数表的分布特征集中趋势(central tendency):变量值集中位置。本例在组段“140”。集中趋势指标离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。本例132148,共有114人,占95;离“中心”位置越远,频数越小;且围绕“中心”左右对称。离散趋势指标 120名7岁男童身高的频数分布图124132140148156164010203040人数身高(cm)239人发汞含量的频数分布70 3 5 7 9 11 13 15 17 19 21 10 20 30 40 50 60 0 1 发汞含量(mol/kg)人数某市892名老年
8、人生存质量自评分频数分布 0 10 20 30 40 50 60 70 80 90 100 100 200 300 0 400 自评分人数 102名黑色素瘤患者的生存时间频数分布 0 5 10 15 20 25 30 35 40 45 0 1 02 03 040 生存时间(月)人数某地某年10000例死亡者年龄分布 0102030405060708001000200030004000死亡年龄(岁)人数频数分布的类型频数分布的类型对称分布对称分布Frequencyvar51234567890246偏态分布偏态分布正偏态正偏态负偏态负偏态Frequencyvar512345678902468Fre
9、quencyvar6123456789100510长尾向长尾向右右延伸延伸长尾向长尾向左左延伸延伸频数分布表的用途频数分布表的用途揭示资料的分布类型揭示资料的分布类型看出频数分布的两个重要特征看出频数分布的两个重要特征集中趋势集中趋势离散趋势离散趋势便于发现某些特大或特小的可疑值便于发现某些特大或特小的可疑值便于进一步计算指标和统计分析处理便于进一步计算指标和统计分析处理集中趋势指标集中趋势指标1.算术均数算术均数:简称均数,是用得最多的统计简称均数,是用得最多的统计描述指标。描述指标。总体均数总体均数样本均数样本均数x计算方法:计算方法:直接法:直接法:10名七岁儿童体重名七岁儿童体重(kg
10、)分别为:分别为:17.3,18.0,19.4,20.6,21.2,21.8,22.5,23.2,24.0,25.5,求平均体重,求平均体重x17.3+18+25.5 1021.35(kg)nXXXXXn321nXi加权法:加权法:xf1x1+f2x2+f3x3+fnxn f1+f2+f3+fn fx f权数权数均数的特性 各观察值与均数之差(离均差)的总和等于零,即 ,各观察值的离均差平方和最小,即 ,均数是一组观察值最理想的代表。0)(XX)()()(22XaaXXX均数的应用:均数的应用:均数能全面反映全部观察值的均数能全面反映全部观察值的平均数量水平,应用甚广,最适于平均数量水平,应用
11、甚广,最适于对称分布资料,特别是正态分布资对称分布资料,特别是正态分布资料,对于偏态资料,均数不能较好料,对于偏态资料,均数不能较好地反映其集中趋势。地反映其集中趋势。2.几何均数几何均数计算方法:计算方法:G=nn21xxx或者或者G=)lg(lg1nx直接法:直接法:加权法:加权法:f lgx fG=lg-1:5人的血清滴度为人的血清滴度为1:10,1:20,1:40,1:80,1:160,求平均滴,求平均滴度?度?G=516080402010=40故平均滴度为故平均滴度为1:40。:某医院预防保健科用流脑疫苗为:某医院预防保健科用流脑疫苗为75名儿童进行免名儿童进行免疫接种后,抗体滴度测
12、定结果见下表,求平均滴度。疫接种后,抗体滴度测定结果见下表,求平均滴度。抗体滴度滴度倒数xlgx频数fflgx1:440.602142.40841:880.903198.12791:16161.20412125.28611:32321.50512030.10201:64641.80621221.67441:1281282.1072510.53601:2562562.408249.6328合计75107.767675名儿童的平均抗体滴度计算表名儿童的平均抗体滴度计算表1107.7676lg()27.3575G75名儿童进行流脑疫苗免疫接种后,平均抗体滴度为1:27.35几何均数的应用:几何均数的
13、应用:1.等比资料,如抗体平均滴度等比资料,如抗体平均滴度2.对数正态分布资料对数正态分布资料Remember!使用几何均数时的使用几何均数时的注意点注意点:1)观察值不能有观察值不能有0。2)观察值不能同时有正值和负值。若全观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出为负值,在计算时先把负号去掉,得出结果再加上负号。结果再加上负号。Be careful!3.中位数和百分位数中位数和百分位数指将一组观察值从小到大按顺序排列,指将一组观察值从小到大按顺序排列,位次居中的观察值,常用位次居中的观察值,常用M表示。表示。反映一批观察反映一批观察值在值在位次位次上的平均水平。上的
14、平均水平。是一个位置指标,以是一个位置指标,以Px表示,一个表示,一个Px将将总体或样本的全部观察值分为两部分。理论上有总体或样本的全部观察值分为两部分。理论上有x的观察值比它小,有的观察值比它小,有(100-x)%的观察值比它大,的观察值比它大,而而P50就是中位数,因此,中位数也是一个特定的就是中位数,因此,中位数也是一个特定的百分位数。百分位数。适合各种类型的资料。尤其适合于适合各种类型的资料。尤其适合于偏态分布的资料;偏态分布的资料;资料的一端或两端有不确定数值资料的一端或两端有不确定数值(开口资料);(开口资料);资料分布不明等。资料分布不明等。中位数和百分位数的适用条件:中位数和百
15、分位数的适用条件:中位数计算方法:中位数计算方法:当当n为奇数时,为奇数时,M)21n(x当当n为偶数时,为偶数时,M2)21n()2n(xx:某病患者:某病患者5人,其潜伏期分别为人,其潜伏期分别为2,3,5,8,20,求中位数?,求中位数?n=5,Mx3=5(天天):8名新生儿身长名新生儿身长(cm)依次为依次为50,51,52,53,54,56,55,58,求中位数?,求中位数?n=8,M(x4x5)/2=(53+54)/2=53.5(cm)对于频数表资料对于频数表资料:xLxiPLnx%fffx为为Px所在组频数所在组频数i为组距为组距fL 为为小于小于L各组段各组段的累计的累计频数频
16、数MP50L为为Px所在组所在组的下限值的下限值 组段组段 (1)划划 记记(2)频数,频数,f(3)累计频数累计频数 f(4)累计频率累计频率(%)0.5 331.9(01.9)0.6正正9127.5(1.97.5)0.7正正正正122415.0(7.515.0)0.8正正正正133723.1(15.223.1)0.9正正正正正正175433.8(23.133.8)1.0正正正正正正187245.0(33.845.0)1.1正正正正正正正正209257.5(45.057.5)1.2正正正正正正1811068.8(57.568.8)1.3正正正正正正1712779.4(68.879.4)1.4
17、正正正正1314087.5(79.487.5)1.5正正914993.1(87.593.1)1.6正正 815798.1(93.198.1)1.71.8 合计合计 3160100.0(98.1100)160中位数1.1+0.1x(160 x50%72)/201.14 组段组段 (1)划划 记记(2)频数,频数,f(3)累计频数累计频数 f(4)累计频率累计频率(%)0.5 331.9(01.9)0.6正正9127.5(1.97.5)0.7正正正正122415.0(7.515.0)0.8正正正正133723.1(15.223.1)0.9正正正正正正175433.8(23.133.8)1.0正正正
18、正正正187245.0(33.845.0)1.1正正正正正正正正209257.5(45.057.5)1.2正正正正正正1811068.8(57.568.8)1.3正正正正正正1712779.4(68.879.4)1.4正正正正1314087.5(79.487.5)1.5正正914993.1(87.593.1)1.6正正 815798.1(93.198.1)1.71.8 合计合计 3160100.0(98.1100)160P250.9+0.1x(160 x25%37)/170.92P751.3+0.1x(160 x75%110)/171.36中位数的应用:中位数的应用:中位数常用于描述偏态资料的
19、集中位数常用于描述偏态资料的集中趋势,它和均数、几何均数不中趋势,它和均数、几何均数不同的是,不是由全部观察值的数同的是,不是由全部观察值的数据综合得到,而只受居中变量波据综合得到,而只受居中变量波动的影响。动的影响。INT(nx%nx%)INT(nx%nx%)百分位数的计算 直接法 当 时,。当 时,。INT(nx%)INT(nx%)12xP(xx)/INT(nx%)1xPx举例 例例 根据表根据表2.1资料求某地区资料求某地区434名少数民族名少数民族已婚妇女现有子女数的第已婚妇女现有子女数的第80%位数。位数。本例,本例,n=434,43480%=347.2,按式,按式 (人人)。434
20、8134780 xxPINT(nx%nx%)INT(nx%)1xPx 频数表法xLXxiPL(nx%f)f百分位数的应用:百分位数的应用:百分位数用于描述某个观察序列在某百分百分位数用于描述某个观察序列在某百分位置上的水平。常用于确定参考值范围,位置上的水平。常用于确定参考值范围,亦称正常值范围。亦称正常值范围。正常值范围指特定健康状况的人群的解剖、正常值范围指特定健康状况的人群的解剖、生理、生化等各种数据的波动范围。生理、生化等各种数据的波动范围。常用常用95范围范围平均数平均数算术 均数几何均数中位数加权均数众数组别组别均数均数甲组甲组262930313430乙组乙组24273033363
21、0丙组丙组262830333630 例:三组同性别、同年龄儿童的体重(例:三组同性别、同年龄儿童的体重(kg)如下,试分如下,试分析该三组资料的异同。析该三组资料的异同。离散趋势指标离散趋势指标1.全距全距(range)(极差极差)优点:简单方便优点:简单方便缺点:除了最大、最小值,不能反应组内其缺点:除了最大、最小值,不能反应组内其他数据的变异。他数据的变异。两样本例数相差悬殊时,不适用全距两样本例数相差悬殊时,不适用全距比较变异度。比较变异度。R=max-min2.四分位数间距:四分位数间距:P75 上四分位数上四分位数 P25 下四分位数下四分位数QUQLP100(max)P75P50(
22、中位数中位数)P25P0(min)Px 组段组段 (1)划划 记记(2)频数,频数,f(3)累计频数累计频数 f(4)累计百分率累计百分率0.5 331.9(01.9)0.6正正9127.5(1.97.5)0.7正正正正122415.0(7.515.0)0.8正正正正133723.1(15.223.1)0.9正正正正正正175433.8(23.133.8)1.0正正正正正正187245.0(33.845.0)1.1正正正正正正正正209257.5(45.057.5)1.2正正正正正正1811068.8(57.568.8)1.3正正正正正正1712779.4(68.879.4)1.4正正正正13
23、14087.5(79.487.5)1.5正正914993.1(87.593.1)1.6正正 815798.1(93.198.1)1.71.8 合计合计 3160100.0(98.1100)160P250.9+0.1x(160 x25%37)/170.92P751.3+0.1x(160 x75%110)/171.36Q1.36-0.920.443.方差和标准差:方差和标准差:(X-)离均差离均差平方和平方和2SSN2=总体方差总体方差222211XXXXnSnn样本方差样本方差自由度自由度 22211XXXXnSnn样本标准差标准差标准差 (standard deviationstandard
24、deviation)即方差的正平)即方差的正平方根;其单位与原变量方根;其单位与原变量X X的单位相同。的单位相同。2XN总体标准差22 1fXfXnsn加权法:例:设甲、乙、丙三人,采每人的耳垂例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数血,然后红细胞计数,每人数5个计数盘,个计数盘,得结果如下(万得结果如下(万/mm3)盘编号盘编号 甲甲乙乙丙丙甲甲2 2乙乙2 2丙丙2 21 14404804901936002304002401002 24604904952116002401002450253 35005005002500002500002500004 454051050
25、52916002601002550255 5560520510313600270400260100合计合计25002500 25002500 25002500 126040012510001250250标准差标准差50.9915.817.9122212604002500/550.9915 1XXnSn甲的标准差标准差的用途:标准差的用途:表示观察值的离散度。表示观察值的离散度。(越大说明围绕均数越大说明围绕均数越离散越离散,反之说明较集中在均数周围反之说明较集中在均数周围,均数代表性越均数代表性越好好)结合均数描述正态分布特征。结合均数描述正态分布特征。计算标准误、变异系数等。计算标准误、变异
26、系数等。估计正常值范围估计正常值范围4.变异系数:变异系数:比较单位不同的多组资料的变异度比较单位不同的多组资料的变异度 比较均数相差悬殊的多组资料的变异度比较均数相差悬殊的多组资料的变异度100%SCVX均数均数 标准差标准差变异系数变异系数青年男子青年男子 身高身高170 cm6 cm3.5体重体重60 kg7 kg11.7平均数与变异度的关系 它们都是定量资料统计描述的两个指标,分别描述集中趋势与离散趋势 分布越集中,变异度越小,平均数代表性就越好;反之,变异度大,代表性就越差。适用于单峰对称分布资料;适合于作对数变换后单峰对称分布资料;适用于任何分布的资料;中位数和百分位数在样本含量较
27、少时不稳定,越靠两端越不稳定;中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。不同质的资料应考虑分别计算平均数。不稳定,不灵敏的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、概括地、平均地描述了变量值的离散程度。在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。均数标准差(min,max)中位数四分位数间距(min,max)变异度小,则均数代表性好!变异度大,数据分散,则均数代表性差!平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!每个观察指标均有其特定的变异规律;描述变异:图形描述:直方图(频数表)统计量描述平均数:均数、几何均数、中位数变异度:标准差、四分位数间距、变异系数、极差 不同分布的指标,用不同的统计量描述;用平均数与变异度共同描述。