1、医学统计人卫6版 第二章定量数据的统计描述2022-10-13一、频数分布一、频数分布 频数表:描述计量资料的频数分布频数表:描述计量资料的频数分布 反映观察值的分布规律反映观察值的分布规律医学统计人卫6版 第二章定量数据的统计描述2022-10-13频数表频数表(医学统计学(医学统计学P8)表表2-2 某地某地140名正常男子红细胞数的频数表名正常男子红细胞数的频数表红细胞数红细胞数(1012/L)划记划记 组中值组中值 频数频数 频率频率(%)3.80 3.90 2 1.4 4.00 4.10 6 4.3 4.20 4.30 11 7.9 .5.806.00 5.90 1 0.7医学统计人
2、卫6版 第二章定量数据的统计描述2022-10-13 1.频数表的编制:频数表的编制:找最大值、最小值,求极差找最大值、最小值,求极差 按极差大小决定组段数、组段、组距按极差大小决定组段数、组段、组距 一般设一般设10-15个组段个组段 常用极差的常用极差的1/10取整作组距取整作组距 要求:第一组段包括最小值要求:第一组段包括最小值 最后一个组段包括最大值最后一个组段包括最大值 每个组段的起点称每个组段的起点称下限下限(low limit)终点称终点称上限上限(upper limit)对于连续性资料,各组段从下限开始,对于连续性资料,各组段从下限开始,不包括本组段上限。不包括本组段上限。最末
3、一个组段应同时写出其下限和上限。最末一个组段应同时写出其下限和上限。列表划记,求频数(列表划记,求频数(f)医学统计人卫6版 第二章定量数据的统计描述2022-10-13例:某地例:某地4040例中年健康男子血清总胆固醇例中年健康男子血清总胆固醇 值(值(mmol/Lmmol/L)测定结果如下:)测定结果如下:4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 4.56 4.37 5.39 6.30 5.21 4.71 4.56 4.37 5.39 6.30 5.21 7.22 7.22 5.54
4、 3.39 5.18 5.77 4.79 5.12 5.20 5.54 3.39 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 4.38 4.89 6.25 5.32 5.10 4.70 4.74 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.47 3.40 3.91 4.50 4.63 3.61 4.44 4.47 3.40 3.91 2.70 2.70 4.60 4.09 5.96 5.48 4.60 4.09 5.96 5.48 1 1)编制频数分布表并绘制直方图)编制频数分布表并绘制直方图 2 2)估计其频数分布的
5、类型)估计其频数分布的类型 3 3)计算均数)计算均数 、标准差、标准差S S、变异系数、变异系数CVCV 4 4)计算中位数)计算中位数MM,并与,并与 比较。比较。医学统计人卫6版 第二章定量数据的统计描述2022-10-13表表2 某地某地40例健康成年男子血清胆固醇值的频数表例健康成年男子血清胆固醇值的频数表组段组段 划记划记 频数频数2.70 13.20 43.70 44.20 104.70 95.20 65.70 36.20 26.70 07.207.70 1 合计合计 40医学统计人卫6版 第二章定量数据的统计描述2022-10-13直方图直方图P9图图2-1,更直观的反映频数分
6、布的类型。更直观的反映频数分布的类型。医学统计人卫6版 第二章定量数据的统计描述2022-10-13直方图直方图医学统计人卫6版 第二章定量数据的统计描述2022-10-132.频数分布的两个特征:集中趋势、离散趋势频数分布的两个特征:集中趋势、离散趋势3.频数分布的类型:对称分布频数分布的类型:对称分布 偏态分布偏态分布 正偏态正偏态 负偏态负偏态 不同类型的分布,应采用相应的统计分析方法不同类型的分布,应采用相应的统计分析方法4.:作为陈述资料的形式,反映分布特征、分布类作为陈述资料的形式,反映分布特征、分布类型;型;便于以后的计算指标及统计分析处理;便于以后的计算指标及统计分析处理;便于
7、发现可疑值,及时查正;便于发现可疑值,及时查正;当样本含量较大时,可用各组段的频率作为概当样本含量较大时,可用各组段的频率作为概率的估计值。率的估计值。医学统计人卫6版 第二章定量数据的统计描述2022-10-13二、集中趋势的描述二、集中趋势的描述 平均数(平均数(average)是描述一组观察值的集中位置或平均水是描述一组观察值的集中位置或平均水平的统计指标平的统计指标 常作为一组数据的代表值用于分析和组常作为一组数据的代表值用于分析和组间比较间比较 常用的有:均数、几何均数、中位数等常用的有:均数、几何均数、中位数等医学统计人卫6版 第二章定量数据的统计描述2022-10-131.算术均
8、数(算术均数(arithmetic mean)简称均数简称均数 总体均数用总体均数用表示表示 样本均数用样本均数用 表示表示 反映一组观察值在数量上的平均水平反映一组观察值在数量上的平均水平 X医学统计人卫6版 第二章定量数据的统计描述2022-10-13(1)计算方法)计算方法 直接法直接法:式中,希腊字母式中,希腊字母(读作读作sigma)表示求和;表示求和;X1,X2,Xn为各观察值;为各观察值;n n为样本含量,即观察值的个数。为样本含量,即观察值的个数。nXXXnXXn21医学统计人卫6版 第二章定量数据的统计描述2022-10-13加权法:频数表资料或相同观察值较多时加权法:频数表
9、资料或相同观察值较多时 式中,式中,X1,X2,Xk与与f1,f2,fk分别为频数表资料中各组段的组中值和相应组分别为频数表资料中各组段的组中值和相应组段的频数段的频数(或相同观察值与其对应的频数或相同观察值与其对应的频数)。ffXfffXfXfXfXkkk.212211医学统计人卫6版 第二章定量数据的统计描述2022-10-13(2 2)均数的两个重要特性)均数的两个重要特性 各离均差的总和等于零各离均差的总和等于零 离均差的平方和小于各观察值离均差的平方和小于各观察值X X与任何数与任何数a a (而(而aa均数)之差的平方和均数)之差的平方和 即均数是一组观察值最理想的代表值即均数是一
10、组观察值最理想的代表值(3 3)均数的应用均数的应用:最适用于对称分布,特别是正态分布资料最适用于对称分布,特别是正态分布资料 不适于偏态分布资料不适于偏态分布资料医学统计人卫6版 第二章定量数据的统计描述2022-10-132.几何均数(几何均数(geometric mean)G 用于滴度、细菌计数等等比资料用于滴度、细菌计数等等比资料 (明显偏态)集中趋势的描述,反(明显偏态)集中趋势的描述,反 映其平均增减的倍数。映其平均增减的倍数。医学统计人卫6版 第二章定量数据的统计描述2022-10-13(1)计算方法)计算方法直接法直接法 或或 加权法:相同观察值的个数较多时加权法:相同观察值的
11、个数较多时nnXXXG.21)lg(lg)lg.lglg(lg1211nXnXXXGn)lg(lg.lg.lglg(lg12122111fXffffXfXfXfGkkk医学统计人卫6版 第二章定量数据的统计描述2022-10-13(2):等比资料如抗体的平均滴度、平均发展等比资料如抗体的平均滴度、平均发展速度人口的几何增长(增长速度);或用于速度人口的几何增长(增长速度);或用于对数正态分布资料。对数正态分布资料。*注意注意 观察值不能有零观察值不能有零 观察值不能同时有正值和负值观察值不能同时有正值和负值 同一组资料几何均数小于均数同一组资料几何均数小于均数医学统计人卫6版 第二章定量数据的
12、统计描述2022-10-133.中位数、百分位数中位数、百分位数 中位数(中位数(median,M)是将一组观察值从小)是将一组观察值从小 到大排列,位次居中的观察值。到大排列,位次居中的观察值。百分位数(百分位数(percentile),位置指标,位置指标,Px,将,将 总体或样本的全部观察值分为两部分,总体或样本的全部观察值分为两部分,理论上有理论上有x%的观察值比它小,有的观察值比它小,有 (100-x)%的观察值比它大。的观察值比它大。P50分位数即是中位数分位数即是中位数 医学统计人卫6版 第二章定量数据的统计描述2022-10-13(1)计算方法)计算方法*1)直接由原始数据计算中
13、位数)直接由原始数据计算中位数 先按大小排序先按大小排序 n为奇数时为奇数时 n为偶数时为偶数时2)1(nXM)(21122nnXXM式中下标式中下标 、为有序数列的位次。为有序数列的位次。、为相应位次的观察值。为相应位次的观察值。2n12n21n)21(nX)2(nX)12(nX医学统计人卫6版 第二章定量数据的统计描述2022-10-132)用频数表计算)用频数表计算M和和Px步骤:按所分组段,由小到大计算步骤:按所分组段,由小到大计算 累计频数和累计频率;累计频数和累计频率;按下式求按下式求M、Px 式中式中fx 为为Px 所在组段频数所在组段频数 i 为该组段的组距为该组段的组距 L为
14、其下限为其下限 fL为小于为小于L各组段的累计频数各组段的累计频数)%(LXfxnfiLPx)2(LMfnfiLM医学统计人卫6版 第二章定量数据的统计描述2022-10-13(2):1)中位数常用于描述偏态分布资料的集中位置中位数常用于描述偏态分布资料的集中位置,反映位次居中的观察值的水平。只受居中变量值波反映位次居中的观察值的水平。只受居中变量值波动的影响。动的影响。对末端无确定数据的分布,对末端无确定数据的分布,不能直接不能直接求均数和几何均数时,求均数和几何均数时,可求中位数可求中位数。在对称分布资。在对称分布资料中,中位数与均数在理论上数值是相同的。料中,中位数与均数在理论上数值是相
15、同的。2)百分位数用于描述样本或总体观察值序列在某)百分位数用于描述样本或总体观察值序列在某百分位位置的水平。最常用的是百分位位置的水平。最常用的是P50、P5、P95等等医学统计人卫6版 第二章定量数据的统计描述2022-10-133)百分位数百分位数常用于确定医学参考值范围(正常值范常用于确定医学参考值范围(正常值范围),习惯上是确定只包括围),习惯上是确定只包括95%(或(或90%、99%等)等)的人的界值。的人的界值。双侧参考值范围双侧参考值范围 P2.5P97.5(如血压、心率)(如血压、心率)单侧参考值范围单侧参考值范围 P95或或P5(如尿铅(如尿铅/汞、血铅)汞、血铅)可用于任
16、何分布的资料,特别是非特定分布的资料可用于任何分布的资料,特别是非特定分布的资料如如非正态分布资料。非正态分布资料。4)一般,分布中部的百分位数相对稳定,代表性好,)一般,分布中部的百分位数相对稳定,代表性好,而两端的只在而两端的只在n足够大时才较稳定,足够大时才较稳定,当样本例数当样本例数n不够多时,不宜取太近两端的百分位数。不够多时,不宜取太近两端的百分位数。医学统计人卫6版 第二章定量数据的统计描述2022-10-13小结小结 定量数据集中趋势的描述常用定量数据集中趋势的描述常用 均数、几何均数、中位数均数、几何均数、中位数 均数均数适用于对称分布的资料适用于对称分布的资料 几何均数几何均数适用于等比资料或对数正态分布资料适用于等比资料或对数正态分布资料 中位数中位数可用于任何分布的资料,但原则上适合可用于任何分布的资料,但原则上适合用均数或几何均数的资料,不采用中位数来描用均数或几何均数的资料,不采用中位数来描述其集中趋势。述其集中趋势。医学统计人卫6版 第二章定量数据的统计描述2022-10-13