1、(计量资料)(计量资料) 王友洁王友洁 email email 统计描述 Descriptive Statistics l162名健康男性血清总胆固醇名健康男性血清总胆固醇(mmol/L)l5.53 4.34 5.60 3.55 4.13 3.93 4.20 4.35 4.31 4.81 5.80 4.08 4.90 4.92 3.94 6.34 4.89 4.16 3.05 4.50 4.48 3.62 4.52 3.97 4.11 4.37 5.26 4.98 2.72 5.39 3.75 3.70 4.94 3.90 6.10 4.56 4.39 4.09 3.76 4.82 4.69
2、4.02 4.54 3.78 5.33 4.44 4.53 4.50 3.79 4.28 4.53 4.55 5.20 4.49 5.57 4.21 4.88 4.44 4.96 4.70 4.57 4.45 4.33 3.53 4.84 4.10 3.84 5.11 4.45 5.65 4.47 5.01 4.21 4.56 3.89 4.73 4.86 5.10 4.67 5.40 3.22 4.98 3.52 4.11 3.82 3.59 5.02 4.66 5.23 5.05 4.23 4.68 4.90 5.00 4.75 2.96 4.74 4.35 4.71 4.85 5.25
3、4.25 5.14 4.29 3.39 4.72 3.43 5.08 5.17 4.96 5.21 4.27 6.12 4.91 5.43 4.93 4.87 4.46 4.26 4.76 4.69 4.79 5.22 4.61 4.78 4.24 4.51 4.71 4.56 3.86 4.45 5.29 4.50 4.72 4.00 4.54 4.20 5.30 5.18 5.73 4.97 4.66 5.49 4.37 5.34 4.68 3.66 4.38 5.41 4.53 5.07 4.78 4.69 4.71 5.03 5.37 5.68 5.83 5.93 4.62 6.01
4、5.77 计量资料的统计描述频数表与频数分布频数表与频数分布描述几种趋势的指标描述几种趋势的指标 算术均数、几何均数、中位数、众数算术均数、几何均数、中位数、众数描述变异程度的指标描述变异程度的指标 极差极差 、百分位数与四分位间距、方差、标准差、变异系数、百分位数与四分位间距、方差、标准差、变异系数频数 (frequency) 某个测量值的个(例)数。某个测量值的个(例)数。频数分布表(frequency distribution table): 又称频数表。又称频数表。是将是将原始数据值适当分组后得到各组原始数据值适当分组后得到各组的频数,的频数, 用于描述资料的分布特征, 适用样本量较大
5、的资料进适用样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。分布的范围与形态。一、频数与频数分布一、频数与频数分布离散型定量变量的频数分布离散型定量变量的频数分布 例 1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7等共96个数值.96名妇女产前检查次数分布的频数分布表名妇女产前检查次数分布的频数分布表表 1998年某地96名妇女产前检查次数分布检查次数频数频率(%)累计人数累计频率(%)(1)(2)(3)(4)(5)044.244.2177.3
6、1111.521111.52222.931313.53536.542627.16163.552324.08487.551212.596100.0合计96100图 2-1 某 地 96名 妇 女 产 前 检 查 次 率 分 布0510152025300123455产 前 检 查 次 数频率(%)连续型定量变量的频数分布连续型定量变量的频数分布 抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L), 将数据适当分组,计数每组的频数,根据这些数据编制成的频数分布表,则能显示出这组数据分布的特点。 160名正常成年女子的血清甘油三酯(名正常成年女子的血清甘油三酯(mmol/L) 编号编
7、号血清甘油三脂血清甘油三脂编号编号血清甘油三脂血清甘油三脂1 10.510.512 20.520.521531531.651.653 30.590.591541541.661.664 40.610.611551551.671.675 50.610.611561561.671.676 60.620.621571571.691.697 70.630.631581581.71.78 80.640.641591591.711.711601601.771.77手工编制表步骤。 (1)计算全距全距(range,R),也称为极 R = 最大值最小值 本例极差:本例极差: R=1.770.51=1.26(mm
8、ol/L)(2)确定组段数与组距组段数与组距:组段数一般可在1015之间选择组距参考极组距参考极差的十分之一差的十分之一, 再略加调整。再略加调整。l 本例本例i= R /10=1.26/10=0.1260.1。(3)列表列表 做出表格,将选好的组段顺序地列在 (1)列。按照“下限x上限” 的原则确定每一例数据x应归属的组段。(4 4) 列出组段:第一组段的列出组段:第一组段的下限略小于最小值下限略小于最小值,最后一,最后一个组段个组段上限必须包含最大值上限必须包含最大值,其它组段上限值忽略。,其它组段上限值忽略。(5 5) 划记计数划记计数:用划记法将所有数据归纳到各组段,得:用划记法将所有
9、数据归纳到各组段,得到各组段的频数。到各组段的频数。 组段组段 (1) 划划 记记(2) 频数,频数,f(3) 组中值,组中值,X(4) fX(5)= (3)(4)0.5 30.551.650.6正正90.655.850.7正正正正120.759.000.8正正正正130.8511.050.9正正正正正正170.9516.151.0正正正正正正181.0518.901.1正正正正正正正正201.1523.001.2正正正正正正181.2522.501.3正正正正正正171.3522.951.4正正正正131.4518.851.5正正91.5512.401.6正正 81.6514.851.71.
10、8 合计合计 31.755.25160182.30频数分布图频数分布图:在表的基础上,可以绘制出图称为直方图(频率直方图)。 横轴:血清甘油三酯血清甘油三酯 纵轴:频率密度,即频率/组距(直条面积等于相应组段的频率)。 在组距相等时,直方图中矩形直条的高度与相应组段的频率成正比。 对称分布:频数最多的组段在中央,正偏峰分布:峰向左侧偏移的分布,右侧的组段数多于左侧,为右偏峰分布。负偏峰分布:峰向右侧偏移的分布,左侧的组段数多于右侧,称为左偏峰分布。正态分布与偏态分布正态分布与偏态分布1. 频数表 正态分布 normal distribution 2. 频数表右偏态( skewed to the
11、 right),也称正偏态(positive skewed)3. 频数表左偏态( skewed to the left),也称负偏态(negative skewed)图 2 - 1 1 6 0 名 正 常 成 年 女 子 的 血 清 甘 油 三 酯 的 频 数 分 布 图051 01 52 02 50 . 5 00 . 7 00 . 9 01 . 1 01 . 3 01 . 5 01 . 7 01 . 9 0血 清 甘 油 三 酯 ( m m o l / L )频数正态分布:中间高、正态分布:中间高、两边低、左右对称两边低、左右对称正偏态分布:正偏态分布:长尾向长尾向右右延伸延伸负偏态分布:负
12、偏态分布:长尾向长尾向左左延伸延伸频数分布频数分布集中趋势集中趋势(central tendency):变量值集中变量值集中位置。位置。平均水平指标平均水平指标离散趋势离散趋势(tendency of dispersion):变量变量值围绕集中位置的分布情况。离值围绕集中位置的分布情况。离“中心中心”位位置越远,频数越小;且围绕置越远,频数越小;且围绕“中心中心”左右对左右对称。称。变异水平指标变异水平指标 频数表的用途频数表的用途l.揭示频数分布的类型和特征;l分布类型: 对称分布 (正态) 偏态分布l分布特征: 中心位置 分布范围 对称性 变动趋势l.便于进一步计算指标和分析处理;l.发现
13、某些特大特小的可疑值;l 4.进行正态性判定等集中趋势指标集中趋势指标 总称为平均数(average)反映了资料的集中趋势 (central tendency )。常用的有:1. 算术均数(arithmetic mean),简称均数 (mean)2. 几何均数(geometric mean)3. 中位数 (median)4. 众数(mode)1. 均数(mean)nXnXXXXn21iikkkffXffffXffXfXXfX3213211为求和符号,读成sigma适用条件适用条件:资料呈正态或近似正态:资料呈正态或近似正态。 组段组段 (1) 划划 记记(2) 频数,频数,f(3) 组中值,组
14、中值,X(4) fX(5)= (3)(4)0.5 30.551.650.6正正90.655.850.7正正正正120.759.000.8正正正正130.8511.050.9正正正正正正170.9516.151.0正正正正正正181.0518.901.1正正正正正正正正201.1523.001.2正正正正正正181.2522.501.3正正正正正正171.3522.951.4正正正正131.4518.851.5正正91.5513.951.6正正 81.6513.201.71.8 合计合计 31.755.25160182.30例:均数例:均数182.3/1601.142. 几何均数(geometr
15、ic mean)nXXnXXXXnXXXXXGnGnnGlglglg)lglg(lg1lg12121为正值,为底的反对数表示以为底的对数;表示以010lg10lg1X几何均数几何均数:变量变量对数值的对数值的算术均算术均数数的反对数的反对数。 几何均数的适用条件与实例几何均数的适用条件与实例适用条件适用条件:呈倍数关系的等比资料或对数正态分:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料布(正偏态)资料;如抗体滴度资料 例:例:血清的抗体效价滴度的倒数倒数分别为:10、100、1000、10000、100000,求几何均数。1000510lg10lg10lg10lg10lgl
16、g543211G此例的算术均数为此例的算术均数为22222,显然不能代表滴度的,显然不能代表滴度的平均水平。同一资料,平均水平。同一资料,几何均数几何均数 中位数中位数 众数众数左偏态分布时:均数均数 中位数中位数 众数众数三、变异(variation)指标 反映数据的离散度( Dispersion )。即个体观察值的变异程度。常用的指标有: 1. 极差(Range) (全距) 2. 百分位数与四分位数间距 Percentile and Quartile range 3. 方差 Variance 4. 标准差Standard Deviation 5. 变异系数 Coefficient of V
17、ariation盘编号盘编号 甲甲乙乙丙丙1 14404804902 24604904953 35005005004 45405105055 5560520510合计合计250025002500250025002500均数均数500500500500500500 例:设甲、乙、丙三人,采每人的耳垂血,然后红细例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数胞计数,每人数5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm3)甲乙丙1.1.极差极差(Range(Range) ( (全距全距) )minmaxXXR优点:简便缺点:1. 只利用了两个 极端值 2.n大,R也会大 3.
18、不稳定12040202.2.百分位数与四分位数间距百分位数与四分位数间距 Percentile and quartile rangePercentile and quartile range百分位数百分位数 :数据从:数据从小到大小到大 排列排列;在百分在百分尺度下,所占百分比尺度下,所占百分比对应的值。记为对应的值。记为Px。 四分位间距四分位间距:QRP75 P25四分位半间距四分位半间距quartile deviation:QDQR/2P100(max)P75P50(中位数中位数)P25P0(min)Px频数表资料的百分位数mLxxffxniLPxnP)%()%(值间的频数所在组段下限值
19、至上限至该下限值的累计频数组距所在组段下限值下限值下限值L上限值上限值Ui; fm百分位数百分位数Px)%(Lfxn 组段组段 (1) 划划 记记(2) 频数,频数,f(3) 累计频数累计频数 f(4)累计百分率累计百分率0.5 331.9 (01.9)0.6正正9127.5 (1.97.5)0.7正正正正122415.0 (7.515.0) 0.8正正正正133723.1 (15.223.1)0.9正正正正正正175433.8 (23.133.8)1.0正正正正正正187245.0 (33.845.0)1.1正正正正正正正正209257.5 (45.057.5)1.2正正正正正正181106
20、8.8 (57.568.8)1.3正正正正正正1712779.4 (68.879.4)1.4正正正正1314087.5 (79.487.5)1.5正正914993.1 (87.593.1)1.6正正 815798.1 (93.198.1)1.71.8 合计合计 3160100.0 (98.1100)160P250.9+0.1x(160 x25%37)/170.92P751.3+0.1x(160 x75%110)/171.36QR1.36-0.920.44;QD0.22百分位数的应用百分位数的应用确定医学确定医学参考值范围参考值范围 (reference range):): 如如95参考值范围参
21、考值范围P97.5P2.5; 表示有表示有95正常正常个体个体的测量值在此范围。的测量值在此范围。中位数中位数Md与与四分位半间距四分位半间距QD一起使用,描一起使用,描述偏态分布资料的特征述偏态分布资料的特征3.3.方差方差 方差方差 (variance)也称)也称均方差均方差(mean square deviation),样本观察值的离均差平方),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。和的均值。表示一组数据的平均离散情况。NXXlSSXxx222)-()-()square of sum(0)-(总体方差离均差平方和离均差和11)(2222nnXXnXXS样本方差样本方
22、差为什么要除以(n1)2222()11XXnXXSnn 本方差22()XN 总体方差小样本分母为小样本分母为n-1,称为自由度。,称为自由度。4.4.标准差标准差11)(222nnXXnXXS样本标准差 标准差标准差 (standard deviation)即方差的正平)即方差的正平方根;其单位与原变量方根;其单位与原变量X的单位相同。的单位相同。122fffXfXS频数表样本标准差标准差的计算盘编号盘编号 甲甲乙乙丙丙甲甲2 2乙乙2 2丙丙2 21 14404804901936002304002401002 24604904952116002401002450253 35005005002
23、500002500002500004 45405105052916002601002550255 5560520510313600270400260100合计合计250025002500250025002500 126040012510001250250标准差标准差50.9915.817.91155 /250012604001222甲的标准差nnXXS=50.99 组段组段 (1) 频数,频数,f(3) 组中值,组中值,X(4) fX(5)= (3)(4) fX2(5)= (3)(4) 20.530.551.650.91 0.690.655.853.80 0.7120.759.006.75 0
24、.8130.8511.059.39 0.9170.9516.1515.34 1.0181.0518.9019.85 1.1201.1523.0026.45 1.2181.2522.5028.13 1.3171.3522.9530.98 1.4131.4518.8527.33 1.591.5513.9521.62 1.681.6513.2021.78 1.71.8 合计合计31.755.259.19 160182.30221.52 方差(221.52182.302/160)/(160-1) 0.0869标准差0.298mmol/L5. 变异系数%100XSCV变异系数变异系数(coefficie
25、nt of variation,CV)适用条件适用条件:观察指标单位不同,如身高、体重观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊同单位资料,但均数相差悬殊均数均数 标准差标准差变异系数变异系数青年男子青年男子 身高身高170 cm6 cm3.5体重体重60 kg7 kg11.7变异指标小结1极差较粗,适合于任何分布极差较粗,适合于任何分布2标准差标准差与均数的单位相同,最常用,适合于近似正态分布与均数的单位相同,最常用,适合于近似正态分布3变异系数主要用于单位不同或均数相差悬殊资料变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,平均指标和变异指标分别反映资料的不同特征, 常配套使用常配套使用 如如 正态分布正态分布:均数、标准差;:均数、标准差; 偏态分布偏态分布:中位数、四分位半间距:中位数、四分位半间距
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。