1、 资料整理与描述 流行病与卫生统计学系流行病与卫生统计学系 魏永越魏永越 weiyongyue 魏永越讲稿 2 主要内容 频数分布 集中位置描述指标 离散趋势描述指标 魏永越讲稿 3 例1:132名成年男性RBC 4.09 5.33 5.62 4.63 5.18 4.27 5.07 3.60 3.31 5.32 4.09 4.88 4.31 4.12 5.33 4.40 4.79 3.92 5.46 4.81 5.09 4.88 4.20 4.13 3.94 4.41 5.26 4.66 5.29 5.23 5.58 3.53 4.20 4.54 4.68 4.48 4.40 4.76 4.8
2、1 4.57 4.97 3.94 5.48 4.54 4.27 5.10 5.78 5.12 3.60 4.01 4.75 5.80 6.01 5.50 4.27 5.36 4.18 4.33 4.84 4.74 4.60 4.76 4.58 4.34 4.72 5.36 4.81 3.84 4.17 4.85 3.29 4.91 4.45 4.43 4.99 4.49 4.81 4.35 5.26 5.04 5.38 4.93 5.41 4.52 3.86 4.99 4.24 4.35 4.50 4.92 4.13 5.05 5.14 5.05 5.17 4.55 5.42 5.70 4.5
3、0 4.67 6.18 4.37 5.40 4.15 4.08 4.71 4.12 4.79 4.89 4.67 4.09 5.33 5.62 4.63 5.18 4.27 5.07 3.60 3.31 5.32 4.09 4.88 4.31 4.12 5.33 4.40 4.79 3.92 5.46 4.81 5.09 4.88 魏永越讲稿 4 100名成年男子红细胞计数频数 组 段 (1) 频 数 (2) 频 率() (3) 3.2 2 2.00 3.5 3 3.00 3.8 8 8.00 4.1 16 16.00 4.4 18 18.00 4.7 21 21.00 5.0 14 14.0
4、0 5.3 12 12.00 5.6 4 4.00 5.96.2 2 2.00 合 计 100 100.00 魏永越讲稿 5 100名成年男子红细胞计数频数图 人 数 红细胞(1012个/升) 3.2 3.5 3.8 4.1 4.4 4.7 5 .0 5.3 5.6 5.9 6.2 0 5 10 15 20 魏永越讲稿 6 频数描述步骤 求极差 定组距 定上下界 信息汇总 魏永越讲稿 7 Range=5.59-3.60=1.99 分10组,组距=Range/10=0.199,组距取 0.2 下界3.60,上界5.60 组 段 频数 频率(%) 3.60 3 2.27 3.80 3 2.27 4
5、.00 9 6.82 4.20 22 16.67 4.40 27 20.45 4.60 22 16.67 4.80 21 15.91 5.00 11 8.33 5.20 10 7.58 5.405.60 4 3.03 合合 计计 132 1.00 魏永越讲稿 8 3.60 * 3.80 * 4.00 * 4.20 * 4.40 * 4.60 * 4.80 * 5.00 * 5.20 * 5.40 * 魏永越讲稿 9 人 数 红细胞(1012个/升) 3.2 3.5 3.8 4.1 4.4 4.7 5 .0 5.3 5.6 5.9 6.2 0 5 10 15 20 魏永越讲稿 10 例2:某市1
6、997年120人12岁男童的身高(cm) 142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 143.5 139.2 144.7 139.3 141.9 147.8 140
7、.5 138.9 134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 132
8、.1 145.9 146.7 144.0 135.5 144.4 143.4 137.4 143.6 150.0 143.3 146.5 149.0 142.1 140.2 145.4 142.4 148.9 146.7 139.2 139.6 142.4 138.7 139.9 魏永越讲稿 11 组 段 频 数 频 率 124 1 0.0083 128 2 0.0167 132 10 0.0833 136 22 0.1834 140 37 0.3083 144 26 0.2167 148 15 0.1250 152 4 0.0333 156 2 0.0167 160 1 0.0083 合合
9、计计 120 1.0000 Range=160.9-125.9=35 分10组,组距=Range/10=35/10=3.5,组距取 ? 下界 ? ,上界 ? 魏永越讲稿 12 124 132 140 148 156 164 0 10 20 30 40 人 数 图 某市120名12岁男童身高(cm)的频数分布 魏永越讲稿 13 偏态分布 非对称分布称为偏态分布 “正偏”,即右偏,指个别数据偏在均数右 侧 “负偏”,即左偏,指个别数据偏在均数左 侧 魏永越讲稿 14 图图 239人发汞含量的频数分布人发汞含量的频数分布 1 3 5 7 9 11 13 15 17 19 21 发汞含量发汞含量(um
10、ol/kg) 70 60 50 40 30 20 10 0 人人 数数 频数(率)分布实例 魏永越讲稿 15 图 某XXXX年X学期统计成绩分布 0 10 20 30 40 50 60 70 80 90 100 自评分 400 300 200 100 0 人 数 频数(率)分布实例 魏永越讲稿 16 统计资料的描述 图形描述 指标描述 集中位置:算术均数、几何均数、中位数、百分位数 离散程度:极差、四分位数间距、方差、标准差 魏永越讲稿 17 Fraction xx -2-101234567 0 .333 Fraction x -2-101234567 0 .363 1 2 Fraction
11、yy -7-6-5-4-3-2-101234567 0 .1 .2 .3 .4 Fraction y -7-6-5-4-3-2-101234567 0 .1 .2 .3 .4 3 4 魏永越讲稿 18 集中位置的描述-平均数(average) 均数(arithmetic mean, mean) 12n XXX X n 1 n i i i X X X nn 魏永越讲稿 19 平均数(2) 加权均数(weighted mean) 1122 wnn Xw Xw Xw X 魏永越讲稿 20 平均数(3) 几何均数(geometric mean) 12 ln ln lnlnln exp n X X XX
12、X X n GX 12 n n GXXX 魏永越讲稿 21 几何均数例 1:10, 1:20, 1:40, 1:80, 1:160 5 10 20 40 80 16040G ln 3.6889 ln10ln20ln40ln80ln160 3.6889 5 40 X X Ge lg 1.60206 lg10lg20lg40lg80lg160 1.60206 5 1040 X X G 1, 1:2, 1:4, 1:8, 1:16 几何均数是?几何均数是? 魏永越讲稿 22 平均数(4) 中位数(median) 将一组数据按从小到大的顺序排列,位置居中的数即 是中位数。 (1)/2 /2/2 1 n
13、 ()/2 n n nn X M XX 当当 为为奇奇数数 当当 为为偶偶数数 “1 2 3 4 8”的中位数是? “1 2 3 4 ”的中位数是? 魏永越讲稿 23 中位数例 7例正常人的舒张压(mmHg) 值: 72 75 76 77 81 82 86 M=77 9例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 16 M=4.8 10例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16 M=(4.8+5.6)/2=5.2 魏永越讲稿 24 平均数(5) 百分位数(percentile) X% PX (10
14、0-X)% 50%分位数就是中位数 25%,75%分位数称四分位数(quartile) 魏永越讲稿 25 平均数应用的注意事项 同质的资料计算平均数才有意义。 均数适用于:单峰对称分布的资料 几何均数适用于:对数变换后单峰对称的资料 中位数适用于:任何分布资料,有不确定值的资 料 中国成年人平均身高167.1cm男和155.8cm女 169.7cm男和160.1cm女 魏永越讲稿 26 魏永越讲稿 27 只用平均数描述资料的弊病 It has been said that a fellow with one leg frozen in ice and the other leg in boil
15、ing water is comfortable ON AVERAGE ! 魏永越讲稿 28 离散程度的描述 甲组:64 77 80 83 96 乙组: 77 79 80 81 83 魏永越讲稿 29 离散程度的描述指标(1) 全距(range),极差 R = maxmin 四分位数间距(inter-quartile range) QU QL P75 P 25 魏永越讲稿 30 离散程度的描述指标(2) 方差(variance) 2 1 XX s n 2 2 1 XX s n 标准差(standard deviation, sd) n-1: 自由度(degree of freedom) 魏永越
16、讲稿 31 离散度比较 甲组: 26 28 30 32 34 乙组: 24 27 30 33 36 丙组: 26 29 30 31 34 极差 方差 标准差 甲组: 8 10.0 3.16 乙组: 12 22.5 4.74 丙组: 8 8.5 2.92 魏永越讲稿 32 离散程度的描述指标(3) 变异系数(coefficient of variation, CV) 100% s CV X 魏永越讲稿 33 身高与体重 某地100名20岁男子 身高:平均166.06cm, 标准差4.95cm 体重:平均53.72kg, 标准差4.96kg 魏永越讲稿 34 不同指标间变异度的比较 4.95 :
17、100%2.98% 166.06 4.96 : 100%9.23% 53.72 CV CV 身身高高 体体重重 中美家庭年收入分布 魏永越讲稿 35 魏永越讲稿 36 正确应用(1) 算数均数:适用于单峰对称分布资料; 几何均数:适合于作对数变换后单峰对称分布资料; 中位数和百分位数:适用于任何分布的资料; 中位数和百分位数在样本含量较少时不稳定,越靠两 端越不稳定; 中位数在抗极端值的影响方面,比均数具有较好的稳 定性,但不如均数精确。 因此,当资料适合计算均数或几何均数时,不宜用中 位数表示其平均水平。 不同质的资料应考虑分别计算平均数。 魏永越讲稿 37 正确应用(2) 标准差的基本内容
18、是离均差,它显示一组变量值 与其均数的间距,故标准差直接地、总结地、平 均地描述了变量值的离散程度。 在同质的前提下,标准差大表示变量值的离散程 度大,即变量值的分布分散、不整齐、波动较大; 反之,标准差小表示变量值的离散程度小,即变 量值的分布集中、整齐、波动较小。 变异系数派生于标准差,其应用价值在于排除了 平均水平的影响,并消除了单位。 魏永越讲稿 38 平均数与变异度 均数标准差(min,max) 中位数四分位数间距 (min,max) 变异度小,则均数代表性好! 变异度大,数据分散,则均数代表性差! 平均数所表示的集中性与变异度所表示的离 散性,从两个不同的角度阐明计量资料的特 征! 魏永越讲稿 39 总结: 描述资料的方法: 统计量描述 平均数:均数、几何均数、中位数 变异度:标准差、四分位数间距、变异系数、极差 不同分布的指标,用不同的统计量描述; 用平均数与变异度共同描述。 魏永越讲稿 40