1、,定量性数据的统计描述 (Descriptive of numerical variable) 主讲:广州医科大学 公共卫生学院 雷毅雄 博士 教授 (1021305),一、频数分布(Distribution of frenquency)表与频数分布图 频数分布表的编制 找全距 R=最大值 - 最小值 定组距 i =全距 / 组数(8-15组) 写组段 第一组组段包括最小值 最后一组组段包括最大值 划 记 各组段的观察单位数(频数) 同一组用“组中值”为代表值。,编制连续型频数表,用直方图显示分布。, 频数分布的特征描述 集中趋势:变量值集中分布的位置 离散趋势:变量值围绕集中位置的 分布情况
2、, 频数分布的类型 对称分布 偏态分布,* 对称分布(正态分布),二、集中趋势(Central tendency) 指标,平均数(average)常用于描述一组变量值的集中趋势,是反映同质资料的平均水平或集中位置的特征值。,应 用 对称分布资料,尤其是正态分布资料,常用平均数 2. 几何均数 (geometric mean) 表示符号: (G),应 用: 变量值呈倍数关系,对数正态分布资料,例:,5人血清效价为 1:10、 1:100、 1:1000 1:10000 、1:100000 ,其平均效价是多少?,=22222,=1000,1:1000,正确,错误,=129.2,1:129,常用平均
3、数 3. 中位数 (median) 表示符号: (M),用频数表法计算,L 中位数所在组组段的下限 iM 中位数所在组组段的组距 fM 中位数所在组的频数 fL 中位数所在组前一组的累计频数,= 70+30/167(630/2-196) = 91.4 /dl,百分位数描述观察序列在百分位置的水平,是分布的百分界值,可用于确定医学参考值范围,适用于任何分布。,附:百分位数 Percentile,Px 描述变量值序列在某百分位位置的水平,多个百分位数结合可更全面地描述变量值的分布特征。,L Px 所在组组段的下限 ix Px 所在组组段的组距 fx Px 所在组的频数 fL Px 所在组前一组的累
4、计频数,=190+30/28( 630 95%-580)= 209.8,/dl,常用平均数的对比 名称 意 义 应 用 场 合 均数 平均数量水平 应用甚广,适用于对称 分布,尤其是正态分布 几何均数 平均增(减)倍数 等比资料;对数正态 分布 中位数 位次居中的观察值水平 偏态分布;分布不明; 分布末端无确定值。,三、离散趋势 (tendency of dispersion),描述变量值的离散趋势用变异指标,全距 常用变异指标 标准差 变异系数 四分位数间距,常用变异指标 1. 全距 (range, R), R = 最大值 最小值 反映变量值的变异范围 各种类型资料都可应用,但只作 参考资料
5、,5人收缩血压测定结果(mmHg): 162 145 178 142 186,X = 813,X2 = 133317,=19.49 mmHg,=0.38,标准差用途: 1. 表示同质变量值的离散程度 2. 与均数结合,表示均数的代表性 (xs),同时描述正态分布特征 3. 与均数结合,计算变异系数 4. 与样本含量(n)结合,计算标准误,-,用途: 1) 比较多组单位不同资料的变异度 2) 比较多组均数相差较大资料的变度,常用变异指标 3. 变异系数 (Coefficient of variation, CV) 定义,例1:比较7岁男孩身高与体重的变异程度,身高:X1= 123.10 cm S
6、1= 4.71cm 体重:X2=22.29 kg S2 = 2.26kg,CV1= 4.71/123.10 100% =3.83%,CV2= 2.26/22.29 100% = 10.14%,例2:,S 2.1 2.2 3.1 3.3,CV(%) 3.7 3.3 3.2 3.1,3. 四分位数间距 ( Quartile, Q) 四分位数间距为特定的百分位数,可看作为中间1/2变量值的全距 Q = Qu QL, Qu = P75 (上四分位数) QL = P25(下四分位数),用途:用于表示偏态分布资料的变异程度,常与中位数配合使用,P25,P75,A,B,M,Q = P75 - P25 =13
7、5.7-63.2 = 72.5 /dl,描述频数分布离散程度的指标: ) 极差与四分位数间距,后者较 稳定,但均不能综合反映各观 察值的变异程度。 ) 方差和标准差,最为常用,对 正态分布尤为重要。 ) 变异系数,可用于多组资料间 度量衡单位不同或均数相差悬 殊时作变异度的比较。 以上指标都是数值越小,说明观察值的变异 度越小,均数的代表性越好。,四、正态分布(Normal distribution)及其应用 正态分布的概念和特征 正态分布是以均数为中心呈对称的钟型分布,频数(人数),125 129 133 137 141 145 149 153 157 161 身高 (cm),f,120名1
8、2岁健康男孩身高的频数分布,Normal distribution curve,F(X),f(X), ,正态分布密度函数 f(X),正态分布的特征有: 1) 正态分布曲线在均数处最高 2) 正态分布以均数为中心,左右对称且逐渐减少 3) 正态分布曲线的两个参数和, 记作N (, ) 4) 正态曲线下的面积为1 (或100%),正态曲线下的面积分布规律 1 占正态曲线下面积的 68.27% 1.96 占正态曲线下面积的 95.00% 2.58 占正态曲线下面积的 99.00% 若n100,则可用 X 代替,用 s 代替。,-,-2.58 -1.96 -1 +1 +1.96 +2.58,2.5%,
9、1.0%, 标准正态分布(u-分布) 标准正态分布为服从均数为0,标准 差为1,即N(0,1)的正态分布 其转换公式为:u = x / , 0 U ,(u),(u),标准正态曲线的面积分布规律 -1 u +1 占总面积的 68.27% -1.96 u +1.96 占总面积的 95.00% -2.58 u +2.58 占总面积的 99.00%,-2.58 -1.96 -1 0 +1 +1.96 +2.58,Standard normal distribution, 正态分布的应用 估计变量值的频数分布 例 130名新生儿体重 X-bar=3200g, s=350g, 估计低体重儿的比例。低体重儿
10、 X=2500g u=(x-)/ = (2500-3200)/350= -2 查表得:(-2)= 0.0228= 2.28% 低体重儿人数:130 2.28% = 2.96 = 3人, 正态分布的应用 2. 制定医学临床参考值: 指绝大多数 (95%)正常人某指标所在的范围。,人数,上限值 (95%),Normal,Patient,假阴性,假阳性, 正态分布的应用,常 用 U 值 表 正常值范围 双侧 单侧 80 % 1.282 0.842 90 % 1.645 1.282 95 % 1.960 1.645 99 % 2.576 2.326,95% 双侧参考值: 1.96S 99% 双侧参考值
11、: 2.58S 95% 单侧参考值: - 1.64S , + 1.64S,_,_,_,_,For example: 某地调查正常成年男子144人的红细胞数,近似正态分布,得537.8万/mm3,S43.9万/mm3。试估计该地成年男子红细胞数(RBC)的95%正常值范围。 因RBC过多或过少均为异常,故采用双侧估计: 按公式 us, 其中 u1.96 us 537.81.9643.9 450620万/mm3 即该地成年男子RBC的95%正常值范围为:450620万/mm3,2) 百分位数法: 用于偏态分布资料 双侧参考值(= 0.05) P2.5 P97.5 单侧参考值(= 0.05) P5 或 P95 3. 质量控制: 3s,