1、 定量资料的统计描述分析定量资料的统计描述分析 统计描述统计描述统计推断统计推断 统计分析统计分析第一节第一节 频数分布表与频数分布图频数分布表与频数分布图 一、频数表的制备一、频数表的制备 (一)频数表的编制(一)频数表的编制 1、计算极差(、计算极差(range) R=最大值最大值-最小值最小值 2、确定组距、确定组距 I=R/组数,组数组数,组数=10 15 3、划分组段、划分组段 每个组段应有一个起始值作为组下限;第一每个组段应有一个起始值作为组下限;第一组段应包括最小值,最后组段应包括最大值。组段应包括最小值,最后组段应包括最大值。 4、归纳计数、归纳计数 某年某市某年某市120名名
2、12岁健康男孩身高岁健康男孩身高(cm)测量资料测量资料142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 132.1 135.5134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 143.6 149.0145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4141.2 141.5 148.8 140.1 150.6 139.5
3、146.4 143.8 150.0 142.1143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 148.9 142.4134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 146.7 143.4150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7160.9 154.2 137.9 139.9 149.7 147.5 136.9
4、 148.1 144.0 137.4134.7 138.5 138.9 137.7 138.5 139.6 1 43.5 142.9 146.5 145.4129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 139.2 139.9 R=160.9125.9=35 I=R/10=35/10=3.5, 取整取整I=4.0 某年某市某年某市120名名12岁健康男孩身高岁健康男孩身高(cm)频数分布表频数分布表组段 组中值 频数 x (1) (2) (3) (4)=(2)(3)125 127 1 127129 131 4 524133 135 9 12151
5、37 139 28 3829141 143 35 5005145 147 27 3969149 151 11 1661153 155 4 620157161 159 1 159合计 120() 17172( x) (二)频数分布的类型(二)频数分布的类型 1、对称分布、对称分布 2、偏态分布、偏态分布对称分布对称分布正偏态分布正偏态分布负偏态分布负偏态分布 (三)频数分布表的用途 1、揭示资料的分布类型 2、频数分布的重要特征 集中趋势(集中趋势(central tendency) 离散趋势离散趋势(tendency of dispersion) 3、便于发现某些特大或特小的可疑值 二、连续型
6、变量的频数分布图二、连续型变量的频数分布图 (一)等距分组(一)等距分组120名1 2岁 男孩身高 的频数分布0510152025303540121125129133137141145149153157161165身高 ( cm)人数 年市流行性乙型脑炎患者的年龄分布(二)不等距分组(二)不等距分组 年市流行性乙型脑炎患者的年龄分布 第二节第二节 集中趋势的描述集中趋势的描述 平均数(average index): 用以描述同质计量资料频数分布的集中趋势, 反映一组变量值的平均水平, 是一组变量值的代表值。 一、一、 算术均数算术均数: 简称均数。简称均数。用于描述对称分布用于描述对称分布(特
7、别是特别是呈正态分布呈正态分布)的变量值的平均水平的变量值的平均水平。总体均数用希腊字。总体均数用希腊字母母 表示表示, 样本均数用样本均数用X表示。表示。 计算方法: 直接法: x=x/n, 用于变量值个数不多时 例如: 现测得8名健康人血液一小时末红细胞沉降率(血沉)各为: 4、7、5、3、10、9、6和7mm/hr。试求其血沉均数。 x=x/n=(4+7+5+3+10+9+6+7)/8 = 6.4(mm/hr) 加权法: x=x/=x/n, 当变量值个数较多或变量值为频数表资料时 例如, 某市某年120名12岁健康男孩身高的均数 X=x/=x/n=17172/120=143.10(cm)
8、 某年某市120名12岁健康男孩身高(cm)频数分布表组段 组中值 频数 x (1) (2) (3) (4)=(2)(3)125 127 1 127129 131 4 524133 135 9 1215137 139 28 3829141 143 35 5005145 147 27 3969149 151 11 1661153 155 4 620157161 159 1 159合计 120() 17172( x) X=x/=x/n=17172/120=143.10(cm)二、几何均数二、几何均数: 用用G表示。用于描述变量值表示。用于描述变量值呈等比数呈等比数列列, 或呈对数正态分布或近似对数
9、正态分布资料。或呈对数正态分布或近似对数正态分布资料。 直接法: G=nx1x2 x3 xn , G=lg-1( lgx/n )例如, 某地在研究人群中流行性感冒抗体水平的调查中, 测得12名儿童的血清对某型病毒之血凝抑制效价的倒数各为5、5、5、5、5、5、5、10、10、10、20、40, 试计算平均血凝抑制效价。X=(5+5+5+5+5+5+5+10+10+10+20+40)/12=10.42G=12571032040 = 7.94lgG = lg(12571032040)=lg(571032040)1/12=1/12(7lg5+3lg10+lg20+lg40)=0.89966为简化计算
10、, 可两边取对数G = lg-1(lgG)= lg-10.89966 = 7.94 加权法: G=lg-1( lgx/ ), 当变量值个数较多或变量值为频数表资料时G=12571032040 = 7.94 某市1 0 0儿 童 抗体滴度对数值频数分布某市1 0 0儿 童 抗体滴度对数值频数分布0 05 51010151520202525303035354040lg2lg2lg4lg4lg8lg8lg16lg16lg32lg32lg64lg64lg128lg128lgXlgX频数频数 三、中位数和百分位数三、中位数和百分位数: 中位数是一组从小到大中位数是一组从小到大顺序排列的变量值顺序排列的变
11、量值, 位于正中间位置的数值位于正中间位置的数值,亦称亦称为位置平均数为位置平均数, 代号为代号为M。多用于描述偏态分布多用于描述偏态分布资料资料, 或分布不明资料或分布不明资料, 或一端或两端无确定数或一端或两端无确定数值的开口资料的集中趋势值的开口资料的集中趋势。百分位数代号为百分位数代号为PX, 是一种位置指标。是一种位置指标。 PX: 1,2,3,4,5,6,7,8,9, 10,n 100等分等分P50= M 小样本资料中位数计算方法(直接法): 当例数当例数n为奇数时为奇数时 M=X(n+1)/2 当例数当例数n为偶数时为偶数时 M= X(n/2)+X(n/2+1) /2例如, 7名
12、某病潜伏期各为1、2、2、3、3、5、15, 求其平均潜伏期。X=(1+2+2+3+3+5+15)/7=4.4(天天)M=X(n+1/2)=3(天天) 1、离散型变量 2、连续型变量 中位数和百分位数计算方法(频数表法): PX =L+i( n x% - L )/ m L: 百分位数所在组组下限 i:百分位数所在组组距 L:百分位数所在组上一个组段的累计频数 m:百分位数所在组频数 M= L+i( n/2 - L )/ m L: 中位数中位数所在组组下限所在组组下限 i:中位数中位数所在组组距所在组组距 L:中位数中位数所在组所在组上一个组段的累计频数上一个组段的累计频数 m:中位数中位数所在
13、组频数所在组频数 238名正常人发汞的中位数计算 发汞值频数() 累计频数(L) 0.320 20 0.766 86 1.160 146 1.5 48 1.9 18 2.316 2.7 6 3.11 3.50 3.93 M=1.1+0.4 (238/286)/60=1.32(g/g) 238名正常人发汞的频数分布238名正常人发汞的频数分布0 010102020303040405050606070700.10.10.30.30.70.71.11.11.51.51.91.92.32.32.72.73.13.13.53.53.93.9发汞值发汞值人数人数三种常用平均数三种常用平均数平均数平均数适用
14、资料适用资料计算方法计算方法算术均数算术均数 变量值呈对称分布变量值呈对称分布 直接法(未分组资料直接法(未分组资料(X) 加权法(分组资料)加权法(分组资料) 几何均数几何均数 等比级资料,等比级资料, 直接法(未分组资料)直接法(未分组资料) ( G ) 对数正态分布对数正态分布 加权法(分组资料)加权法(分组资料) 中位数中位数 呈偏态分布,呈偏态分布, 直接法(未分组资料)直接法(未分组资料) (M) 分布不清分布不清 分布一端无确定值分布一端无确定值 频数表法(分组资料)频数表法(分组资料)第三节 离散程度的指标变异指标: 又称离散指标, 用以描述一组同质变量值之间参差不齐的程度,
15、即离散程度离散程度(degree of dispersion)或变异度(degree of variation)。例如, 两组新生儿, 各有5例, 平均出生体重都是3.4公斤甲组 2.8 2.9 3.4 3.9 4.0乙组 3.0 3.2 3.4 3.6 3.8甲的变异程度乙组 (一)全距(一)全距: R(range), 亦称极差亦称极差。即一组变量值中最大值与最小值之差。 R甲=4.0 - 2.8 = 1.2 R乙=3.8 - 3.0 = 0.8 优点: 简单明了 缺点: 仅考虑了资料的最大值与最小值, 不能反应组内其它数据的变异程度。一、极差和四分位间距一、极差和四分位间距 (二)四分位间
16、距(二)四分位间距(inter-quartile range) 1、百分位数 2、四分位数:下四分位数(QL):P25 上四分位数(QU):P75 3、四分位间距 QU - QL 二、二、方差与标准差方差与标准差: 是是最常用最常用来衡量变量值间来衡量变量值间离散程度的变异指标。总体方差离散程度的变异指标。总体方差 2, 标准差代标准差代号号 ,样本方差,样本方差S2, 标准差代号标准差代号S。 x - 离均差 x - 离均差之和 如对称则会出现 x - =0 (x - )2 离均差平方和 与变异度及个数有关 (x - )2/n 即方差(variance),总体方差用2表示 2= (x - )2/n 数理统计研究结果数理统计研究结果, (x - x)2/n 100) 分布呈正态分布呈正态 (三)质量控制(三)质量控制 (四)统计处理方法的基础(四)统计处理方法的基础 思考题:思考题: 1、均数、中位数和几何均数的适用范围有何异同? 2、列出离散程度的指标, 说出它们的应用条件。 3、正态分布、标准正态分布与对数正态分布在概念和应用上有何异同? 4、医学参考值范围的涵义是什么? 确定的原则和方法是什么?