1、医学统计学医学统计学02个体变异个体变异l研究数据的收集、整理、分析的一门学科。Statistics is the science dealing with the collections,analysis,interpretation and presentation of masses of numerical data.(Webster 国际大词典)Statistics is the science and art of dealing with variation in data through collection,classification and analysis in suc
2、h a way as to obtain reliable result.统计学是什么?What is Statistics?医学统计学医学统计学l医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。医学研究的三个步骤1.1.研究设计研究设计3.3.结论结论2.2.资料分析资料分析统计学推断统计学推断专业推断专业推断结合结合假设假设实验或调查获得数实验或调查获得数据据l运用医学统计学的起点,也是高质量地完成整个研究的重要基础。l在数据分析的基础上,应用统计学处理的结果,进行统计学推断;同时,依据相应的专业知识,作出专业性的结论。l
3、在研究设计基础上,通过实验(试验)或调查,将所得数据进行统计学处理的过程。第一种分类(三类资料三类资料)(1)定量资料(quantitative data)(2)定性资料(qualitative data)(3)等级资料(ranked data,ordinal data)数值变量资料(numerical variable)分类资料(categorical variable)第二种分类(两类资料)数学上的分类l连续性资料(continuous data)l离散型资料(discrete data)一些重要的基本概念l1.1.同质和异质同质和异质l2.2.变异变异l3.3.总体与样本总体与样本l4.
4、4.随机随机l5.5.参数和统计量参数和统计量l6.6.频率和概率频率和概率l7.7.抽样误差抽样误差医学统计学思维l归纳型思维 推理型思维l从样本到总体 l从个别到一般个体变异(individual variation)因为变异,世界才变得如此丰富多彩!Outlinel个体变异个体变异l频数分布表和频数分布图频数分布表和频数分布图 频数图和频数表的信息频数图和频数表的信息l资料的统计描述资料的统计描述描述集中趋势的指标描述集中趋势的指标:平均数平均数描述离散趋势的指标描述离散趋势的指标:变异度变异度 正确应用正确应用l总结总结个体变异l个体变异个体变异(individual variatio
5、nindividual variation)是同质观察对象间表现出是同质观察对象间表现出的差异。的差异。l变异是生物体在一种或多种、已知或未知的不可控因素作用变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。下所产生的综合反映。l就每个观察单位而言就每个观察单位而言,其观察指标的变异是不可预测的,或者其观察指标的变异是不可预测的,或者说是随机的说是随机的(random)(random)。l就总体而言,个体变异是有规律的。就总体而言,个体变异是有规律的。个体变异是统计学应用的前提个体变异抽样误差统计推断例1:个体变异的表现l某地所有某地所有20岁健康男生的血红蛋白岁健康男生
6、的血红蛋白l某地所有某地所有20岁健康男生和女生的血红蛋白岁健康男生和女生的血红蛋白l江苏和西藏所有江苏和西藏所有20岁健康男生的血红蛋白岁健康男生的血红蛋白 l某地所有某地所有20岁健康男生和女生的白细胞计数岁健康男生和女生的白细胞计数 个体变异l生物体的变异是普遍存在的,是客观事实,无法准确预测。l这种变异是有规律的,是可以认识的。Heterogeneity or Individual variation?There are 1.23%different chromosomes between human and jocko.(Science,2002)例2:乱七八糟的原始数据某市某市19
7、971997年年1212岁男童岁男童120120人的身高人的身高(cm)(cm)资料如下。资料如下。142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 134.5 148.8134.4 148.8 137.9 151.3 140.8 149.8 145.2 141.8 146.8 135.1150.3 133.1 142.7 143.9 151.1 144.0 145.4 146.2 143.3 156.3141.9 140.7 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8143.5 139.2 14
8、4.7 139.3 141.9 147.8 140.5 138.9 134.7 147.3138.1 140.2 137.4 145.1 145.8 147.9 150.8 144.5 137.1 147.1142.9 134.9 143.6 142.3 125.9 132.7 152.9 147.9 141.8 141.4140.9 141.4 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 129.4 142.5141.2 148.9 154.0 1
9、47.7 152.3 146.6 132.1 145.9 146.7 144.0135.5 144.4 143.4 137.4 143.6 150.0 143.3 146.5 149.0 142.1140.2 145.4 142.4 148.9 146.7 139.2 139.6 142.4 138.7 139.9频数分布l原因:由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。l现状:医学研究得到的原始数据(raw data)往往是庞大的、混乱的。l解决:频数分布的基本思想:将原始数据按照一
10、定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图。频数表的编制频数表的编制找出极大值和极小值找出极大值和极小值,并计算极差并计算极差R R 此例此例R=160.9-125.9=35R=160.9-125.9=35依依R R分组分组,确定确定组数组距组段组数组距组段,常取常取8-158-15组组,用用1/10R1/10R取整作组距。取整作组距。这里取这里取4 4计算频数计算频数计量资料的频数、频率分布组 段 频 数 频 率 12410.0083 12820.0167 132100.0833 136220.1834 140370.3083 144260.2167
11、148150.1250 15240.0333 15620.0167 16010.0083合 计 1201.0000计量资料的频数分布 x Freq.124 1 *128 2 *132 10 *136 22 *140 37 *144 26 *148 15 *152 4 *156 2 *160 1 *Total 120 124 128 132 136 140 144 148 152 156 160计量资料的频数分布计量资料的频数分布图计量资料的频数分布图图 某市120名12岁男童身高的频数分布124132140148156164010203040人人数数身高身高(cm)定性资料的频数分布血型 频数
12、 频率(%)O205 40.43 A112 22.09 B150 29.59 AB 40 7.89合计 507 100.00表 507名傣族人血型的频数分布分类资料的频数分布图OABABEXCEL制作的频数图血型人数图 507名傣族人血型的频数分布EXCEL制作的频率图血型比例图 507名傣族人血型的频率分布频数分布与频率分布频数频数(率率)分布用于表达观察指标的分布规律。分布用于表达观察指标的分布规律。分布规律:变异规律。分布规律:变异规律。频数分布所提供的信息l频数分布图用以表示数据的分布规律l考察分布的类型 对称分布非对称分布skewness(偏态分布)l左偏态(负偏态)l右偏态(正偏态
13、)“偏”是偏离的意思,表示个别观察值偏离均数较远,而不是“集中位置偏”;“正偏”是指个别数据偏在均数右侧,其与均数之差为“正”;“负偏”是指个别数据偏在均数左侧,其与均数之差为“负”;正偏分布的偏度系数为正,负偏分布的偏度系数为负。124132140148156164010203040人数身高(cm)频数(率)分布实例(对称分布)图图 239 239人发汞含量的频数分布人发汞含量的频数分布1 3 5 7 9 11 13 15 17 19 21发汞含量发汞含量(umol/kg)70605040302010 0人人数数频数(率)分布实例(偏态分布1)正(右)偏态分布图 某城市892名老年人生存质量
14、自评分的频数分布0 10 20 30 40 50 60 70 80 90 100自评分400300200100 0人数频数(率)分布实例(偏态分布2)负(左)偏态分布图 102名黑色数瘤患者的生存时间频数分布1 5 10 15 20 25 30 35 40 45生存时间生存时间(月月)40302010 0人人数数频数(率)分布实例(偏态分布3)正(右)偏态分布图 某地19901992年男性死亡年龄分布 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85死亡年龄死亡年龄(岁岁)2500200015001000 500 0频数(率)分布实例(偏态
15、分布4)偏态,正偏态和负偏态l分布不对称者称为偏态分布。偏态分布又分为正偏分布和负偏分布。所谓正偏分布是指分布的长尾在峰的右侧,又称右偏分布;所谓负偏分布是指分布的长尾在峰的左侧,又称左偏分布。定量资料的描述l图形描述频数(率)分布图 趋势图l定量资料的统计指标描述 集中位置:算术均数、加权平均数、几何均数、中位数、百分位数 离散程度:极差、四分位数间距、标准差、方差、变异系数描述集中位置的指标平均数(Average)算术均数和加权均数(Mean and Weighted Mean)几何均数(Geometric Mean)中位数和百分位数 (Median and Percentile)集中位置
16、的描述-平均数(1)l算术均数算术均数(arithmetic mean,mean)简称均数简称均数(mean),是用得最多的统计描述指标。,是用得最多的统计描述指标。总体均数总体均数 the population mean样本均数样本均数the sample mean例:11名五岁女童身高值(cm)分别为:112.9,99.5,100.7,101.0,112.1,118.7,107.9,108.1,99.1,104.8,116.5,求平均身高。l加权均数加权均数(weighted mean)均数是加权均数的一个特例均数是加权均数的一个特例加权均数均数的应用:均数的应用:1 1、均数能全面反映全
17、部观察值的平均数量水平,、均数能全面反映全部观察值的平均数量水平,应用甚广。应用甚广。2 2、最适于、最适于对称分布资料对称分布资料,对于偏态资料,均数,对于偏态资料,均数不能较好地反映其集中趋势。不能较好地反映其集中趋势。3 3、在描述正态分布资料方面有重要意义、在描述正态分布资料方面有重要意义平均数(2)l几何均数几何均数(geometric mean,G)几何均数例l1:10,1:20,1:40,1:80,1:160几何均数的应用:几何均数的应用:1.1.等比资料,如抗体平均滴度等比资料,如抗体平均滴度2.2.对数正态分布资料对数正态分布资料Remember!使用几何均数时的注意点:使用
18、几何均数时的注意点:1)1)观察值不能有观察值不能有0 0。2)2)观察值不能同时有正值和负值。若全为观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出结果再负值,在计算时先把负号去掉,得出结果再加上负号。加上负号。Be careful!平均数(3)l中位数中位数(median,M)指将一组观察值从小到大按顺序排列,位次居中指将一组观察值从小到大按顺序排列,位次居中的观察值,常用的观察值,常用M表示。表示。中位数计算方法中位数计算方法:某病患者:某病患者5 5人,其潜伏期分别为人,其潜伏期分别为2 2,3 3,5 5,8 8,2020,求中位数?,求中位数?n=5n=5,M M
19、x x3 3=5(=5(天天):8 8名新生儿身长名新生儿身长(cm)(cm)依次为依次为5050,5151,5252,5353,5454,5555,5858,求中位数?,求中位数?n=8,M(x4x5)/2=(53+54)/2=53.5(cm)中位数例中位数例l9例正常人的发汞值:例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 l9例正常人的发汞值:例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 16 l10例正常人的发汞值:例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5
20、 16 M=4.8 M=4.8 M=(4.8+5.6)/2=5.2中位数例l对于某项风险较高的新手术术后的生存时间进行跟踪,共对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了调查了7人,人,6人死亡之前分别生存了人死亡之前分别生存了5天、天、6天、天、10天、天、16天、天、25天、天、29天天,还有一人术后,还有一人术后30天天随访时随访时仍存活仍存活。l本资料属于本资料属于“开口开口”资料。资料。l本例数据已经按从小到大的升序排列,本例数据已经按从小到大的升序排列,n=7,为奇数,其中,为奇数,其中位数为位数为16天。天。平均数(3)l百分位数(百分位数(percentileper
21、centile)是一个位置单位,以是一个位置单位,以P Px x表示,表示,一个一个P Px x将总体或样本的全部观察值分为两部分。理论上将总体或样本的全部观察值分为两部分。理论上有有x x的观察值比它小,有的观察值比它小,有(100-x)%(100-x)%的观察值比它大的观察值比它大.X%PX (100-X)%l50%分位数就是中位数分位数就是中位数l25%,75%分位数称四分位数(分位数称四分位数(quartile)中位数中位数和百分位数和百分位数的应用的应用 1 1、中位数和百分位数的计算对资料分布没有特殊要求。、中位数和百分位数的计算对资料分布没有特殊要求。偏偏态分布;态分布;分布不规
22、则或未知分布;一端或两端有不确定数据(开口分布不规则或未知分布;一端或两端有不确定数据(开口资料)资料)2 2、样本含量较少时不宜用靠近两端的百分位数来估计频、样本含量较少时不宜用靠近两端的百分位数来估计频数分布范围;因为在例数较少时,靠近两端的百分数不够数分布范围;因为在例数较少时,靠近两端的百分数不够稳定。稳定。3 3、中位数比均数具有较好的稳定性。但是,由于只采纳、中位数比均数具有较好的稳定性。但是,由于只采纳了数据的相对大小的信息,不够精确。了数据的相对大小的信息,不够精确。平均数应用的注意事项l同质的资料计算平均数才有意义。l算术均数适用于:单峰对称分布的资料l几何均数适用于:对数变
23、换后单峰对称的资料l中位数和百分位数适用于:偏态分布资料,分布类型未知的资料,有极端值和不确定值的资料例3 只用平均数描述资料的弊病l甲组 26 29 30 31 34l乙组 24 27 30 33 36 l丙组 26 28 30 32 34丙乙甲三组儿童体重的离散程度均数30kg描述离散趋势的指标变异度极差(Range)四分位数间距(interquartile range)方差(Variance)标准差(Standard Deviation)变异系数(coefficient of variation)全距全距(range),极差,极差 R=max-minR=max-min优点:简单方便缺点:
24、不灵敏 除了最大、最小值,不能反应组内其他数据的变异。不稳定 两样本例数相差旋殊,不适用全距比较变异度。离散程度的描述指标(1)四分位数间距:四分位数间距:quartilequartileP P75 75 上四分位数上四分位数 P P25 25 下四分位数下四分位数QUQL离散程度的描述指标(2)Min QL M QU Max极差极差四分位数间距四分位数间距 总体方差总体方差 2=在样本中,在样本中,未知,常用未知,常用 替代,替代,S2=方差(方差(variancevariance)离散程度的描述指标(3)总体标准差总体标准差=样本标准差样本标准差 n-1:自由度(degree of fre
25、edom)任何统计量的自由度任何统计量的自由度 =变量数变量数-限制条件的个限制条件的个数数离散程度的描述指标(4)标准差(标准差(standard deviationstandard deviation)l甲组 26 29 30 31 34 l乙组 24 27 30 33 36 l丙组 26 28 30 32 34 极差 方差 标准差l甲组 8 8.50 2.92l乙组 12 22.50 4.74l丙组 8 10.00 3.16离散度比较l 排除了平均水平的影响,并取消了单位。因此变异系数常用于:比较度量衡单位不同的两组或多组资料的变异度比较均数相差悬殊的两组或多组资料的变异度 离散程度的描
26、述指标(5)变异系数(coefficient of variation,CV)l某地某地100名名20岁男子岁男子l身高:平均身高:平均166.06cm,标准差标准差4.95cml体重:平均体重:平均53.72kg,标准差标准差4.96kg不同指标间变异度的比较不同指标间变异度的比较均数相差悬殊资料的变异度均数相差悬殊资料的变异度例例:某地不同年龄女童的身高资料如下,比较不同某地不同年龄女童的身高资料如下,比较不同年龄身高的变异程度。年龄身高的变异程度。年龄组年龄组人数人数均数均数标准差标准差变异系变异系数数12月月10056.32.13.756月月12066.52.23.333.5岁岁300
27、96.13.13.255.5岁岁400107.83.33.1表表 某地不同年龄女童身高(某地不同年龄女童身高(cm)的变异程度)的变异程度正确应用(1)l算数均数:适用于单峰对称分布资料;l几何均数:适合于作对数变换后单峰对称分布资料;l中位数和百分位数:适用于任何分布的资料;l中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;l中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。l因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。l不同质的资料应考虑分别计算平均数。正确应用(2)l极差不稳定,不灵敏l标准差的基本内容是离均差,它显示一组变量值与其均数的
28、间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。l在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。l变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。平均数与变异度l均数标准差(min,max)l中位数四分位数间距(min,max)l变异度小,则均数代表性好!l变异度大,数据分散,则均数代表性差!l平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!总结:l医学研究中,每个观察指标(变量)均有其特定的变异规律;l描述资料的方法:图形描述统计量描述平均数:均数、几何均数、中位数、百分位数变异度:极差、标准差、四分位数间距、变异系数l不同分布的指标,用不同的统计量描述;l用平均数与变异度共同描述。