1、医学统计学医学统计学Medical Statistics学科定义 基础:概率论和数理统计等数学的原理、方法 研究对象:医学资料 研究任务:搜集、整理、分析和推断 性质:一门应用学科 生物统计学生物统计学(Biostatistics)应用于生物学研究,又称生物测量学Biometry 医学统计学医学统计学(Medical Statistics)应用于医学研究,侧重于医学的生物性 卫生统计学卫生统计学(Health Statistics)应用于医学研究,侧重于医学的社会性几个关联紧密的学科 三个步骤 (1)研究设计研究设计 运用医学统计学的起点,也是高质量地完成整个研 究的重要基础。(2)资料分析资
2、料分析 在研究设计基础上,通过实验(试验)或调查,将所得 数据进行统计学处理的过程。(3)结论结论 在数据分析的基础上,应用统计学处理的结果,进 行统计学推断;同时,依据相应的专业知识,作出 专业性的结论。三类资料(1)定量资料(quantitative data)(2)定性资料(qualitative data)(3)等级资料(ranked data)资料类型的判断病例号病例号年龄年龄性别性别身高身高血型血型心电图心电图 尿尿WBC职业职业135女1.65A正常教师244男1.74B正常工人326男1.80O正常职员425女1.61AB正常农民541男1.71A异常+工人645女1.58B正
3、常+工人750女1.60O异常+干部828男1.76AB正常+干部931女1.62O正常军人另一种分类 数值变量资料 分类资料 二分类 多分类 无序多分类有序多分类(等级资料)数学上的分类 连续性资料(continuous data)离散型资料(discrete data)注意事项 资料的划分根据研究目的确定的,可互相转换 资料的类型不同,选用的统计分析方法也不同 应要从三个层次去把握三类资料观察单位观察单位 人人 人人 人人 观察指标或变量观察指标或变量 身高身高 职业职业 心功能分级心功能分级 变量值变量值 170cm 165cm 工人工人 农民农民 几个基本概念 总体(populatio
4、n)是指按研究目的所确定的同质研究对象某项观察指标的全体。有限总体:个体数可数 无限总体:个体数不可数同质(homogeneity):指观察单位具有相同的性质。同质是研究的前提几个基本概念 样本(sample)是指从研究总体中随机抽取具有代表性的部分观察单位的某项变量值的集合。来自总体 随机:机会均等 随便 样本含量(sample size)是指样本中的观察单位数,常用n表示。几个基本概念 参数与统计量 总体指标称为参数(parameter)。一般用希腊字母表示,如:、样本指标称为统计量(statistics)。一般用拉丁字母表示,如:、s 参数估计:用样本统计量估计总体参数。X几个基本概念
5、概率(probability)随机事件发生可能性大小的一个度量 常用P来表示,0P1 必然事件和不可能事件 随机现象与随机事件几个基本概念 小概率事件 P0.05 小概率原理 小概率事件发生的可能性很小,进而认为其在一次抽样中不可能发生,此即为小概率原理。进行统计推断的依据 医学统计学思维 归纳型思维 (推理型思维)从样本到总体 从个别到一般统计学的作用 工具 发现规律,而不是创造规律个体变异与变量分布个体变异(individual variation)是同质观察对象间表现出的差异。变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。就个体而言:变异是随机的(random)
6、。就总体而言:个体变异是有规律的。个体变异是统计学应用的前提个体变异抽样误差统计推断一个原始资料某市1997年12岁男童120人的身高(cm)资料如下。142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 134.5 148.8134.4 148.8 137.9 151.3 140.8 149.8 145.2 141.8 146.8 135.1150.3 133.1 142.7 143.9 151.1 144.0 145.4 146.2 143.3 156.3141.9 140.7 141.2 141.5 148.8 140.1 150.6 139.5
7、 146.4 143.8143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 134.7 147.3138.1 140.2 137.4 145.1 145.8 147.9 150.8 144.5 137.1 147.1142.9 134.9 143.6 142.3 125.9 132.7 152.9 147.9 141.8 141.4140.9 141.4 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 129.
8、4 142.5141.2 148.9 154.0 147.7 152.3 146.6 132.1 145.9 146.7 144.0135.5 144.4 143.4 137.4 143.6 150.0 143.3 146.5 149.0 142.1140.2 145.4 142.4 148.9 146.7 139.2 139.6 142.4 138.7 139.9计量资料的频数、频率分布组 段 频 数 频 率 12410.0083 12820.0167 132100.0833 136220.1834 140370.3083 144260.2167 148150.1250 15240.0333
9、 15620.0167 16010.0083合 计1201.0000计量资料的频数分布图-直方图124132140148156164010203040人数图 某市120名12岁男童身高的频数分布频数表编制步骤 求极差 选定适当的组段数后估计组距 列出组段 划记归组获得频数 求频率,完成频数表 频数分布表和频数分布图的用途 描述分布类型 描述分布的特征 便于发现特大、特小的可疑值 便于计算有关指标、统计分析与处理频数分布类型 对称分布:以正态分布较为常见 非对称分布:偏态分布 正偏态:右侧左侧 向右侧拖尾 均数中位数 负偏态:左侧右侧 向左侧拖尾 均数中位数 频数分布特征 数据分布的范围:125
10、.9160.9cm数据最集中的区间:140.0144.0cm分布形态:基本对称同一组资料,不同的人编制的频数表,结同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。果不尽相同,允许几个合理的结果并存。定性及等级资料的频数分布 离散型频数表 离散型频数图直条图 频数分布表血型频数频率(%)O205 40.43 A112 22.09 B150 29.59 AB 40 7.89合计507100.00频数分布图OABAB图 239人发汞含量的频数分布1 3 5 7 9 11 13 15 17 19 21发汞含量(umol/kg)70605040302010 0人数图 某城市892
11、名老年人生存质量自评分的频数分布0 10 20 30 40 50 60 70 80 90 100自评分400300200100 0人数图 102名黑色数瘤患者的生存时间频数分布1 5 10 15 20 25 30 35 40 45生存时间(月)40302010 0人数图 某地19901992年男性死亡年龄分布 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85死亡年龄(岁)2500200015001000 500 0课后习题 P355:练习2.1 统计资料的描述 列表描述:频数分布表、一览表 图形描述:频数分布图、趋势图 指标描述 定量资料
12、集中位置:算术均数、几何均数、中位数、百分位数 离散程度:极差、四分位数间距、方差、标准差 定性或等级资料相对数指标:率、构成比、比集中位置的描述-平均数(average)均数(arithmetic mean,mean)nXXXXn21均数的几何意义 均数代表每组观察值的平衡点,也就是重心。如:(1,4,7,8)则均数为5。则图示如下:均数的重要特性:离均差(各观察值与均数之差)总和等于零 12345678平均数(average)加权均数(weighted mean)均数是加权均数的一个特例nnnnnXXXXw121111nnwXwXwXwX2211平均数(average)几何均数(geome
13、tric mean)XnXXGnXXXXln21lnexplnlnlnnnXXXG21几何均数例 1:10,1:20,1:40,1:80,1:16040160804020105G406889.35160ln80ln40ln20ln10ln6889.3lneGXX平均数(average)中位数(median)将一组数据按从小到大的顺序排列,位置居中的数即是中位数。为偶数当为奇数当n n 2/)(12/2/2/)1(nnnXXXM中位数例 9例正常人的发汞值(mol/kg):1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.8 10例正常人的发汞值:1.1,1.8
14、3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3 M=(4.8+5.6)/2=5.2 平均数(average)百分位数(percentile)X%PX (100-X)%50分位数就是中位数 其中 LX:PX所在组下限 iX:PX所在组组距 fX:PX所在组频数 n:样本例数 fL:小于PX所在组的各组段累计频数 LXXXXfXnfiLP%组组 段段(1)频频 数数(2)累累计计频频数数(3)累累计计频频率率(4)124 1 1 0.83 128 2 3 2.50 132 10 13 10.83 136 22 35 29.17 140 37 72 60.00 144 26 98
15、 81.67 148 15 113 94.17 152 4 117 97.50 156 2 119 99.17 160 1 120 100.00 合合 计计 120 百分位数例 利用表2.1,求P50,P25,P75)(94.14235%5012037414050cmP)(09.13913%2512022413625cmP)(78.14672%7012026414475cmP平均数应用的注意事项 同质的资料计算平均数才有意义 根据资料分布的特征选用适当的平均数 均数:单峰对称分布的资料 几何均数:等比资料、滴度资料、正偏态资料 中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时
16、,不宜用中位数。(偏态分布、分布不明资料、有 不确定值的资料)平均数应用的注意事项 计算几何均数时:变量值中不能有0 同一组变量值不能同时存在正、负值 若变量值全为负值,可先将负号除去,算出结果后再冠以负号 样本含量较少时不宜计算靠近两端的百分位数 平均数要与变异指标结合使用思考题:在太阳、地球和月球组成的体系中:太阳的质量为 21030kg 地球的质量为 5.971024kg 月球的质量为0.0731024kg 请问:三者平均质量为多少?看一个例子:有甲、乙两组同性别同年龄儿童体重(kg):甲组 26,28,30,32,34 =30 kg n甲=5乙组 24,27,30,33,36 =30
17、kg n乙=5 上述两组数据的特点:集中位置 相同:均为30kg 离散程度不同:各观察值离均数的远近不同甲X乙X离散趋势的描述 全距(Range)亦称极差,记为R,是一组变量值中最大值与最小值之差。优点:简单明了 缺点:不灵敏、不稳定 离散趋势的描述 四分位数间距(interquartile range)定义为:QUQL,即中间一半观察值的极差。四分位数(quartile)是两个特定的百分位数:第25分位数P25,和第75分位数P75,分别记为QL和QU。四分位数间距较全距稳定,常与中位数一起,描述不对称分布资料的特征。离散趋势的描述 方差(Variance)和标准差(Standard Dev
18、iation)NX22NX212nXXs“离均差平方之和 平均后的方根”n-1 称为(标准差的)自由度,即“可以自由变异的程度”因为任一离均差均可以用另外n-1个离均差表示,所以“只有n-1个独立的离均差”。标准差的基本内容是“离均差”,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。离散趋势的描述 变异系数(coefficient of variation)亦称离散系数(coefficient of dispersion),是标准差s与均数之比,即:%100XsCV变异系数的两个特点及相应的用途 没有单位 反映标准差占均数的百分比或标准差是均数的几倍 可
19、用来比较度量衡单位不同的资料的变异度 不受平均水平的影响 反映的是以均数为基数的相对变异的大小 比较均数相差悬殊的资料的变异度 某地20岁男子100人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.7kg,标准差为4.96kg,试比较身高和体重的变异。身高 体重%98.2%10006.16698.4CV%23.9%10072.5396.4CV 绝对变异受平均水平的影响 相对变异排除了平均水平的影响表 2.4 某地年龄儿童身高(cm)的变异 年龄组 人数 均数 标准差 变异系数()12 月 100 56.3 2.1 3.7 56 月 120 66.5 2.2 3.3 33.5
20、 岁 300 96.1 3.1 3.2 55.5 岁 400 107.8 3.3 3.1 平均数与变异度的关系 平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差 平均数与变异度的关系 通常,平均数与变异指标一起描述资料的分布特征。用均数和标准差描述正态分布资料的特征;用中位数和四分位数间距描述偏态分布资料的特征。资料的指标描述 是统计描述的一个重要的组成部分 定量资料的统计指标 平均水平指标:算术均数、几何均数、中位数 等。离散程度指标:全距、四分位数间距、方差、标准差、变异系数。定
21、性资料或等级资料的统计指标 相对数相对数指标指标绝对数的概念与意义 调查研究和实验研究得到的定性资料或等级资料经过整理,清点数目得到的数值称为绝对数。如某病的发病人次数、医院收容人数、治愈人数等。绝对数反映一定条件下某种事物的规模或水平,是计划或总结工作的依据,绝对数是计算相对数与平均数的基础。绝对数往往不便于比较绝对数往往不便于比较。例:调查得某年小学生中流脑发病:甲地区63例,乙地区35例。v甲地区流脑流行比乙地区严重 v如已知小学生总人数:甲地区50051人,乙地区14338人,可算出两个发病率:v甲地区流脑发病率:63/500511000=1.26v 乙地区流脑发病率:35/14338
22、 1000=2.44 v乙地区流脑流行比甲地区严重乙地区流脑流行比甲地区严重相对数的概念 和意义 概念:相对数是两个有联系的指标之比。两个特点:表示事物出现的频度。把基数化作相等,便于比较。常用相对数 率 构成比 相对比 率 率(rate)又称频率指标频率指标,用以说明某事物或某现象在其可能发生的范围内实际发生的频率或强度。计算公式为:)(K比例基数单位总数可能发生该现象的观察单位数实际发生某现象的观察率KBAA率表 2.5 某市某年各区急性传染病发生数及其相对数 市区 年平均 人口数 急性传染 病发生数 各区与 I 区 发病数之比发病数之比 各区急性传染病 发生数构成比发生数构成比(%)各区
23、急性传染病 发病率发病率(1/万万)(1)(2)(3)(4)(5)(6)I 636723 2433 18.9 38.21 II 389540 3033 1.25 23.5 77.86 III 699712 1650 0.68 12.8 23.58 IV 328363 1503 0.62 11.6 45.77 V 286967 1282 0.53 10.0 44.67 VI 317504 1853 0.76 14.4 58.36 VII 153838 1130 0.46 8.8 73.45 合计 2812647 12884 100.0 45.81 关于率的几点说明(一)分子和分母都是计数值,从定
24、义上来看,分子应为分母的一部分,但在实际应用中一些率的指标可能并不符合率的定义,但它们是约定俗成、沿习使用的。根据频率的稳定性,分母较大时,可以用率作为该事件发生机会(即概率)的近似值。例如:医治100例病人,90例痊愈,则:治愈率=90/100=90%。它近似的反映了病人治愈机会的大小。K该时点人口数现患病人总数观察时点内发现的某病某病患病率关于率的几点说明(二)0 rate1 率常以百分率(%)、千分率()、万分率(1万)、十万分率(l10万)等表示。比例基数(K)可以是100、1000、,其选取是根据习惯用法和需要选用,主要使算得的率至少保留12位整数,便于阅读。患病率、发病率、感染率:
25、百分率(%)人口出生率与死亡率:千分率()肿瘤死亡率:十万分率(l10万)构成比 构成比(proportion)又称构成指标,表示某一事物内部各组成部分所占的比重或分布比重或分布,常以百分数表示,计算公式为:%100观察单位总数同一事物各组成部分的的观察单位数事物内部某一组成部分构成比设某事物个体数的合计由A1,A2,Ak个部分组成,构成比计算为:%100%100%1002%100121212211 个构成比的合计为构成比构成比构成比KAAAAKAAAAAAAAkKkk表表2.2 507名傣族人血型的频数分布名傣族人血型的频数分布 血型血型 频数频数 频率频率(%)O 205 40.43 A
26、112 22.09 B 150 29.59 AB 40 7.89 合计合计 507 100.00 构成比的特点:同一事物内部的k个组成部分构成比总和为100%。各部分构成比之间是相互影响的,某一部分比重的变化受到两方面因素的影响:其一是这个部分自身数值的变化,其二受其他部分数值变化的影响。某患者手术前后白细胞检查结果比较某患者手术前后白细胞检查结果比较 白细胞分类白细胞分类 观察期间观察期间 中性中性 淋巴淋巴 单核单核 嗜酸性嗜酸性 合计合计 手术前手术前 4.82 1.65 0.07 0.07 6.60 白细胞计白细胞计数(数(109)手术后手术后 11.00 1.65 0.14 0.96
27、 13.75 手术前手术前 73 25 1 1 100 构成比构成比(%)手术后手术后 80 12 1 7 100 比 比(ratio)亦称相对比,是 A、B两个有关指标之比。v说明A为B的若干倍或百分之几,它是对比的最简单形式。A、B两个指标可以是绝对数,也可以是相对数;可以性质相同,也可以性质不同;可以是定性资料,也可以是定量资料。BA比人口统计中常用的比的指标 受精时性别比(第一性比例)一般为110170,平均120;出生时性别比(第二性比例)绝大多数国家为103107,平均106;婚龄期性别比(第三性比例)约为100;100女性人口数男性人口数性别比性别比性别比(sex ratio)又
28、称性比例,是指男性人口与女性人口的比值。人口统计中常用的比的指标 抚养比抚养比又称人口负担系数,是反映劳动人口负担程度的指标,此数值取决于人口年龄结构类型。%100641565140岁人数岁及以上人数岁人数抚养比正确应用相对数(一)计算相对数的分母不宜过小计算相对数的分母不宜过小 例数较少,相对数波动较大。如:0/2,1/2,2/2 例数较少时,宜用绝对数表示,必须用相对数时,可同时列出其可信区间。分析时不能以构成比代替率分析时不能以构成比代替率 率反映的是频率或者强度 构成比反映的是比重或分布正确应用相对数(二)正确应用相对数(三)正确计算合并率正确计算合并率 对观察单位数不等的几个率,不能
29、直接相加对观察单位数不等的几个率,不能直接相加求其平均率求其平均率(或称总率或称总率)例如用某疗法治疗肝炎,第一次治疗例如用某疗法治疗肝炎,第一次治疗150150人,治愈人,治愈3030人,治愈率人,治愈率20%20%;第二次治疗;第二次治疗100100人,治愈人,治愈3030人,人,治愈率治愈率30%30%。试计算两批的合并治愈率。试计算两批的合并治愈率。观察单位数相等时?观察单位数相等时?正确应用相对数(四)计算率时要注意资料的同质性计算率时要注意资料的同质性 对比分析时应注意资料的可比性对比分析时应注意资料的可比性 v 所谓可比,就是说除了要对比的因素外(如不同药物),其余的影响因素应尽
30、可能的相同、相似或接近。观察对象同质,研究方法相同,观察时间相等,以及地区、周围环境、风俗习惯和经济条件应一致或相近。观察对象内部构成内部构成是否相同,若两组资料的年龄、性别构成不同,可以分组或进行标准化后再作比较。正确应用相对数(五)样本率或构成比比较时,不能仅凭表面上的数值大小下结论,应考虑到其抽样误差抽样误差,进一步作统计学处理。表表 2.6 2.6 某病两种疗法的治愈率比较某病两种疗法的治愈率比较 病情病情 甲疗法甲疗法 乙疗法乙疗法 选定的标准组选定的标准组 病人数病人数 治愈数治愈数 治愈率治愈率 病人数病人数 治愈数治愈数 治愈率治愈率 人数人数 构成比构成比 轻型轻型 80 7
31、2 0.90 60 54 0.90 140 0.4667 重症重症 120 84 0.70 40 28 0.70 160 0.5333 合计合计 200 156 0.78 100 82 0.82 300 1.0000 例例2.10 率的标准化 基本思想基本思想 采用某种影响因素的采用某种影响因素的统一统一标准标准构成,以消除构成不同对合计率的影响,构成,以消除构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比使通过标准化后的标准化合计率具有可比性性。标准化率(standardized rate)又称调整率(adjusted rate),实际上是一加权平均其中NiN 来自标准组,pi来
32、自实际资料 NpNpNNpwpiiiiii)(对例2.10资料,选择甲乙两组合并后的观察人数作为标准组 标准组中轻型患者140例,重型患者160例,构成比分别为:0.4667和0.5333,以此为权数,分别求得两组的标化率:%34.797.05333.09.04667.0甲p%34.797.05333.09.04667.0乙p应用标准化时的注意事项“标准组标准组”的的选择选择两组中的任一组作为标准组相比较两组合并作为标准组另选一个通用的便于比较的标准组。如本地的、本省的、全国的、世界的同一指标之构成皆可酌情选用 选用不同的标准时,所得出的标准化率是不同的。但这选用不同的标准时,所得出的标准化率
33、是不同的。但这种差别大多不致于影响对比的相对关系。种差别大多不致于影响对比的相对关系。应用标准化时的注意事项 标准化率的应用价值标准化率的应用价值仅限于相互比较,不反映具体的实际水平。要反映实际情况,则需用未标化前的率。应用标准化时的注意事项 标准化率的适用范围标准化率的适用范围仅适用于某因素两组内部构成不同,并有可能影响两组总率的比较,对于因其他条件不同而产生的不可比性问题,标准化率不能解决。应用标准化时的注意事项 标准化率也有抽样误差标准化率也有抽样误差两样本标准化率作比较时,当样本含量较小时,还应作假设检验正态分布(normal distribution)v又称又称Gauss分布(分布(
34、Gaussian distribution)是是一个重要的连续型概率分布。一个重要的连续型概率分布。正态分布的重要性v医学研究中的某些观察指标服从或近似服医学研究中的某些观察指标服从或近似服从正态分布;从正态分布;v很多统计方法是建立在正态分布的基础之很多统计方法是建立在正态分布的基础之上的;上的;v很多其他分布的极限为正态分布。因此,很多其他分布的极限为正态分布。因此,正态分布是统计分析方法的重要基础。正态分布是统计分析方法的重要基础。记作:记作:X N(,2)例如:例如:X N(120,8.22)X N(5,32)正态分布的数学形式正态分布的数学形式222)(21)(XeXf2221)(u
35、euXuX N(0,1)标准正态分布的均数为标准正态分布的均数为0,标准差为,标准差为1正态分布曲线的三个特点v集中性集中性 v对称性对称性v均匀变动性均匀变动性 集中性集中性 中等大小的数据居多,较大的和较小中等大小的数据居多,较大的和较小的数据少些,即例数集中在中等大小的的数据少些,即例数集中在中等大小的数据附近。数据附近。对称性对称性 以均数为中心,大于它和小于它的数据以均数为中心,大于它和小于它的数据的例数是对称的。的例数是对称的。均匀变动性均匀变动性 例数由少增多或由多减少的过程是逐渐例数由少增多或由多减少的过程是逐渐变化的,即均匀分布的。在分析数据时,变化的,即均匀分布的。在分析数
36、据时,均匀性是一个很重要的特点。均匀性是一个很重要的特点。如果,随着变量值的变异,例数如果,随着变量值的变异,例数突然地增多或突然地减少,或长距突然地增多或突然地减少,或长距离地间断,都表示资料的同质性可离地间断,都表示资料的同质性可能较差,应进一步查明原因。能较差,应进一步查明原因。正态分布的特征正态分布是单峰分布:正态分布是单峰分布:X=(峰峰)正态分布以均数为中心,左右完全对称正态分布以均数为中心,左右完全对称。正态分布有两个参数(正态分布有两个参数(parameter)。)。某些指标经变换后服从正态分布某些指标经变换后服从正态分布正态曲线下的面积分布有一定的规律。正态曲线下的面积分布有
37、一定的规律。-1.9695%+1.962.5%2.5%正态曲线下的面积分布示意正态曲线下的面积分布示意 标准正态分布曲线下的面积的计算标准正态分布曲线下的面积的计算 求求u值,用值,用u值查表,得到所求区间面积占值查表,得到所求区间面积占总面积的比例。总面积的比例。曲线下对称于曲线下对称于0 0的区间,面积相等。的区间,面积相等。曲线下总面积为曲线下总面积为100100或或1 1。例例2.11 在例在例2.1中已求得某市中已求得某市120名岁男童身高均数为名岁男童身高均数为142.67cm,标准差为标准差为6.00cm。设该资料服从正态分布,试求:。设该资料服从正态分布,试求:该地该地12岁男
38、童身高在岁男童身高在132cm以下者占该地以下者占该地12岁男童总数岁男童总数的比例。的比例。分别求均数分别求均数1s、均数、均数1.96s和均数和均数2.58s范围内范围内12岁岁男童占该组儿童总数的实际百分数,并与理论百分数比男童占该组儿童总数的实际百分数,并与理论百分数比较。较。参考值范围又称正常值范围又称正常值范围正常人的形态、功能、生化等各种指标的波动正常人的形态、功能、生化等各种指标的波动范围。简称正常值。范围。简称正常值。为什么波动?为什么波动?“个体变异个体变异”同一指标的数据因人而异同一指标的数据因人而异同一个体的数据随环境、时间等改变而变同一个体的数据随环境、时间等改变而变
39、为什么要确定一个范围?为什么要确定一个范围?既然同属正常人,就不能以甲的数据为标准,认为乙异常,亦既然同属正常人,就不能以甲的数据为标准,认为乙异常,亦不能以甲此时的数据为标准,认为彼时的异常。所以必须确定一个不能以甲此时的数据为标准,认为彼时的异常。所以必须确定一个波动范围。如波动范围。如WBCWBC:400010000个个/mm3“正常正常”是一个相对的概念是一个相对的概念“正常人正常人”是指排除了影响所研究指标的疾病和有关因素的人。是指排除了影响所研究指标的疾病和有关因素的人。意义意义横向分析横向分析划界、分类划界、分类临床医生判断正常与异常的参考依据临床医生判断正常与异常的参考依据 动
40、态分析动态分析如某个地区不同时期发汞的正常值可反映环境污染如某个地区不同时期发汞的正常值可反映环境污染的动态变化或环保效果的动态变化或环保效果参考值范围确定的原则参考值范围确定的原则 选定同质的正常人作为研究对象选定同质的正常人作为研究对象 控制检测误差控制检测误差 判断是否分组判断是否分组 单、双侧问题单、双侧问题 选择百分界值选择百分界值 选定同质的正常人作为研究对象选定同质的正常人作为研究对象 同质同质 正常正常 “足够数量足够数量”例数过少,代表性差;例数过多增加成本,且易导致正常标准把握例数过少,代表性差;例数过多增加成本,且易导致正常标准把握不严,影响数据的可靠性。不严,影响数据的
41、可靠性。一般认为每组一般认为每组100例以上例以上;有人认为确定临床生化指标的正常值应;有人认为确定临床生化指标的正常值应取取300500例。例。控制检测误差控制检测误差 通过人员培训、控制检测条件、重复测定等措施,通过人员培训、控制检测条件、重复测定等措施,严格控制检测误差。严格控制检测误差。判断是否分组判断是否分组 组间差别是否有统计学意义并有临床意义?组间差别是否有统计学意义并有临床意义?例:红细胞、白细胞例:红细胞、白细胞各组的分布范围、高峰位置等是否基本一致?各组的分布范围、高峰位置等是否基本一致?例:表例:表2.11发汞资料发汞资料单、双侧问题单、双侧问题 过大或过小均属异常过大或
42、过小均属异常 :双侧界值:双侧界值例:白细胞计数例:白细胞计数仅过大或过小为异常:单侧界值仅过大或过小为异常:单侧界值 例:肺活量仅过低异常例:肺活量仅过低异常 下限下限 尿铅仅过高为异常尿铅仅过高为异常 上限上限选择百分界值选择百分界值 参考值范围的涵义:绝大多数的正常人在该范围内参考值范围的涵义:绝大多数的正常人在该范围内 习惯上将习惯上将“绝大多数绝大多数”定义为正常人的定义为正常人的80%、90%、95%或或99%。应根据研究目的、研究指标的性质、数据分布特征等情况综合考应根据研究目的、研究指标的性质、数据分布特征等情况综合考虑百分界值的选择。虑百分界值的选择。确定可疑范围确定可疑范围
43、 若病人与正常人的数据重叠较多的情况下,若病人与正常人的数据重叠较多的情况下,为避免较大的假阳性和假阴性错误率,可为避免较大的假阳性和假阴性错误率,可设定可疑范围。设定可疑范围。正常人病人假阳性率假阴性率图2.9 正常人与病人的数据分布重叠示意图 参考值范围的估计方法参考值范围的估计方法 正态分布法正态分布法 百分位数法百分位数法 对数正态分布法对数正态分布法 正态分布(normal distribution)v又称又称Gauss分布(分布(Gaussian distribution)是一个重要的连续型概率分布。是一个重要的连续型概率分布。正态分布的重要性v医学研究中的某些观察指标服从或近似服
44、医学研究中的某些观察指标服从或近似服从正态分布;从正态分布;v很多统计方法是建立在正态分布的基础之很多统计方法是建立在正态分布的基础之上的;上的;v很多其他分布的极限为正态分布。因此,很多其他分布的极限为正态分布。因此,正态分布是统计分析方法的重要基础。正态分布是统计分析方法的重要基础。记作:记作:X N(,2)例如:例如:X N(120,8.22)X N(0,1)正态分布的数学形式正态分布的数学形式222)(21)(XeXf正态分布曲线的三个特点v集中性集中性 v对称性对称性v均匀变动性均匀变动性 集中性集中性 中等大小的数据居多,较大的和较小中等大小的数据居多,较大的和较小的数据少些,即例
45、数集中在中等大小的的数据少些,即例数集中在中等大小的数据附近。数据附近。对称性对称性 以均数为中心,大于它和小于它的数据以均数为中心,大于它和小于它的数据的例数是对称的。的例数是对称的。均匀变动性均匀变动性 例数由少增多或由多减少的过程是逐渐例数由少增多或由多减少的过程是逐渐变化的,即均匀分布的。在分析数据时,变化的,即均匀分布的。在分析数据时,均匀性是一个很重要的特点。均匀性是一个很重要的特点。如果,随着变量值的变异,例数如果,随着变量值的变异,例数突然地增多或突然地减少,或长距突然地增多或突然地减少,或长距离地间断,都表示资料的同质性可离地间断,都表示资料的同质性可能较差,应进一步查明原因
46、。能较差,应进一步查明原因。正态分布的特征正态分布是一单峰分布,高峰位置在均数正态分布是一单峰分布,高峰位置在均数X=处处。正态分布以均数为中心,左右完全对称正态分布以均数为中心,左右完全对称。正态分布有两个参数(正态分布有两个参数(parameter)。)。正态曲线下的面积分布有一定的规律。正态曲线下的面积分布有一定的规律。-1.9695%+1.962.5%2.5%正态曲线下的面积分布示意正态曲线下的面积分布示意 二项分布二项分布(binomial distribution)v二分类资料,观察对象的结局只有二分类资料,观察对象的结局只有相互对立的两种结果。相互对立的两种结果。例如:例如:生存
47、、死亡生存、死亡 阳性、阴性阳性、阴性 发病、不发病发病、不发病 治愈、未愈治愈、未愈先看一个例子先看一个例子 已知:小白鼠接受某种毒物一定剂量时,已知:小白鼠接受某种毒物一定剂量时,死亡率死亡率=80%生存率生存率=20%每只鼠独立做实验,相互不受影响每只鼠独立做实验,相互不受影响 若每组各用若每组各用3只小白鼠(甲、乙、丙)只小白鼠(甲、乙、丙)3只小白鼠的存亡方式符合二项分布只小白鼠的存亡方式符合二项分布概率的乘法法则概率的乘法法则:几个独立事件同时发生的概率,等几个独立事件同时发生的概率,等于各独立事件的概率之积于各独立事件的概率之积 概率的加法法则概率的加法法则:互不相容事件和的概率
48、等于各事件的概互不相容事件和的概率等于各事件的概率之和率之和3只小白鼠均生存的概率:P=0.2 0.2 0.2=0.0083只小白鼠2生1死的概率:P1=0.2 0.2 0.8=0.032P2=0.2 0.8 0.2=0.032 P=0.096P3=0.8 0.2 0.2=0.0323只小白鼠1生2死的概率:vP1=0.2 0.8 0.8=0.128vP2=0.8 0.8 0.2=0.128 P=0.384vP3=0.8 0.2 0.8=0.1283只小白鼠均死亡的概率:vP=0.8 0.8 0.8=0.512表2.8 三只小白鼠存亡的排列和组合方式及其概率的计算 所有可能结果 每种结果的概率
49、 死亡数 生存数 不同死亡数的概率 甲、乙、丙 X nX XXnXnC)1(1)(2)(3)(4)(5)生 生 生 0.20.20.2=0.008 0 3 0.008 生 生 死 0.20.20.8=0.032 生 死 生 0.20.80.2=0.032 1 2 0.096 死 生 生 0.80.20.2=0.032 生 死 死 0.20.80.8=0.128 死 生 死 0.80.20.8=0.128 2 1 0.384 死 死 生 0.80.80.2=0.128 死 死 死 0.80.80.8=0.512 3 0 0.512 1.000 1.000 x00.50.40.30.20.10.0
50、123(0.2+0.8)3 二项分布示意图二项分布示意图二项分布的定义二项分布的定义从阳性率为从阳性率为的总体中随机抽取含量为的总体中随机抽取含量为n的样本,恰有的样本,恰有X例阳性的概率为:例阳性的概率为:X=0,1,2,n 则称则称X服从参数为服从参数为n和和 的二项分布,记为:的二项分布,记为:XB(n,)。其中参数。其中参数 n由实验者确定,由实验者确定,而而 常常是未知的。常常是未知的。XXnXnCXP)1()(如已知n=3,=0.8,则恰有例阳性的概率P(1)为:096.08.0)8.01()!13(!1!3)1()1(113111nnCP二项分布的性质(一)均数与标准差均数与标准