1、医学统计学方法医学统计学方法统计分析包括统计分析包括统计描述统计描述和和统计推断统计推断两大部分。两大部分。l统计描述统计描述(statistical description)是用统计指标、统计是用统计指标、统计表和统计图描述资料的分析规律及其数量特征;表和统计图描述资料的分析规律及其数量特征;l统计推断统计推断(statistical inference)包括总体参数估计和假包括总体参数估计和假设检验两个内容。设检验两个内容。参数估计参数估计:是用样本统计量估计总体参数所在范围。是用样本统计量估计总体参数所在范围。假设检验假设检验:是利用样本的实际资料来检验事先对总体某是利用样本的实际资料来
2、检验事先对总体某些数量特征所作的假设是否成立。些数量特征所作的假设是否成立。假设检验参数估计统计推断统计描述统计分析例例9.12002年某市年某市150名名2029岁正常男子的岁正常男子的尿酸浓度尿酸浓度(mol/L),资料见表,资料见表9-1。如何进行。如何进行统计描述?统计描述?表表9-12002年某市年某市150名名2029岁正常男子的尿酸浓度岁正常男子的尿酸浓度(mol/L)统计描述的内容:统计描述的内容:一、制频数一、制频数(分布分布)表表(表表9-2)和频数分布图和频数分布图(图图9-1)频数表的用途频数表的用途(1)揭示资料的分布特征和分布类型揭示资料的分布特征和分布类型(2)便
3、于发现某些特大或特小的可疑值便于发现某些特大或特小的可疑值(3)便于进一步计算便于进一步计算统计统计指标和统计分析处理指标和统计分析处理二、计算统计指标二、计算统计指标(1)计算平均值计算平均值代表一组资料的平均水平;代表一组资料的平均水平;(2)计算标准差计算标准差-反映资料的离散程度。反映资料的离散程度。三、绘制统计表和统计图三、绘制统计表和统计图一、编制频数分布表:制表步骤:一、编制频数分布表:制表步骤:(1)求求极差极差或全距或全距(range):R=Xmax Xmin本例,本例,R=428.7278.6150.1(mol/L)。(2)决定组数、组段数和划分组距决定组数、组段数和划分组
4、距(class interval):根据样本含量的多少确定组数,一般设根据样本含量的多少确定组数,一般设815组。组。组段数组段数=取整取整(极差极差/组数组数)。本例:组段数本例:组段数=取整取整(150.1/10)=15.01 15划分组距:每组段的起点和终点分别称为划分组距:每组段的起点和终点分别称为下界下界和和上界上界。组距:本组内组距:本组内的的上界和下界上界和下界之差。之差。(3)列频数表:按上述组段列频数表:按上述组段序列制成表的形式,采用序列制成表的形式,采用划记法或计算机将原始数划记法或计算机将原始数据汇总,得出各组段中所据汇总,得出各组段中所包含的观察例数,即为频包含的观察
5、例数,即为频数,如表数,如表9-2的第的第(2)栏。栏。将各组段及其相应的频数将各组段及其相应的频数列成表格,即为频数表列成表格,即为频数表(frequency table),如,如表表9-2。所绘的图形见图。所绘的图形见图9-1。资料的分布类型:资料的分布类型:1.对称分布或正态分布;对称分布或正态分布;2.偏态分布:高峰在左侧或右侧;偏态分布:高峰在左侧或右侧;3.不规则分布:分布很散,无明显高峰不规则分布:分布很散,无明显高峰二、计算平均值二、计算平均值代表平均资料的平均水平代表平均资料的平均水平1.平均值的种类:平均值的种类:(一一)算术均算术均值值(arithmetic mean,a
6、verage):常用常用 表表示样本均示样本均值值,希腊字母,希腊字母表示总体均表示总体均值值。适用于对称分。适用于对称分布的数值型变量资料。其计算方法有:布的数值型变量资料。其计算方法有:直接法直接法:i(I=1,2,n)为第为第i个观察对象的观察值个观察对象的观察值x1123(91)niinixxxxxxxnnn 加权法加权法:i 为第为第i组的组中值组的组中值,fi 为第为第i组的例数组的例数:1 1221121(92)kiikkiiikkiiif xf xf xf xf xxfffff52470349.8(/)150iiif xxmolLf(二二)几何均几何均值值(geometric
7、mean,G)适用条件适用条件:等比级数资料等比级数资料.原始观察值呈偏态分布、但数原始观察值呈偏态分布、但数据经过对数变换后呈正态分布或近似正态分布的资料。如据经过对数变换后呈正态分布或近似正态分布的资料。如医学实践中某些疾病的潜伏期、抗体滴度、平均效价等。医学实践中某些疾病的潜伏期、抗体滴度、平均效价等。其计算方法有:其计算方法有:直接法直接法:i 为第为第i个观察对象的观察值个观察对象的观察值121112(93)lglglglglglg()nnniGx xxxxxxnn11112212lglglglglglg(94)kkiikifxfxfxfxGffff加权法加权法:i 为第为第i组的组
8、中值组的组中值(或观察值或观察值),fi 为第为第i组例数组例数:表表9-4 某地某地34名儿童接种麻疹疫苗后血清血凝抑制抗体滴度名儿童接种麻疹疫苗后血清血凝抑制抗体滴度1111.19374.8930 14.00007.80626.408434.3013lglg37 146434lg1.008910.206G血清血凝抑制抗体的几何平均滴度为血清血凝抑制抗体的几何平均滴度为1:10.206。X=(2.53+5.0 7+10.014+20.0 6+40.0 4)/34=13.6 (算术平均滴度为算术平均滴度为1:13.6)(三三)中位数中位数(median,M):将观察值按大小排序后,位次居中的观
9、察值。将观察值按大小排序后,位次居中的观察值。M=X(P=50%)在全部观察值中小于在全部观察值中小于M的观察值个数与大于的观察值个数与大于M的观察值个的观察值个数相等。由于数相等。由于M不受个别特小或特大观察值的影响,适用不受个别特小或特大观察值的影响,适用于分布不规则或分散度很高的资料于分布不规则或分散度很高的资料.3个观察值个观察值:1,3,5.M=3;4个观察值个观察值:1,3,5,7.M=4.直接法直接法:设设n 为观察值的个数为观察值的个数,有公式有公式(9-5)及及(9-6)频数表法频数表法:i 为第为第i组的组中值组的组中值(或观察值或观察值),fi 为第为第i组例组例数数:5
10、0%50%M(X)50%(9-7)LiLnff/2/21nnnMXX()为偶数时:(1)/2nnMX为奇数:L:中位数组段下限值中位数组段下限值,fL:小于小于L的累计频数的累计频数,i:中位数组距中位数组距.表表9-5 308名名6岁以下儿童尿铅值的频数分布岁以下儿童尿铅值的频数分布(中位数计算中位数计算)50%50%M(X)50%LiLnffL:中位数组段下限值中位数组段下限值,fL:小于小于L的累计频数的累计频数,i:中位数组距中位数组距,f50%:中位数组频数中位数组频数.L=50,fL=81,i=25f50%=9550%25M(X)50308 50%8169.21(/)95mmol
11、L三、计算标准差三、计算标准差-反映资料的离散程度。反映资料的离散程度。数值变量数据的频数分布有集中趋势和离散程度两个主要数值变量数据的频数分布有集中趋势和离散程度两个主要特征,只有两者相结合,才能全面地认识事物。特征,只有两者相结合,才能全面地认识事物。反映资料的离散程度的统计量反映资料的离散程度的统计量(统计指标统计指标)有:有:(一一)全距全距(range)或极差:或极差:R=Xmax Xmin全距是一组观察值中最大值与最小值之差。全距是一组观察值中最大值与最小值之差。(二二)四分位数间距四分位数间距(quartile interval):Q=X75%X25%,Q包括了全部观察值中间的一
12、半包括了全部观察值中间的一半.(三三)方差方差(variance)和标准差和标准差(standard deviation)22211XxnXxssn方差:标准差(9-9):(9-11)例有例有3组同龄男孩的体重组同龄男孩的体重()测量值如下,其平均体重测量值如下,其平均体重都是都是30(),试分析其离散程度。,试分析其离散程度。x2222222630283030303230343015 13.16Xxns甲组()()()()()2XXSSXxl式中:离均差平方和,常用或 表示;n-1:自由度用 或df表示。()标准差的简化计算方法:标准差的简化计算方法:数学上可证明:数学上可证明:222(91
13、2)XxXXn 故标准差的计算公式又可写成:故标准差的计算公式又可写成:直接法:直接法:X为观察值为观察值 加权法:加权法:Xi为组中值为组中值 229 131XXnsn()229 141iiiiiif Xf Xfsf ()218518738.052470.015033.25(/)150 1smol L标准差的应用:标准差的应用:(1)表示观察值的变异程度表示观察值的变异程度(离散程度离散程度):在两组在两组(或几组或几组)资料资料均数相近、度量单位相同的条件下,标准差大,表示观察均数相近、度量单位相同的条件下,标准差大,表示观察值的变异度大,即各观察值离均数较远,均数的代表性较值的变异度大,
14、即各观察值离均数较远,均数的代表性较差。差。四分位数间距的计算四分位数间距的计算(interquartile range,Q):中位数计算公式:中位数计算公式:25%位数计算公式:位数计算公式:50%50%M(X)50%(9-7)LiLnff75%75%X75%100.0(/)Lmmol LiLnff25%25%X25%LiLnff 75%位数计算公式位数计算公式25%25X25308 25%275448.15(/)mmol L75%25%Q100.048.1551.85(/)XXmmol L四分位数间距(四分位数间距(interquartile range,Q)计算公式:Q=X75%X25%
15、X0%X25%X50%X75%X100%|Q|0 48.15 69.21 100.0 175X1 XnQ100.048.1551.85(/)mmol L(/)100%(915)CVsX171.21,5.34,(5.34/171.21)100%3.12%:59.72,4.16.,(4.16/59.72)100%6.97%Xcm ScmCVXkg Skg CV身高:体重从变异系数比较,体重的变异程度大于身高的变异程度。从变异系数比较,体重的变异程度大于身高的变异程度。变异系数的变异系数的特点:描述的是相对离散程度,没有单位。特点:描述的是相对离散程度,没有单位。适用于:适用于:(1)比较单位不同的
16、多组资料的变异度。比较单位不同的多组资料的变异度。(2)比较均数相差悬殊的多组资料的变异度。比较均数相差悬殊的多组资料的变异度。例例9-10 某地某地25岁男子岁男子100人的调查结果如下:问题:哪人的调查结果如下:问题:哪一个指标的变异度大些?一个指标的变异度大些?第二节第二节 正态分布和医学参考值范围正态分布和医学参考值范围一、正态分布一、正态分布(normal distribution)图图9-2频数分布逐渐向正态分布接近频数分布逐渐向正态分布接近(一一)正态分布的图形正态分布的图形可以设想,可以设想,如果如果观察例数逐渐增多,组段数也不断增多,观察例数逐渐增多,组段数也不断增多,就会形
17、成一条光滑曲线就会形成一条光滑曲线图图9-2(3)。称为正态分布曲线。称为正态分布曲线。这条正态分布这条正态分布曲线的特点为曲线的特点为:高峰位于中央均数所在处、两侧逐渐降低高峰位于中央均数所在处、两侧逐渐降低;左右对称左右对称;曲线曲线在无穷远处在无穷远处与横轴相交。与横轴相交。把服从正态分布的变量表示为:把服从正态分布的变量表示为:XN(,2)正态分布正态分布曲线曲线由两个参数确定:由两个参数确定:平均数平均数,称位置参数,决定平均数所在的位置;,称位置参数,决定平均数所在的位置;方差方差2,称形状参数,决定曲线的高低宽窄。,称形状参数,决定曲线的高低宽窄。服从服从正态分布正态分布的变量的
18、变量X的概率的概率密度函数密度函数f(X)为为 212(916)1X2XfeX 表示为:表示为:uN(0,1),即平均值为,即平均值为0、方差为、方差为1的正态分布。的正态分布。212(917)12uf uueu 为实际应用方便,将一般正态分布转换为标准正态分布。为实际应用方便,将一般正态分布转换为标准正态分布。转换公式为:转换公式为:u=(X-),u称为标准正态变量。称为标准正态变量。服从标准服从标准正态分布正态分布的变量的变量u的概率的概率密度函数密度函数f(u)为为A.正态分布正态分布 B.标准正态分布标准正态分布图图9-3 正态分布与标准正态分布的面积与纵高正态分布与标准正态分布的面积
19、与纵高按式按式(9-16),根据,根据X的不同取值,绘出正态分布的不同取值,绘出正态分布(normal distribution)的图形的图形(图图9-3A)。按式按式(9-16),根据,根据u的不同取值,绘出标准正态分布的不同取值,绘出标准正态分布(standard normal distribution)的图形的图形(图图9-3B)。Xu图图9-4 正态曲线与标准正态曲线的面积分布正态曲线与标准正态曲线的面积分布二、正态曲线下面积的分布规律二、正态曲线下面积的分布规律:用积分法求得。用积分法求得。为了省去计算的麻烦,编制成了为了省去计算的麻烦,编制成了“标准正态分布曲线下的标准正态分布曲线
20、下的面积面积”(表(表9-8)。表中列出了左侧概率:)。表中列出了左侧概率:(-,-u);右侧概率:右侧概率:(u,+)=(-,-u),(-,u)=1(-,-u)通过查表可求出正态曲线下某区间的面积,进而估计该区通过查表可求出正态曲线下某区间的面积,进而估计该区间观察例数占总例数的百分数或变量值落在该区间的概率。间观察例数占总例数的百分数或变量值落在该区间的概率。查表时应注意:查表时应注意:当当,已知时,先已知时,先将观察值将观察值X变换变换为为u值值u=(X-)/,再,再查表;查表;当当,未知未知、但、但n足够大时,可以用样本均数足够大时,可以用样本均数 和样本标和样本标准差准差s分别代替分
21、别代替和和,进行,进行u变换变换u=(X-)/s求得求得u的估计的估计值值后后再查表;再查表;曲线下对称于曲线下对称于0的区间面积相等,如的区间面积相等,如 (-,-1.96)=(1.96,)曲线下横轴上的总面积为曲线下横轴上的总面积为100或或1。xx三、医学参考值范围的估计三、医学参考值范围的估计参考值范围参考值范围(reference range)的意义的意义参考值参考值是指正常人体或动物的各种生理常数,正常人是指正常人体或动物的各种生理常数,正常人体液和排泄物中某种生理生化指标或某种元素的含量,以体液和排泄物中某种生理生化指标或某种元素的含量,以及人体对各种试验的正常反应值等。及人体对
22、各种试验的正常反应值等。由于存在个体变异,各种数据不仅因人而异,而且同一个由于存在个体变异,各种数据不仅因人而异,而且同一个人还会随机体内外环境的改变而改变,因而需要确定其波人还会随机体内外环境的改变而改变,因而需要确定其波动的范围,即动的范围,即医学参考值范围医学参考值范围,亦称医学正常值范围。,亦称医学正常值范围。制订医学参考值范围时须注意:制订医学参考值范围时须注意:从同质总体中随机抽样。根据研究目的确定同质总体从同质总体中随机抽样。根据研究目的确定同质总体的标准。排除患有影响所研究指标的疾病和有关因素的的标准。排除患有影响所研究指标的疾病和有关因素的同质人群。同质人群。需要有一定的样本
23、含量。需要有一定的样本含量。n100例。例。控制测量误差。控制测量误差。判断是否需要分组确定参考值范围。如不同性别,不判断是否需要分组确定参考值范围。如不同性别,不同年龄组,甚至不同民族。同年龄组,甚至不同民族。确定是取单侧还是取双侧参考值。确定是取单侧还是取双侧参考值。确定适当的百分数范围。确定适当的百分数范围。80%,90%,95%,99%。范围过窄,即诊断标准过严,会增加漏诊;范围过窄,即诊断标准过严,会增加漏诊;范围过宽,即诊断标准过松,会增加误诊;范围过宽,即诊断标准过松,会增加误诊;根据资料分布类型选择统计学方法估计参考值范围。根据资料分布类型选择统计学方法估计参考值范围。例例9-
24、11,表,表9-22002年某市年某市150名名2029岁正常男子的尿酸浓度资岁正常男子的尿酸浓度资料。料。X=350.24(mol/L),S=32.97(mol/L).用用(mol/L)(mol/L)即即2029岁男性尿酸浓度岁男性尿酸浓度(mol/L)1.96XS1.645XS1.645XS1lg(1.96)(lg()YYSYX1lg(1.645)(lg()YYSYX1lg(1.645)(lg()YYSYX(lg()YX2.5%97.5%XX95%X5%X例例9-12,例,例9-7表表9-5,308名名6岁以下儿童尿铅值资料。用岁以下儿童尿铅值资料。用百分位数百分位数50%50%M(X)5
25、0%LiLnff95%95%X95%LiLnffL=150:95%组段下限值组段下限值fL=291:小于小于L的累计频数的累计频数i=25:95%组的组距组的组距f95%:=12:95%组频数组频数95%25X150308 95%29115153.33(/)mmol L故故6岁以下儿童尿铅值岁以下儿童尿铅值1.96XS1.645XS1.645XS(lg()YX1lg(1.96)YYS1lg(1.645)YYS1lg(1.645)YYS 第九章第九章 第一讲练习题第一讲练习题 实习九实习九 数值变量资料的统计分析数值变量资料的统计分析(1)pp.379-382 内容内容 (一一)选择题:选择题:1,2,3,9,10。(二二)思考题:思考题:1,2,6。(三)应用题:应用题:1,2,3。表9-8 标准正态分布曲线下的面积自-到-u的面积(-,-u),(u,+)=1-(-,-u)
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。