医学统计学第二章计量资料的统计描述课件.ppt

上传人(卖家):晟晟文业 文档编号:5156958 上传时间:2023-02-15 格式:PPT 页数:76 大小:653KB
下载 相关 举报
医学统计学第二章计量资料的统计描述课件.ppt_第1页
第1页 / 共76页
医学统计学第二章计量资料的统计描述课件.ppt_第2页
第2页 / 共76页
医学统计学第二章计量资料的统计描述课件.ppt_第3页
第3页 / 共76页
医学统计学第二章计量资料的统计描述课件.ppt_第4页
第4页 / 共76页
医学统计学第二章计量资料的统计描述课件.ppt_第5页
第5页 / 共76页
点击查看更多>>
资源描述

1、第一篇 基本统计方法第二章 计量资料的统计描述 统计描述(statistical description):用统计表、或统计图、或统计指标(描述统计量)概括和揭示资料(data)的数量信息和特征。目的使资料简洁、明了,便于人们了解资料的规律性。第一节 频数分布 频数(frequency):重复某随机试验,某随机事件出现的次数,称为频数。频数分布表(frequency distribution table)简称频数表(frequency table):含有组段与频数的统计表,称频数表。直方图(histogram):为直观反映频数表,利用直角坐标系绘制频数图,横轴表示变量的“各种情形”,纵轴表示频

2、数、或频率、或频率密度。例2-1 从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇(mmol/L)的测量结果如下,试编制频数分布表。2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.

3、92 3.58 5.35 3.843.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.964.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.254.15 4.36 4.95 3.00 3.261.求极差 极差(range)也称全距,记

4、作R。本例R=5.71-2.35=3.36(mmol/L)。2.确定组段数(k)组段数通常取1015组,本例k=10。3.求组距(i)i=R/k,本例i=3.36/10=0.3360.30。3.划组段 每个组段的下限为L、上限为U,起始组段和最后组段应分别包含全部变量值的最小值和最大值。4.划记归表表2-1 某单位101名正常成年女子的血清总胆固醇(mmol/L)频数分布组段频数f组中值XfXfX2(1)(2)(3)(4)=(2)(3)(5)=(2)(3)22.30 12.45 2.45 6.002.60 32.75 8.25 22.692.90 63.05 18.30 55.823.20 8

5、3.35 26.80 89.783.50173.65 62.05 226.483.80203.95 79.00 312.054.10174.25 72.25 307.064.40124.55 54.60 248.434.70 94.85 43.65 211.705.00 55.15 25.75 132.615.30 25.45 10.90 59.415.605.90 15.75 5.75 33.06合计101409.751705.09变量频数分布的类型:1)对称分布2)偏态分布:正偏峰(positive skew)分布负偏峰 (negative skew)分布变量频数分布的两个特征1)集中趋势

6、(central tendency)2)离散趋势(tendency of dispersion)频数表的主要用途:频数表的主要用途:1.揭示分布类型揭示分布类型 2.描述频数分布的特征描述频数分布的特征 3.发现特大值和特小值发现特大值和特小值 4.计算集中趋势指标与离散趋势指标计算集中趋势指标与离散趋势指标表2-2 某医院1123名产后出血孕妇的人流次数分布人流次数产后出血人数累计频数累计频率(%)(1)(2)(3)(4)0 402 402 35.801 330 732 65.182 232 964 85.843 1181082 96.354 271109 98.755 111120 99.

7、736 31123100.00合计1123 第二节 集中趋势的描述描述集中趋势的统计指标(平均数 average)1)算术均数(arithmetic mean),简称均数2)几何均数(geometric mean,G)3)中位数(median,M)1.算术均数(均数算术均数(均数)n意义:一组性质相同的观察值在数量上的平均水平。n表示 (总体)X(样本)计算:n直接法、间接法、n特征:(X-X)=0 估计误差之和为0。n应用:正态分布或近似正态分布n注意:合理分组,才能求均数,否则没有意义。例2-2 用直接法计算例2-1某单位101名正常成年女子的血清总胆固醇的均数。=4.03(mmol/L)

8、x x xx10126.3.21.435.2Xn12nX+X+.+X依公式(2-1)X=n例2-3 利用表2-1计算101名正常成年女子的血清总胆固醇的均数 =注意:4.06与直接计算法的4.03的细微差异主要缘于归 组误差,其次是四舍五入。x1.3175.51.75.2345.2110175.4092.kfXffff1122kn1fX+f X+.+f X依公式(2-2)X=2.几何均数几何均数n意义:N个数值的乘积开N次方即为这N 个数的几何均数。n表示:G n计算:n应用:原始数据分布不对称,经对数转换后呈对称分布的资料。数值范围跨越多个数量级。例如抗体滴度。nnxxxG.21nXGilo

9、glog1例2-4 某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度倒数分别为10,20,40,40,160,求几何均数。G=34.8 或G=()=34.8 故5份血清抗体效价的平均滴度为1:34.8。516040402010516040402010IgIgIgIgIg1Ig112lglg()nnfXX XXGn依公式(2-3)G=或例2-5 69例类风湿关节炎(RA)患者血清EBV-VCA-IgG抗体滴度的分布见表2-5第,栏,求其平均抗体滴度。150.277869合 计 4.0000 3.903016.021019.031024.245137.576539.2868 6.2

10、1441.00001.30101.60211.90312.20412.50512.80623.1072 10 20 40 80 160 320 6401280 4 31010111514 21:101:201:401:801:1601:3201:6401:1280flg(5)lg(4)滴度例数(3)人数f(2)抗体滴度 (1)表表2-5 692-5 69例例RARA患者血清患者血清EBV-VCA-IgGEBV-VCA-IgG抗体测定结果抗体测定结果按公式(2-4)求平均抗体滴度,计算见表2-5第(3)(5)栏。故69例类风湿关节炎患者血清EBV-VCA-lgG抗体的平均滴度为1:150.6。1

11、1150.2778lg()lg(2.1779)150.669G1lglg()fXGf3.中位数、百份位数中位数、百份位数n意义:将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。n表示:M n计算:n百分位数(PX)n:将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X百分位数。中位数是百分位的特殊形式。n应用:偏态资料,开口资料 中位数可用于各种分布的定量资料。指总体中有一半个体的数值低于这个数,一半个体的数值高于这个数。对于样本资料,有如下计算公式:n为奇数时:21nXMn为偶数时:12221nnXXM例2-6 7名病人患某病的潜伏期分别为2,3

12、,4,5,6,9,16天,求其中位数。本例n=7,为奇数,按公式(2-5)n为奇数时:M=,得 M=X()=X4=5(天)217 1()2nX例2-7 8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。本例n=8,为偶数,按公式(2-6)得:M=(X()+X(+1)=(X4+X5)=(3+5)=4(小时)2128282121()(1)221:()2nnnMXX为偶数时例2-8 试计算表2-2某医院1123名产后出血孕妇人工流产次数的中位数。本例为离散型计量资料。因n=1123,故中位数是从小到大排序后居于(n+1)/2=(1123+1)/2=562位的观察值。据

13、表2-2,排在第1402位的观察值均为“0”,其累计频率为35.80%,排在403732位的观察值均为“1”,其累计频率为65.18%,余类推。第562位数属于第二个变量值,即人工流产次数为“1”,故某医院1123名产后出血孕妇人工流产次数的中位数M=X562=1。例2-9 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大的排列如下,试求第5百分位数和第99百分位数。患 者:1 2 3 4 5 6 7 8 9 117 118 119 120住院天数:1 2 2 2 3 3 4 4 5 40 40 42 45n=120,1205%=6,为整数,用公式(2-8)P5=(X(6

14、)+X(7)=(3+4)=3.5(天)12099%=118.8,带有小数,取整后trunc(118.8)=118,用公式(2-7)P99=X(trunc(118.8)+1)=X119=42(天)P5的意义是该医院有5%的细菌性痢疾治愈者的住院天数少于3.5天,或者说有99%的细菌性痢疾治愈者的住院天数多于3.5天。P99的意义是绝大多数(99%)细菌性痢疾治愈者的住院天数少于42天。2121(%)(%1)1%:(),:2XnXnXnXPXX当为整数时计算 得(%)1)%:,:Xtrunc nXnXPX当为带有小数位时计算 得例2-10 某地118名链球菌咽喉炎患者的潜伏期频数表见表2-6第(1

15、)、(2)栏,求中位数及第25、第75百分位数。中位数对应的累计频率是50%,对表中第(4)栏从上到下读累计频率,小于48天的累计频率为44.9%,小于60天的累计频率65.3%,故中位数所在组段为“48”由此确定L=48,i=12,f=24,n=118,L=53。代入公式(2-10),得 M=P50=48+(-53)=51(天)同理,P25对应的累计频率为25%,位于“36”组段;P75对应的累计频率为75%,位于“60”组段。用公式(2-9)计算,得:P25=36+(118 25%-21)=39.2(天)P75=60+(118 75%-77)=67.7(天)f241221183212181

16、2(%)XXXLXiPLnXff50505050()2LinMPLff 3.417.844.965.380.590.794.998.3100.0421537795107112116118417322418125421224364860728496108累计频率(%)(4)累计频数(3)人数f(2)天数(1)表表2-6 1182-6 118名链球菌咽喉炎患者的潜伏期名链球菌咽喉炎患者的潜伏期 问题:算术平均数与中位数的区别与联系算术平均数与中位数的区别与联系1、都是用来表示总体的一般水平或分布的集中趋势,都属于抽象化的代表值。2、代表的意义不同:算术平均数是对所有变量值来计算的平均数,它能概括反

17、映整个数列中每个变量值的平均水平;中位数则是根据总体中处于中间位置上的少数变量值来确定的代表值。从这一点来说,算术平均数对数据的概括能力比中位数显然来的更强一些。3、与中位数相比,算术平均数对数据变化的“灵敏度”很高。但算术平均数极容易受到个别极端值的影响,即对极端值的“耐抗性”较低。实际应用中,可根据这些特点和分析的要求,审慎的选择有关指标。4、适用资料的类型:算术平均数和中位数均适用于定量资料,但中位数还适用于有序分类资料。第三节 离散趋势的描述描述离散趋势(变异)的统计指标1)极差(range,R)2)四分位数间距(quartile range,QR)3)方差(variance)4)标准

18、差(standard deviation)5)变异系数(coefficient of variation)例2-11 试计算下面三组同龄男孩身高()均数和极差.甲组:90 95 100 105 110 甲=100 R甲=110-90=20乙组:96 98 100 102 104 乙=100 R乙=104-96=8丙组:96 99 100 101 104 丙=100 R丙=104-96=8 xxx极差:计算方便;只考虑两个极值。2)四分位数间距:QR=P75 P25例2-12 续例2-10。已知P25=39.2,P75=67.7,计算118名链球菌咽喉炎患者潜伏期的四分位数间距 QR=67.7-

19、39.2=28.5(天)由于QR包括了居于中间位置50%的变量值,故受样本大小波动的影响较极差小。四分位数间距:包抱总体中数值居中的50%的个体;计算时没用到每个个体的数值;其值越大,说明变量变异越大。标准差标准差n相关概念:离均差、离均差之和、离均差平方和、方差(2 S2)n 标准差的符号:S(Std.deviation)n 意义:全面反映了一组观察值的变异程度.(越大说明围绕均数越离散,反之说明较集中在均数周围,均数的代表性越好)n应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范围例2-13 续例2-11,计算三组资料的标准差。甲组:n=5,=90+95+100+1

20、05+110=500 2=902+952+1002+1052+1102=50250 代入公式(2-14),得 S=同理得:乙组:S=3.16,丙组=2.92。由于丙组的标准差最小,故认为其均数的代表性较其他两组要好。1555005005025022()1XXnSn例2-14 计算例2-1中101名正常成年女子的血清胆固醇的标准差。1.直接计算法例2-2 已算得 =4.03,由公式(2-13),得S=0.659(mmol/L)2.频数表法由表2-1得知,f=101,fX=409.75,fX2=1705.09。代入公式(2-15),得S=0.654(mmol/L)x11012)03.426.3(.

21、2)03.421.4(2)03.435.2(110110175.40975.40909.17052()1XXSn22()1fXfXfSf变异系数变异系数n意义:标准差与均数之比用百分数表示。n符号:CVn计算:CV=(S/X)100%n无单位n应用:单位不同的多组数据比较 均数相差悬殊的多组资料变异程度指标总结变异程度指标总结:全距、四分位数间距全距、四分位数间距:具有绝对数的形式方差方差:离均差平方的算术平均数标准差标准差:离均差平均数的形式。共同点:都有具体计量单位,都受计量单位的影响(英尺、米;美元、英镑)变异系数变异系数:是一类相对数形式的变异指标。排除计量单位对计算结果的影响。同样的

22、变异指标值对于不同的平均水平通常具有不同的实际分析意义。只有当两个被比较事物平均数相同或相近时,直接利用标准差等有量纲的变异指标来进行分析,才是合理的。人均年收入标准差四分位数变异系数%甲市600015032002.5乙市1200018035001.5两个城市的居民年收入情况乙市年收入与标准差均高于甲市,是否可认为乙市收入差距高于甲市呢?变异系数显示:乙市居民的收入差距相对于他们的平均收入来说,比甲市要低的多。故以居民对收入差距所承受的压力而言,甲市比乙市要高。第四节 正态分布正态分布 正态分布是连续性变量的一种重要分布模型。很多医学现象服从正态分布或近似正态分布。此外正态分布还是许多统计方法

23、的理论基础。德国大数学家高斯高斯(C.F.GaussC.F.Gauss,17771855)。调查、观察或测量中的误差,不仅是不可避免的,而且一般是无法把握的。高斯以他丰富的天文观察和在18211825年间土地测量的经验,发现观察值x x与真正值的误差变异,大量服从现代人们最熟悉的正态分布。称高斯分布曲线,也就是正态分布曲线。1、频率密度直方图与频率密度曲线图2-3 120名健康成年男子血清铁含量频率密度直方图 n大时,频率密度曲线可估计概率密度曲线。医学中的许多变量,其概率密度曲线类似正态曲线。故可用正态曲线的特点来描述这些变量的统计规律。2、正态曲线正态曲线(normal curve):是一

24、条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟型曲线。其概率密度函数为:222)(21)(xexf-X+正态分布有两个参数:位置参数:变异度参数:2正态分布的表示方法:X N(,2)0 f(x)max 1 2 =0.5 0 f(x)=1=2 正态分布密度曲线的特点:1正态曲线在横轴上方,且均数所在处最高;2正态曲线以均数为中心左右称;3正态曲线下的面积为1。4正态曲线在 各有一个拐点;0 f(x)max 3、正态曲线下面积的分布规律1)正态曲线可作为很多医学变量概率密度曲线的近似。2)正态分布曲线下的面积分布规律由和所决定。3)当知道了密度函数f(x)时,概率密度曲线 下

25、的面积可通过对密度函数求定积分的方法获得。1)()(1xdxxfxXP4)定积分的方法求正态曲线下的面积过于复杂,我们可用简便的查表法解决这一问题。Xu2221)(ueu设正态变量X N(,2),令则变量 u N(0,1),我们称u为标准正态变量,其密度曲线称为标准正态曲线,其概率密度函数为:-Z+正态曲线下的面积规律与标准正态曲线下的面积规律有什么关系呢?duuudxxfXFzX)()()()(Xu)(u由积分知识可证明:)(xf)(u式中,和分别是正态分布和标准正态分布的概率密度函数,F(X)和分别是它们的分布函数。注意:请正确理解分布函数的意义统计学家编制了标准正态分布分布函数表(附表1

26、),故求正态曲线下的面积可通过查附表1获得。因为正态分布的对称性,为节省篇幅,附表1只给出Z取负值的情况。例2-15 对例2-1,例2-2和例2-14已计算出101名正常成年女子的血清总胆固醇均数 =4.03mmol/L,标准差S=0.659mmol/L.试估计该单位:正常女子血清总胆固醇在4.00mmol/L以下者占正常女子总人数的百分比;在4.005.00mmol/L之间者占正常女子总人数的百分比;在5.00mmol/L以上者占正常女子总人数的百分比.由于此样本含量大,故用 代替 ,S S代替 .将=4.00、=5.00分别代入公式(2-19),得 u1=-0.05 u2=1.47xx65

27、9.003.400.4659.003.400.5Xu 查附表1得:(-0.05)=0.4801,(-1.47)=0.0708,(1.47)=1-0.0708=0.9292.故该单位正常女子血清总胆固醇在4.00mmol/L以下者,估计占总人数的48.01%;在4.005.00mmol/L之间者,估计占总人数的44.91%;5.00mmol/L以上者,占总人数的7.08%。第五节 医学参考值范围的制定 概念:又称参考值范围,是指特定健康人群的解剖、概念:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定生理、生化等各种数据的波动范围。习惯上是确定包括包括95%9

28、5%的人的界值。的人的界值。单双侧:单双侧:根据指标的实际用途,有的指标有上下根据指标的实际用途,有的指标有上下界值(双侧)。某些指标只需确定上限(单);某界值(双侧)。某些指标只需确定上限(单);某些指标只需确定下限(单)。些指标只需确定下限(单)。估计的方法:估计的方法:1 1、正态分布法、正态分布法2 2、百分位数法、百分位数法 制定参考值的基本步骤制定参考值的基本步骤A、从“正常人”总体中抽样:样本含量应较大B、控制测量误差:C、制定是否需要分组确定参考值范围:D、决定取单侧还是双侧:E、选用合适的百分界限F、对资料进行正态性检验G、由分布类型选定适当方法进行参考值范围的估计 百分界限

29、百分界限 参考值范围是指绝大多数正常人的测定值所在的范围。这个“绝大多数”习惯上指80、90、95或99。如何选取合适的百分界限是确定参考值范围的关键之一。百分界限是否越大越好?2、参考值范围的估计方法A、正态分布法 双侧、单侧B、百分位数法 双侧、单侧二种分布类型资料的95参考值范围的计算方法sx96.1sx645.1sx645.1 适用对象双侧界值单侧上界单侧下界正态分布法正态或近似正态百分位数法偏态分布P2.5和P97.5P95P5 例2-16 由例2-1资料估计正常成年女子血清总胆固醇的95%参考值范围 因血清总胆固醇过多或过少均为异常,故按双侧估计正常成年女子血清总胆固醇的95%参考

30、值范围。已知血清总胆固醇均数 =4.03mmol/L,S=0,659mmol/L,u0.05/2=1.96,故下限:u/2S=4.031.960.659=2.74(mmol/L)上限:u/2S=4.031.960.659=5.32(mmol/L)故正常成年女子血清总胆固醇的95%参考值范围为(2.74,5.32)mmol/L.xxx例2-17 测得某年某地282名正常人的尿汞值如表2-8,试制定该地正常人尿汞值的95%参考值范围.16.0 38.6 72.7 86.2 93.3 97.2 98.9 99.6100.0 45109205243263274279281282456496382011 5 2 108.016.024.032.040.048.056.064.0累计频率(%)累计频数f频数f尿汞值表表2-8 2-8 某年某地某年某地282282名正常人尿汞值名正常人尿汞值(g/l)g/l)测量结果测量结果 鉴于正常人的尿汞值为偏态分布,且过高为异常,故用百分位数法计算上侧界值即第95百分位数 P95=L95 (n95%fL)=40.0 (28295%263)=43.6(g/L)故该地正常人尿汞值的95%参考值范围为43.6 g/L.9595fi110.8

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(医学统计学第二章计量资料的统计描述课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|