大学精品课件:第2章计量资料的统计描述90.ppt

上传人(卖家):金钥匙文档 文档编号:431229 上传时间:2020-04-04 格式:PPT 页数:90 大小:1.93MB
下载 相关 举报
大学精品课件:第2章计量资料的统计描述90.ppt_第1页
第1页 / 共90页
大学精品课件:第2章计量资料的统计描述90.ppt_第2页
第2页 / 共90页
大学精品课件:第2章计量资料的统计描述90.ppt_第3页
第3页 / 共90页
大学精品课件:第2章计量资料的统计描述90.ppt_第4页
第4页 / 共90页
大学精品课件:第2章计量资料的统计描述90.ppt_第5页
第5页 / 共90页
点击查看更多>>
资源描述

1、第二章 计量资料的统计描述,频数分布 集中趋势的描述 离散趋势的描述 正态分布 医学参考值范围的制定,第一节 频数分布,频数分布(frequency table)通常是针对样本而言; 对于连续变量,频数分布为n个变量区间内的变量个数的分配; 对于离散变量,频数分布为n个变量在各(或各几个)变量值处的变量值个数的分配。,某单位101名正常成年女子的血清总胆固醇( mmol/L)频数分布,某医院1123名产后出血孕妇的人流次数分布,例 从某单位1999年的职工体检资料获得101名正常成年女子血清胆固醇(mmol/L)的测定结果,请编制频数表和观察频数分布情况。,频数分布表(frequency ta

2、ble )及其制作 1计算极差或全距(range) 常用R表示 R= 最大值-最小值 即R5.71-2.35=3.36(mmol/L) 2决定组段和组距 组段:10个左右 下限,上限 组距(class interval):相邻两组段下限值之差。 等距,“极差组段数”的整数值,本例:分10个组段 组距极差组段数=3.36/10=0.336(mmol/L) 取整为0.3cm 第一个组段的下限应略小于最小值,即取2.3 mmol/L 最末组上限要略大于最大值,即取5.90 mmol/L 。 3列表划记并统计频数,某单位101名正常成年女子的血清总胆固醇( mmol/L)频数分布,列表划记,频数分布图

3、 (graph of frequency distribution ),频数表和频数分布图用途,1描述频数分布的类型(对称分布、偏态分布) 2描述频数分布的特征 3便于发现一些特大或特小的可疑值 4便于进一步做统计分析和处理(加权),(1)对称分布 : 若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布,1描述频数分布的类型(1),1描述频数分布的类型(2),(2)偏态分布 : 右偏态分布(负偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。 左偏态分布(正偏态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。,返回,2描述频数分布的特征,数据的频数分布特征: 数据集

4、中(平均)的组段及频数最多在哪个频段? 血清总胆固醇的测量值高低不等,但向中间集中,尤以3.804.10mmol/L组的人数最多集中趋势(central tendency) ; 数据变异(离散)的范围如何? 变异范围在2.355.71mmol/L之间,随着血清总胆固醇测量值逐渐变大或变小,人数越来越少,向两端分散离散趋势 (tendency of dispersion); 上下组段的频数分布是否对称? 上下组段的频数分布基本对称,返回,3便于发现一些特大或特小的可疑值,返回,通过实验或临床观察等各种方式得到的原始资料,如果是计量资料并且观察的例数较多,可以对数据进行分组,然后制作频数表或绘制直

5、方图,用以显示数据分布的规律 计量资料进行统计描述需要根据资料的分布类型选择合适的统计指标,因此首先要通过频数分布表或分布图了解资料的分布特征。,第二节 集中趋势的描述,统计学用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平,常用的描述集中位置的指标,平均数(Average),算术均数(Mean),几何均数(Geometric Mean),中位数(Median),百分位数(Percentile),算术均数(arithmetic mean),简称均数(mean), 用于反应一组呈对称分布的变量值在数量上的平均水平 总体均数:(读作mu) 样本均数: 计算方法: 直接法和

6、频数表法,1. 直接法,公式:,:求和,读作sigma, xi:各观察值, n:总例数,例 计算 101名正常成年女子的血清总胆固醇的均数,2. 加权法 (weighted mean)或频数表法,已编制了频数表,再计算,fi 每组的频数 xi 组中值- (下限+上限)/2,例 计算101名正常成年女子的血清总胆固醇的均数,表示法:G 适用条件: 1.资料呈偏态分布,但经对数变换后呈正态分布; 2.观察值间呈倍数关系或近似倍数关系的资料。 如抗体的平均滴度、药物的平均效价等。 医学研究中常用于免疫学指标 可用于反映一组经对数转换后呈对称分布分布的变量值在数量上的平均水平。,几何均数(geomet

7、ric mean ),计算方法: 1.直接法 :,算数平均数为1:62,求1:10, 1:20, 1:40, 1:80, 1:160的平均效价,2. 加权法或频数表法:观察例数较多,已编成频数表时采用,例 69例类风湿关节炎患者血清EBV-VCA-LgG抗体滴度的分布,求其平均抗体滴度,表示方法:M 定义:一组由小到大排列的观察值中位置居中的数值 中位数是一个位置指标,以中位数为界,将观察值 分为左右两半。 适用条件:资料呈明显的偏态分布; 开口资料; 资料分布不清楚,中位数(median),计算方法: 1. 直接法 (n较小时) (1)将观察值按大小顺序排列; (2),例 (1)有7个人的血

8、压(收缩压)测定值(mmHg)为: 120,123,125,127,128,130,132, 求中位数。 (2)若又观察了一个人的血压值为118(mmHg), 求中位数。,(1)M=127 (mmHg),(2)M=(125+127)/2=126(mmHg),特点:仅仅利用了中间的12个数据,例 对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人, 6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活。 本资料属于“开口”资料。 本例数据已经按从小到大的升序排列,n=7,为奇数,其中位数为16天。,2. 频数表法(n较大,已编成频数表) 参见

9、百分位数计算公式,L:Px 所在组段下限 i:组距 n:总例数 f:Px所在组段频数 fL:小于L的各组段累计频数,例,检测124名正常成年男性血清铅含量,试计算其平均数,表示方法: Px 定义:把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的值就是百分位数。它是一个位置指标。 中位数是第50百分位数,用P50表示。 第25,第75,第95百分位数记为P25, P75, P95是统计学上常用的指标。 适用范围:同中位数,常用于正常值范围的估计。,百分位数(percentile),百分位数(percentile),百分位数(percentile) X% PX (100-

10、X)% 50%分位数就是中位数 25%,75%分位数称四分位数(quartile),计算: (1)将观察值编制成频数表; (2)按所分组段由小到大计算累计频数和累计频率; (3)找出百分位数所在组(如P95所在组为累计频率为 95%的所在组),L:Px 所在组段下限 i:组距 n:总例数 f:Px所在组段频数 fL:小于L的各组段累计频数,例,检测124名正常成年男性血清铅含量,试计算其P25、P75、P95,例,平均水平指标仅描述一组数据的集中趋势,可作为总体均数的一个估计值。由于变异的客观存在,需要一类指标描述资料的离散趋势。,例 只用平均数描述资料的弊病,三组同龄男孩体重(kg)如下:,

11、甲组 26 28 30 32 34 均数=30 (kg) 乙组 24 27 30 33 36 均数=30 (kg) 丙组 26 29 30 31 34 均数=30 (kg),第三节 离散趋势的描述,全距或极差(range),表示法:R 定义:一组资料中最大值与最小值之差。 计算公式: R = maxmin 意义:反映个体变异范围的大小。R越大,变异度(离散程度)越大, R甲=8、R乙=12、R丙=8 优点:计算简便,概念清晰,如说明传染病、食物中毒的最长、最短潜伏期等 缺点:仅考虑两端数据的差异,未考虑其它数据的变异情况,不能全面反映一组资料的离散程度,受样本含量n的影响较大,且不稳定,易受极

12、端值的影响。,四分位数间距(inter-quartile range),定义:把全部变量值值分为四等分的分位数,其中第3四分位(Qu=P75)与第1四分位(QL=P25)之差。 表示法: Q 计算公式 Q= QU QL P75 P 25 意义: Q值越大,说明变异程度越大。 特点:包括了居于中间位置50%的变量值,该指标比全距稍稳定,但仍未考虑每个观察值。,某传染性疾病的潜伏期(天),QL(P25)所在组在潜伏期为8组,L=8, fx=48,i=4, fL=26; QU(P75)所在组为12组,L=12,fx=25,i=4,fL=74, 分别代入公式得,离均差总和(SS),总体中每个观察值xi

13、与总体均数之差的总和 ,即( xi - )=0 取离均差平方和的均数:方差(variance),受观察单位数的影响,方差(variance),方差(variance):离均差平方和的均数,样本方差用S2表示,公式,总体方差用2表示,公式,(n-1)和(fi-1)为自由度(degree of freedom),标准差(standard deviation, sd),标准差(standard deviation, sd) :方差开平方,取平方根的正值。(恢复原度量单位) 总体标准差计算公式 样本标准差计算公式:,计算26 29 30 31 34的标准差 (kg2) (kg),方差和标准差的计算直接

14、法,方差和标准差计算频数表法,甲组 26 29 30 31 34 (kg) 乙组 24 27 30 33 36 (kg) 丙组 26 28 30 32 34 (kg) 极差(kg) 方差(kg2) 标准差(kg) 甲组 8 8.50 2.92 乙组 12 22.50 4.74 丙组 8 10.00 3.16,方差(variance)和 标准差(standard deviation, sd) 克服极差和四分位数间距不能反映每个观察值之间的离散情况这一缺点 适用条件:对称分布,特别是正态或近似正态分布资料 意义:说明资料的变异程度,其值越大,说明变异程度越大,标准差的应用: 1. 表示观察值的变异

15、程度。 在同质的前提下,标准差大表示变量值(观察值)的离散程度大,即变量值(观察值)的分布分散、不整齐、波动较大;反之,标准差小表示变量值(观察值)的离散程度小,即变量值(观察值)的分布集中、整齐、波动较小。从而也反映了用平均数反映平均水平,其代表性愈好。 标准差在科技论文报告中经常与算术均数一起使用。 2. 计算变异系数。 3. 估计医学参考值范围。 4. 计算标准误。,变异系数 (coefficient of variation, CV) 表示法:CV 特点:排除了平均水平的影响,并取消了单位。 因此变异 系数常用于: 适用条件:比较度量单位不同或均数相差悬殊的两组 (或多组)资料的变异程

16、度。 公式:,例 某地调查110名20岁男大学生,其身高均数为 172.73cm,标准差为4.09cm;其体重均数为 55.04kg, 标准差为4.10kg,试比较两者变异度。,身高 CV=(4.09/172.73)100%=2.37% 体重 CV=(4.10/55.04) 100%=7.45%,该地20岁男大学生体重的变异度大于身高的变异度,例:测得某地成年人舒张压的均数为77.5mmHg,标准差为10.7mmHg,收缩压的均数为122.9mmHg,标准差为17.1mmHg, 试比较两者变异度。,舒张压 CV=(10.7/77.5)100%=13.8% 收缩压 CV=(17.1/122.9)

17、100%=13.9%,两指标的变异度相近,总结,不同的分布,用不同的统计量描述; 图形描述 统计量描述 平均数:均数、几何均数、中位数 变异度:标准差、四分位数间距、变异系数、极差 每个观察指标均有其特定的应用范围; 用平均数与变异度共同描述; 同质的资料计算平均数和变异度才有意义,不同质的资料应考虑分别计算平均数和变异度。,正确应用(1),算数均数:适用于单峰对称分布资料; 几何均数:适合于对数变换后单峰对称分布资料; 中位数和百分位数:适用于任何分布的资料和有不确定值的资料; 中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确;中位数和百分位数在样本含量较少时不稳定,越靠两

18、端越不稳定。,正确应用(2),极差和四分位间距:适用于任何分布及开口的资料;极差不稳定,不灵敏,四分位间距是对极差的改进; 方差和标准差:适用于正态分布的资料,其基本内容是离均差,它显示一组变量值与其均数的间距,故方差和标准差直接地、平均地描述了变量值的离散程度。 变异系数:适用于两组或多组的正态分布资料变异程度的比较。派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。,用平均数与变异度共同描述 集中和离散趋势,均数标准差正态分布资料 中位数四分位数间距非正态分布及开口资料 变异度小,则均数代表性好!变异度大,数据分散,则均数代表性差! 平均数所表示的集中性与变异度所表示的离散性

19、,从两个不同的角度阐明计量资料的特征!,第四节 正态分布,正态曲线( normal curve ),图形特点: 钟型 中间高 两头低 左右对称 最高处对应于X轴的值就是均数 曲线下面积为1 标准差决定曲线的形状,正态分布(normal distribution)也叫高斯分布(Gaussian distribution),是最常见、最重要的一种连续型分布,正态分布的数学形式,正态分布的特征,正态曲线(normal curve)在横轴上方均数处最高; 正态分布以均数为中心,左右对称; 正态分布有两个参数,即均数与标准差,常用N(, 2)表示,用N(0,1)表示标准正态分布。其位置与均 数有关,形状

20、与标准差有关。标准差大,离散程度大, 正态分布曲线则“胖”,反之,则“瘦”; 正态分布的面积分布有一定的规律性。,方差相等、均数不等的正态分布图示,3,1,2,越大,曲线越向右,2,1,3,曲线下面积,x,-,曲线下面积分布规律,正态分布,u=(X- )/ ,标准正态分布,正态分布和标准正态分布的概率密度函数 (probability density function),正态分布的概率密度函数为:,标准正态分布的概率密度函数为:,标准正态分布,标准正态分布 (standard normal distribution)的两个参数为:=0,=1 记为 N(0,1),曲线下面积分布规律,曲线下面积,

21、u,-,附录二(P803)就是根据此公式和图形制定的,计算正态曲线下面积实例,例,mmol/L ,,查附表1,在表的左侧找到0.1,在表的上方找到0.04,两者的相交处为0.4443=44.43%。即该地正常女子血清甘油三脂在1.10mmol/L以下者,估计占总人数的44.43%。,mmol/L ,,实例图示,44.43,例,101名正常成年女子的血清总胆固醇均数为4.03mmol/L,标准差为0.659mmol/L,试估计:正常女子血清总胆固醇在4.00mmol/L以下者占正常女子总人数的百分比;在4.005.00mmol/L之间者占正常女子总人数的百分比;在5.00mmol/L以上者占正常

22、女子总人数的百分比。,将 =1.10、 =5.00分别代入标准正态变量变换公式,得: 查u界值表得:(-0.05)=0.4801,(-1.47)=0.0708, (1.47)=1-0.0708=0.9292。,故,总胆固醇在4.00mmol/L以下者占正常女子总人数的百分比为48.01%,在4.005.00mmol/L之间者占正常女子总人数的百分比为(0.9292-0.4801=0.4491)44.91%;在5.00mmol/L以上者占正常女子总人数的百分比为7.08%。,第五节 医学参考值范围,医学参考值(medical reference ranges)的定义 是指包括绝大多数正常人的人体

23、形态、功能和的参考标准代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常与异常,步骤: 从“正常人”总体中抽样 大样本 明确研究总体、按随机化原则和方法进行抽样 研究、抽取样本含量要足够大,最好在100例以上。 统一测定方法以控制系统误差。 判断是否需要分组(如性别、年龄)确定。,根据专业知识决定单侧还是双侧。 选定合适的百分界限 参考值范围是指绝大多数正常人的测定值应该所在的范围。 习惯上指80、90、95或99 选定适当的方法进行参考值范围的估计正态分布法和百分位数法,单侧下限-过低异常,单侧上限-过高

24、异常,双侧-过高、过低均异常,正态分布法,双侧100(1-)%正常值范围: 单侧100(1-)%正常值范围:,双侧95%正常值范围: 单侧95%正常值范围:,适用于正态分布资料,u界值表,百分位数法 适用于偏态分布资料,双侧95%正常值范围: P2.5P97.5 单侧95%正常值范围: P5(下限),参考值范围的估计方法,请制定医学参考值范围,=5.21,s=0.83,总 结,一、集中趋势指标(说明一组同质资料的平均水平) 均数,几何均数,中位数 二、离散趋势指标(说明一组同质资料的离散度大小) 全距,四分位数间距,方差,标准差,变异系数 三、正态分布和医学参考值范围 1.正态分布 图形,特征,面积分布规律 N(,2),N(0,1) 2.参考值范围,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(大学精品课件:第2章计量资料的统计描述90.ppt)为本站会员(金钥匙文档)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|