1、,预防医学,第十章 人群健康研究的 统计学方法,目录,第一节 统计学概述 一、统计学的意义 二、统计学中的几个基本概念 三、统计资料的类型 四、统计工作的基本步骤 第二节 统计表和统计图 一、统计表 二、统计图,目录,第三节 数值变量资料的统计分析 一、数值变量资料的统计描述 二、数值变量资料的统计推断 第四节 分类变量资料的统计分析 一、分类变量资料的统计描述 二、分类变量资料的统计推断,学习目标,1. 掌握:总体、样本等统计学基本概念;统计资料的类型;统计表及统计图的制作;数值变量资料和分类变量资料统计描述的指标、计算及适用条件;数值变量资料和分类变量资料区间估计的方法,常用的假设检验方法
2、及应用条件。 2. 熟悉:医学统计工作的基本步骤;频数表的编制方法;正态分布曲线下的面积分布规律及参考值范围的制订。 3. 了解:t分布的特征;统计中两型错误。,重点及难点,重点:总体和样本的概念;统计资料的类型;统计表及统计图的制作要求;数值变量资料和分类变量资料统计描述的指标、计算及适用条件;抽样误差与标准误;数值变量资料和分类变量资料区间估计的方法;常用假设检验方法及应用条件。 难点:抽样误差与标准误;t分布与t界值;假设检验的基本思想;P值的含义;假设检验中的两型错误;分布与 检验。,第十章 第一节,丁可 南阳医学高等专科学校,第一节 统计学概述,统计学(statistics)是研究数
3、据的收集、整理、分析的一门科学,是认识社会和自然现象客观规律数量特征的重要工具。 统计学方法就是帮助人们透过偶然现象认识其内在的规律性,揭示疾病或现象发生、发展规律,为预防疾病、促进健康提供客观依据。,第十章 第一节,(一)同质与变异 同质(homogeneity)是指被研究指标的影响因素相同 变异(variable)是同质基础上的各观察单位(亦称为个体)之间的差异,第十章 第一节,(二)总体与样本 总体(population)是指根据研究目的确定的同质观察单位的全体 样本(sample)从总体中随机抽取的部分观察单位,其测量值(或变量值)的集合,第十章 第一节,(三)变量与变量值 总体(po
4、pulation)是指根据研究目的确定的同质观察单位的全体 样本(sample)从总体中随机抽取的部分观察单位,其测量值(或变量值)的集合,第十章 第一节,(四)参数与统计量 参数(parameter)是指总体的统计指标。习惯上用希腊字母表示总体参数 统计量(statistic)是指样本的统计指标。习惯上用拉丁字母表示统计量,第十章 第一节,(五)误差 1. 系统误差(systematic error):测量结果又倾向性。查明原因,可以避免。 2.随机测量误差(random error of measurement):测量结果没有倾向性。不可避免。 3. 抽样误差(sampling error
5、):由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异称为抽样误差。变异是绝对的,抽样误差不可避免。,第十章 第一节,(六)概率 概率(probability)是描述某随机事件发生可能性大小的量值,常用符号P表示。随机事件的概率在01之间,即0P1。 小概率事件:P0.05或P0.01的事件。统计学上,认为小概率事件在一次抽样中几乎不可能发生。,第十章 第一节,(一)数值变量资料 数值变量资料(measurement data)亦称定量资料(quantitative data)或计量资料(numerical variable data) (二)分类变量资料 分类变量资
6、料(categorical variable data)又称定性资料(qualitative data) 1无序分类(unordered categories) 2有序分类(ordered categories),第十章 第一节,资料类型的划分是根据研究目的确定的,而统计分析方法的选用,则与资料类型密切相关。在资料的分析过程中,根据有关专业理论和实际需要,各类资料间可以互相转化,以满足不同统计分析方法的要求。,第十章 第一节,(一)统计设计:第一步,最关键的环节 (二)收集资料:经常性资料和一时性资料 (三)整理资料:查漏补缺,系统化、条理化 (四)分析资料 1. 统计描述 2. 统计推断,第
7、十章 第一节,第十章 第二节,丁可 南阳医学高等专科学校,(一)统计表的结构和制表要求 1. 统计表主要有标题、标目(包括横标目、纵标目)、线条、数字和备注五部分构成。 2. 编制统计表主要的要求是表的中心内容要突出,一张表表达一个中心问题为宜。,第十章 第二节,第十章 第二节,(一)统计表的种类 1. 简单表,第十章 第二节,(一)统计表的种类 2.复合表,第十章 第二节,(一)统计表的类型与选择 1. 资料是连续性的,其目的是用线段升降表达事物的动态变化趋势,选择普通线图; 2. 表示变量分布的频数表资料,其目的是用直方的面积表达各组段的频数或频率分布情况,宜选择直方图; 3. 资料是相互
8、独立的,其目的是用直条的长短比较数值的大小,选择直条图;,第十章 第二节,(一)统计表的类型与选择 4. 事物内部各部分的百分构成比资料,其目的是用面积大小表达各部分所占的比重大小,则应选择圆图; 5. 双变量连续性资料,其目的是用点的密集程度和趋势表达两个变量的相互关系,选择散点图; 6. 资料是连续性的,其目的是比较两组或多组资料的集中趋势和离散趋势,宜选择箱式图。,第十章 第二节,(二)制图通则 1. 根据资料性质和分析目的正确选用适当的统计图。 2. 要有标题,简明扼要地说明统计图资料的时间、地点和主要内容,一般放在图下方。 3. 绘制有坐标轴的图形时,纵横两轴应有标目并注明单位。一般
9、将两轴的相交点即原点初定为0。纵横轴比例一般以57或75为宜。 4. 在同一张图内比较不同事物时,须用不同线条或颜色来表示,并附图例加以说明。,第十章 第二节,(三)常用统计图及其绘制方法 1. 直条图(bar graph) 直条图是以等宽直条(柱)的长短来表示各指标数值的大小。适用于指标为各自独立的分类资料。,第十章 第二节,第十章 第二节,第十章 第二节,(三)常用统计图及其绘制方法 2.构成图(constituent ratio chart) 它是以图形的面积大小表示事物内部各组成部分所占比重或比例。适用于按性质分类、能计算构成比的资料。构成图可分为圆形图和百分条图。,第十章 第二节,第
10、十章 第二节,图10-3 复方猪胆囊治疗单纯型老年气管炎近期疗效比较,第十章 第二节,图10-4 复方猪胆囊治疗老年性气管炎近期疗效比较,(三)常用统计图及其绘制方法 3.线图(line graph):用线段的升降来表示某事物(某现象)随时间或条件而变化的趋势。适用于连续性资料。,第十章 第二节,第十章 第二节,(三)常用统计图及其绘制方法 4.直方图(histogram) 直方图又称频数分布图,是以各矩形的面积表示各组段的频数,各矩形面积的总和为总频数,适用于表示连续性资料的频数分布。,第十章 第二节,第十章 第二节,图10-6 某市某年150名3岁女孩身高频数分布,(三)常用统计图及其绘制
11、方法 5. 散点图(scatter diagram) 散点图是用点的密集程度和变化趋势来表示两种现象间的相关关系。适用于双变量资料,均具有连续性变化的特征。,第十章 第二节,第十章 第二节,图10-7 15名8岁男孩身高与坐高散点图,(三)常用统计图及其绘制方法 6.箱式图(box plot) 用于比较两组或多组资料的集中趋势和离散趋势,箱式图的中间横线表示中位数,箱子的长度表示四分位数间距,两端分别是P75和P25,箱式图最外面两端连线表示最大值和最小值。,第十章 第二节,第十章 第二节,图10-8 抑肿瘤药不同剂量与对照组用药后小白鼠肿瘤重量的比较,第三节 数值变量资料的统计分析,刘琥 济
12、宁医学院,1. 频数表的编制,编制频数表步骤流程图,(一)频数分布,2.频数分布表的用途,(1)揭示数值变量频数分布的类型和特征 (2)作为陈述资料的形式 (3)便于发现一些特大或特小的可疑值 (4)便于进一步的统计分析,3.数值变量资料频数分布的类型和特征,44,1.算术均数(mean) 样本均数: 总体均数: (1)应用:对称分布资料,尤其是正态分布资料。 (2 )计算 直接法 加权法,(二)集中趋势指标,45,2.几何均数(geometric mean): (1)应用:等比数列资料;对数正态分布资料 (2) 计算:直接法 加权法,46,3.中位数(median) (1)概念:将一组观察值
13、从小到大按顺序排列,位次具中的观察值就是中位数。 (2)应用:偏态分布;分布一端或两端无确定数据;资料的分布情况不清楚。 (3)计算:直接法 频数表法,离散趋势即个体值之间的变异程度,数据越分散,变异程度越高。 极差 四分位数间距 方差 标准差 变异系数,47,(三)离散趋势指标,48,1.全距(R) 全距也称极差,是一组观察值中最大值与最小值之差。反映个体变异的范围。全距大,说明离散程度大;反之,说明离散程度小。 缺点: (1)除了最大值和最小值外,不能反映组内其他数据的离散程度。 (2)样本含量悬殊时不宜比较其全距。 (3)即使样本含量不变,全距的抽样误差亦较大,即不够稳定。,49,2.四
14、分位数间距(Q) 上四分位数(P75)与下四分位数(P25)之差 Q= P75- P25 四分位数间距可看成中间一半变量值的全距。它与全距类似,数值越大,说明变异程度越大;反之,说明变异度越小。 用四分位数间距作为说明个体差异的指标,比全距稳定,但仍然未考虑到每个观察值的离散程度。 应用:与中位数结合用于说明偏态分布资料的特征。,50,3.方差 全面地考虑每个变量值的离散程度。 离均差:总和为零 离均差平方和:除了与变异度有关外,还与变量值的个数有关。取其均数,即为方差。,51,4.标准差(standard deviation) 总体方差开平方,就是总体标准差。 标准差越大,说明个体的变异就越
15、大,则平均数的代表性就越差。 计算: 直接法: 加权法:,52,标准差的应用 (1)用于描述正态分布数值变量资料的离散程度。 (2)结合均数描述正态分布的特征,估计参考值范围。 (3)用于计算变异系数。 (4)用于计算标准误。,53,5.变异系数(coefficient of variation) 即标准差与均数之比用百分数表示。 变异系数是相对数,没有单位。变异系数愈小 ,说明一组变量值的变异程度愈小 ;反之,变异系数愈大,说明变异程度大。 应用: (1) 比较度量衡单位不同的多组资料的变异度。 (2) 比较均数相差较大的几组资料的变异度。,变异指标小结,54,1极差较粗,适合于任何分布。
16、2标准差与均数的单位相同,最常用,适合于近似正态分布。 3变异系数主要用于单位不同或均数相差悬殊资料 4平均指标和变异指标分别反映资料的不同特征, 常配套使用如 正态分布:均数、标准差; 偏态分布:中位数、四分位数间距,55,1.正态分布的特征 (1)正态曲线在横轴上方均数处最高。 (2)正态分布以均数为中心,左右对称。 (3)正态分布有两个参数,即均数和标准差。均数是位置参数,标准差是变异度参数。 (4)正态曲线下的面积分布有一定规律。,(四)正态分布与医学参考值范围,曲线下面积分布规律,2.参考值范围的估计,医学参考值:大多数正常人某指标的波动范围。 “正常人”不是指完全健康的人,而是没有
17、患有影响研究指标疾病或有关因素的同质人群。,57,制订参考值范围的步骤,(1)明确研究总体,从“正常人”总体中抽样 (2)统一测定方法以控制测量误差。 (3)判断是否需要分组(如性别、年龄)确定。 (4)根据专业知识决定单侧还是双侧。 (5)确定适当的百分范围。 (6)根据资料的分布类型选定适当的方法进行范围估计。,58,59,两种方法计算95%参考值范围,(一)均数的抽样误差与标准误,概念:样本统计量的标准差叫做标准误。 意义:是描述均数抽样误差大小的统计指标。是样本均数的标准差,反映含量相同的样本均数的离散趋势或变异程度。同类性质的资料,均数的标准误越大,说明样本均数的变异程度越大,样本均
18、数围绕总体均数分布越分散,样本均数与总体均数越远离,因此,用样本均数推论总体均数的可靠性越小,抽样误差越大。,二、数值变量资料的统计推断,抽样误差,数值变量资料,标准误,均数标准误的用途 1.可用来衡量样本均数的可靠性,反映抽样误差的大小。标准误越小,说明样本均数间的离散程度越小,用样本均数估计总体均数越可靠,反之亦然。 2.可用来估计总体均数的可信区间。 3.可用于均数的假设检验。,(二)t分布,t 分布特征: 1. 单峰分布,以0为中心左右对称。 2. t 分布是一簇曲线,其形状受自由度的影响。,t 界值,统计学家已将各种自由度对应的t分布曲线下的尾部面积(概率)的百分界值编制成t界值表。
19、 由于t分布是以0为中心的对称分布,故表中只列出正值,所以查表时,不管t 值正负只用绝对值。 表右上角插图中阴影部分,表示t/2,以外尾部面积占总面积的百分数,即概率P。 随着自由度的增大,t界值逐渐减小,当自由度无穷大时,双侧t0.05=1.96,单侧t0.05,=1.645,即为u分布的界值。,64,(三)总体均数的估计,点估计 数值变量资料: 区间估计,参数估计的方法(数值变量资料),总体均数95%可信区间 已知 未知,且样本量较小 未知,且样本量较大,(四)假设检验的意义和基本步骤,基本步骤 1.建立假设:注意单侧还是双侧 2.确定检验水准 3.选定检验方法,计算统计量 4.确定概率P
20、值,作出推断结论,对资料性质的要求(数值变量资料),各样本是相互独立的随机样本 各样本都来自正态分布的总体 各个总体方差齐,1.样本均数与总体均数比较,(1)小样本均数与总体均数比较,(2)大样本均数与总体均数比较,(3)已知总体标准差时,2.配对数值变量资料的比较,3.两样本均数的比较,(1)两小样本均数的比较,(2)两大样本均数的比较,72,假设检验应注意的问题 1.资料必须合乎随机化抽样的原则 2.选用的假设检验方法应符合其应用条件 3.实际差别大小与统计意义的区别 4.判断不能绝对化 5.单双侧检验的选择,73,假设检验中的两类错误 型错误(第 类错误):拒绝了实际上成立的H0,这类“
21、弃真”的错误称为型错误,其大小用表示。 型错误(第 类错误):不拒绝实际上不成立的H0,这类“取伪”的错误称为型错误,其概率大小用表示。 值的大小在进行假设检验时一般并不知道。,假设检验中的两类错误,第四节 分类变量资料的统计分析,刘琥 济宁医学院,一、分类变量资料的统计描述 (一)常用的相对数指标 率 构成比 相对比,77,1、率,率(rate)称为频率指标或强度指标,它说明某现象发生的频率程度或强度。,78,2、构成比,构成比(constituent ratio)称为构成指标,它反映事物内部各组成部分所占整体的比重或分布。,79,3、相对比,相对比(relative ratio)也称比,是
22、A、B两个有关联的指标之比。说明A是B的若干倍或百分之几。,(二)应用相对数的注意事项,1计算相对数时分母不宜过小,2资料分析时不能以构成比代替率,3注意资料的可比性,4正确计算平均率,5样本率或构成比的比较应做假设检验,二、分类变量资料的统计推断,(一)率的抽样误差和标准误,82,率的抽样误差与标准误,(理论值),(估计值),83,(二)总体率可信区间,1.正态近似法:当样本含量n足够大,样本率P或1-P均不太小时,样本率的分布近似正态分布。 总体率95%的可信区间: 2.查表法:当n较小,如50,特别是P接近于0或1时,按二项分布原理估计总体率的可信区间。,(三)卡方检验,基本思想:检验实
23、际频数和理论频数的吻合程度。,T5,且n40:直接使用基本公式或专用公式 1T5,且n40:用连续性校正 检验 T1或n40:用精确概率法,1.四格表资料的卡方检验,基本公式,专用公式,2. 配对四格表资料的卡方检验,要求:不能有1/5以上的格子理论频数小于5,或者不能有任意一个格子的理论频数小于1。,3.行列表资料的卡方检验,本章小结,本章重点讲述了医学统计学基本概念、统计资料的类型、统计图表的制作及具体的统计分析方法。统计分析时,首先要明确资料类型,确定设计类型,然后选择不同的方法进行统计分析。 数值变量资料的统计描述重点讲述了集中趋势、离散趋势指标及其应用条件。数值变量资料的统计推断讲述了区间估计和假设检验两个方面。应用中要注意各公式的应用条件。 分类变量资料的统计描述重点讲述了各相对数指标及应用的注意事项。分类变量资料的统计推断重点讲述了如何估计总体率95%和99%的可信区间及卡方检验。应用中要注意各公式的应用条件。,THANK YOU!,