1、第五章 循证医学实践中常用统计方法(Statistical methods commonly used in the practice of evidence-based medicine)循证医学循证医学 Evidence-Based Medicine作者单位作者单位 中南大学中南大学 长沙医学院长沙医学院作者姓名作者姓名 王乐三王乐三 欧阳江欧阳江目 录123教学教学要要求:求:1 1.掌握医学统计的基本概念;掌握医学统计的基本概念;2 2.熟悉医学统计学的基本内容;熟悉医学统计学的基本内容;3.3.了解多变量资料统计分析方法及选择思路了解多变量资料统计分析方法及选择思路。【案案 例例】某
2、作者比较腹腔镜胰十二指肠切除术与传统开腹手某作者比较腹腔镜胰十二指肠切除术与传统开腹手术行胰十二指肠切除术的近期临床疗效和安全性,结局术行胰十二指肠切除术的近期临床疗效和安全性,结局指标有:手术时间;术中出血量;是否再次手术;住指标有:手术时间;术中出血量;是否再次手术;住院时间;是否围手术期死亡;是否有胰漏发生、切院时间;是否围手术期死亡;是否有胰漏发生、切口感染、延迟性胃排空等。有关的结局指标涉及的统计口感染、延迟性胃排空等。有关的结局指标涉及的统计资料类型有哪些?有关的参数估计和假设检验方法有哪资料类型有哪些?有关的参数估计和假设检验方法有哪些?些?51234医学统计学定义医学统计学定义
3、基本概念基本概念统计资料常见类型统计资料常见类型小结思考小结思考6l若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。Florence Nightingale 1820一1910What is Statistics?什么是统计学?什么是统计学?vWebsters International Dictionary:A science dealing with the collection,analysis,interpretation,and presentation of masses of numerical data”vJohn M.Last,A Dictionary
4、of Epidemiology:The science and art of dealing with variation in data through collection,classification,and analysis in such a way as to obtain reliable results”10医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。医学统计学医学统计学(Medical Statistics)(Medical Statistics)医学统计学的定义医学统计学的定义11医学研究的基本内容1.
5、1.医学科研的统计设计医学科研的统计设计2.2.资料分析资料分析假设假设搜集、整理、分析数据搜集、整理、分析数据v调查设计v实验设计l统计描述:统计指标l统计推断:参数估计、假设检验医学统计学的应用医学统计学的应用12n 以正确的方式收集资料n 描述资料的统计特征n 统计推断及得出正确结论13一、一些重要概念一、一些重要概念v同质和异质同质和异质v变异变异v总体和个体总体和个体v参数和统计量参数和统计量v随机随机v概率和频率概率和频率v小概率事件和小概率原理小概率事件和小概率原理v抽样误差抽样误差14基本概念之一:同质和异质基本概念之一:同质和异质l同质(homogeneity):性质相同l异
6、质(heterogeneity):性质不同同质和异质是相对的概念同质和异质是相对的概念不同质的个体不能笼统地混在一起分析不同质的个体不能笼统地混在一起分析个体的同质性是构成研究总体的必备条件个体的同质性是构成研究总体的必备条件研究内容研究内容(指标指标/变量变量)不同,对同质性的要求不同不同,对同质性的要求不同15在研究事物的形状时同质和异质示例同质和异质示例在研究事物的颜色时16基本概念之二:变异基本概念之二:变异 v同质事物之间的差别称为同质事物之间的差别称为变异变异(Variation)v变异的两个方面:变异的两个方面:不同观察单位(个体)间的差别不同观察单位(个体)间的差别同一个体在不
7、同阶段的差别(重复测量)同一个体在不同阶段的差别(重复测量)17变异示例变异示例发热者体温波动正常人体温波动18基本概念之二:变异基本概念之二:变异v同质个体间的差异。同质个体间的差异。v结果是随机的,不可预测的。结果是随机的,不可预测的。v一种或多种不可控因素一种或多种不可控因素(已知的或未知的已知的或未知的)作用下的综合表现。作用下的综合表现。v个体变异是普遍存在的。个体变异是普遍存在的。v个体变异是有规律的。个体变异是有规律的。v没有个体变异,就没有统计学!没有个体变异,就没有统计学!19基本概念之三:总体、个体和样本基本概念之三:总体、个体和样本 v 总体总体(population):
8、按研究目的所确定的按研究目的所确定的同质研究对象某项观察指标的全体,即同质研究对象某项观察指标的全体,即全体观察单位。全体观察单位。有限总体有限总体(finite)无限总体无限总体(infinite)v 个体个体(individual):是构成总体的最基本是构成总体的最基本观察单位;观察单位;v 样本样本(random sample):从研究总体中随从研究总体中随机抽取具有代表性的部分观察单位。机抽取具有代表性的部分观察单位。代表性,包含了总体的特性代表性,包含了总体的特性 为什么要抽样?为什么要抽样?20基本概念之四:参数和统计量基本概念之四:参数和统计量 l总体参数总体参数(paramet
9、er):刻画总体特征的指标;刻画总体特征的指标;一般用希腊字母表示,如:一般用希腊字母表示,如:、p l统计量统计量(statistic):样本统计指标样本统计指标 一般用拉丁字母表示,如:一般用拉丁字母表示,如:、s、pl在总体被确定之后,总体参数就是一个在总体被确定之后,总体参数就是一个常数常数,是不会变化的,不管你是否确切知其大小;而是不会变化的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的。统计量是几乎总是随着样本而变的。X21基本概念之五:随机基本概念之五:随机v随机随机(random):):是指机会均等,无主观影响,是指机会均等,无主观影响,目的是保证样本对总体的代表性
10、、可靠性。目的是保证样本对总体的代表性、可靠性。机会均等,无主观影响机会均等,无主观影响抽样随机抽样随机(random sampling)有相同的机会被抽到有相同的机会被抽到分组随机分组随机(random allocation)有相同的机会被分到不同的组中有相同的机会被分到不同的组中顺序随机顺序随机(random order)有相同的机会先后接受处理有相同的机会先后接受处理22基本概念之六:频率和概率基本概念之六:频率和概率v频率频率 Relative frequency:在在n次随机试验中,次随机试验中,事件事件A发生了发生了m次,则比值次,则比值称为事件称为事件A在这在这n次试验中出现的次
11、试验中出现的频率频率mAfn发发生生的的试试验验次次数数试试验验总总次次数数23基本概念之六:频率和概率基本概念之六:频率和概率抛硬币试验在概率的统计学定义上的诠释抛硬币试验在概率的统计学定义上的诠释24基本概念之六:频率和概率基本概念之六:频率和概率v概率的统计学定义:概率的统计学定义:数理统计学中的大数定理表明:当观察次数数理统计学中的大数定理表明:当观察次数n越来越大,越来越大,频率频率f 的随机波动幅度越来越小,并最终趋向于一个常数的随机波动幅度越来越小,并最终趋向于一个常数p:随机事件随机事件A发生的发生的概率概率(Probability)。v 概率概率描述事件发生可能性大小的一个度
12、量描述事件发生可能性大小的一个度量。是一种参数。是一种参数。常用常用P来表示;来表示;0P 125基本概念之七:小概率事件v 小概率事件小概率事件(rare event)当某事件发生的概率很小当某事件发生的概率很小(可能性很小可能性很小),统计学上称该事件为小概率,统计学上称该事件为小概率事件。事件。医学上:小于或等于医学上:小于或等于0.050.05v 小概率原理小概率原理 小概率事件并不表示不可能发生,但在某一次试验中,小概率事件并不表示不可能发生,但在某一次试验中,可认为可认为是不会是不会发生的。发生的。26v误差误差(error)指实际观察值与观察真值之差、样本指标指实际观察值与观察真
13、值之差、样本指标与总体指标之差。与总体指标之差。基本概念之八:抽样误差基本概念之八:抽样误差 27二、统计资料常见类型 在医学研究中,根据研究目的的要求对在医学研究中,根据研究目的的要求对一些观察项目或研究指标在一些研究对象中一些观察项目或研究指标在一些研究对象中进行观察进行观察(或测量或测量),由于这些指标存在着变,由于这些指标存在着变异,故把这些观察项目或研究指标称为异,故把这些观察项目或研究指标称为随机随机变量变量,简称,简称变量变量(variable),而观察结果对,而观察结果对应的取值称为应的取值称为变量值或观察值变量值或观察值。28v 按照取值的特性:数值变量 Numerical
14、Variable 定量变量:既有顺序的意义,又有间隔的意义,可以认为是连续的;往往有单位;取值间的差异是可以度量的 分类变量 Categorical Variable:取值是是分散、定性的,表现为互不相容的类别和属性无序分类 Unordered Categorical定性变量:无顺序,无间隔,仅有分类二项分类多项分类有序分类 Ordered Categorical 等级变量:仅有顺序,无单位;取值间的差异是不可度量的29资料类型的判断30v不同分类的互相转化不同分类的互相转化 定量资料(数值变量)定量资料(数值变量)定性资料(无序分类变定性资料(无序分类变量)量)定量资料(数值变量)定量资料(
15、数值变量)等级资料(有序分类变等级资料(有序分类变量)量)等级资料(有序分类变量)等级资料(有序分类变量)定性资料(无序分定性资料(无序分类变量)类变量)信息量只有减少,不可增加信息量只有减少,不可增加 31基本概念汇总基本概念汇总总体个体、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计推断风 险32总结总结l基本概念:基本概念:统计学,统计学研究的步骤统计学,统计学研究的步骤统计资料的分类统计资料的分类同质、变异同质、变异总体、个体、样本总体参数、样本统计量、样本含量总体、个体、样本总体参数、样本统计量、样本含量随机随机概率、小概率事件、小概率原理概率、小概率事件、小概率
16、原理抽样误差抽样误差变量的分类变量的分类33常用统计方法常用统计方法1234分类变量资料常用统计方法分类变量资料常用统计方法数值变量资料常用统计方法数值变量资料常用统计方法常用统计方法的选择常用统计方法的选择思考题思考题34l描述性统计分析描述性统计分析:以统计表、统计图统计指标(如以统计表、统计图统计指标(如均数、标准差等)对资料的数量特征及其分布规律均数、标准差等)对资料的数量特征及其分布规律进行测定和描述。进行测定和描述。l推断性统计分析推断性统计分析:如何由样本信息推断总体特征的如何由样本信息推断总体特征的问题。问题。参数估计:区间估计(参数估计:区间估计(95%CI)假设检验:假设检
17、验:t,F,z检验等检验等基本统计分析方法基本统计分析方法35一、分类变量资料常用统计方法一、分类变量资料常用统计方法1.1.分类变量资料的统计描述分类变量资料的统计描述数据形式数据形式绝对数绝对数相对数相对数比、比例、率比、比例、率36比比(ratio)(ratio)两者的相对水平两者的相对水平 分子分子不必包含不必包含在分母里在分母里 可以比较不同属性的事件或状态可以比较不同属性的事件或状态=5/2 =2.5/137构成比构成比(proportion)(proportion)某一事物内部各组成部分所占的比重某一事物内部各组成部分所占的比重 分子分子必须包含必须包含在分母里在分母里 比较的必
18、须是同一属性的事件或状态比较的必须是同一属性的事件或状态 波动范围只能是波动范围只能是0 01 12-=0.5=50%4率率(rate)(rate)38 描述特定时间里某事件发生的速度描述特定时间里某事件发生的速度 分子:分子:特定时间里观察的特定时间里观察的新发事件数新发事件数 分母:分母:事件发生的人群基数事件发生的人群基数 (危险人口)危险人口)2-=0.02/year 100Observed in 199839n防止概念混淆防止概念混淆n计算相对数时分母应有足够数量计算相对数时分母应有足够数量 n正确地合并估计频率正确地合并估计频率(或强度或强度)型指标型指标 n相对数间的比较要具备可
19、比性相对数间的比较要具备可比性:观察的对象是否观察的对象是否同质,研究的方法(如检测手段、抽样方法)是同质,研究的方法(如检测手段、抽样方法)是否相同,观察的时间是否一致等;被比较的总体否相同,观察的时间是否一致等;被比较的总体是否具有可比性是否具有可比性 n对相对数的统计推断对相对数的统计推断 应用相对数应注意的事项应用相对数应注意的事项402.2.分类变量资料的统计推断分类变量资料的统计推断参数估计:参数估计:点估计点估计 区间估计区间估计假设检验:假设检验:检验、检验、u u检验检验 非参数检验非参数检验 2 无序分类资料统计方法无序分类资料统计方法412 2 2 2 2 等级资料统计方
20、法等级资料统计方法42单变量计数资料的统计方法选择思路单变量计数资料的统计方法选择思路4344二、数值变量资料常用统计方法二、数值变量资料常用统计方法1.1.数值变量资料的统计描述数值变量资料的统计描述集中趋势和离散趋势124132140148156164010203040人数身高(cm)45n 集中趋势的描述集中趋势的描述 即大多数数值落在什么位置上。(针对一个即大多数数值落在什么位置上。(针对一个变量的若干个数值)变量的若干个数值)1.1.算术均数(均数)算术均数(均数)2.2.几何均数几何均数3.3.中位数中位数46算术均数(均数)算术均数(均数)l意义:一组性质相同的观察值在数量上的平
21、均水平。意义:一组性质相同的观察值在数量上的平均水平。l表示表示 (总体)(总体)X X(样本)样本)l特征:特征:(X(X-X)=0X)=0l应用:正态分布或近似正态分布应用:正态分布或近似正态分布l注意:合理分组,才能求均数,否则没有意义。注意:合理分组,才能求均数,否则没有意义。47几何均数几何均数l意义:意义:N N个数值的乘积开个数值的乘积开N N次方即为这次方即为这N N个数的几何个数的几何均数。均数。l表示:表示:G Gl应用:原始数据分布不对称,经对数转换后呈对称应用:原始数据分布不对称,经对数转换后呈对称分布的资料。数值范围跨越多个数量级。例如抗体分布的资料。数值范围跨越多个
22、数量级。例如抗体滴度。滴度。48中位数、百分位数中位数、百分位数l意义:将一组观察值从小到大排序后,居于中间位意义:将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。(身高排队)置的那个值或两个中间值的平均值。(身高排队)l表示:表示:M M、PXPXl百分位数:将百分位数:将N N个观察值从小到大依次排列,再分个观察值从小到大依次排列,再分成成100100等份,对应于等份,对应于X%X%位的数值即为第位的数值即为第X X百分位数。百分位数。中位数是百分位的特殊形式。中位数是百分位的特殊形式。l应用:偏态资料,开口资料应用:偏态资料,开口资料49n 离散趋势的描述:离散趋势
23、的描述:反映一组数据的变异大小反映一组数据的变异大小l极差极差l四分位数间距四分位数间距l方差方差l标准差标准差l变异系数变异系数 常用指标常用指标50标准差标准差l相关概念:离均差、离均差之和、离均差平方和、方相关概念:离均差、离均差之和、离均差平方和、方差(差(2 S2)l 标准差的符号:标准差的符号:S l 意义:全面反映了一组观察值的变异程度意义:全面反映了一组观察值的变异程度(大小大小)l应用:描述变异程度、计算标准误、计算变异系数、应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范围描述正态分布、估计正常值范围512.2.数值变量资料的统计推断数值变量资料的统
24、计推断参数估计:参数估计:点估计点估计 区间估计区间估计假设检验:假设检验:t 检验、方差分析检验、方差分析 非参数检验非参数检验 52t 检验(检验(N30、60)应用条件:应用条件:来自正态分布的总体;来自正态分布的总体;所比较总体的方差相同。所比较总体的方差相同。用途:用途:n样本均数与总体均数的比较样本均数与总体均数的比较n配对资料差值均数的比较配对资料差值均数的比较n两样本均数的比较两样本均数的比较53u 检验(检验(N30、60)用途:用途:n样本均数与总体均数的比较样本均数与总体均数的比较n配对资料差值均数的比较配对资料差值均数的比较n两样本均数的比较两样本均数的比较54方差分析
25、方差分析应用条件:应用条件:来自正态分布的总体;来自正态分布的总体;所比较总体的方差相同。所比较总体的方差相同。用途:用途:n完全随机设计方差分析完全随机设计方差分析n随机区组设计方差分析随机区组设计方差分析n多个样本均数间的两两比较多个样本均数间的两两比较55秩和检验秩和检验(非参数方法非参数方法)用途:用途:n配对资料差值的符号秩和配对资料差值的符号秩和 检验检验n成组设计两样本比较秩和成组设计两样本比较秩和 检验检验n成组设计多样本比较秩和成组设计多样本比较秩和 检验检验56单变量数值变量资料的统计方法选择思路单变量数值变量资料的统计方法选择思路57双变量资料的统计学检验方法选择思路双变
26、量资料的统计学检验方法选择思路583.3.双变量资料分析常用统计方法双变量资料分析常用统计方法593.3.多变量资料分析常用统计方法多变量资料分析常用统计方法60三、常用统计方法的选择三、常用统计方法的选择不同类型的资料采用不同的统计分析方法不同类型的资料采用不同的统计分析方法 计量资料的统计分析方法计量资料的统计分析方法:t检验、检验、u检验、方差检验、方差分析、相关与回归分析分析、相关与回归分析 计数资料的统计分析方法:计数资料的统计分析方法:卡方卡方检验、二项分检验、二项分布和布和Poission 分布、相关与回归分析分布、相关与回归分析 等级资料的统计分析方法:等级资料的统计分析方法:
27、秩和检验秩和检验 61不同设计类型采用相应的统计分析方法不同设计类型采用相应的统计分析方法 完全随机设计:完全随机设计:对两组计量资料的比较:对两组计量资料的比较:t检验、检验、完全随机设计方差分析、完全随机设计方差分析、Kruskal-Wallis 检验;检验;区组随机设计(或配对设计):区组随机设计(或配对设计):配对配对t检验、区检验、区组随机设计的方差分析、组随机设计的方差分析、Friedman 检验、检验、kappa检验检验 62例例5-1 5-1 某研究所为研究某药物的抑癌作用,使一批小白鼠某研究所为研究某药物的抑癌作用,使一批小白鼠致癌后,将一批致癌小白鼠致癌后,将一批致癌小白鼠
28、4040只按完全随机设计的方法分为只按完全随机设计的方法分为四组,四组,A A、B B、C C三个试验组和一个对照组,分别接受不同的处三个试验组和一个对照组,分别接受不同的处理。理。A A、B B、C C三个试验组,分别注射三个试验组,分别注射0.5m10.5m1、1.0m11.0m1和和1.5m1 301.5m1 30的注射液,对照组不用药。经一定时间以后,测定四组小的注射液,对照组不用药。经一定时间以后,测定四组小白鼠的肿瘤重量白鼠的肿瘤重量(g)(g),测量结果见表,测量结果见表5-75-7。试进行统计分析。试进行统计分析。63某药物对小白鼠抑癌作用某药物对小白鼠抑癌作用(肿瘤重量,肿瘤
29、重量,g)的试验结果的试验结果64各组的均数、标准差、标准误及总体均数各组的均数、标准差、标准误及总体均数95%可信区间可信区间XXSS本例为单变量计量资料,分组因素只有药物本例为单变量计量资料,分组因素只有药物1个,共个,共4个个水平,设计类型为完全随机设计,水平,设计类型为完全随机设计,4组资料经方差齐性检验,组资料经方差齐性检验,Levene 统计量为统计量为0.178,P=0.910,在,在 的水准,各组方差差别的水准,各组方差差别无统计学意义,可选择单因素方差分析(无统计学意义,可选择单因素方差分析(one-way ANOVA)。)。方差分析结果方差分析结果 ,P0.001,可认为,
30、可认为4个不同剂量药物个不同剂量药物注射液的抑癌作用有差别。再用注射液的抑癌作用有差别。再用Dunnett-t检验作多个实验组检验作多个实验组与一个对照组之间的比较,结果与一个对照组之间的比较,结果。,-,在在=0.01水准上均有统计学意义;可认为水准上均有统计学意义;可认为3个不同剂量药物注个不同剂量药物注射液与对照组的小白鼠肿瘤重量有差别,即射液与对照组的小白鼠肿瘤重量有差别,即3个不同剂量药物个不同剂量药物注射液都有抑癌作用。注射液都有抑癌作用。6513.697F4.69At、对 照4.95Bt、对 照5.80Ct、对照66例例5-2 5-2 某研究者收集某研究者收集103103例冠心病
31、患者和例冠心病患者和100100例正例正常对照者的多项指标,部分资料见表常对照者的多项指标,部分资料见表5-95-9。其中。其中G G为为组别,组别,X1X1为性别为性别,X2,X2为年龄,为年龄,X3X3为患高血压史,为患高血压史,X4X4为为吸烟史,吸烟史,X5X5为胆固醇含量为胆固醇含量,X6,X6为甘油三酯含量,为甘油三酯含量,X7X7为低密度脂蛋白含量,为低密度脂蛋白含量,X8X8为高密度脂蛋白含量为高密度脂蛋白含量,X9,X9为脂蛋白为脂蛋白含量,含量,X10X10为载脂蛋白为载脂蛋白A1A1含量,含量,X11X11为载为载脂蛋白脂蛋白B B含量,含量,X12X12为基因为基因Ec
32、oREcoR型。表型。表5-105-10简要列简要列出根据研究者部分研究目的而拟采用的统计分析方出根据研究者部分研究目的而拟采用的统计分析方法。法。67冠心病患者和正常对照者多项指标的部分观测结果冠心病患者和正常对照者多项指标的部分观测结果68研究目的和拟采用的统计分析方法研究目的和拟采用的统计分析方法思考题691某医院用新药与常规药物治疗婴幼儿贫血,将某医院用新药与常规药物治疗婴幼儿贫血,将 20 名贫血名贫血患儿随机分为两组,分别接受两种药物治疗,测得血红蛋白患儿随机分为两组,分别接受两种药物治疗,测得血红蛋白增加量增加量(g/L)如下表,请回答下列问题:如下表,请回答下列问题:1)新药与
33、常规药的疗效有无差别?新药与常规药的疗效有无差别?2)根据研究问题,请分别给出两个样本所在总体的定义。根据研究问题,请分别给出两个样本所在总体的定义。两种药物治疗婴幼儿贫血的血红蛋白增加量(两种药物治疗婴幼儿贫血的血红蛋白增加量(g/L)思考题702 24 名甲状腺功能低下的婴儿,按病情严重程度把他们分名甲状腺功能低下的婴儿,按病情严重程度把他们分为为 3 个水平:轻度组个水平:轻度组 9 名,中度组名,中度组8 名,重度组名,重度组 7 名。表中名。表中列出了他们的血清甲状腺素含量列出了他们的血清甲状腺素含量(n mol/l)。试分析不同严重程度的婴儿血清甲状腺素水平是否差异有试分析不同严重
34、程度的婴儿血清甲状腺素水平是否差异有统计学意义。分别用统计学意义。分别用LSD 法和法和Bonferroni 法作多重比较,对法作多重比较,对结果作出统计学和专业领域内的解释。结果作出统计学和专业领域内的解释。71第三节第三节 常用统计方法典型错误及辨析常用统计方法典型错误及辨析123统计描述典型错误辨析统计描述典型错误辨析统计推断错误辨析统计推断错误辨析思考题思考题72一、统计描述典型错误辨析一、统计描述典型错误辨析(一)不考虑资料的分布状态滥用均数和标准差(一)不考虑资料的分布状态滥用均数和标准差例例5-3 5-3 某地发生一起原因不明疾病,共有某地发生一起原因不明疾病,共有8080人发病
35、,人发病,从接触传染源到发病的时间(潜伏期)见表从接触传染源到发病的时间(潜伏期)见表5-115-11,作,作者求得其平均潜伏期者求得其平均潜伏期x=9.1x=9.1天。该结论对否?天。该结论对否?表表5-11 某地原因不明疾病的发病时间某地原因不明疾病的发病时间73一、统计描述典型错误辨析一、统计描述典型错误辨析辨析:辨析:从表中可以看出,该资料为偏态分布资料,从表中可以看出,该资料为偏态分布资料,描述其平均潜伏期应该用中位数,而不能用均数表描述其平均潜伏期应该用中位数,而不能用均数表示,计算得出平均潜伏期示,计算得出平均潜伏期M=8.3M=8.3天,而不能用天,而不能用 x x。74一、统
36、计描述典型错误辨析一、统计描述典型错误辨析(一)不考虑资料的分布状态滥用均数和标准差(一)不考虑资料的分布状态滥用均数和标准差例例5-4 5-4 某医生研究某药对糖尿病的治疗效果,结果见某医生研究某药对糖尿病的治疗效果,结果见表表5-125-12。表表5-12 某药对糖尿病病人血糖的影响(某药对糖尿病病人血糖的影响(xs x)75一、统计描述典型错误辨析一、统计描述典型错误辨析辨析:辨析:从表从表5-12可以看出,研究者的目的是要分析实验组和可以看出,研究者的目的是要分析实验组和对照组血糖的平均水平,分别用对照组血糖的平均水平,分别用 xs x 表示。该结果数据显表示。该结果数据显示,实验组的
37、标准差为示,实验组的标准差为19.71,对照组的标准差为,对照组的标准差为59.70,实,实验组和对照组血糖的标准差都是均数的若干倍,此资料不太验组和对照组血糖的标准差都是均数的若干倍,此资料不太可能为正态分布。而用可能为正态分布。而用 xs x或或 xs表达结果时,需要资料表达结果时,需要资料服从正态或近似正态分布。服从正态或近似正态分布。76一、统计描述典型错误辨析一、统计描述典型错误辨析注意:当资料服从正态分布时,用以上两种方法表注意:当资料服从正态分布时,用以上两种方法表达,其含意是不一致的。达,其含意是不一致的。xs x 反映的是在相同的实验条件下,样本均值与总反映的是在相同的实验条
38、件下,样本均值与总体均值的接近程度,即体均值的接近程度,即68.27的可能性包含总体均数,的可能性包含总体均数,标准误的大小反映实验的准确度;标准误的大小反映实验的准确度;xs 反映在相同的实验条件下观测值在样本均数附近反映在相同的实验条件下观测值在样本均数附近的波动大小,即约有的波动大小,即约有68.27的观测值在的观测值在 xs范围之内,范围之内,标准差的大小反映实验的精密度。标准差的大小反映实验的精密度。77一、统计描述典型错误辨析一、统计描述典型错误辨析如果无法判断资料的分布类型,先对资料进行正态如果无法判断资料的分布类型,先对资料进行正态性检验,若满足正态性,根据研究目的准确选择性检
39、验,若满足正态性,根据研究目的准确选择 xs x或或 xs。若不满足正态性,可进行数据转换,转换后的数。若不满足正态性,可进行数据转换,转换后的数据服从正态分布,可用以上两种方法描述,若数据转换据服从正态分布,可用以上两种方法描述,若数据转换后仍不满足正态分布,用中位数描述血糖平均水平,四后仍不满足正态分布,用中位数描述血糖平均水平,四分位间距描述血糖值的离散程度。分位间距描述血糖值的离散程度。78一、统计描述典型错误辨析一、统计描述典型错误辨析(二)相对数应用错误(二)相对数应用错误 例例5-5 3005-5 300例糖尿病患者中例糖尿病患者中2525岁以下者占岁以下者占25%25%,252
40、54545岁者占岁者占35%35%,4545岁及以上者占岁及以上者占40%40%,随着年龄的增高,随着年龄的增高,糖尿病发病率也增高。糖尿病发病率也增高。辨析:辨析:构成比和率均为相对数,都可以用百分率表示,但是两者有构成比和率均为相对数,都可以用百分率表示,但是两者有本质的区别。构成比表示事物内部各个组成部分所占总体的比重;率本质的区别。构成比表示事物内部各个组成部分所占总体的比重;率是表示某种现象发生数与该现象可能发生的总数之比,即某种现象发是表示某种现象发生数与该现象可能发生的总数之比,即某种现象发生的频率或强度。例生的频率或强度。例3中的三个相对数均是构成比,反映不同年龄组中的三个相对
41、数均是构成比,反映不同年龄组糖尿病的病例数占总病例数的比重,而不是发病率。因此,糖尿病的病例数占总病例数的比重,而不是发病率。因此,“随着年随着年龄的增高,糖尿病发病率也增高龄的增高,糖尿病发病率也增高”的结论是错误的。的结论是错误的。1.以以“构成比构成比”代代“率率”79一、统计描述典型错误辨析一、统计描述典型错误辨析例例5-6 5-6 用不同抗癌药物治疗胸腺肿瘤大鼠,观察用不同抗癌药物治疗胸腺肿瘤大鼠,观察6 6周周大鼠存活情况,结果见表大鼠存活情况,结果见表5-135-13。2.计算相对数时分母太小计算相对数时分母太小表表5-13 5-13 不同抗癌药对胸腺肿瘤大鼠不同抗癌药对胸腺肿瘤
42、大鼠6 6周存活的影响周存活的影响80一、统计描述典型错误辨析一、统计描述典型错误辨析辨析:辨析:计算相对数时的分母不能太小。从表计算相对数时的分母不能太小。从表5-13中可以看中可以看出,计算存活率时分母只有只,显然分母太小,偶然性出,计算存活率时分母只有只,显然分母太小,偶然性较大,不能反映真实情况。因此,在这种情况下用绝对数较大,不能反映真实情况。因此,在这种情况下用绝对数表示即可。表示即可。81二、统计推断错误辨析二、统计推断错误辨析(一)定量资料统计推断的错误辨析(一)定量资料统计推断的错误辨析 例例5-7 为了研究不同治疗措施对脑卒中恢复期患者运动功能的影响,作者将为了研究不同治疗
43、措施对脑卒中恢复期患者运动功能的影响,作者将研究对象随机分为三组,分别采用不同的药物治疗,经研究对象随机分为三组,分别采用不同的药物治疗,经t 检验,治疗前药物检验,治疗前药物组、药物组、药物组与药物组与药物组运动功能自评量表分数差异无统计学意义;药组运动功能自评量表分数差异无统计学意义;药物物组、药物组、药物组治疗前与治疗后运动功能自评量表分数差异均有统计学组治疗前与治疗后运动功能自评量表分数差异均有统计学意义,结果见表意义,结果见表5-14。表表5-14三种不同治疗措施对脑卒中恢复期病人三种不同治疗措施对脑卒中恢复期病人运动功能的影响(运动功能的影响(xs)1.忽视忽视t 检验和方差分析的
44、前提条件检验和方差分析的前提条件注:注:表示药物表示药物组、组、组与组与组比较组比较P0.05;*表示同组别治疗前后比较表示同组别治疗前后比较P0.0582二、统计推断错误辨析二、统计推断错误辨析 辨析:辨析:上例中,在资料设计类型、统计处理方法的选择等方面上例中,在资料设计类型、统计处理方法的选择等方面都存在错误:都存在错误:从资料设计类型上看,本研究是分析三种不同治疗措施对运从资料设计类型上看,本研究是分析三种不同治疗措施对运动功能自评量表得分的影响,如果仅简单比较治疗前或治疗后动功能自评量表得分的影响,如果仅简单比较治疗前或治疗后各组的差异,不能很好地看出各种药物的效应,应该首先求出各组
45、的差异,不能很好地看出各种药物的效应,应该首先求出每组治疗前后运动功能自评量表得分之差,此时该资料为单因每组治疗前后运动功能自评量表得分之差,此时该资料为单因素水平设计的资料,如果符合方差分析的条件,可采用单因素水平设计的资料,如果符合方差分析的条件,可采用单因素的方差分析,若需要两组组间比较,可以通过方差分析的两素的方差分析,若需要两组组间比较,可以通过方差分析的两两比较实现。如果不符合方差分析的条件,可采用完全随机设两比较实现。如果不符合方差分析的条件,可采用完全随机设计多组独立样本的秩和检验,若需要两组组间比较,可以通过计多组独立样本的秩和检验,若需要两组组间比较,可以通过秩和检验的两两
46、比较实现。作者用秩和检验的两两比较实现。作者用t检验是错误的,因为检验是错误的,因为t检验检验只适合分析单组、配对及成组设计资料,并不适合分析单因素只适合分析单组、配对及成组设计资料,并不适合分析单因素k 水平设计资料和多因素设计资料。水平设计资料和多因素设计资料。83二、统计推断错误辨析二、统计推断错误辨析 辨析:辨析:从统计方法的选择上看,从统计方法的选择上看,t检验和方差分析的应用前提条件检验和方差分析的应用前提条件是只有经过正态性检验和方差齐性检验满足条件后才能应用,是只有经过正态性检验和方差齐性检验满足条件后才能应用,而该资料有个格子的标准差超过均数,该资料可能呈偏态分而该资料有个格
47、子的标准差超过均数,该资料可能呈偏态分布,不同组间标准差相差悬殊,基本上可以认为组间方差不齐,布,不同组间标准差相差悬殊,基本上可以认为组间方差不齐,不符合不符合t检验的条件。检验的条件。84二、统计推断错误辨析二、统计推断错误辨析 同组别治疗前与治疗后运动功能自评量表得分采用成组比同组别治疗前与治疗后运动功能自评量表得分采用成组比较的较的t检验,检验,组、组、组差异有统计学意义(组差异有统计学意义(P0.05)。)。辨析:辨析:同一组治疗前后运动功能自评量表得分比较是自身配同一组治疗前后运动功能自评量表得分比较是自身配对设计的资料,如果符合参数检验条件,应该用配对设计对设计的资料,如果符合参
48、数检验条件,应该用配对设计t 检验进行分析,若不符合参数检验条件,则采用非参数配对检验进行分析,若不符合参数检验条件,则采用非参数配对设计的秩和检验方法进行分析。设计的秩和检验方法进行分析。2.误用成组设计资料的误用成组设计资料的t检验分析配对设计资料检验分析配对设计资料85二、统计推断错误辨析二、统计推断错误辨析 例例5-8 某作者对某作者对28例脑卒中恢复期病人采用药物治疗和循证护例脑卒中恢复期病人采用药物治疗和循证护理相结合的方法,观察运动功能自评量表得分情况,采用配对理相结合的方法,观察运动功能自评量表得分情况,采用配对t 检验,治疗后个月、个月与治疗前差异有统计学意义检验,治疗后个月
49、、个月与治疗前差异有统计学意义(P0.05)。表表5-1528 例脑卒中恢复期病人治疗前后运动功能自评量表得分例脑卒中恢复期病人治疗前后运动功能自评量表得分3.误用配对设计资料的误用配对设计资料的t 检验处理具有一个重复测量的单检验处理具有一个重复测量的单因素设计资料因素设计资料86二、统计推断错误辨析二、统计推断错误辨析 辨析:辨析:28例脑卒中恢复期病人治疗前、治疗后个月、治疗后例脑卒中恢复期病人治疗前、治疗后个月、治疗后个月运动功能自评量表得分,是在不同时间对同一个受试对个月运动功能自评量表得分,是在不同时间对同一个受试对象同一个因素观察到的象同一个因素观察到的3个数据,这种设计类型称为
50、重复测量的个数据,这种设计类型称为重复测量的单因素设计。配对设计资料单因素设计。配对设计资料t检验只适合配对设计的资料。上例检验只适合配对设计的资料。上例中的资料相当于配伍组设计的资料,若采用配对设计中的资料相当于配伍组设计的资料,若采用配对设计t检验分析检验分析此类资料,割裂了整体设计,结论的可靠性差。因此,具有重此类资料,割裂了整体设计,结论的可靠性差。因此,具有重复测量的单因素设计资料可以采用配伍组设计资料的方差分析复测量的单因素设计资料可以采用配伍组设计资料的方差分析方法比较治疗前和治疗后不同时间运动功能自评量表得分差异方法比较治疗前和治疗后不同时间运动功能自评量表得分差异是否有统计学