1、第十章第十章 非参数秩和检验非参数秩和检验吴吴 库库 生生汕头大学医学院预防医学教研室10/15/20221参数统计与非参数统计1、参数统计(参数统计(parametric statistics)样本所来自的总体分布具有某个已知样本所来自的总体分布具有某个已知的函数形式(如正态分布),而其中的函数形式(如正态分布),而其中有有的的参数参数是未知的,统计分析的目的是对是未知的,统计分析的目的是对这些未知的参数进行估计或检验。这些未知的参数进行估计或检验。10/15/20222秩和检验但实际上有些医学研究资料并但实际上有些医学研究资料并不符合上述不符合上述条件条件,即使用变量变换的方法也难以达,即
2、使用变量变换的方法也难以达到应用参数方法的要求。到应用参数方法的要求。这就需要一种这就需要一种不依赖于总体分布不依赖于总体分布的具体形的具体形式的统计方法来解决此类问题。式的统计方法来解决此类问题。由于这类方法不受总体参数的影响,故称由于这类方法不受总体参数的影响,故称非参数检验法。非参数检验法。它检验的是它检验的是分布分布,而非,而非参数。参数。10/15/20223秩和检验2、非参数统计(、非参数统计(non-parametric statistics)不考虑研究对象总体分布的具体形式,也不考虑研究对象总体分布的具体形式,也不对总体参数进行统计推断,而是通过检验不对总体参数进行统计推断,而
3、是通过检验样本所代表的样本所代表的总体分布形式是否一致总体分布形式是否一致来得出来得出统计结论。由于这类方法不受总体参数的限统计结论。由于这类方法不受总体参数的限制,故称非参数统计法。有时也称为任意分制,故称非参数统计法。有时也称为任意分布检验布检验(distribution-free statistics)(distribution-free statistics)。10/15/20224秩和检验3、非参数统计的优点非参数统计的优点 适用范围广,不论样本所代表的总体分适用范围广,不论样本所代表的总体分布形式如何,甚至是未知的,都可适用;布形式如何,甚至是未知的,都可适用;资料可用资料可用“等
4、级等级”、“符号符号”表示,收表示,收集方便;集方便;多数非参数检验多数非参数检验方法简便,易于理解和方法简便,易于理解和掌握。掌握。10/15/20225秩和检验4、非参数统计的缺点非参数统计的缺点 对符合用参数检验的资料,如用非参数对符合用参数检验的资料,如用非参数统计,会丢失信息,导致检验效率下降,统计,会丢失信息,导致检验效率下降,犯第犯第IIII类错误的可能性比参数检验大类错误的可能性比参数检验大,即即值值;非参数检验的有些问题的计算仍显繁冗。非参数检验的有些问题的计算仍显繁冗。10/15/20226秩和检验何时使用非参数检验何时使用非参数检验?1.1.等级资料(半定量资料)等级资料
5、(半定量资料)2.2.当指标只能用严重程度当指标只能用严重程度(轻、中、重轻、中、重),优,优劣等级(好、中、差),治疗转归(治愈、好转、劣等级(好、中、差),治疗转归(治愈、好转、无效)等形式表达时,原始资料并非定量的,这无效)等形式表达时,原始资料并非定量的,这些数据比些数据比“定量定量”粗,而比一般的粗,而比一般的“定性定性”细,细,是相继的若干阶梯。但毗邻的阶梯之间并非等距是相继的若干阶梯。但毗邻的阶梯之间并非等距离,亦不能度量。离,亦不能度量。2.2.偏态分布资料偏态分布资料10/15/20227秩和检验何时使用非参数检验何时使用非参数检验?3.3.个别数据偏离过大资料个别数据偏离过
6、大资料 这里指的是随机的偏离而不属于这里指的是随机的偏离而不属于“过失误差过失误差”所致。还有一种情况就是数据的某一端无确定数所致。还有一种情况就是数据的某一端无确定数值,如值,如“50mg”等等,只给一等等,只给一个上限或下限,而没有具体数值。个上限或下限,而没有具体数值。4.4.各组离散程度相差悬殊各组离散程度相差悬殊(方差不齐方差不齐)的资料的资料5.5.如经变量变换达到方差齐性,则可用参数如经变量变换达到方差齐性,则可用参数检验;否则的话就要用非参数法处理。检验;否则的话就要用非参数法处理。10/15/20228秩和检验何时使用非参数检验何时使用非参数检验?5.5.分布形态不明的资料分
7、布形态不明的资料6.6.小样本,但又不趋向于正态分布;小样本,但又不趋向于正态分布;不稳定,例数少,分布不明确的资料。不稳定,例数少,分布不明确的资料。符合参数检验条件 首选参数检验 不符合条件 非参数检验10/15/20229秩和检验秩和检验秩和检验秩次秩次(rankrank):就是将观察值按顺序由小):就是将观察值按顺序由小到大排列到大排列(排名次排名次),并用序号(如,并用序号(如1,2,1,2,3 3)代替变量值本身,秩次即通常意)代替变量值本身,秩次即通常意义上的序号。义上的序号。秩和:秩和:即秩次的和。即秩次的和。秩转换秩转换:将数值变量转换成秩次,再计算:将数值变量转换成秩次,再
8、计算检验统计量的过程。检验统计量的过程。秩和检验秩和检验:就是通过秩次的排列求秩和进:就是通过秩次的排列求秩和进行假设检验的方法。行假设检验的方法。10/15/202210秩和检验Contents第一节第一节 配对资料的符号秩和检验(配对资料的符号秩和检验(WilcoxonWilcoxon配对法)配对法)第二节第二节 两独立样本比较的秩和检验(两独立样本比较的秩和检验(WilcoxonWilcoxon两样本两样本法)法)第三节第三节 完全随机设计多个样本比较的秩和检验完全随机设计多个样本比较的秩和检验(KruskalKruskal-allisallis检验)检验)10/15/202211秩和检
9、验第一节第一节 两配对样本差值的符号秩和检验两配对样本差值的符号秩和检验(Wilcoxon signed rank test)符号秩和检验由符号秩和检验由WilcoxonWilcoxon于于19451945年提年提出,作为配对出,作为配对t t检验的替代方法。检验配检验的替代方法。检验配对资料的差值是否来自对资料的差值是否来自中位数中位数为为0 0的总体。的总体。在数据满足配对在数据满足配对t t检验的要求时,符检验的要求时,符号秩和检验的功效是配对号秩和检验的功效是配对t t检验效能的检验效能的95%95%左右。左右。10/15/202212秩和检验符号秩和检验的符号秩和检验的基本思想基本思
10、想:在在H H0 0成立的条件下(两配对处理效应相成立的条件下(两配对处理效应相同同 ),两配对样本的差数的正负是随),两配对样本的差数的正负是随机的,则正差数的秩和与负差数的秩和机的,则正差数的秩和与负差数的秩和应该相差不会太大,应该相差不会太大,即总体中位数为即总体中位数为0 0;反之,若两秩和相差太悬殊,则认为反之,若两秩和相差太悬殊,则认为H H0 0成立的可能性受到怀疑,从而拒绝成立的可能性受到怀疑,从而拒绝H H0 0,接受接受H H1 1。10/15/202213秩和检验例例1 1:分别用氰化高铁法与光电比色法测:分别用氰化高铁法与光电比色法测得得1010个血样的血红蛋白含量,问
11、两法测个血样的血红蛋白含量,问两法测得结果有无差别?得结果有无差别?10/15/202214秩和检验配对差值经检验不符合正态分布,不满足t检验条件符号秩和检验的基本步骤:1.1.建立检验假设,确定检验水准建立检验假设,确定检验水准2.2.H H0 0 :MdMd=0=0(两处理效应相同)两处理效应相同)3.3.H H1 1:MdMd0 0(两处理效应不相两处理效应不相同)同)=0.05=0.0510/15/202216秩和检验2.求两组数据的差数求两组数据的差数d d,对差数的绝对对差数的绝对值编秩号值编秩号 差数为差数为0 0的数据忽略不计,对子数减的数据忽略不计,对子数减1 1;余下的余下
12、的n-in-i个差数个差数按绝对值按绝对值由小到大排由小到大排秩号,但排好后的秩号秩号,但排好后的秩号要保持原差数的正负要保持原差数的正负号号;差数绝对值相等时,则取其平均秩次。差数绝对值相等时,则取其平均秩次。10/15/202217秩和检验对差对差数的数的绝对绝对值编值编秩秩3.分别求正、负差数的秩和,以绝对值较分别求正、负差数的秩和,以绝对值较小者为小者为T T 验算:验算:T T+T+T-=n(n+1)/2=n(n+1)/24.4.确定确定P P值和作出推断结论值和作出推断结论小样本时(小样本时(n n50,50,n n为为d d00的对子的对子数数),通过查通过查p226p226附表
13、附表8(T8(T界值表界值表)得到得到P P值,值,原则原则是:若统计量是:若统计量T T处于某处于某T T界值范界值范围之内,其围之内,其P P值大于或等于相应概率;反值大于或等于相应概率;反之,则小于相应概率。当之,则小于相应概率。当T T值恰好等于附值恰好等于附表中的界值时,其确切概率常小于相应表中的界值时,其确切概率常小于相应的概率水平。的概率水平。10/15/202219秩和检验本例中:本例中:T=23 对子数对子数n=10,查,查p226附表附表8得得2310 45 10 45 故故 P0.10下结论:在下结论:在=0.05=0.05水准上不拒绝水准上不拒绝H H0 0 ,故,故不
14、能认为两法测得血红蛋白含量有差别。不能认为两法测得血红蛋白含量有差别。10/15/202220秩和检验 大样本时(大样本时(对子数对子数n50)通过公式进)通过公式进行行u u转化,采用正态近似检验:转化,采用正态近似检验:(式(式10-110-1)式中式中0.50.5是连续性校正数是连续性校正数,因为因为T T值是值是不连续的不连续的,而而u u分布是连续的。分布是连续的。24/)12)(1(5.0|4/)1(|nnnnnTu10/15/202221秩和检验当存在同一秩较多时,按(式当存在同一秩较多时,按(式10-110-1)计算)计算的的u u值要比实际的值要比实际的u u值小,应采用(公
15、式值小,应采用(公式10-210-2)对)对u u加以校正加以校正:其中,其中,t tj j是是相同秩号的个数。相同秩号的个数。48)(24)12)(1(5.0|4/)1(|3jjttnnnnnTu10/15/202222秩和检验符号秩和检验的SPSS实现 SPSS(Statistical Package for Social Science,社会科学统计软件包)一直是国际上最流行且最具权威性的统计分析软件之一。SPSS最显著的特点是菜单和对话框操作方式,无需编程,且图形功能强大,易于掌握和操作。10/15/202223秩和检验10/15/202224秩和检验符号秩和检验的SPSS实现10/1
16、5/202225秩和检验符号秩和检验的SPSS实现10/15/202226秩和检验10/15/202227秩和检验符号秩和检验的SPSS实现10/15/202228秩和检验符号秩和检验的SPSS实现10/15/202229秩和检验RanksRanks5a4.6023.005b6.4032.000c10Negative RanksPositive RanksTiesTotal光电比色法-氰化高铁法NMean RankSum of Ranks光电比色法 氰化高铁法b.光电比色法=氰化高铁法c.Test StatisticsTest Statisticsb b-.459a.646ZAsymp.Sig
17、.(2-tailed)光电比色法-氰化高铁法Based on negative ranks.a.Wilcoxon Signed Ranks Testb.10/15/202230秩和检验X99.42863.65929.1379481.864)()()7,7(,05.02221FFSSF小大二、编秩二、编秩 将两组数据由小到大统一编秩,如遇将两组数据由小到大统一编秩,如遇相同相同原始数据原始数据,若若在同一组在同一组,仍按数据,仍按数据出现顺序编秩;若出现顺序编秩;若在不同组在不同组,则取其平,则取其平均秩次。本例编秩结果见表均秩次。本例编秩结果见表2 210/15/202234秩和检验)1(12
18、15.0|2/)1(|210NnnNnTuCuuc/)/()(133NNttCjjWilcoxon秩和检验的基本步骤总结:秩和检验的基本步骤总结:1.1.建立检验假设,确定检验水准建立检验假设,确定检验水准;2.2.混合编秩,分组求秩和,计算检验统计混合编秩,分组求秩和,计算检验统计量量T T值;值;3.3.查附表查附表9 9,得检验界值区间,确定,得检验界值区间,确定P P值;值;4.4.作出结论。作出结论。10/15/202241秩和检验Test Statisticsb11.50066.500-3.065.002.001aMann-Whitney UWilcoxon WZAsymp.Sig
19、.(2-tailed)Exact Sig.2*(1-tailed Sig.)退热时间Not corrected for ties.a.Grouping Variable:疗法b.Ranks106.6566.501114.95164.5021疗法新疗法旧疗法Total退热时间NMean RankSum of Ranks2Cucu/1534.3)1(1215.0|2/)1(|210NnnNnTu9021.0150150)1010(.)5757(1)/()(133333NNttjj3201.39021.0/1534.3cuRanksRanks10069.876986.505086.774338.50
20、150分组巴非林阿司匹林Total疗效NMean RankSum of RanksTest StatisticsTest Statisticsa a1936.5006986.500-2.365.018Mann-Whitney UWilcoxon WZAsymp.Sig.(2-tailed)疗效Grouping Variable:分组a.第三节第三节 完全随机设计多组差别的完全随机设计多组差别的秩和检验(秩和检验(Kruskal-Wallis检验检验)KruskalKruskal-Wallis-Wallis检验的基本思想:检验的基本思想:如果各组均来自同一总体,则各组如果各组均来自同一总体,则各
21、组的平均秩和近似相等。的平均秩和近似相等。10/15/202263秩和检验Kruskal-Wallis检验的基本步骤:检验的基本步骤:1.建立检验假设,确定检验水准;建立检验假设,确定检验水准;2.混合编秩,分组求秩和混合编秩,分组求秩和Ri,i=1,2,k,k是处理的个数;是处理的个数;3.计算检验统计量计算检验统计量H;4.确定确定P值,作出推断结论。值,作出推断结论。10/15/202264秩和检验例例3 试检验表试检验表4中三组人的血浆总皮质醇含中三组人的血浆总皮质醇含量有无差别?量有无差别?10/15/202265秩和检验1.1.建立检验假设,确定检验水准建立检验假设,确定检验水准2
22、.2.H H0 0 :三组人的血浆总皮质醇含量三组人的血浆总皮质醇含量总体分布相同总体分布相同3.3.H H1 1:三组人的血浆总皮质醇含量总:三组人的血浆总皮质醇含量总体分布不全相同体分布不全相同 =0.05=0.0510/15/202267秩和检验2.2.混合编秩,分组求秩和混合编秩,分组求秩和R Ri i,i=1,2,k,i=1,2,k,k k是处理的个数。将各组数据混合,由是处理的个数。将各组数据混合,由小到大编秩。遇有原始数据小到大编秩。遇有原始数据相同相同时,时,若若在同一组,则按顺序编秩;若分属不同在同一组,则按顺序编秩;若分属不同组,取其平均秩次。组,取其平均秩次。再将各组秩号
23、分别再将各组秩号分别相加,求出各组的秩和相加,求出各组的秩和R Ri i。10/15/202268秩和检验3.计算检验统计量计算检验统计量H4.检验统计量检验统计量H按式(按式(10-5)计算:)计算:5.6.(式(式10-5)7.式中,式中,Ri为各组的秩和,为各组的秩和,ni为各组样本的含量,为各组样本的含量,N为总的样本量。为总的样本量。)1(3)1(1212NnRNNHkiii10/15/202270秩和检验当各组当各组相同秩次较多时,计算所得相同秩次较多时,计算所得H值偏小,要值偏小,要对对H进行校正进行校正 Hc=H/C 本例同秩不多,按(式本例同秩不多,按(式10-5)计算)计算
24、H值:值:)/()(133NNttCjj12.18)130(3)102515.1175.96()130(3012222H10/15/202271秩和检验4.4.确定确定P P值,作出推断结论值,作出推断结论i.i.小样本情况:当处理数小样本情况:当处理数k k3 3,且各组且各组样本含量样本含量n ni i 5 5时,可查附表时,可查附表1010(H H界界值表)确定值表)确定P P值。如果值。如果HHHH,则则PPP;ii.ii.大样本情况:若大样本情况:若k k 3 3或或n ni i 5 5时,理论时,理论上,上,H H近似服从自由度为近似服从自由度为k1k1的的 分布,可查附表分布,可
25、查附表7 7(界值表)得界值表)得出出P P值,最后按值,最后按P P值作出推断结论。值作出推断结论。2210/15/202272秩和检验 本例处理数本例处理数k=3k=3,各组样本含量均为各组样本含量均为1010,超出了附表超出了附表1010(H H界值表)的范围。因此,查界值表)的范围。因此,查附表附表7 7(界值表)确定界值表)确定P P值。值。按自由度按自由度v=k-1=2v=k-1=2查附表查附表7 7,0.005(2)0.005(2)=10.1018.12=10.1018.12,于是,于是P0.005P0.005 结论:按结论:按=0.05=0.05水准,拒绝水准,拒绝H H0 0,接受接受H H1 1,故可认为三组人的血浆总皮质醇含量有差别。故可认为三组人的血浆总皮质醇含量有差别。2210/15/202273秩和检验2