1、等级资料的秩和检验等级资料的秩和检验Rank Sum Test of Ranked Data资料的分类 数值变量资料 分类资料 二分类 多分类无序多分类有序多分类(等级资料)2内容提要:o 1 医学研究中的等级资料o 2 秩次与秩和 o 3 两样本比较的秩和检验o 4 多样本比较的秩和检验o 5 配对设计的秩和检验o 6 配伍组比较的秩和检验o 7 秩和检验的正确应用 31 医学研究中的等级资料o 疗 效:痊愈、显效、有效、无效、恶化o 化验结果:、+、+o 体格发育:下等、中下、中等、中上、上等o 心功能分级:I、II、IIIo 文化程度:小学、中学、大学、研究生o 营养水平:差、一般、好4
2、等级资料的特点o 既非呈连续分布的定量资料,也非仅按性质归属于独立的若干类的定性资料;o 比“定量”粗,而比一般的“定性”细;o 等级间既非等距,亦不能度量。52 秩次与秩和 o Wilconxon在1945年首先提出了比较两个总体分布函数的秩和检验。秩和检验以及其它的秩检验法,都是建立在秩及秩统计量基础上的非参数方法。o 秩次(rank),秩统计量 是指全部观察值按某种顺序排列的位序;o 秩和(rank sum)同组秩次之和。6例1 编秩 A组:、+、+、+、+B组:+、+、+、+、+、+A:+B:+1 2 3 4 5 7 6 8 9 10 11 12 1 2 4.5 4.5 4.5 8.5
3、 4.5 8.5 8.5 8.5 11 12 1 2 4.5 4.5 4.5 7 4.5 8 9 10 11 12 1 2 4.5 4.5 4.5 8.5 4.5 8.5 8.5 8.5 11.5 11.5 尿白细胞:尿白细胞:秩次相同秩次相同(tie)取平均秩次!取平均秩次!7 秩和o A组:、+、+、+、+秩和:1 2 4.5 4.5 4.5 8.5 TA25 o B组:+、+、+、+、+、+秩和:4.5 8.5 8.5 8.5 11.5 11.5 TB53 TA+TB=N(N+1)/2=788o 秩次:在一定程度上反映了等级的高低;o 秩和:在一定程度上反映了等级的分布 位置。o 对等级
4、的分析,转化为对秩次的分析。o 秩和检验就是通过秩次的排列求出秩和,进行假设检验。2 秩次与秩和 9Graphical DemonstrationWhy use the sum of ranks to test locations?Sum of ranks=37Sum of ranks=41769213458101112假如两组等级分布相同假如两组等级分布相同(the null hypothesis is true)we would expect the ranks to be evenly spread between the samples.In this case the sum of
5、ranks for the two samples will be close to one another.Two hypothetical populations and their corresponding samples are presented,the GREEN population and the PURPLE population.PopulationsLet us rank the observations of the two samples together 10 3 两样本比较的秩和检验o 检验假设检验假设 H0:A、B两组两组等级分布等级分布相同;相同;H1:A、
6、B两组两组等级分布等级分布不同。不同。=0.05。11 Distribution of two populations when their locations are same12Population LocationsThe location of popn 1 is to the left of the location of popn 2The location of popn 1 is to the right of the location of popn 2population 1population 2population 2population 113H0:The two p
7、opulation locations are the same.H1:The location of population 1 is different from the location of population 2 3 两样本比较的秩和检验14基本思想o 如果如果H0 成立,即两组分布位置相同,成立,即两组分布位置相同,则则A组的实际秩和应接近理论秩和组的实际秩和应接近理论秩和n1(N+1)/2;(B组的实际秩和应接近理论秩和组的实际秩和应接近理论秩和n2(N+1)/2).或相差不大,差值很大的概率应很小或相差不大,差值很大的概率应很小。o 如果相差较大,超出了预定的界值,则可认如果相
8、差较大,超出了预定的界值,则可认为为H0不成立。不成立。15 A组 B组 和 o 实际秩和 25 53 78 o 理论秩和 n1(N+1)/2 n2(N+1)/2 N(N+1)/2 39 39 78o 差值 14 14 0 抽样误差?抽样误差?o如果H0成立,则理论秩和与实际秩和之差纯粹由抽样误差造成。基本思想16两样本秩和检验 T 界值 n1=6,n2-n1=0 双侧 单侧 2850 0.10 0.05 26 52 0.05 0.025 24 54 0.02 0.01 23 55 0.01 0.005 间距 22 26 30 326(12+1)/2=39(理论值)17 检验结果o 如果H0成
9、立,则按0.05水准,A组秩和之界值为2652。o 现A组的实际秩和为25,在界值之外,故拒绝H0,接受H1,认为两组的分布位置不同。o 昆明治疗癫痫病医院http:/ 昆明治疗癫痫病医院http:/ 昆明治疗癫痫病医院http:/ 昆明癫痫病治疗http:/ 秩和检验的结论判断o A组的实际秩在界值之外,(小于或等于下界,大于或等于上界)则拒绝H0,接受H1。o A组的实际秩在界值之内,(大于下界且小于上界)则不拒绝H0。19例题 【例】【例】某实验室观察在缺氧条件下猫和兔的某实验室观察在缺氧条件下猫和兔的生存时间,结果见表,试检验在缺氧条件下生存时间,结果见表,试检验在缺氧条件下猫和兔的生
10、存时间有无差别?猫和兔的生存时间有无差别?20例题21o检验假设检验假设 H0:猫和兔在缺氧条件下生存时间总体分布相同:猫和兔在缺氧条件下生存时间总体分布相同;H1:猫和兔在缺氧条件下生存时间总体分布不同:猫和兔在缺氧条件下生存时间总体分布不同。=0.05。o检验统计量检验统计量T值值 n1=8,n2=12,检验统计量,检验统计量T=127.5 o确定确定P值和作出推断结论值和作出推断结论 查附表查附表10得得T界值是界值是58110。则双侧。则双侧P0.05,按,按 =0.05水准,水准,拒绝拒绝H0,接受,接受H1,差异有统计学意义,故可认为在缺氧条件下,差异有统计学意义,故可认为在缺氧条
11、件下猫的生存时间较兔长。猫的生存时间较兔长。例题22例例8.2 用复方猪胆胶囊治疗老年性慢性支气用复方猪胆胶囊治疗老年性慢性支气管炎患者管炎患者403例,疗效见表例,疗效见表8.1第第(1)(3)栏。栏。问该药对此两型支气管炎疗效是否相同?问该药对此两型支气管炎疗效是否相同?例题(page89)23例题(page90)24例题(page90)25o建立检验假设 H0:两型老慢支疗效分布相同两型老慢支疗效分布相同;H1:两型老慢支疗效分布不同两型老慢支疗效分布不同;=0.05。o检验统计量 n1=182,n2=221,检验统计量,检验统计量T=40682.5。例题(page90)26样本含量较大
12、时,用 u 检验12/)1(5.02/)1(211 NnnNnTu3jj3(tt)C1NN 其中:CuuC相同秩次较多时需要校正相同秩次较多时需要校正27112Tn(N1)/20.5un n(N1)/1240682.5182(4031)/20.5(182)(221)(4031)/123.3669 3jj333333(tt)c1NN8383181181116116232314034030.8766 01.05961.38766.0/3669.3uCuuc28o确定P值和作出推断结论 P0.01,按,按 =0.05水准,拒绝水准,拒绝H0,接受,接受H1,差,差异有统计学意义。可认为复方猪胆胶囊治
13、疗老年异有统计学意义。可认为复方猪胆胶囊治疗老年性慢性支气管炎喘息型与单纯型的疗效有差别。性慢性支气管炎喘息型与单纯型的疗效有差别。例题(page90)294 多组比较的秩和检验多组比较的秩和检验o Kruskal-Wallis法法o 先对所有数据编秩,求各组秩和;先对所有数据编秩,求各组秩和;o 计算计算 H 统计量;统计量;o 查查 H 界值表,或用近似界值表,或用近似 2 检验,检验,计算计算 P 值;值;o 界定界定 P 值,作出结论。值,作出结论。30 【例】【例】某医生在研究再生障碍性贫血时,测某医生在研究再生障碍性贫血时,测得不同程度再生障碍性贫血患者血清中可溶得不同程度再生障碍
14、性贫血患者血清中可溶性性CD8抗原水平(抗原水平(U/ml),问不同程度再生),问不同程度再生障碍性贫血患者血清中可溶性障碍性贫血患者血清中可溶性CD8抗原水平抗原水平有无差别?有无差别?例题31例题(假设不满足参数检验的要求)32例题33多组等级比较的检验假设o建立检验假设建立检验假设 H0:各组总体的等级分布相同;H1:各组总体的等级分布不同或不全相同。=0.05。)1(3)1(122NnRNNHiio计算检验统计量计算检验统计量H值值 34250.16)127(3)91795.1495.49()127(2712222HH近似服从=k1的2分布。多组等级比较的检验假设35o 确定确定P值和
15、作出推断结论值和作出推断结论 本例k=3,查附表12,得P20.005,2,P0.05。按双侧按双侧0.05水准,不拒绝水准,不拒绝H0,差异无统计学意义,差异无统计学意义,故尚不能认为两法测定血清中谷故尚不能认为两法测定血清中谷-丙转氨酶含量丙转氨酶含量有差别。有差别。查表时,若T在T上、下界值范围外,则P。例题576 配伍组比较的秩和检验o Friedman法o 分别对每一配伍组中的观察值进行编秩;o 计算Friedman M 统计量;o 查M界值表,或用近似 2 检验,计算 P 值;o 界定 P 值,作出结论。58葡萄酒的等级例:白 兰 地评委WXYZA四二一三B四一二三C三一二四D四二
16、三一E三一二四Ri (4)(2)(1)(3)(4)(1)(2)(3)(3)(1)(2)(4)(4)(2)(3)(1)(3)(1)(2)(4)187101559葡萄酒等级资料的分析o H0:对四种葡萄酒评判结果的总体分布相同;H1:评判结果的总体分布不同或不全相同。=0.05。o 式中b为配伍组数,k为处理组数。本例b=5,k=4。)1(3)1(122kbRkbkMi76.8)14(53)1510718()14(45122222M60检验结果o 本例b=5,k=4,查M界值表得:M0.05=7.80,M0.01=9.96。M0.05MM0.01,0.01P0.05。按=0.05水准拒绝H0,接受
17、H1,差异有统计学意义,即可认为四种酒的等级有差别。617 秩和检验的正确应用o主要对等级资料进行分析;主要对等级资料进行分析;o秩和检验可用于任意分布秩和检验可用于任意分布(distribution free)的资料;的资料;o非参数统计的主要非参数统计的主要优点优点是不受总体分布的限制,适是不受总体分布的限制,适用范围广。用范围广。o非参数统计的主要非参数统计的主要缺点缺点是符合参数检验的资料(如是符合参数检验的资料(如两样本均数比较的两样本均数比较的t检验),如用非参数检验,因没检验),如用非参数检验,因没有充分利用资料提供的信息,检验效率降低。有充分利用资料提供的信息,检验效率降低。6
18、2缺点:缺点:方法比较粗糙,对于符合参数检验条件者,采用方法比较粗糙,对于符合参数检验条件者,采用非参数检验非参数检验会损失部分信息,其检验效能较低会损失部分信息,其检验效能较低;样本含;样本含量较大时,两者结论常相同。量较大时,两者结论常相同。63秩和检验用于定量资料秩和检验用于定量资料o 计量资料中:计量资料中:n 极度偏态资料,或个别数值偏离过大极度偏态资料,或个别数值偏离过大n 各组离散度相差悬殊各组离散度相差悬殊n 资料中含有不确定值资料中含有不确定值o 大于大于5 5年年 o 0.0010.001o 1:1024 1:1024以上以上 n 兼有等级和定量性质的资料兼有等级和定量性质
19、的资料64心肌坏死面积例心肌坏死面积例 用二种食物配方饲养大白鼠,观察心肌坏死面积。分析二组间的差异。A组:(n=29,mean 3.61)0,0,0,0,0,0,0,0,0,0,0.2,0.3,0.4,0.4,0.6,1,1.6,2.2,2.6,3.3,4.3,5.1,5.4,5.5,6.1,6.2,9.7,13.8,36B组:(n=28,mean1.06)0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.2,0.2,0.2 0.3,0.4,0.4,0.9,0.9,1.3,1.7,2.8,7.4,1365特点:o0特别多,无论用什么变换均不可能改变分布的偏性;o0与其它数的区别
20、是质的区别。66分析一:二组心肌坏死率比较,按四格表作2检验:无心肌坏死 有心肌坏死 合计 心肌坏死率 甲组 10 19 29 65.5%乙组 15 13 28 46.4%C2=1.404,P=0.2467分析二:二组平均心肌坏死面积的比较二组平均心肌坏死面积的 t 检验:t=1.7755,P=0.081468分析三:按等级资料处理:两组秩和检验:n 秩和 理论秩和 A组29 968 841B组28 685 812合计57 1653 1653u=2.119,P=0.0341。69成组设计两样本比较o 如资料满足 t 检验的条件,应该用 t 检验进行分析。此时,如果对这类资料用Wilcoxon秩和检验,实际上是将观察单位的具体数值舍弃不用,只保留了秩次的信息,使检验功效降低;尤其样本含量较小时,降低更加明显。o 如资料不满足 t 检验的条件,而用了t 检验,同样降低了检验效能。70秩变换检验o 基本思想:n 将等级转换为秩次;n 对秩次作效应的参数检验(t检验,方差分析,相关等)。o 在样本含量较大时,秩变换检验与秩和检验结果相同或相近。7172