1、等级资料的秩和检验等级资料的秩和检验柏建岭柏建岭Department of Biostatistics,School of Public Health Nanjing Medical UniversityRank Sum Test of Ranked DataBiostatistics2资料的分类 数值变量资料 分类资料 二分类 多分类无序多分类有序多分类(等级资料)Biostatistics3内容提要:o 1 医学研究中的等级资料o 2 秩次与秩和 o 3 两样本比较的秩和检验o 4 多样本比较的秩和检验o 5 配对设计的秩和检验o 6 秩和检验的正确应用 Biostatistics41 医
2、学研究中的等级资料o 疗 效:痊愈、显效、有效、无效、恶化o 化验结果:、+、+o 体格发育:下等、中下、中等、中上、上等o 心功能分级:I、II、IIIo 文化程度:小学、中学、大学、研究生o 营养水平:差、一般、好Biostatistics5等级资料的特点o 既非呈连续分布的定量资料,也非仅按性质归属于独立的若干类的定性资料;o 比“定量”粗,而比一般的“定性”细;o 等级间既非等距,亦不能度量。Biostatistics62 秩次与秩和 o Wilcoxon在1945年首先提出了比较两个总体分布函数的秩和检验。秩和检验以及其它的秩检验法,都是建立在秩及秩统计量基础上的非参数方法。o 秩次
3、(rank),秩统计量 是指全部观察值按某种顺序排列的位序;o 秩和(rank sum)同组秩次之和。Biostatistics7例1 编秩 A组:、+、+、+、+B组:+、+、+、+、+、+A:+B:+1 2 3 4 5 7 6 8 9 10 11 12 1 2 4.5 4.5 4.5 8.5 4.5 8.5 8.5 8.5 11 12 1 2 4.5 4.5 4.5 7 4.5 8 9 10 11 12 1 2 4.5 4.5 4.5 8.5 4.5 8.5 8.5 8.5 11.5 11.5 尿白细胞:尿白细胞:等级相同等级相同(tie)取平均秩次!取平均秩次!Biostatistics
4、8 秩和o A组:、+、+、+、+秩和:1 2 4.5 4.5 4.5 8.5 TA25 o B组:+、+、+、+、+、+秩和:4.5 8.5 8.5 8.5 11.5 11.5 TB53 TA+TB=N(N+1)/2=78Biostatistics9o 秩次:在一定程度上反映了等级的高低;o 秩和:在一定程度上反映了等级的分布 位置。o 对等级的分析,转化为对秩次的分析。o 秩和检验就是通过秩次的排列求出秩和,进行假设检验。2 秩次与秩和 Biostatistics10 3 两样本比较的秩和检验o 检验假设检验假设 H0:A、B两组两组等级分布等级分布相同;相同;H1:A、B两组两组等级分布
5、等级分布不同。不同。=0.05。Biostatistics11基本思想o 如果如果H0 成立,即两组分布位置相同,成立,即两组分布位置相同,则则A组的实际秩和应接近理论秩和组的实际秩和应接近理论秩和n1(N+1)/2;(B组的实际秩和应接近理论秩和组的实际秩和应接近理论秩和n2(N+1)/2).或相差不大,差值很大的概率应很小或相差不大,差值很大的概率应很小。o 如果相差较大,超出了预定的界值,则可认如果相差较大,超出了预定的界值,则可认为为H0不成立。不成立。Biostatistics12 A组 B组 和 o 实际秩和 25 53 78 o 理论秩和 n1(N+1)/2 n2(N+1)/2
6、N(N+1)/2 39 39 78o 差值 14 14 0 抽样误差?抽样误差?o如果H0成立,则理论秩和与实际秩和之差纯粹由抽样误差造成。基本思想Biostatistics13两样本秩和检验 T 界值(page172)n1=6,n2-n1=0 双侧 单侧 2850 0.10 0.05 26 52 0.05 0.025 24 54 0.02 0.01 23 55 0.01 0.005 间距 22 26 30 326(12+1)/2=39(理论值)Biostatistics14 检验结果o 如果H0成立,则按0.05水准,A组秩和之界值为2652。o 现A组的实际秩和为25,在界值之外,故拒绝H
7、0,接受H1,认为两组的分布位置不同。Biostatistics15 秩和检验的结论判断o A组的实际秩在界值之外,(小于或等于下界,大于或等于上界)则拒绝H0,接受H1。o A组的实际秩在界值之内,(大于下界且小于上界)则不拒绝H0。Biostatistics16例题(page111)【例例8.3】某实验室观察在缺氧条件下猫和某实验室观察在缺氧条件下猫和兔的生存时间,结果见表兔的生存时间,结果见表8.2,试检验在缺,试检验在缺氧条件下猫和兔的生存时间有无差别?氧条件下猫和兔的生存时间有无差别?Biostatistics17例题(page112假设不满足参数检验的要求)Biostatistic
8、s18o检验假设检验假设 H0:猫和兔在缺氧条件下生存时间总体分布相同:猫和兔在缺氧条件下生存时间总体分布相同;H1:猫和兔在缺氧条件下生存时间总体分布不同:猫和兔在缺氧条件下生存时间总体分布不同。=0.05。o检验统计量检验统计量T值值 n1=8,n2=12,检验统计量,检验统计量T=127.5 o确定确定P值和作出推断结论值和作出推断结论 查附表查附表10得得T界值是界值是58110。则双侧。则双侧P2.58,P0.01,按,按 =0.05水准拒绝水准拒绝H0,接受,接受H1,差异有统计学意义。可以认为复方石苇冲剂,差异有统计学意义。可以认为复方石苇冲剂治疗两型支气管炎的疗效有差别。治疗两
9、型支气管炎的疗效有差别。例题(page113)Biostatistics264 多组比较的秩和检验多组比较的秩和检验o Kruskal-Wallis法法o 先对所有数据编秩,求各组秩和;先对所有数据编秩,求各组秩和;o 计算计算 H 统计量;统计量;o 查查 H 界值表,或用近似界值表,或用近似 2 检验,检验,计算计算 P 值;值;o 界定界定 P 值,作出结论。值,作出结论。Biostatistics27 【例例8.5】某医生在研究再生障碍性贫血时,某医生在研究再生障碍性贫血时,测得不同程度再生障碍性贫血患者血清中可测得不同程度再生障碍性贫血患者血清中可溶性溶性CD8抗原水平抗原水平(U/
10、ml),问不同程度再生,问不同程度再生障碍性贫血患者血清中可溶性障碍性贫血患者血清中可溶性CD8抗原水平抗原水平有无差别?有无差别?例题(page114)Biostatistics28例题(page114)Biostatistics29例题(page119)Biostatistics30多组等级比较的检验假设o建立检验假设建立检验假设 H0:各组总体的等级分布相同;H1:各组总体的等级分布不同或不全相同。=0.05。)1(3)1(122NnRNNHiio计算检验统计量计算检验统计量H值值 Biostatistics31250.16)127(3)91795.1495.49()127(271222
11、2H若组数k=3,每组例数ni9,可查附表11,H界值表得出P值。若组数k3,有ni10,则H近似服从 =k 1的 2分布。多组等级比较的检验假设Biostatistics32o 确定确定P值和作出推断结论值和作出推断结论 本例k=3,n1=n2=n3=9,查附表11,得P0.001。按 =0.05水准拒绝H0,接受H1,差异有统计学意义,可认为不同程度再生障碍性贫血患者血清中可溶性CD8抗原水平有差别。多组等级比较的检验假设Biostatistics33H 的校正o 当有相同秩次时,H 需校正:)/)(1/33NNttCCHHjjCBiostatistics34【例8.6】某医院用三种复方制
12、剂治疗慢性胃炎,数据见表8.5第(1)(4)栏,试比较其疗效有无差异。例题(page115)Biostatistics35例题(page116)Biostatistics36o 建立检验假设建立检验假设 H0:三种复方制剂治疗慢性胃炎的疗效总体分布相同;:三种复方制剂治疗慢性胃炎的疗效总体分布相同;H1:三种复方制剂治疗慢性胃炎的疗效总体分布不同或不:三种复方制剂治疗慢性胃炎的疗效总体分布不同或不全相同;全相同;=0.05。例题(page116)Biostatistics37750.62)1536(3)83271571003531035381449()1536(53612)1(3)1(1222
13、22NnRNNHiio计算检验统计量计算检验统计量H值值 例题(page116)Biostatistics383jj333333ttc1NN(5353)(223223)(137137)(123123)10.8982536536 862.698982.0750.62cHHc由于此资料的相同秩次很多,须校正:由于此资料的相同秩次很多,须校正:例题(page116)Biostatistics39o 确定确定P值和作出推断结论值和作出推断结论 按 =k-1=3-1=2,查附表8,2界值表,得P0.05。按双侧按双侧0.05水准,不拒绝水准,不拒绝H0,差异无统计学意义,差异无统计学意义,故尚不能认为两
14、法测定血清中谷故尚不能认为两法测定血清中谷-丙转氨酶含量丙转氨酶含量有差别。有差别。查表时,若T在T上、下界值范围外,则P。例题(page110)Biostatistics49扁平足疗效例 用配对设计观察两种方法治疗扁平足效果记录如下,问那种方法好。病例号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 A法 好 好 好 好 差 中 好 好 中 差 好 差 好 中 好 中 B法 差 好 差 中 中 差 中 差 中 差 好 差 中 差 中 差差值 2 0 2 1-1 1 1 2 0 0 0 0 1 1 1 1 Biostatistics50符号秩和检验 病例号 A法
15、 B法 差值 秩次(1)(2)(3)(4)(5)131210233033121043214.5512-1-4.562114.573214.58312109220101101133012110133214.5142114.5153214.5162114.5 T+=61.5 T-=4.5Biostatistics51o 本例T=61.5,T=4.5,已超出附表9中双侧P0.01相对应的界值561,故得P 0.01。按=0.05水准拒绝H0,接受H1,认为两种方法疗效的总体分布不同。结合资料可认为A法优于B法。扁平足疗效例Biostatistics52u 的校正o 当重复的秩次较多时,u 需要校正:
16、48)(24)12)(1(5.04/)1(3jjttnnnnnTuBiostatistics536 秩和检验的正确应用o主要对等级资料进行分析;主要对等级资料进行分析;o秩和检验可用于任意分布秩和检验可用于任意分布(distribution free)的资料;的资料;o非参数统计的主要优点是不受总体分布的限制,适非参数统计的主要优点是不受总体分布的限制,适用范围广。用范围广。o非参数统计的主要缺点是符合参数检验的资料(如非参数统计的主要缺点是符合参数检验的资料(如两样本均数比较的两样本均数比较的t检验),如用非参数检验,因没检验),如用非参数检验,因没有充分利用资料提供的信息,检验效率降低。有
17、充分利用资料提供的信息,检验效率降低。缺点:缺点:方法比较粗糙,对于符合参数检验条件者,采用方法比较粗糙,对于符合参数检验条件者,采用非参数检验非参数检验会损失部分信息,其检验效能较低会损失部分信息,其检验效能较低;样本含;样本含量较大时,两者结论常相同。量较大时,两者结论常相同。Biostatistics55秩和检验用于定量资料秩和检验用于定量资料o 计量资料中:计量资料中:n 极度偏态资料,或个别数值偏离过大极度偏态资料,或个别数值偏离过大n 各组离散度相差悬殊各组离散度相差悬殊n 资料中含有不确定值资料中含有不确定值o 大于大于5年年 o 0.001o 1:1024以上以上 n 兼有等级和定量性质的资料兼有等级和定量性质的资料