1、秩和检验Ranksum TestMedical statistics医学统计学Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 2主要内容参数统计和非参数统计秩次与秩和 成组设计两样本比较的秩和检验成组设计多样本比较的秩和检验配对设计样本比较的秩和检验随机区组设计样本比较的秩和检验(了解)多样本资料的两两比较(了解)秩和检验的正确应用Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&Biostatis
2、ticsPage 3参数统计和非参数统计 参数统计:总体分布类型已知,对未知参数进行推断均数的区间估计:总体均数是多少?t检验/u检验 F检验 正态性、方差齐性。既然都是正态分布、方差也相等,只要均数相同,样本所来自的分布就是一样的。Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 4参数统计和非参数统计非参数统计:总体分布类型未知,不依赖于总体分布的具体类型总体分布类型未知,检验这些样本所来自的总体形状是否相同两样本的t检验,每组样本含量均不大,且两组所来自的总体均非正态分布,
3、无法通过变量变换达到目的;等级资料的比较Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 5医学研究中的等级资料疗 效:痊愈、显效、有效、无效、恶化化验结果:、+、+体格发育:下等、中下、中等、中上、上等心功能分级:I I、IIII、IIIIII文化程度:小学、中学、大学、研究生营养水平:差、一般、好Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 6等级资料的特点
4、既非呈连续分布的定量资料,也非仅按性质归属于独立的若干类的定性资料;比“定量”粗,而比一般的“定性”细;等级间既非等距,亦不能度量。Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 7非参数统计的优点适用范围广即便分布未明也能处理资料搜集方便Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 8秩次与秩和秩次(rank),秩统计量 是指全部观察值按某种顺序排列的位序;
5、秩和(rank sum)同组秩次之和Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 9编秩 A组:秩次 1 2 4.5 4.5 4.5 8.5 TA=25 B组:秩次 4.5 8.5 8.5 8.5 11.5 11.5TB=53TA+TB=N(N+1)/2=78Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 10秩次:在一定程度上反映了等级的高低;秩和:在一定程
6、度上反映了等级的分布位置。对等级的分析,转化为对秩次的分析。秩和检验就是通过秩次的排列求出秩和,进行假设检验。Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 11例:缺氧条件下猫和兔的生存时间猫兔生存时间(min)秩次生存时间(min)秩次25259.59.514141 13434131315152 24444151516163 34646161617174 44646171719195 54848181821216.56.54949191921216.56.550502020
7、23238 825259.59.5282811113030121235351414n n1 1=8=8T T1 1=127.5=127.5n n2 2=12=12T T2 2=82.5=82.5Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 12编秩:假设:H0:猫和兔在缺氧条件下生存时间总体分布相同;H1:猫和兔在缺氧条件下生存时间总体分布不同;=0.05。求秩和并确定检验统计量:T=127.5Department of Epidemiolgy&BiostatisticsDe
8、partment of Epidemiolgy&BiostatisticsPage 13 猫组 兔组 和 实际秩和 127.5 82.5 210理论秩和 n1(N+1)/2 n2(N+1)/2 N(N+1)/2 84 126 210差值 43.5 -43.5 0 抽样误差?如果不拒绝H0,则理论秩和与实际秩和之差纯粹由抽样误差造成。Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 14基本思想如果H0 成立,即两组分布位置相同,则猫组的实际秩和应接近理论秩和n1(N+1)/2;兔
9、组的实际秩和应接近理论秩和n2(N+1)/2.或相差不大。如果相差较大,超出了预定的界值,则可认为H0不成立。Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 15两样本秩和检验 T 界值 n1=8,n2-n1=4 双侧 单侧 62106 0.10 0.05 58 110 0.05 0.025 53 115 0.02 0.01 51 117 0.01 0.005 间距 44 52 62 668(20+1)/2=84(理论值)Department of Epidemiolgy&Bi
10、ostatisticsDepartment of Epidemiolgy&BiostatisticsPage 16确定P值和做出推断结论:本例 查附表10,得双侧p10或n2-n1 10时相同秩次多时校正12/)1(5.02/)1(211NnnNnTu21nnNcuuc/331()/()jjCttNN Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 20 建立检验假设:H0:两型支气管炎疗效总体分布相同;H1:两型支气管炎疗效总体分布不同。=0.05。编秩,求秩和T。确定检验统
11、计量T 若两样本例数不等,以例数较少者为n1,检验统计量T=T2=11186。确定P值,作出推断结论 Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 21|1118688(216 1)/20.53.628128 88(216 1)/12u 3333333()1()828278783030262610.8938216216jjttCNN 0.053.628/0.89383.837cuuCuDepartment of Epidemiolgy&BiostatisticsDepartm
12、ent of Epidemiolgy&BiostatisticsPage 22P0.05,按=0.05水准,拒绝H0,差异有统计学意义。可以认为该药治疗两种支气管炎的疗效有差别。Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 23 疗 效控制显效有效无效合计 单纯型 62 41 14 11 128 喘息型 20 37 16 15 88 合 计 82 78 30 26 216构成比的比较:2=15.59,P=0.001Department of Epidemiolgy&Biost
13、atisticsDepartment of Epidemiolgy&BiostatisticsPage 24构成比的比较与平均秩次的比较 group A group B控制 100 0 显效 0 100有效 0 100无效 100 0构成比比较:不同平均秩比较:相同Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 25成组设计多样本的秩和检验Kruskal-Wallis法先对所有数据编秩;计算 H H 统计量;查 H H 界值表,或用近似 2 检验,计算 P P 值;界定 P P
14、 值,作出结论。Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 26【例8.5】某医生在研究再生障碍性贫血时,测得不同程度再生障碍性贫血患者血清中可溶性CD8抗原水平(U/ml),问不同程度再生障碍性贫血患者血清中可溶性CD8抗原水平有无差别?Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 27不同程度再生障碍性贫血患者血清中可溶性CD8抗原水平正常组秩次轻度组
15、秩次重度组秩次(1)(2)(3)(4)(5)(6)42144895621151255510631159835851265316141462013.571217.5141571217.576221318675319843223827758208492440888452389625.562013.589625.590127Ri49.5149.5179ni999Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 28H0:三组血清中可溶性CD8抗原水平总体分布相同;H1:三组血清中可溶性
16、CD8抗原水平总体分布不同或不全相同;=0.05。计算H统计量)1(3)1(122NnRNNHiiDepartment of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 29What can H statistic tell us?如果H0成立,H统计量会接近多少?Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 30查H界值表,本例k=3,n1=n2=n3=9,查附表11,得P0.00
17、1。按=0.05水准拒绝H0,接受H1,差异有统计学意义,可认为不同程度再生障碍性贫血患者血清中可溶性CD8抗原水平有差别。2221249.5149.5179()3(271)27(271)916.250HDepartment of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 31三种复方制剂治疗慢性胃炎的疗效比较 疗效例数合计秩次范围平均秩次秩和复方 复方 复方复方 复方 复方(1)(2)(3)(4)(5)(6)(7)=(1)(6)(8)=(2)(6)(9)=(3)(6)痊愈4256531532711
18、34135162显效1861720223 5427616530690 28053300有效753626137 27741334525875 12420 8970无效504231123 41453647523750 19950 14725合计3531008353681449 35310 27157Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 32H0:三种复方制剂治疗慢性胃炎的疗效总体分布相同;H1:三种复方制剂治疗慢性胃炎的疗效总体分布不同或不全相同;=0.05。750.62
19、)1536(3)83271571003531035381449()1536(53612)1(3)1(122222NnRNNHiiDepartment of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 33H 的校正与2近似当有相同秩次时,H H 需校正:当 n 较大时,H H 近似服从 =k 1 的 2 分布。故可按 2 分布获得概率 P,作出统计推断。)/)(1/33NNttCCHHjjCDepartment of Epidemiolgy&BiostatisticsDepartment of Epi
20、demiolgy&BiostatisticsPage 3433333331(5353)(223223)(137137)(123123)15365360.8982jjttcNN 862.698982.0750.62cHHcDepartment of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 35下结论查自由度为2的2界值表P0.05。按双侧0.05水准,不拒绝H0,差异无统计学意义,故尚不能认为两法测定血清中谷-丙转氨酶含量有差别。Department of Epidemiolgy&Biostatis
21、ticsDepartment of Epidemiolgy&BiostatisticsPage 41正态近似法(n50时)(1)/40.5(1)(21)2450Tn nun nnnDepartment of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 42u 的校正当重复的秩次较多时,u 需要校正:48)(24)12)(1(5.04/)1(3jjttnnnnnTuDepartment of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&Biost
22、atisticsPage 43随机区组设计资料的秩和检验Friedman检验步骤配伍组内编秩计算M统计量查M界值表,下结论212311iMRb kbk kDepartment of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 44What can M statistic tell us?如果H0成立,M统计量会接近多少?Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 45随机区组设计资
23、料的秩和检验 24只小鼠按不同窝别分为8组,随机分配到三种不同饲料组,喂养一定时间后,测得小鼠肝中铁的含量(g/g),问不同饲料对小鼠肝中铁的含量有无影响?Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 46窝别窝别(配伍组)(配伍组)A AB BC C1 11.001.00(2 2)0.960.96(1 1)2.072.07(3 3)2 21.011.01(1 1)1.231.23(2 2)3.723.72(3 3)3 31.131.13(1 1)1.541.54(2 2)4
24、.504.50(3 3)4 41.141.14(1 1)1.961.96(2 2)4.904.90(3 3)5 51.701.70(1 1)2.942.94(2 2)6.006.00(3 3)6 62.012.01(1 1)3.683.68(2 2)6.846.84(3 3)7 72.232.23(1 1)5.595.59(2 2)8.238.23(3 3)8 82.632.63(1 1)6.966.96(2 2)10.3310.33(3 3)R Ri i9 915152424Department of Epidemiolgy&BiostatisticsDepartment of Epidem
25、iolgy&BiostatisticsPage 47H0:三组小鼠肝脏铁的含量总体分布相同;H1:三组小鼠肝脏铁的含量总体分布不同或不全相同;=0.05。22212(91524)3 8(3 1)8 3(3 1)14.25M Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 48根据配伍组数b与处理组数k查附表12,配伍组设计多组比较的Friedman检验用M界值表,得P值范围。本例b=8,k=3,查表得:M0.05=6.250,M0.01=9.000,P0.01,按=0.05水准
26、拒绝H0,接受H1,差异有统计学意义,可认为三种不同饲料对小鼠肝脏中铁的含量有影响。Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 49多样本资料的两两比较成组设计和或随机区组设计资料,拒绝H0后只说明总的来讲,几组之间存在差异,不能说明各组间的相互关系。两两比较对于成组设计的秩和检验:扩展的t检验对于区组设计的秩和检验:q检验两两比较仅在拒绝了相应的H0后才有必要进行!Department of Epidemiolgy&BiostatisticsDepartment of E
27、pidemiolgy&BiostatisticsPage 50非参数检验的正确应用主要对等级资料进行分析;秩和检验可用于任意分布(distribution free)的资料;Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 51秩和检验用于定量资料 计量资料中:极度偏态资料,或个别数值偏离过大 各组离散度相差悬殊 资料中含有不确定值 大于5年 0.001 1:1024以上 兼有等级和定量性质的资料Department of Epidemiolgy&BiostatisticsDep
28、artment of Epidemiolgy&BiostatisticsPage 52用二种食物配方饲养大白鼠,观察心肌坏死面积。分析二组间的差异。A组:(n=29,mean 3.613.61)0,0,0,0,0,0,0,0,0,0,0.2,0.3,0.4,0.4,0.6,1,1.6,2.2,2.6,3.3,4.3,5.1,5.4,5.5,6.1,6.2,9.7,13.8,36B组:(n=28,mean1.061.06)0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.2,0.2,0.2,0.3,0.4,0.4,0.9,0.9,1.3,1.7,2.8,7.4,13Departme
29、nt of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 53特点0 0特别多,无论用什么变换均不可能改变分布的偏性;0 0与其它数的区别是质的区别。Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 54分析一:组心肌坏死率比较,按四格表作2检验:无心肌坏死 有心肌坏死 合计 心肌坏死率(%)甲组 10 19 29 65.5 乙组 15 13 28 46.4 C2=1.404,=1.404
30、,P P=0.24=0.24Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 55分析二:二组平均心肌坏死面积的比较二组平均心肌坏死面积的 t 检验:t t=1.77551.7755,P P=0.0814=0.0814Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 56分析三:按等级资料处理:两组秩和检验:n 秩和 理论秩和 A组 29 968 841B组 28
31、685 812合计 57 1653 1653u=2.119,P P=0.0341。Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 57看看如何分析?两组计量资料的比较1.375.556.433.455.587.246.0511.986.848.221.0911.416.185.11.618.645.555.658.7112.48Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&Biostatisti
32、csPage 58分析方法一 两组秩和检验两组秩和检验:n 秩和 理论秩和 A组 10 83.5 105.0B组 10 126.5 105.0合计 20 210.0 210.0u=1.63,P P=0.1040。Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 59分析方法二 两组t检验是否可以用两组资料的t检验?服从正态性和方差齐性的要求。利用两个样本均数的t检验Department of Epidemiolgy&BiostatisticsDepartment of Epide
33、miolgy&BiostatisticsPage 60分组 n 均数 标准误 标准差第一组 10 4.84 0.88 2.79第二组 10 7.97 1.00 3.15差 值 -3.13 1.33 自由度 18t=-2.36P=0.0301 Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 61成组设计两样本比较如资料满足 t 检验的条件,应该用 t 检验进行分析。此时,如果对这类资料用Wilcoxon秩和检验,实际上是将观察单位的具体数值舍弃不用,只保留了秩次的信息,使检验功效降低;尤其样本含量较小时,降低更加明显。如资料不满足 t 检验的条件,而用了t 检验,同样降低了检验效能。Department of Epidemiolgy&BiostatisticsDepartment of Epidemiolgy&BiostatisticsPage 62