1、第十章第十章 基于秩次的非参基于秩次的非参数检验数检验本章内容:第一节 配对样本比较的Wilcoxon符号秩检验第二节 两个独立样本比较的Wilcoxon秩和检验第三节 完全随机设计多个样本比较的Kruskal-Wallis H 检验第四节 随机区组设计多个样本比较的Friedman M检验 概述 前面所述的计量资料的t 检验和 F 检验,都是基于总体分布为正态分布、总体方差相等的前提下对总体均数进行的检验。这类检验方法总体分布为已知的函数形式,是对其总体参数作假设检验称为参数检验(parametric test)。若总体分布未知或已知总体分布与检验所要求的条件不符,数据转换也不使其满足参数检
2、验的条件,这时需要采用一种不依赖于总体分布的具体形式,与总体参数无关的检验方法。这种方法不受总体参数的影响,它检验的是分布,不是参数,称为非参数检验(nonparametric test)。本 章 介 绍 常 用 的 秩 转 换(r a n k transformation)的非参数检验,也称秩和检验(rank sum test),该类方法在非参数检验中占有重要地位。秩转换的非参数检验是首先将定量数据从小到大,或等级从弱到强转换成秩后,再求秩和,计算检验统计量秩统计量,做出统计推断。由于秩统计量的分布与原数据总体分布无关,具有较好的稳健性,可用于任何分布类型的资料。例如,一端或两端有不确定数值
3、(如 15.0)的资料、总体分布为偏态或分布不明的小样本(比如n50时)超出附表9范围,可用正态近似法作u检验。TTTZ4/)1(nnT24/)12)(1(nnnT当n不很大时,统计量Z需要作如下的连续性校正:24/)12)(1(5.04/)1(5.0nnnnnTTZTT若多次出现相持现象(如超过 25%),用(10-3)式求得的 Z 值偏小,应按公式(10-4)计算校正的统计量值 Zc。48)(24)12)(1(5.04/)1(3jjcttnnnnnTZ (10-4)式中 tj为第 j(j=1,2)次相持所含相同秩次的个数。如例 10-1,第 1 次相持,有两个差值的绝对值均为 2.29,则
4、 t1=2;第 2 次相持,有两个差值均为 11.54,则 t2=2。于是,)(3jjtt)()(232131tttt(23-2)+(23-2)=12。二、一组样本资料的符号秩和检验二、一组样本资料的符号秩和检验若单组随机样本来自正态总体,比较其总体均数与某常数是否不同,可用检验;若样本来自非正态总体或总体分布无法确定,也可用Wilcoxon符号秩和检验,检验总体中位数是否等于某已知数值。例10-2 已知某地正常人尿氟含量的中位数为2.15mmol/L。今在该地某厂随机抽取12名工人,测得尿氟含量(mmol/L),结果见表10-2。问该厂工人的尿氟含量是否高于当地正常人?mol/L表 10-2
5、 12 名工人尿氟含量(mmol/L)测定结果 尿氟含量 X 差值 d 秩次 2.15 0 2.10-0.05-2.5 2.20 0.05 2.5 2.12-0.03-1 2.42 0.27 4 2.52 0.37 5 2.62 0.47 6 2.72 0.57 7 2.99 0.84 8 3.19 1.04 9 3.37 1.22 10 4.57 2.42 11 T+=62.5 T-=3.5 由表 10-2 第 2 栏可计算观察值与已知中位数0M2.15mmol/L 的差值d,其均数为5975.0d,标准差为7141.0dS对这些差值进行正态性检验,8380.0W,03.0P,因此,不满足t
6、检验关于样本来自正态分布的条件,该资料宜用Wilcoxon符号秩和检验。1、求差值 0Mxdi,见表 10-2 的第(2)栏。2、检验假设 0H:差值的总体中位数等于零,即0)(dMd 1H:差值的总体中位数不等于零,即0)(箎dMd 05.0 3.编秩 对差值的绝对值编秩,方法同上。4.求正、负秩和并确定检验统计量 本例,T+=62.5,T-=3.5,T+与 T-之和为 66,恰好等于 11(11+1)/2,表明秩和的计算无误;取 T=min(T+,T-)3.5。5.确定P值并做出推断结论本例,n=11,T=3.5,查配对设计用T界值表,得P0.05;按=0.05检验水准,不拒绝H0。不能认
7、为某河流甲乙断面亚硝酸盐氮含量的总体分布的位置不同。若110n 或2110nn,超出附表 10 的范围,可用正态近似法作u检验,令12nnN,按下式计算u值。12)1(5.02)1(212121nnnnnnTZ若Z超过标准正态分布的临界值,则拒绝 。0H上式用于无相持或相持不多的情形;若相持较多(比如超过 25%),应按下式进行校正。cZZc (10-6)其中,)/()(133NNttcjj,jt为第 j 次相持时相同秩次的个数,21nnN。二、两组有序变量资料的秩和检验二、两组有序变量资料的秩和检验例10-4 某研究者欲评价新药按摩乐口服液治疗高甘油三脂血症的疗效,将高甘油三脂血症患者189
8、例随机分为两组,分别用按摩乐口服液和山楂精降脂片治疗,数据见表10-4,问两种药物治疗高甘油三脂血症的疗效有无不同?表 10-4 两种药物治疗高甘油三脂血症的疗效 人数 秩和 疗效 按摩乐口服液 山楂精降脂片 合计 秩次范围 平均秩次 按摩乐口服液 山楂精降脂片(1)(2)(3)(4)(5)(6)(7)=(2)(6)(8)=(3)(6)无效 17 70 87 187 44 748 3080 有效 25 13 38 88125 106.5 2662.5 1384.5 显效 27 37 64 126189 157.5 4252.5 5827.5 合计 69 120 189 7663 10292 0
9、H:两 种 药 物 疗 效 的 总 体 分 布 相 同 1H:两 种 药 物 疗 效 的 总 体 分 布 相 同 0.05 先确定各等级的合计人数、秩范围和平均秩,见表10-4的(4)栏、(5)栏和(6)栏,再计算两样本各等级的秩和,见(7)栏和(8)栏;本例T=7663;计算Z值0587.312/)1189(691205.02/)1189(697663Z8555.0189189)6464()3838()8787(1)/()(1333333NNttcjj3069.38555.00587.3cZZc3069.3cZ,查标准正态分布表,得001.0P。按05.0检验水准,拒绝0H,接受1H,可以认
10、为,两种药物对高甘油三脂血症的疗效分布不同。第三节完全随机化设计多组独立样本的完全随机化设计多组独立样本的秩和检验秩和检验一、多组连续变量资料的秩和检验一、多组连续变量资料的秩和检验 例10-5 某研究者欲研究A、B两个菌种对小鼠巨噬细胞吞噬功能的激活作用,将60只小鼠随机分为三组,其中一组为生理盐水对照组,用常规巨噬细胞吞噬功能的监测方法,获得三组的吞噬指数,试比较三组吞噬指数有无差别?表10-5 不同菌种对小鼠巨噬细胞的吞噬指数 对照组(1)A菌组(2)B菌组(3)吞噬指数 秩次 吞噬指数 秩次 吞噬指数 秩次 1.30 1.0 1.80 14.5 1.50 4.0 1.40 2.0 1.
11、80 14.5 1.80 14.5 1.50 4.0 2.20 20.5 1.80 14.5 1.50 4.0 2.20 20.5 2.00 17.0 1.60 6.5 2.20 20.5 2.30 26.5 1.60 6.5 2.20 20.5 2.30 26.5 1.70 10.0 2.30 26.5 2.40 33.5 1.70 10.0 2.30 26.5 2.40 33.5 1.70 10.0 2.30 26.5 2.40 33.5 1.70 10.0 2.66 42.5 2.40 33.5 1.70 10.0 2.66 42.5 2.50 37.5 2.10 18.0 2.68 4
12、4.5 2.50 37.5 2.30 26.5 2.68 44.5 2.60 40.0 2.30 26.5 2.70 47.0 2.60 40.0 2.30 26.5 2.80 49.5 2.60 40.0 2.40 33.5 2.80 49.5 2.70 47.0 2.40 33.5 3.00 51.0 2.70 47.0 3.10 54.5 3.10 54.5 3.10 54.5 3.10 54.5 3.10 54.5 3.10 54.5 3.20 58.0 4.30 59.5 4.30 59.5 Ri 238.5 956.5 635.0 ni 17 24 19 经检验,本例的对照组和 A
13、 菌组均来自非正态总体,因此,不能用方差分析方法进行检验。现采用 Kruskal-Wallis 秩和检验。1检验假设 H0:三个总体的分布位置相同 1H:三个总体的分布位置不同或不全相同=0.05 2编秩 将各组数据混合,由小到大排序并编秩,如遇有相等数值则取平均秩次,如吞噬指数为 1.5 的有三个,它们的秩次为 3、4 和 5,取平均秩次为(3+4+5)/3=4。3求秩和 分别将各组秩次相加,分别求得1R、2R和3R。4计算统计量)1(3)1(122NnRNNHii (10-7)式中iR为各组的秩和,in为各组对应的例数,inN。本例,60N,5374.22)160(3)190.635245
14、.956175.238()160(6012222H 5确定 P 值并做出推断结论(1)当组数 k=3,每组例数5in,可查附表中的H界值表得到P值。(2)当不满足条件(1)时,H近似地服从自由度为1 k的2分布,可查2界值表得到P值。式(10-7)用于无相持或相持不多的情形;若相持较多(如超过 25%),应按式(10-8)计算校正值cH cHHc (10-8)其中,)()(133NNttcjj,jt为第 j 次相持时相同秩次的个数。本例,9941.0)6060/()22()66()22()33()22()22()33()22()66()88()44()44()55()22()33(1)()(1
15、333333333333333333NNttcjj 671.229941.0/5374.22cH 2,60.1022,005.0,得出005.0P。按05.0检验水准,拒绝0H。可以认为,不同菌种对小鼠巨噬细胞的吞噬指数的作用不同 二、多组有序变量资料的秩和检验二、多组有序变量资料的秩和检验 例10-6 四种疾病患者痰液内嗜酸性粒细胞的检查结果见表10-6。问四种疾病患者痰液内嗜酸性粒细胞的等级分布有无差别?表 10-6 四种疾病患者痰液内嗜酸性粒细胞等级比较 例 数 秩 和 白细胞等级 支气管扩张 肺水肿 肺癌 病毒性呼吸道感染 合计 秩次范围 平均秩次 支气管扩张 肺水肿 肺癌 病毒性呼吸
16、道感染(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)-0 3 5 3 11 111 6 0 18 30 18+2 5 7 5 19 1230 21 42 105 147 105+9 5 3 3 20 3150 40.5 364.5 202.5 121.5 121.5+6 2 2 0 10 5160 55.5 333 111 111 0 合计 17 15 17 11 60 739.5 436.5 409.5 244.5 1检验假设 H0:四种疾病患者痰液内嗜酸性粒细胞总体分布相同 H1:四种疾病患者痰液内嗜酸性粒细胞总体分布不同或不全相同。=0.05 2编秩 与两
17、样本比较类似,混合编秩。先计算各等级的合计,再确定秩次范围及平均秩次,见表第(6)、(7)和(8)栏。3求秩和 与样本比较类似,结果见表第(9)、(10)、(11)和(12)栏。4计算检验统计量 H 28.14)160(3)115.244175.409155.436175.739()160(6012)1(3)1(1222222NnRNNHii 由于相持较多,故需校正。92.0)6060/()1010()2020()1919()1111(1)/()(13333333NNttcjj 52.1592.0/28.14/cHHc 3确定 P 值,做出推断结论 已知 H0成立时,Hc近似服从=k-1=3
18、的2分布。据 Hc=15.52 查2界值表,得 P105,P0.05;按=0.05 检验水准,拒绝 H0。可以认为不同教学方式对不同学生的学习综合评分的影响有统计学意义。(2)2分布近似法 当处理数 k 或区组数 b 超出 M 界值表的范围时,可以采用近似2分布法。jR为第j处理组的秩和,故总秩和为 2)1(1kbkRkjj (10-10)当0H成立时,第j列秩和的期望与方差分别为:2)1(kbjR (10-11)12)1(22kbjR (10-12)大样本时,统计量 2jjRRjjRZ (10-13)近似地服从标准正态分布;但k个jZ的加权和2r服从自由度为(1k)的2分布,kjjjkjrk
19、kbkbRZkk1221212/)1(2/)1()1((10-14)不难导出其简化计算式为)1(3)1(12122kbRkbkkjjr (10-15)现以例 10-7 说明其计算步骤,8b,4k,121R,5.233R,5.294R 36.14)14(83)5.295.231512()14(481222222r 以314查2界值表,34.1123,01.0,01.0001.0 P;按=0.05 检验水准,拒绝 H0。可以认为不同教学方式对学生的学习综合评分的影响有统计学意义。当各区组间相持较多时,需用式(10-16)进行校正。cc22 (10-16)式中,)1()(123kbkttcjj,tj为第 j(j=1,2)次相持所含相同秩次的个数。1c,故校正的22c,对应的P值减小。2c在下列情况下意义较大:相持数据的个数在各区组中所占比重较大时;所得P值在检验水准附近时