1、秩和检验 某医师用改良的Seldingers插管技术对8例经临床和病理证实的恶性滋养细胞肿瘤进行选择性盆腔动脉插管灌注化疗。测定治疗前后血中的HCG含量如表1。该医师考虑到数据相差较大,采纳对数变换后进行两样本均数比较的t检验,得t =2、460,P0、05,差异有统计学意义,故认为治疗前后血中HCG的含量有差别。 【问题1】(1)这是什么资料?(2)该实验属于何种设计方案?(3)该医师统计方法是否正确?为什么?【分析】(1)该资料为计量资料。(2)该实验属自身配对设计方案。(3)该医师统计方法不正确。首先,配对资料一般采纳对每对数据求之差值后进行比较,而该医师采纳完全随机设计资料的检验方法,
2、统计方法与设计类型不符;其次,该医师考虑了数据相差较大,即不满足t检验的前提条件正态分布,采纳了对数变换,基本思想正确。但治疗前后的数据经对数变换后,其差值的变异仍然较大(经正态性检验,P0、05 ) ,因此仍不满足配对t检验的条件,故该资料宜采纳非参数检验方法,即Wilcoxon配对设计的符号秩和检验,目的是推断配对资料的差值是否来自中位数为零的总体。复习 t检验 单因素两组比较:t检验 完全随机两组均数比较的t检验(成组t检验) 配对设计下两组均数比较的t检验(配对t检验) 方差分析 完全随机设计方差分析 区组(配伍组)随机的方差分析 析因设计的方差分析 重复测量设计方差分析前面介绍的t检
3、验、方差分析等假设检验方法,大都假定样本所来自的总体分布为正态分布,但其参数(即正态总体均数)为未知,统计推断的目的就是对这些未知参数进行检验。这一类依赖于总体分布的具体形式的统计推断方法称为参数统计方法或参数检验(parametric test) 。 但在许多实际问题中,如例1资料呈明显偏态,或分布不明的资料,需要用另一类不依赖总体分布类型的检验。非参数统计方法或非参数检验(nonparametric test),或任意分布检验(distribution-free test)。 两组性别结构是否相同? 两组某种不良反应的发生率是否相同? 多组发生率是否相同? 多组构成是否相同? 疗效用痊愈、
4、显效、有效、无效四级分类法进行评价时,两组或多组如何比较? 对两组患者空腹胰岛素水平进行比较时,有的病例测量结果为Ins300,如何处理? 非参数检验又称为任意(不拘)分布检验(distribution-free test),这类方法并不依赖总体分布的具体形式,应用时能够不考虑研究变量为何种分布以及分布是否已知,进行的是分布之间而不是参数之间的检验,故又称非参数检验(nonparametric test),简称非参检验。 非参数检验方法 基本特点:与分布无关(distribution free) 基本方法: 2 检验基于秩(等级,rank)的方法基于特定参照点(如中位数)的方法参数检验的特点
5、分析目的:对总体参数( )进行估计或检验 分布:要求总体分布已知,如: 连续性资料正态分布 计 数 资 料二项分布、POISSON分布等 统计量:有明确的理论依据(t分布、Z分布) 有严格的适用条件,如: 正态分布 Normal 总体方差齐 Equal Variance 数据间相互独立? 非参数检验的优点 适用范围广受限条件少。参数检验对总体分布等有特别限定,而非参数检验的假定条件少,也不受总体分布的限制,更适合一般的情况。具有稳健性。参数检验是建立在严格的假设条件基础之上的,一旦不符合假设条件,其推断的正确性将受到怀疑;而非参数检验都是带有最弱的假定,所受的限制特别少,稳健性好。 对符合用参
6、数检验的资料,如用非参数检验,会丢失部分信息。尽管非参数检验计算简便,但有些问题的计算仍显繁冗。 应用非参数检验的情况1、不满足正态和方差齐性条件的小样本资料;2、总体分布类型不明的小样本资料;3、一端或二端是不确定数值(如0、002、65等)的资料;4、单向(双向)有序列联表资料;5、 各种资料的初步分析。非参数检验方法特别多,本节介绍常用的秩转换(rank transformation) 的非参数检验即秩和检验(rank sum test)。方法的起点排队与秩次 统计描述中排秩思想的成功应用百分位数、中位数 排队的优点广泛适用于多种分布 排队的结果将原始数据的比较转化为秩次的比较秩次(ra
7、nk)将数值变量值从小到大,或等级变量值从弱到强所排列的序号 例1 111 11只大鼠存活天数: : 4 4, ,1010, ,7 7, ,5050, ,3 3, ,1515, ,2 2, ,9 9, ,1313, ,6060, ,6060 例2 92 9名 肺炎病人的治疗结果: : 治愈 治愈 死亡 无效 治愈 有效 治愈 有效 无效 秩次(rank)将数值变量值从小到大,或等级变量值从弱到强所排列的序号例1 111 11只大鼠存活天数: : 4 4, , 1010, , 7 7, , 5050, , 3 3, , 1515, , 2 2, , 9 9, , 1313, , 6060, ,
8、6060 例2 92 9名 肺炎病人的治疗结果: : 治愈 治愈 死亡 无效 治愈 有效 治愈 有效 无效 、5秩和检验 秩次: : 指将观察值由小到大按升序排列后,每 个数据的次序号(Rank ) 编秩: :将观察值按顺序由小到大排列,并用序号代替原始变量值本身 秩和: :用秩次号代替原始数据,并对某些秩次号求和(R sum) 相持: : 出现相同秩次的现象Xi159183178513719Ri75918426310R_sum55秩次和秩和 设有以下两组数据:A组 4、7 6、4 2、6 3、2 5、2B组 1、7 2、6 3、6 2、3 3、7 两组各有5个变量值。现在依从小到大的顺序将它
9、们排列起来,并标明秩次,结果如下: A组 2、6 3、2 4、7 5、2 6、4 B组 1、7 2、3 2、6 3、6 3、7 秩次 1 2 3 4 5 6 7 8 9 10 A组秩和: 3、5+5+8+9+10=39、5 B组秩和: 1+2+3、5+6+7=19、5 从两组的原始变量值也能够初步看出:A组偏大,B组偏小。现在得出的秩和也是A组大于B组,与由变量值所观察到的一致疗效A A组( (1 1) )B B组( (2 2) )排秩平均秩次控制15151212显效11113 3有效20207 7近控8 84 4内容提要第一节 配对设计资料的符号秩和检验第二节 完全随机设计两样本资料的秩和检
10、验第三节 完全随机设计多个样本资料的秩和检验第四节 多个样本之间的两两比较第五节 单样本资料的秩和检验第六节 随机区组设计资料的秩和检验配对资料的秩和检验或配对符号秩和检验即Wilcoxon符号秩和检验(Wilcoxon signed rank test或Wilcoxon配对法)它用于资料配对设计计量差值的比较和单一样本与总体中位数的比较。以例1资料为例介绍Wilcoxon符号秩和检验基本步骤。第一节 配对设计资料的秩和检验 【检验步骤】1、 建立检验假设,确定检验水准H0:差值的总体中位数等于零,即Md=0H1:差值的总体中位数不等于零,即Md0a=0、052、 计算检验统计量T值(1)求差
11、值d:见表1-1第(4)栏。(2)编秩:按差值的绝对值大小从小到大编秩次, 再依照差值的正负给秩次冠以正负号,若差值为0,舍去不计,例数n相应减少;若差值的绝对值相等,称为相持(tie),这时取平均秩次。 (3)求秩和,确定统计量T: 分别求出正、负秩和T+和T- , T+和T-之和应为n(n+1)/2。 本例T+=36,T-=0,总秩和为36,而n(n+1)/2=8(8+1)/2=36,表明秩和计算无误。 以绝对值较小者为统计量T值 取T=0。3、 定P值,做出统计推断(1) 查表法:依照统计量T和对子数n查配对比较的符号秩和检验用界值表,确定P值T值在T界值范围内,P大于T界值范围相应的概
12、率;T值等于T界位范围的下限或上限,P值等于T界值范围相应的概率;T值在T界值范围外,P小于T界值范围相应的概率,结合专业作出结论。本例n=8,T=0,查表,T等于T0、050,8的界值333,因此P50时,可按近似正态分布用Z检验例2 临床某医生研究白癜风病人的白介素IL-6水平(u/l)在白斑部位与正常部位有无差异,调查的资料如表2所示:表2 白癜风病人的不同部为白介素IL-6指标(u/l)病人号白斑部位正常部位140、0388、57297、1380、00380、32123、72425、3239、03519、6124、37614、5092、75749、63121、57844、5689、76
13、一般步骤建立假设检验H0:差值的总体中位数为0;H1:差值的总体中位数不为0(双侧);或差值的总体中位数0(0,d0,则秩次为“+ +”, ,d0d0, ,则秩次为“- -”; ;求正负秩次之和T T+ +与T T- -, ,绝对值较小者, ,作为统计量T T值。表 2-2 白癜风病人的不同部为白介素IL-6指标(u/l)病人号 白斑部位正常部位d=正常-白斑秩次140、0388、5748、54297、1380、00-17、13380、32123、7243、40425、3239、0313、71519、6124、374、76614、5092、7578、25749、63121、5771、94844
14、、5689、7645、20合计145678-3T+=33T-=32查配对比较的符号秩和检验表,确定P值范围。当n50时,查附表的T界值表,当T恰为附表的界值时, P值一般小于表中对应的概率值; 本例n=8,查T界值表T0、05(8)=333,P =0、05,因此拒绝H0。【知识点】1、 Wilcoxon符号秩和检验的基本思想:在H0成立的前提下,配对差值的总体分布是对称的,总体中位数应为0,T+与T-应接近n(n+1)/4。若正、负秩和相差悬殊,则H0成立的估计性特别小。2、 Wilcoxon符号秩和检验适用于不满足t检验条件的配对设计的计量资料、等级资料和其他不能精确测量的资料。界值表的构造
15、原理假定一组配对数据n=4,则:秩次有:1,2,3,4。差值为正的秩次与差值为负的秩次共有24=16种组合。即,每种组合出现的概率为:1/16=0、0625。16种组合如下表:界值表的构造原理差值为正的秩次差值为负的秩次概率1,2,3,41000 0、06252,3,41911 0、06251,3,42822 0、06251,2,43733 0、1253,41,27331,2,346440、1252,41,36441,42,35550、1252,31,45551,32,44640、12541,2,34641,23,43730、12531,2,437321,3,4282 0、062512,3,4
16、191 0、06251,2,3,40100 0、062543 关于计量数据, ,完全随机设计两独立样本假如资料方差相等, ,且服从正态分布, ,就能够用t t检验比较两样本均数。 假如此假定不成立或不能确定是否成立, ,就应采纳WilcoxonWilcoxon秩和检验来分析两样本是否来自同一总体。第二节 完全随机设计两独立样本的秩和检验44表3 3两样本的直径A A样本B B样本观察值观察值 7 73 314145 522226 63636101040401717484818186363202098983939例3 用某方法对样品进行检测,得到样品的直径(mm),问两样本所代表的总体直径有无差
17、异?1 定量变量两组独立样本的秩和检验45适用条件: : 1 1、完全随机设计的两组定量资料, ,若 不满足参数检验的应用条件, ,则用 本法 2 2、有序分类变量两组独立样本比较46表3 3 两独立样本秩和检验计算表A A样本B B样本观察值秩次观察值秩次 7 74 43 31 114146 65 52 2222210106 63 33636111110105 54040131317177 74848141418188 86363151520209 99898161639391212 n n1 1=8=8秩和 T T1 1=89=89n n2 2=8=8秩和 T T2 2=47=47例3 用
18、某方法对样品进行检测,得到样品的直径(mm),问两样本的直径有无差异?1 定量变量两组独立样本的秩和检验47 H0:两样本来自相同总体; H1:两样本来自不同总体 =0、05 ( (2 2) )编秩: :两样本从小到大混合编秩次, ,假如在同一组内可顺次编秩, ,否则, ,若不在同一组内, ,相同观察值取原秩次的平均秩次。( (3 3) )求秩和并确定统计量T T 两组秩次分别求和,T T1 1= 89= 89, ,T T2 2=47=47。 48基本思想: : 假如H H0 0成立, ,由于抽样误差的存在, , n n1 1样本的秩和T T与总体与其理论秩和T T总/2/2不一定相等, ,但
19、差别不应太大。当T T与T T总/2/2相差太大, ,超出了抽样误差能够解释的范围时, ,有理由怀疑H H0 0的正确性, ,从而拒绝H H0 0 基本思想两样本来自同一总体 任一组秩和不应太大或太小 假如两总体分布相同 假定:两组样本的总体分布形状相同 T T 与平均秩和应相差不大 212121),min( ,nnRRnnT较小例数组的秩和若两组例数相等, ,任取一组的秩和为统计量T T, ,若两组例数不等, ,则以样本例数较小者对应的秩和为统计量T T。 本例T =47511、n110(n1是较小的n), n2-n110时,查附表的T界值表2、否则,用正态近似检验 若两组有相同秩次,要校正
20、 tj 为第j个相同秩次的个数,n为总例数cuuc12/)1(5.02/)1(2121211nnnnnnnTu)/()(133nnttcjj52 ( (4 4) ) 确定P P值作出推断结论: : 查表法 (n(n1 11010, ,n n2 2 n n1 110) 10) 查附表 假如T T 位于检验界值区间内, , ,不拒绝H H0 0; ; 否则, , ,拒绝 H H0 0 。 本例T =47,取=0、05,查附表得双侧检验界值区间(49,87),T 位于区间外,P1、96,P0、05, 按a=0、05水准,拒绝H0,接受H1,差异有统计学意义,可认为该中药治疗两型糖尿病的疗效分布不同该
21、药治疗型糖尿病的疗效较高。疗效单纯型( (1 1) )单纯型合并肺气肿( (2 2) )合计(3)=(1)+(2)(3)=(1)+(2)控制65654242107107显效18186 62424有效303023235353近控131311112424合计1261268282208表5 某药对两种不同病情的支气管炎疗效例5 研究某药物对治疗单纯型和单纯型合并肺气肿支气管炎疗效是否有差异。表5-1 5-1 某药对两种不同病情的支气管炎疗效的秩和检验疗效单纯型( (1 1) )单纯型合并肺气肿( (2 2) )合计(3)=(1)+(2)(3)=(1)+(2)秩号范围(4)(4)平均秩次(5)(5)秩
22、和单纯型(6)=(1)(5)(6)=(1)(5)合并肺气肿(7)=(2)(5)(7)=(2)(5)控制656542421071071-1071-10754543510351022682268显效18186 6 24 24108-131108-131119119、5 521512151717717有效30302323 53 53132-184132-1841581584740474036343634近控13131111 24 24185-208185-208196196、5 525542554、5 521612161、5 512612682822081295512955、5 587808780、
23、5 51 1、H H0 0: :两组疗效相同; ;H H1 1: :两组疗效不同 =0=0、05052 2、编秩, ,求各组秩和T T; ;本例T T 87808780、5 54986. 012/ ) 1208(82126|2/ ) 1208(825 .8780|u0883. 1)2424()5353()2424()107107(208208208208333333c5426. 0cuuc1、 Wilcoxon两样本秩和检验的基本思想:假如H0成立,则两样本来自分布相同的总体,两样本的平均秩次T1/n1与T2 /n2应相等或相近,含量n1的样本的秩和T1应在n1 (N+1)/2的左右变化。若T
24、值偏离此值太远,H0成立的估计性就特别小。若偏离出给定值所确定的范围时,则P0、05,差异无统计学意义,故认为该厂工人的尿铅含量不高于当地正常人。【问题】(1)这是什么资料?(2)该医师统计方法是否正确?为什么?(3)该资料应该用何种统计方法?【分析】(1)该资料为计量资料。(2)该医师统计方法不正确。尿铅资料通常为偏态分布资料,从本例的资料也可看出变异较大,故不能用t检验处理。(3)当资料分布为非正态分布,或总体分布无法确定,应用非参数检验方法,本例可选用Wilcoxon符号秩和检验,目的是推断:未知总体中位数是否和已知总体的中位数相等。转化为未知总体与已知总体中位数的差值是否来自中位数为零
25、的总体。【检验步骤】1、 建立检验假设,确定检验水准H0:差值的总体中位数等于零,即Md=0,该厂工人的尿铅含量与正常人相同H1:差值的总体中位数大于零,即Md0,该厂工人的尿铅含量高于正常人单侧=0、052、计算检验统计量T值(1)求差值:d=Xi-M0,见表9-3第(2)栏(2)编秩:对差值的绝对值从小到大编秩,再依照差值的正、负给秩次冠以正负号,见表9第(3)栏。差值为零,舍去不计,例数n减少。差值绝对值相等时,则取平均秩次。(3)求正负秩和,确定统计量:T+=109, T-=27,取T=27。M0= 2、50mol/L 3、确定P值,做出统计推断 与配对符号秩和检验相同,查附表(配对比
26、较的符号秩和检验T界值表),n=16,T=27,得P0、05,按=0、05水准,拒绝H0,接受H1,差异有统计学意义,可认为该厂工人尿铅含量高于当地正常人。(该结论与原结论相反)第六节随机区组设计资料的秩和检验【例10】 观察龙葵浓缩果汁对S180实体瘤鼠NK细胞活性的影响。将同种属的40只大白鼠按窝别、性别、体重配成10个区组,建成S180实体瘤模型,一定时间后将小鼠脱椎处死,测定并计算NK细胞活性(%),结果见表10。研究者对该资料进行了随机区组设计的方差分析,剂量组间F=2、864,P=0、055,故认为不同剂量全组之间小鼠NK细胞活性无差异。(1)该资料属于何种设计方案?(2)该医师统
27、计方法是否正确? 为什么?(3)该资料应该用何种统计方法?【分析】(1)该资料属于随机区组设计的计量资料。【百分率资料估计是定性资料,也估计是定量资料,关键是看是由观察单位个数得到的,依然每个观察单位得到的,假如属于前者就是定性资料,假如属于后者就是定量资料。】 (2)该医师统计方法不正确。该资料为百分率资料,不服从正态分布,不宜用随机区组设计的方差分析进行比较。(3)可采纳变量转换或非参数检验的Friedman M检验对随机区组设计资料进行比较,目的是推断各处理组样本分别代表的总体分布是否不同。【检验步骤】1、建立检验假设,确定检验水准H0:四个剂量组小鼠NK细胞活性的总体分布相同H1:四个
28、剂量组小鼠NK细胞活性的总体分布不同或不全相同a=0、052、计算统计量M值(1)编秩:每一区组内数据从小到大编秩,相同数据取平均秩次(表9-12)。(2)分别计算各处理组的秩和Ri:本例各组分别为35,25、5,24、5,15。(见表10-1)【知识点】1、 Friedman的M检验的基本思想:在H0成立的条件下,各区组内观测值取秩为1,2,k的概率相等,则各处理组的秩和应接近 ,而M值反映了实际获得的k个处理组的秩和与 偏离的程度。M值越大,就越有理由怀疑各处理组的总体分布不同。随着b和k的增大,M值近似服从自由度为k-1的分布。2、 Friedman的M检验适用于随机区组设计的资料,但不
29、满足随机区组设计方差分析的前提条件,也可用于随机区组设计的等级资料比较。目的是推断各处理组样本分别代表的总体分布是否不同。2/ ) 1( knRR二、随机区组设计资料的多重比较与完全随机设计资料的秩和检验相同,关于随机区组设计资料,当用Friedman的M检验结果为拒绝H0时,也需进行多组资料间的两两比较。随机区组秩和检验中,SAS或SPSS进一步两两比较,采纳调整检验水准,两个作相关样本的秩和检验(即配对符合秩和检验)。 以例10资料说明随机区组设计资料的多重比较【检验步骤】1、建立检验假设,确定检验水准H0:第A组与第B组的差值总体中位数等于零H1:第A组与第B组的差值总体中位数不等于零a
30、=0、052、计算检验统计量(1)调整检验水准:按=0、05总的检验水准,每次比较必须采纳调整的检验水准。(2)两两比较:采纳SPSS统计软件包进行两两比较,结果见表11, 从表中可见,除了高剂量与肿瘤对比差异有统计学意义(P0、008)。3、确定P值,做出统计推断 可认为高剂量龙葵浓缩果汁对细胞活性(%)的影响高于肿瘤对比,其他情况的细胞活性(%)比较基本相同。= =/k/k( (k-1k-1) )/2=0/2=0、05/405/4( (4-14-1) )/2=0/2=0、008008不管是完全随机设计多个样本的Kruskal-Wallis H检验依然随机区组设计的Friedman M检验,当结论为拒绝H0时,并不能直截了当判断各处理组间差异有无统计学意义,应进行组间的两两比较。小 结 非参数检验的研究, ,近年发展迅速, ,理论逐步趋于完善。它与参数检验不同, ,并不涉及样本取自何种特定分布的总体, ,因而应用甚广。 秩和检验不仅可用于等级资料的比较与分析, ,且可用于极度偏态、小样本总体方差不齐, ,总体分布型未知的探究性研究, ,以及无确切值表述的超限值资料分析等。但若资料适用参数检验时, ,采纳非参数检验分析, ,常会损失部分信息。 感谢您的聆听!感谢您的聆听!