1、第九章第九章 基于秩次的非参数检验基于秩次的非参数检验Statistical InferencePoint estimationParameter EstimationHypothesis TestParameter EstimationInterval estimationReviewStatistical InferenceNonparametric TestParametric Testt-TestZ-TestAnovaHypothesis TestNonparametric Test2GeheParametric Test1 5 40nT 2检验检验校正校正 2检验检验确切概率法确切概
2、率法四格表资料的假设检验四格表资料的假设检验TTA22)()()()()(22dbcadcbanbcadn40,且,且T5T).|TA(|2250)()()()2/|(|22dbcadcbannbcadn40,且,且1T5n 40,或,或T1应用条件:应用条件:或或R.A.Fisher(1934)前面学习了连续型资料假设检验方法前面学习了连续型资料假设检验方法(t(t检验、方差分析检验、方差分析) ):配对配对t t检验、单样本检验、单样本t t检验、两独立样本检验、两独立样本t t检验、方差分析检验、方差分析 如果各样本所来自总体的分布不清、已知不服从正态分如果各样本所来自总体的分布不清、已
3、知不服从正态分布或经变量转换后仍不服从正态分布时,如何进行检验呢?布或经变量转换后仍不服从正态分布时,如何进行检验呢? 需要一种不依赖于总体分布类型的检验方法,非参数需要一种不依赖于总体分布类型的检验方法,非参数检验方法检验方法- - 。问题的提出:问题的提出:掌握参数统计、非参数统计的概念;掌握参数统计、非参数统计的概念;掌握非参数统计法的优缺点、适用范围;掌握非参数统计法的优缺点、适用范围;掌握各秩和检验的编秩原则与判断方法。掌握各秩和检验的编秩原则与判断方法。了解秩和检验方法与参数检验方法的检验效了解秩和检验方法与参数检验方法的检验效能的差别。能的差别。学习目标学习目标主要内容主要内容第
4、一节第一节 参数检验与非参数检验参数检验与非参数检验 第二节第二节 单样本及配对设计资料的符号秩和检验单样本及配对设计资料的符号秩和检验第三节第三节 两独立样本比较的秩和检验两独立样本比较的秩和检验第四节第四节 完全随机设计多组比较的秩和检验完全随机设计多组比较的秩和检验第五节第五节 多组相关样本资料比较的秩和检验多组相关样本资料比较的秩和检验第一节第一节 、参数检验与非参数检验、参数检验与非参数检验 1 1、参数统计(、参数统计(parametric testparametric test ) 对于总体分布类型已知的资料,用相应于参对于总体分布类型已知的资料,用相应于参数的统计量来估计参数所
5、在范围或推断参数有无数的统计量来估计参数所在范围或推断参数有无差别的统计方法。如差别的统计方法。如t t检验检验, F, F检验,检验, Z Z检验等检验等 2 2、非参数检验(、非参数检验(nonparametric test nonparametric test ) 对总体分布类型不作要求,而对总体的分布对总体分布类型不作要求,而对总体的分布或分布位置进行检验或分布位置进行检验。亦称任意分布检验(亦称任意分布检验(Distribution-free testDistribution-free test)。xSx961. 非参数统计方法的优缺点非参数统计方法的优缺点非参数检验的缺点非参数检验
6、的缺点非参数统计方法具体适用范围非参数统计方法具体适用范围 1 1、计量非正态资料、计量非正态资料 2 2、极度偏态、分布类型不易确定的资料;、极度偏态、分布类型不易确定的资料; 3 3、等级分组资料;、等级分组资料; 4 4、初筛的资料;、初筛的资料;符合参数统计条件的首先应用参数统计方法符合参数统计条件的首先应用参数统计方法不符合参数统计条件的,经变量变化后符合参数统不符合参数统计条件的,经变量变化后符合参数统计条件了,应用参数统计方法计条件了,应用参数统计方法 若不符合参数统计条件的,应用非参数统计方法若不符合参数统计条件的,应用非参数统计方法. . 第二节第二节 单样本和配对设计资料的
7、符号秩和检验单样本和配对设计资料的符号秩和检验 (Wilcoxon signed rank test)适用资料适用资料1、单样本资料 2、配对的计量非正态资料一、单样本资料的符号秩和检验一、单样本资料的符号秩和检验Wilcoxon signed rank testFrank Wilcoxon(1892-1965) 尿铅含量尿铅含量xi差值差值di秩次秩次尿铅含量尿铅含量xi差值差值d秩次秩次0.62-1.88 -12 113.130.6370.782-1.72-103.270.7782.13-0.37-53.541.0492.48-0.02-14.381.88 12 122.540.0424.
8、381.88 12 132.680.1835.052.55142.730.2346.083.58153.010.51611.278.7716表表1 1 某厂某厂1616名工人与当地正常人的尿铅含量比较名工人与当地正常人的尿铅含量比较例例1 1 已知某地正常人尿铅含量中位数为已知某地正常人尿铅含量中位数为2.5mol/L2.5mol/L资料分析:资料分析: 对上表中的这些差值进行正态性检验,对上表中的这些差值进行正态性检验,P0.05P0.05,因此不满足因此不满足t t检验关于样本来自正态分布的条件。该检验关于样本来自正态分布的条件。该资料应该用非参数统计方法资料应该用非参数统计方法, ,在此
9、选用在此选用 WilcoxonWilcoxon 符符号秩和检验。号秩和检验。 秩次是将数值变量值从小到大,或等级变量值从弱秩次是将数值变量值从小到大,或等级变量值从弱到强所排列的序号到强所排列的序号 基本思想基本思想求求d将将|d|按大小编秩按大小编秩求出正、负秩和求出正、负秩和如果两如果两组结果组结果相同相同H0正负正负d个数应相差不多个数应相差不多正秩和与负秩和相差不大正秩和与负秩和相差不大差数的总体中位数为差数的总体中位数为0,即服,即服从以从以0为中心为中心的对称分布。的对称分布。1检验假设,确定检验水准H0 0:差值的总体中位数等于零,即该工厂工人的尿铅含量与正常人相同H1 1:差值
10、的总体中位数大于零,即该工厂工人的尿铅含量高于正常人 =0.05检验过程:检验过程: 2 2、计算统计量、计算统计量(1 1)求差值)求差值d di i=x=xi i-2.5-2.5(2 2)编秩:按差值的绝对值由小到大编秩,并按差)编秩:按差值的绝对值由小到大编秩,并按差值的正负给秩次加上正负号值的正负给秩次加上正负号(a a)编秩时,若差值为编秩时,若差值为0 0,舍去不计,舍去不计,n-1n-1;(b b)若差值的绝对值相等,称为相持()若差值的绝对值相等,称为相持(tietie),),这时取平均秩次;这时取平均秩次;(c c)求秩和并确定统计量)求秩和并确定统计量T T 分别求出正、负
11、差值秩次之和,分别求出正、负差值秩次之和,T T+ +和和T T- -. .双侧时,双侧时,以绝对值较小者为以绝对值较小者为T T值,即值,即T=min(TT=min(T+ +,T,T- -) );单侧检;单侧检验时,任取验时,任取T T+ +或或T T- -为统计量为统计量T TTLTUTTT TL 或或T TU,则,则P,有,有统计学意义。认为两总体的统计学意义。认为两总体的分布不相同。分布不相同。TLT,无统计学意义。,无统计学意义。认为两总体的分布相同。认为两总体的分布相同。T3 3、确定、确定P P值和作出推断结论。值和作出推断结论。(1 1)查表法,)查表法,T T界值表附表界值表
12、附表9 9(查(查P423P423),判断标准:),判断标准:“内大外等小内大外等小”。内大。内大: :即若即若T T在上下界值范围内,则在上下界值范围内,则P P值大于相应的概率值大于相应的概率; ; 外等小外等小: :若若T T在上下界值范围外在上下界值范围外( (或或等于界值等于界值) ),则,则P P值小于值小于( (或等于或等于) )相应的概率相应的概率. .本例中,T0.05 (16)0.05 (16)=35-101 , 本例T=28 在T0.050.05范围外,P50时)这时可利用秩和分布的正态近似法作出判断。已知H0成立时,近似地有当相同差值较多(当相同差值较多(25%25%)
13、时,应进行校正)时,应进行校正24/1215 . 04/1nnnnnTZ 482412150413 jjCttnnnnnTZ)(.)(式中式中t tj j为第为第j j次相持所含相同秩次的个数。次相持所含相同秩次的个数。正态近似法:正态近似法:n50n50时采用时采用假定有假定有2 2个差值个差值为为1.51.5,3 3个差个差值为值为6 6,5 5个差个差值为值为3 3,则有,则有)55()33()22(3333jjtt二、配对设计资料符号秩和检验二、配对设计资料符号秩和检验(Wilcoxon配对法)配对法)一、适用资料一、适用资料自身对照、异体配对的计量非正态资料自身对照、异体配对的计量非
14、正态资料例例2 某医院检验科试用新旧两种方法检测谷某医院检验科试用新旧两种方法检测谷-丙丙转氨酶,新方法的检测时间由转氨酶,新方法的检测时间由20分钟缩短为分钟缩短为10分钟。用两种方法检测同一份血清,结果分钟。用两种方法检测同一份血清,结果见表见表1第(第(2)、()、(3)栏,问两法测得结果有)栏,问两法测得结果有无差别?无差别?表表2 两种方法测定血清谷两种方法测定血清谷-丙转氨酶(丙转氨酶(nmol/s/L)样品号样品号旧法旧法新法新法差值差值正差值秩正差值秩次次负差值秩负差值秩次次(1)(2)(3)(4)=(2)-(3)(5)(6)16080-2082142152-105.5 632
15、422402148090-105.5 553850-1276212243-3197220227-74895100-52.5 392362003610103843-52.5 2二、检验步骤二、检验步骤 1 1、建立假设、建立假设 H H0 0: :差值总体中位数差值总体中位数M Md d 0 0 H H1 1: :差值总体中位数差值总体中位数M Md d 0 0 0.050.05 2 2、计算统计量、计算统计量T:T:(1 1)求差值)求差值 (2 2)编秩)编秩 编秩编秩原则原则 依差值绝对值大小,从小到大依次编秩,并冠以依差值绝对值大小,从小到大依次编秩,并冠以“+”+”或或“-” -” 号
16、;号; 若差值相等,符号不同,求平均秩,再冠以若差值相等,符号不同,求平均秩,再冠以+ +、- -号;号; 若差值为零,去掉,对子数相应减少。若差值为零,去掉,对子数相应减少。(3 3)正负秩次分别求和,以)正负秩次分别求和,以T T+ +和和T T- -表示表示(4 4)双侧时,以绝对值较小者为)双侧时,以绝对值较小者为T T值,即值,即T=min(TT=min(T+ +,T,T- -) );单侧检验时,任取单侧检验时,任取T T+ +或或T T- -为统计量。为统计量。3 3、确定、确定P P值值 ,做出结论,做出结论 (1 1)查表法:)查表法:5n505n50时,查时,查T T界值表界
17、值表( (p423p423) ) T T0.05(10)0.05(10)=8-47 =8-47 ,本例,本例T=11T=11,在,在T T0.050.05范围内,所以范围内,所以P0.05,P0.05,按所定检验水准,不拒绝按所定检验水准,不拒绝H H0 0, ,故尚不能认为两种故尚不能认为两种方法测定血清中谷方法测定血清中谷- -丙转氨酶含量有差别丙转氨酶含量有差别。 (2 2)正态近似法:)正态近似法:n50n50时时 241215041/./ nnnnnTZ第三节第三节 完全随机设计两样本的秩和检验完全随机设计两样本的秩和检验 (WilcoxonWilcoxon两样本比较法)两样本比较法
18、)适用资料:适用资料:两定量非正态资料两定量非正态资料或两组有序分类(等级)资料。或两组有序分类(等级)资料。一一 、定量变量两组独立样本的秩和检验、定量变量两组独立样本的秩和检验基本思想基本思想任一组秩和不应太大或太小任一组秩和不应太大或太小 假定假定H0成立成立 与平均理论秩和与平均理论秩和 N(N+1)/4 N(N+1)/4 应相差不大应相差不大 混合编秩混合编秩 分别计算两组的秩和分别计算两组的秩和 WilcoxonWilcoxon秩和检验的基本思想总结秩和检验的基本思想总结 假设两总体分布相同,两样本可认为是从同假设两总体分布相同,两样本可认为是从同一总体中抽取的随机样本,将两样本混
19、合后由一总体中抽取的随机样本,将两样本混合后由小到大编秩,分别计算两组的秩和,两组的秩小到大编秩,分别计算两组的秩和,两组的秩和应大小相等,若两组的秩和相差很大,我们和应大小相等,若两组的秩和相差很大,我们就认为无效假设不成立。就认为无效假设不成立。 例例3 3:两种药物杀灭钉螺,每批用:两种药物杀灭钉螺,每批用200-300200-300只活钉螺,用药后清点钉螺的死亡数,只活钉螺,用药后清点钉螺的死亡数,并计算死亡率(并计算死亡率(% %),结果先表),结果先表3 3,试比,试比较两种药物杀灭钉螺的效果有无差别?较两种药物杀灭钉螺的效果有无差别?表3 两种药物杀灭钉螺死亡率比较甲药甲药乙药乙
20、药死亡率死亡率% %秩次秩次死亡率死亡率% %秩次秩次32.532.55.55.516.016.01 135.535.57 722.522.52 240.540.5101026.026.03 340.540.5101028.528.54 449.049.0121232.532.55.55.549.549.5131338.038.08 851.551.5141440.540.51010n n1 1=7=7T T1 1=71.5=71.5n n2 2=7=7T T2 2=33.5=33.5秩和检验的基本思想1410231113121415567891680151413121110415616987
21、6532二、检验步骤二、检验步骤1、建立假设、建立假设 H0:两种药物杀灭钉螺死亡率的总体中位数相两种药物杀灭钉螺死亡率的总体中位数相等等 M1=M2 H1:两种药物杀灭钉螺死亡率的总体中位数不两种药物杀灭钉螺死亡率的总体中位数不相等相等 M1M2 0.052、计算统计量、计算统计量 编秩原则编秩原则 (1)两组数据混合按升序编秩)两组数据混合按升序编秩 (2)如有相同数据在不同组时,求平均秩)如有相同数据在不同组时,求平均秩次。次。 (3)两组数据分别求秩和)两组数据分别求秩和 (4)统计量的确定)统计量的确定 : n1n2, 以以n小者的秩和为统计量小者的秩和为统计量T n1n2,则以任一
22、组秩和为统计量则以任一组秩和为统计量T T1=71.5, T2=33.53 3、确定、确定P P值值 ,做出结论,做出结论 (1)(1)查表法查表法:n:n1 1=10,n=10,n2 2-n-n1 1=1010,n10,n2 2-n-n1 11010时时 12) 1(5 . 02) 1(211NnnNnTZCZZc/NNttCjj33)(1相同秩次较多时,计算出的相同秩次较多时,计算出的Z Z值偏小,应进行校正值偏小,应进行校正 本例n1 1=10, n2 2-n1 1=0 查T表附表10,双侧P=0.05时,T界值范围是3669,T0.010.01界值范围是32-73,而今统计量T=33.
23、5,在T0.010.01界值范围外,故P10,10,用正态近似法:用正态近似法:因本例相同秩次很多因本例相同秩次很多( (超过超过25%)25%),须按下式校正,须按下式校正:C C为校正数,为校正数,t tj j为第为第j j个相同秩次的个数。个相同秩次的个数。5 . 012/ ) 1208(126825 . 02/ ) 1208(828780.512/ ) 1(5 . 02/ ) 1(211 NnnNnTZCZZc8442. 0)208208()2424()5353()2424()107107(1)/()(13333333 NNttCjj544. 08442. 05 . 0 CZZc3、确
24、定、确定P值,做出结论:值,做出结论: 查附表查附表1,Z Z界值表界值表( (或查或查t t界值表自由度为界值表自由度为) ) ,Z0.05/2= 1.96, 故故P0.05。 按按0.05的检验水准,不拒绝的检验水准,不拒绝H0,两种,两种病情病人的疗效差异无统计学意义,尚不病情病人的疗效差异无统计学意义,尚不能认为该药对两种病情的疗效有差别。能认为该药对两种病情的疗效有差别。 第四节第四节 多组独立样本比较的秩和检验多组独立样本比较的秩和检验(Kruskal-Wallis法)法) William Kruskal(1919-2005)W. Allen Wallis (1912-1998)
25、不满足方差分析条件的完全随机设计多组资不满足方差分析条件的完全随机设计多组资料比较,采用料比较,采用Kruskal-Wallis(Kruskal-Wallis-H)秩和检验)秩和检验,相当于方差分析的非参数分析相当于方差分析的非参数分析方法。方法。此法的基本思想:此法的基本思想:如果各组处理效应相同,如果各组处理效应相同,混合编秩号后,各组的秩和应近似相等。混合编秩号后,各组的秩和应近似相等。适用资料适用资料 多组连续变量非正态分布资料多组连续变量非正态分布资料 多组有序(等级分组)资料。多组有序(等级分组)资料。 各组资料各组资料例数可以相等,也可以不等。例数可以相等,也可以不等。一、多组独
26、立样本比较的一、多组独立样本比较的Kruskal-Wallis H检验检验例5s某医院用三种不同方法治疗15例肝癌患者,每种方法各治疗5例。治疗后生存月数见表5第(1)、(3)、(5)栏,问这三种方法对肝癌患者的疗效有无差别?表5 三种方法治疗肝癌患者的生存月数比较检验步骤检验步骤1 1、建立假设、建立假设 H H0 0: :三种方法疗效的总体分布位置相同三种方法疗效的总体分布位置相同 H H1 1: :三种方法疗效的总体分布位置不全相同三种方法疗效的总体分布位置不全相同 0.050.052 2、计算统计量、计算统计量 (1 1) 编秩编秩 各组资料混合按升序编秩各组资料混合按升序编秩 相同数
27、据在不同组时,求平均秩次相同数据在不同组时,求平均秩次 (2 2)各组分别求秩和)各组分别求秩和(3 3)计算统计量)计算统计量 本例本例 131122 NnRNNHii32. 6) 115( 3)526560534() 115(1512222H对对H H的校正的校正: : 当各样本相同秩次较多时(如超过当各样本相同秩次较多时(如超过25%25%),按上式计),按上式计算的算的H H值偏小,应对其进行校正。值偏小,应对其进行校正。 HcHc =H/C =H/C )()(133NNttCjjt tj j为相同秩次的个数为相同秩次的个数3 3、确定、确定P P值,作出推断结论值,作出推断结论 (1
28、 1)若组数若组数k=3k=3,且每组例数,且每组例数n ni i55时时,查,查H H界值表,界值表,判断:判断:H H越大越大,P,P越小越小。 (2 2)若若K3,K3,各各n ni i55,查附表查附表8 8, P P482 482 2界值表。此界值表。此时,时,H H近似服从近似服从=k-1=k-1的的2分布分布, ,判断:判断:H H越大越大,P,P越小。越小。 本例中,各组例数均本例中,各组例数均=5=5,H H近似服从近似服从H H分布,查得分布,查得H H界值为界值为5.785.78,得,得P0.05P3,K3,各各n ni i55,查,查2界值表界值表 此时,此时,H H近
29、似服从近似服从=k-1=k-1的的2分布分布, ,判断判断H H越越大大,P,P越小。越小。本例中,本例中, 各组例数均各组例数均55, H H近似服从近似服从2分布,分布,=k-1=3-1=2=k-1=3-1=2, 查查2界值表,得界值表,得P0.005P5,由v=3-2=1查2界值P0.005,拒绝H0,认为3 3种方法疗法治疗慢性咽炎的效果有差别三、多个样本间的多重比较三、多个样本间的多重比较(Nemenyi(Nemenyi法)法) 当当PP时,拒绝时,拒绝H H0 0, ,接受接受H H1 1,认为各总体分布不同或不,认为各总体分布不同或不全相同,需要做两两比较全相同,需要做两两比较,
30、 ,以推断哪两个总体分布不同以推断哪两个总体分布不同完全随机设计多个样本间的多重比较方法完全随机设计多个样本间的多重比较方法 以上例资料为例比较步骤如下:以上例资料为例比较步骤如下: 1 1、建立假设,确定检验水准、建立假设,确定检验水准 H H0 0: :任两个总体分布相同任两个总体分布相同 H H1 1: :任两个总体的分布不同任两个总体的分布不同 0.050.05 2 2、求统计量、求统计量t t)11()(12)1)(1(|jijinnKNHNNNRRt其中其中 分别为两对比组的平均秩次,分别为两对比组的平均秩次,n ni i,n nj j为对为对比组的样本含量,比组的样本含量,k k
31、为处理组数,为处理组数,N N为各组样本量之和为各组样本量之和,分母为,分母为 的标准误的标准误(1 1)求各组的平均秩和)求各组的平均秩和 甲组甲组 乙组乙组 丙组丙组 jRRi和jRRiiR60.169781322941.196921807007.27030883182121RRR (2)列出两两比较表 表 三组样本秩和的两两比较三组样本秩和的两两比较对比组对比组(1)ni(2)nj(3)(4) t(4)P(5)甲组与甲组与 乙组乙组3089273.664.7420.001甲组与丙组甲组与丙组30878100.476.0620.001乙组与丙组乙组与丙组927826.811.3220.1p
32、0.23 3、确定、确定p p值,做出推断值,做出推断 以以v=v=总例数总例数- -处理组数,查处理组数,查t t界值表,做出推断界值表,做出推断 本例本例v=478-3=475v=478-3=475查查t t界值表,得界值表,得p p如上表如上表 甲组与乙组疗效有差别,乙组与丙组疗效无差别甲组与乙组疗效有差别,乙组与丙组疗效无差别|jRRi 小小 结结 1. 1. 非参数检验在假设检验中不对参数作非参数检验在假设检验中不对参数作明确的推断,也不涉及样本取自何种分布的总明确的推断,也不涉及样本取自何种分布的总体。它的适用范围较广。常用的非参方法较为体。它的适用范围较广。常用的非参方法较为简便。易于理解掌握。当资料适用参数检验方简便。易于理解掌握。当资料适用参数检验方法时,用非参常会损失部分信息,降低检验效法时,用非参常会损失部分信息,降低检验效能。能。