1、资料的秩和检验资料的秩和检验参数统计和非参数统计参数统计和非参数统计 参数:总体的统计指标称为参数(参数:总体的统计指标称为参数(、)统计量:样本的统计指标叫统计量(统计量:样本的统计指标叫统计量(X、s、p)参数统计:我们介绍的统计推断方法,通常要求样本来自参数统计:我们介绍的统计推断方法,通常要求样本来自正态总体,或方差齐等,在这些假设的基础上,对总体参正态总体,或方差齐等,在这些假设的基础上,对总体参数进行估计和检验,称为参数统计。数进行估计和检验,称为参数统计。非参数统计:有许多资料不符合参数统计的要求,不能用非参数统计:有许多资料不符合参数统计的要求,不能用参数统计的方法进行检验,而
2、需要一种不依赖于总体分布参数统计的方法进行检验,而需要一种不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验,称为非类型,也不对总体参数进行统计推断的假设检验,称为非参数检验。参数检验。参数检验与非参数检验参数检验与非参数检验n在总体的分布类型已知的条件下,对在总体的分布类型已知的条件下,对总体的参数总体的参数进行进行检验,称为检验,称为参数检验参数检验。n在总体的分布类型未知或者不考虑总体的分布的条件在总体的分布类型未知或者不考虑总体的分布的条件下,对下,对总体的分布总体的分布进行检验,称为进行检验,称为非参数检验非参数检验。n适用于任意分布类型的资料,不受总体分布的制约适用于任意分
3、布类型的资料,不受总体分布的制约。秩和检验 非参数检验的方法很多,秩和检验是较常用的,检验效率较高的一种。其基本原理是编秩求和编秩求和。成组资料比较的秩和检验成组资料比较的秩和检验n秩和检验的方法很多。秩和检验的方法很多。以此例说明秩和检验的基本原理。以此例说明秩和检验的基本原理。82页。页。研究不同饲料与雌鼠体重增加的关系研究不同饲料与雌鼠体重增加的关系,问高低蛋白饲料与体重增加有无关系问高低蛋白饲料与体重增加有无关系?高蛋白 低蛋白体重增加秩次体重增加秩次13414 70 11461511810104 6101 511911 85 312412107 7.51611613213107 7.
4、5 94 4 83113 29不同饲料的两组雌鼠在不同饲料的两组雌鼠在8周内所增体重(周内所增体重(g)成组资料比较的秩和检验成组资料比较的秩和检验 若若H0成立,当两组例数相等时,成立,当两组例数相等时,则秩和应近似相等即则秩和应近似相等即T1 T2;当;当两两组例数不相等时,则平均秩秩次应组例数不相等时,则平均秩秩次应近似相等即近似相等即T1/n1 T2/n2;医学研究中的等级资料医学研究中的等级资料n疗疗 效:痊愈、显效、有效、无效、恶化效:痊愈、显效、有效、无效、恶化n化验结果:、化验结果:、+、+n体格发育:下等、中下、中等、中上、上等体格发育:下等、中下、中等、中上、上等n心功能分
5、级:心功能分级:I、II、IIIn文化程度:小学、中学、大学、研究生文化程度:小学、中学、大学、研究生n营养水平:差、一般、好营养水平:差、一般、好等级资料的特点等级资料的特点n既非呈连续分布的定量资料,也非仅按性既非呈连续分布的定量资料,也非仅按性质归属于独立的若干类的定性资料;质归属于独立的若干类的定性资料;n比比“定量定量”粗,而比一般的粗,而比一般的“定性定性”细;细;n等级间既非等距,亦不能度量。等级间既非等距,亦不能度量。8.1 秩次与秩和秩次与秩和 n秩次秩次(rank),秩统计量,秩统计量 是指全部观察值按某种顺序排列的位序;是指全部观察值按某种顺序排列的位序;n秩和秩和(ra
6、nk sum)同组秩次之和。同组秩次之和。例例8.1 编秩编秩 A组:组:、+、+、+、+B组:组:+、+、+、+、+、+A组:组:-+B组:组:+1 2 3 4 5 76 8 9 10 11 12 1 2 4.5 4.5 4.5 8.54.5 8.5 8.5 8.5 11.5 11.5 秩和n A组:组:、+、+、+、+秩和:秩和:1 2 4.5 4.5 4.5 8.5 TA25 n B组:组:+、+、+、+、+、+秩和:秩和:4.5 8.5 8.5 8.5 11.5 11.5 TB53 TA+TB=N(N+1)/2=78n秩次:在一定程度上反映了等级的高低;秩次:在一定程度上反映了等级的高
7、低;n秩和:在一定程度上反映了等级的分布位置。秩和:在一定程度上反映了等级的分布位置。n对等级的分析,转化为对秩次的分析。秩和检验对等级的分析,转化为对秩次的分析。秩和检验就是通过秩次的排列求出秩和,进行假设检验。就是通过秩次的排列求出秩和,进行假设检验。8.2 两样本比较的秩和检验两样本比较的秩和检验n检验假设检验假设 H0:A、B两组等级分布相同;两组等级分布相同;H1:A、B两组等级分布不同两组等级分布不同(相互偏离相互偏离)。=0.05。基本思想n如果如果H0 成立,即两组分布位置相同,成立,即两组分布位置相同,则则A组的实际秩和应接近理论秩和组的实际秩和应接近理论秩和n1(N+1)/
8、2;(B组的实际秩和应接近理论秩和组的实际秩和应接近理论秩和n2(N+1)/2)。或相差不大。或相差不大。n如果相差较大,超出了预定的界值,则可认为如果相差较大,超出了预定的界值,则可认为H0不成立。不成立。A组组 B组组 和和 n实际秩和实际秩和 25 53 78 n理论秩和理论秩和 n1(N+1)/2 n2(N+1)/2 N(N+1)/2 39 39 78n差值差值 14 14 0 抽样误差?抽样误差?n如果如果H0成立,则理论秩和与实际秩和之差纯粹由抽成立,则理论秩和与实际秩和之差纯粹由抽样误差造成。样误差造成。检验结果n如果如果H0成立,则按成立,则按0.05水准,水准,A 组秩和之界
9、值为组秩和之界值为2652。n现现A组的实际秩和为组的实际秩和为25,在界值之外,故拒,在界值之外,故拒绝绝H0,接受,接受H1,认为两组的分布位置不同。,认为两组的分布位置不同。秩和检验的结论判断秩和检验的结论判断nA组的实际秩在界值之外,则拒绝组的实际秩在界值之外,则拒绝H0,接受,接受H1。(小于小于或等于或等于下界,大于下界,大于或等于或等于上界上界)nA组的实际秩在界值之内,则不拒绝组的实际秩在界值之内,则不拒绝H0。(大于下界且小于上界大于下界且小于上界)某药对两种病情的慢性支气管炎病人的疗效比较某药对两种病情的慢性支气管炎病人的疗效比较人数人数 秩和秩和 疗效疗效 喘息型喘息型
10、单纯型单纯型 合计合计 秩次范围秩次范围 平均秩次平均秩次 喘息型喘息型 单纯型单纯型(1)(2)(3)(4)(5)(6)(7)=(2)(6)(8)=(3)(6)治愈治愈 23 60 83 1 83 42 966 2520 显效显效 83 98 181 84264 174 14442 17052 好转好转 65 51 116 265380 322.5 20962.5 16447.5 无效无效 11 12 23 381403 392 4312 4704 合计合计 n1=182 n2=221 403 T1=40682.5 T2=40723.5 nH0:两型老慢支疗效分布相同;nH1:两型老慢支疗效
11、分布不同。n=0.05。n编秩 n求秩和 T1 、T2n确定检验统计量T n110或n2-n110时,正态近似法 12/)1(5.02/)1(211NnnNnTuCuuc)/()(133NNttCjj3669.312/)1403)(221)(182(5.02/)1403(1825.40682u8766.06545042480741881)()(133NNttCjj01.05961.38766.0/3669.3uCuucP0.01,按=0.05水准,拒绝H0,接受H1,差异有统计学意义。可认为复方猪胆胶囊治疗老年性慢性支气管炎喘息型与单纯型的疗效有差别。8.3 多组比较的秩和检验nKruskal
12、-Wallis法n先对所有数据编秩;n求秩和Tn计算 H 统计量;n查 H 界值表,或2界值表,界定 P 值;n作出结论。三种方剂的疗效比较表 8.2 三种复方小叶枇杷治疗老年性慢性支气管炎疗效比较 疗疗效效 例例数数 平平均均 秩秩和和 等等级级 老老复复方方 复复方方 I 复复方方 II 合合计计 秩秩次次范范围围 秩秩次次 老老复复方方 复复方方 I 复复方方 II(1)(2)(3)(4)(5)(6)(7)(8)=(2)(7)(9)=(3)(7)(10)=(4)(7)控控制制 36 4 1 41 141 21.0 756.0 84 21 显显效效 115 18 9 142 42183 1
13、12.5 12937.5 2025 1012.5 好好转转 184 44 25 253 184436 310.0 57040.0 13640 7750 无无效效 47 35 4 86 437522 479.5 22536.5 16782.5 1918 合合计计 382 101 39 522 93270.0 32531.5 10701.5 多组等级比较的检验假设H0:各组总体的等级分布相同;H1:各组总体的等级分布不同或不全相同。=0.05。)1(3)1(122NnRNNHiiH 的校正与2近似n当有相同秩次时,H 需校正:n当 n 较大时,H 近似服从 =k 1 的 2 分布。故可按 2 分布
14、获得概率 P,作出统计推断。33/1()/)CjjHHCCttNN三种方剂的疗效比较H0:三药疗效总体分布相同;H1:三药疗效总体分布不同或不全相同。=0.05。8746.0)1496(3775.1868058181163615.86459)1496(49612222 H8746.0496496)8888()106106()236236()6666(133333 C9354.148746.0/0623.13 CHP=0.00068.4 配对符号秩和检验nWilcoxon符号秩和检验符号秩和检验n计算等级之差值,对差值计算等级之差值,对差值绝对值绝对值进行编秩,并进行编秩,并冠以差值的符号。冠以
15、差值的符号。n查查 T 界值表,或用近似界值表,或用近似 u 检验,计算检验,计算 P 值;值;n界定界定 P 值,作出结论。值,作出结论。符号秩和检验的假设H0:差值的总体中位数为0;H1:差值的总体中位数不为0。=0.05。当n50时,查界值表(附表10)当n50时,用u近似24/)12)(1(5.04/)1(nnnnnTu扁平足疗效例 用配对设计观察两种方法治疗扁平足效果记录如下,问那种方法好。病例号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 A法 好 好 好 好 差 中 好 好 中 差 好 差 好 中 好 中 B法 差 好 差 中 中 差 中 差 中
16、 差 好 差 中 差 中 差两种方法治疗扁平足效果观察 原始记录原始记录 量化值量化值 病例号病例号 A 法法 B 法法 A 法法 B 法法 差差 值值 秩秩 次次 1 好好 差差 3 1 2 10 2 好好 好好 3 3 0 3 好好 差差 3 1 2 10 4 好好 中中 3 2 1 4.5 5 差差 中中 1 2-1-4.5 6 中中 差差 2 1 1 4.5 7 好好 中中 3 2 1 4.5 8 好好 差差 3 1 2 10 9 中中 中中 2 2 0 10 差差 差差 1 1 0 11 好好 好好 3 3 0 12 差差 差差 1 1 0 13 好好 中中 3 2 1 4.5 14
17、 中中 差差 2 1 1 4.5 15 好好 中中 3 2 1 4.5 16 中中 差差 2 1 1 4.5 n建立假设建立假设nH0:两法疗效差值的总体中位数为0;nH1:差值的总体中位数不为0。n建立检验水准建立检验水准n=0.05 n计算检验统计量计算检验统计量n编秩:n求秩和:T=61.5,T=4.5 n确定检验统计量T:T或T作为统计量T n界定界定P 值值n本例T=61.5,T=4.5,已超出附表10中双侧P0.01相对应的界值561,故得P 0.01。n结论结论n按=0.05水准拒绝H0,接受H1,认为两种方法疗效的总体分布不同。结合资料可认为A法优于B法。符号秩和检验的基本思想
18、n总秩和为TN(N+1)/2n如H0成立,则正负各半,T+与 T 均接近 N(N+1)/4。n如果相差太大,超出了事先规定的界值,则H0不成立。符号秩和检验 T 界值表N=11 双侧 单侧 1353 0.10 0.05 10 56 0.05 0.025 7 59 0.02 0.01 5 61 0.01 0.005 间距 40 46 52 5611(11+1)/4=33(理论值)u 的校正n当重复的秩次较多时,u 需要校正:48)(24)12)(1(5.04/)1(3jjttnnnnnTu8.6 秩和检验的正确应用n主要对等级资料进行分析;n秩和检验可用于任意分布(distribution fr
19、ee)的资料;nT检验与H检验的关系 H检验 T检验 K=2 F检验 t检验秩和检验用于定量资料n 计量资料中:n 极度偏态资料,或个别数值偏离过大n 各组离散度相差悬殊n 资料中含有不确定值n 大于5年 n 0.001n 1:1024以上 n 兼有等级和定量性质的资料成组设计两样本比较n如资料满足 t 检验的条件,应该用 t 检验进行分析。此时,如果对这类资料用Wilcoxon秩和检验,实际上是将观察单位的具体数值舍弃不用,只保留了秩次的信息,使检验功效降低;尤其样本含量较小时,降低更加明显。n如资料不满足 t 检验的条件,而用了t 检验,同样降低了检验效能。参数统计和非参数统计优缺点z参数统计优点:对资料的分析利用充分 统计分析的效率高缺点:对资料的要求高 适用范围有限z非参数统计优点:对资料的没有特殊要求 不受分布的影响(偏态、分布不明的资料)不受方差齐性的限制 不受变量类型的影响 不受样本量的影响缺点:检验效率低(易犯型错误)对信息的利用不充分。等级资料秩和检验与卡方的区别n等级资料的形式与计数资料的形式非常相似,所不同在于一个有量的成份,一个无量的成份。人人数数 疗疗效效 喘喘息息型型 单单纯纯型型(1)(2)(3)治治愈愈 23 60 显显效效 83 98 好好转转 65 51 无无效效 11 12 合合计计 n1=182 n2=221