1、预 防 医 学 Preventive Medicine 预防医学教研室预防医学教研室2004.06第十八章第十八章 秩和检验秩和检验蔡泳蔡泳非参数统计的概念非参数统计的概念non-parametric statisticsnon-parametric statistics不知道所研究样本来自总体的分布型或已知总体分布与检验所要求的条件不符,此时可用非参数统计进行假设检验 适用资料:1.总体分布为偏态或分布形式未知2.等级资料3.个别数据偏大或数据的某一端无确定的数值4.各总体方差不齐非参数检验优点:不受总体分布的限定,适用范围广 非参数检验不足之处:符合作参数检验的资料(如两样本均数比较的t检
2、验),如用非参数检验,检验效率低于参数检验。一般犯第二类错误的概率比参数检验大 一、配对资料的符号秩和检验一、配对资料的符号秩和检验(wilcoxonwilcoxon signed rank test signed rank test,又称差数秩和检验又称差数秩和检验)例1 甲乙两方法分别测定某车间空气中CS2的含量如表1问两方法测定结果有无差别表1 甲乙两方法分别测定某车间空气中CS2的含量比较采样 甲法 乙法 差值 秩次 号 +-(1)(2)(3)(4)(5)(6)1 50.7 60.0 -9.3 92 3.3 3.3 0 -3 28.8 30.0 -1.2 4 4 46.2 43.2 3
3、.0 7.55 1.2 2.2 -1.0 3 6 25.5 27.5 -2.0 5 7 2.9 4.9 -2.0 68 5.4 5.0 0.4 19 3.8 3.2 0.6 2 10 1.0 4.0 -3.0 7.5合计 10.5 34.51.建立假设 H0:两方法无差别,即差值的总体中位数 M 0H1:两方法有差别,即差值的总体中位数 M 0=0.05 2.求各对数值的差数3.编秩:按差值的绝对值由小到大编秩,将秩次按差值的正负分两栏 差值的绝对值相等、符号相反时,各取平均秩次;符号相同的相等差值,不必取平均秩次;差值为0,则弃去不计,并从相应的对子数n中减去 4.确定统计量T:分别求正负秩
4、次之和,以绝对值较小者为统计量T,本例T=10.5 5.确定P值,作出推论(1)查表法:用于对子数n 25,查符号秩和检验T界值表 1)若检验统计量T值在上、下界值范围内,其P值大于表上方相应概率水平;若T值在上、下界值上或范围外,则P值等于或小于相应的概率水平2)统计量T值界值,P0.05 统计量T值=界值,P0.05,按照的检验水准,不能拒绝H0,故尚不能认为两法测定空气中CS2的含量有差别(2)正态近似法:对子数n 25,按下式计算u值 24/1215.04/1nnnnnTu当相同秩次较多时,采用校正公式:48241215.0413jjttnnnnnTu式中,tj:第j(j=1,2,)个
5、相同差值的个数,假定差值中有2个4,5个6,3个7,则t1=2,t2=5,t3=3 1503355223333jjjtt二、两组资料的比较 亦称成组设计两样本比较的秩和检验(Wilcoxon两样本比较法)(一)原始数据的两样本比较(一)原始数据的两样本比较 例2 测得铅作业与非铅作业工人的血铅值如表2,问两组工人血铅值有无差别?对于分布状况不明的完全随机设计的两样本比较表2 两组工人的血铅值比较铅作业组 非铅作业组血铅值 秩次 血铅值 秩次0.82 9 0.24 10.87 10.5 0.24 20.97 12 0.29 31.21 14 0.33 41.64 15 0.44 52.08 16
6、 0.58 62.13 17 0.63 7 0.72 8 0.87 10.5 1.01 13n1=7 T=93.5 n2=10 T=59.5对于完全随机设计的两组资料,编秩的方法是把两组数据混合从小到大编秩,不同组的相同数据要取平均秩次,如上表中两0.87在不同组中,本应编秩次10、11,现取平均秩次为10.51.建立假设 H0:两组工人血铅值总体分布 相同 H1:两组工人血铅值总体分布 不相同=0.05 2.编秩 将两组数据分别由小到大排队,并统一编秩,不同组的相同数据取其平均秩次,相同数据在同一组,不用取平均秩次3.求T 当n1n2时,取较小n的秩和为T 当n1=n2时,任取一组的秩和为T
7、 本例n1=7,n2=10,则T=93.5 T4.确定P值,作出推论(1)查表法按n1=7,n2=10查T界值表,得n2-n1=3T0.05(7,3)=45-81 此题T=93.5 超出该范围,则P0.05,铅作业工人与非铅作业工人血铅值的总体分布不同(2)正态近似法如果n1或n2超出T界值表的范围,按下式计算u值:12/15.02/12121211nnnnnnnTu相同秩次出现,使u值偏小,故在相同秩次较多(如超过25%)时,应进行校正,u经校正后略增大,P值相应减小NNttCCuujjc331(二)频数表资料(或等级资料)(二)频数表资料(或等级资料)的两样本比较的两样本比较 例3:20名
8、正常人和32名铅作业工人尿棕色素定性检查结果见下表3,问铅作业工人尿棕色素是否高于正常人?表3 正常人和铅作业工人尿棕色素定性检查结果尿棕 人数色素 正常人 铅作业工人-+3+4(1)假设:H0:两组工人尿棕色素总体分布相同H1:铅作业工人尿棕色素高于正常人=0.05(2)编秩(3)计算检验统计量 由于n1=20,超出查表范围,故需用u检验 12/15.02/12121211nnnnnnnTu1662.412/1322032205.02/1322020083u由于相同秩次过多,使u值偏小,应计算uc进行校正 8599.05252443377121226261133333333NNttCjj49
9、3.48599.01662.4Cuuc(4)确定P值和得出推断结论 uc=4.4932.58,P0.01,故可认为铅作业工人尿棕色素高于正常人 三、成组设计的多组资料 的比较 H 检验(Kruskal-Wallis法)是用于完全随机设计的多个样本比较的非参数法 例4 某地检测大气中SO2的日平均浓度,按照功能区不同设置采样点,结果如下表4,问各功能区SO2的日均浓度有无差别?表4 某地不同功能区SO2浓度比较对照区 工业区 商业区 居民区浓度 秩次 浓度 秩次 浓度 秩次 浓度 秩次10 1 467 9 231 6 338 7 30 2 665 15 501 11 352 830 3 709
10、18 630 13.5 485 1040 4 802 19 669 16 511 12 51 5 851 20 677 17 630 13.5Ri 15 81 63.5 50.5Ni 5 5 5 5各组的秩次相加得到Ri四个功能区的秩和分别为15,81,63.5,50.5Ni为各组的观察数,可以不同1.建立假设H0:四个功能区SO2日均浓度总体分布相同H1:四个功能区SO2日均浓度总体分布不同或不全相同=0.05 2.编秩将各组数据由小到大排列,再将各组数据由小到大统一编秩,不同组的相同数据取其平均秩次,相同数据在同一组内,则不必取平均秩次 3.求各组秩和Ri Ri=各组秩次相加 4.计算统计量 H 值 131122NnRNNHiini为各组观察值个数,inN本例:39.19120355.5055.6358151512020122222H5.确定P值,作出推论组数k=3,每组n5,查P162附表11-3“秩和检验用H界值表”;不符上面条件,按=k-1查2界值表(若最小样本例数不小于5,则H近似服从=k-1的2分布)本例=4-1=3,H=19.39 =7.81故P 0.05四个功能区SO2日均浓度有差别