1、,2020/4/6,1,医学统计学 人民卫生出版社,第九章 秩和检验,2020/4/6,2,学习目标 1.掌握:配对设计差值的符号秩检验;成组 设计资料两样本比较的秩和检验; 成组设计多样本比较的秩和检验步骤。 2.熟悉:非参数统计基本概念和特点。 3.了解:指标变量为有序分类变量假设检验应 注意的问题。,2020/4/6,3,第一节 非参数统计的概念,前面讲述的z检验、t检验和F检验是以抽样总体为正态分布以及方差齐性为条件,其统计推断的是两个或多个总体均数(总体参数)是否相等,这类统计方法称为参数统计(parametric statistics)。,2020/4/6,4,但在实际工作中,有些
2、资料不易判定或不符合所要求的分布,因此就需要有这样一些统计方法,它不受由参数所决定的特定分布的限制而适用于任意分布,这类统计方法称为非参数统计(non-parametric Statistics)或称不拘分布(distribution-free)的统计。,2020/4/6,5,不依赖于总体分布类型,不考虑总体参数,而对总体的分布或分布位置进行假设检验的方法称为非参数检验方法(nonparametric test)。这类检验方法又称为任意分布或不拘分布检验(distribution-free test)。,2020/4/6,6,非参数检验适用于以下类型的资料 1.有序分类变量资料。 2.偏态分布
3、资料。 3.分布不明的资料。 4.各组方差明显不齐,且不易变换达到齐性。 5.组内个别观察值偏离过大的资料。 6.开口分组资料。,2020/4/6,7,第二节 配对设计资料的符号秩和检验 Wilcoxon于1945年提出的符号秩和检验(wilcoxon signed-rank test)亦称为差数秩和检验,可用于推断总体中位数是否等于某个特值,还可用于配对样本差值的总体中位数是否为0。,2020/4/6,8,配对资料的秩和检验的方法、步骤 1.建立检验假设,确定检验水准 H0:差值的总体中位数Md=0 H1:差值的总体中位数 Md0,=0.05,2.计算统计量 (1)计算差值 d=x-y或d=
4、y-x,2020/4/6,9,(2)编秩次 配对资料秩和检验的编秩原则 1.遇差值为0时,弃去不计,对子数n也随之 减少; 2.遇有差值相等,符号相同时,按顺序编秩 次并标上相应的正负号; 3.遇有差值相同,但符号不同时,要取平均 秩次并分别标上相应的正负号。 且总秩和为n(n+1)/2,2020/4/6,10,(3)求秩和:分别求出T+和T-,取绝对值较小者作为统计量T值。且正负秩次之和应等于n(n+1)/2。,3.确定P值,作出推断结论 (1)查表法 当n50时,查附表9,T界值表。若检验统计量T值在上、下界值范围内,则P,差异无统计学意义;若T值恰等于上、下界值或在界值的范围以外,则P,
5、差异有统计学意义。,2020/4/6,11,(9-1),当相同差数(不包括差数为0者)的个数较多时,用公式(9-1)求得z值偏小,宜改用(9-2)校正公式。,(9-2),(2)正态近似法 当n50超出了附表9,T界值表的范围,可按公式(9-1)计算z值。,式中tj为第j(j=1,2,)个相同差值的个数。,2020/4/6,12,例9-1 某研究者欲研究保健食品对小鼠抗疲劳作用,将同种属的小鼠按性别和年龄相同、体重相近配成对子,共10对,并将每对中的两只小鼠随机分到保健食品两个不同的剂量组,过一定时期将小鼠杀死,测得其肝糖原含量(mg/100g),结果如表9-1,问不同剂量组的小鼠肝糖原含量有无
6、差别?,2020/4/6,13,表9-1 不同剂量组小鼠肝糖原含量(mg/100g),2020/4/6,14,解:1.建立检验假设,确定检验水准 H0:差值的总体中位数Md=0 H1:差值的总体中位数 Md0 =0.05 2.计算统计量 (1)求差值 见表9-1第(4)栏。 (2)编秩次 本例差值的绝对值有两个2,它们的位次为1和2,取平均秩次为(1+2)/2=1.5。 (3)求秩和并确定检验统计量T值 T+=48.5,T=6.5,其和为55,而10(10+1)/2=55, T+,T计算无误。T=min(T+,T-)=6.5。,2020/4/6,15,3.确定P值,作出推断结论 本例n=10,
7、T=6.5,查附表9,T界值表,双侧T0.05,10为847,故P0.05。按=0.05的水准,拒绝H0,接受H1,差异有统计学意义。可以认为该保健食品的不同剂量对小鼠肝糖原含量的作用不同,高剂量组较高。,2020/4/6,16,第三节 两组独立样本比较的秩和检验 两样本比较的秩和检验(Wilcoxon两样本比较法)适用于完全随机设计两组数值变量资料和有序分类变量资料的比较,用于推断两样本分别代表的总体分布是否不同。,2020/4/6,17,检验步骤 1.建立检验假设,确定检验水准 H0:两总体分布相同 H1:两总体分布不同 =0.05 2.计算统计量 (1)编秩次:两样本观察值从小到大分组排
8、列、统一编秩,相同数据在不同组时取平均秩次。,2020/4/6,18,(2)求秩和,确定统计量T:两组秩次分别相加。若两组例数相等,取任一组的秩和为统计量T;若两组倒数不等,则以样本例数较少者n1对应的秩和为统计量T,若n1= n2,可取任一组的秩和为T 。 有序分类变量资料 ,应首先根据各等级的合计例数,确定每个等级的秩次范围和平均秩次,再根据每组各等级的例数和对应的平均秩次求各组的秩和。,2020/4/6,19,3.确定P值,做出推断结论 (1)查表法 当n1 10,n2-n110时查附表10,T界值表。查表时,若统计量T值在某一行的上界值、下界值范围内,则P,差异无统计学意义;若T值恰等
9、于上界值、下界值或在界值的范围以外,则P ,差异有统计学意义。,2020/4/6,20,(2)公式法 当n1或n2n1超出附表10的范围,可按公式(9-4)求统计量z值。,(9-4),式中N= n1+ n2。当相同的秩次较多时(超过25%),应按公式(9-5)对z值进行校正,z值经校正后略大,P值相应减少。,(9-5),式中,,tj为第j个相同秩次的个数。,2020/4/6,21,一、两组数值变量资料的秩和检验,例9-2 测得铅作业与非铅作业工人的血铅值(mol/L)如表9-2第(1)、(2)栏,问铅作业工人的血铅值是否高于非铅作业工人血铅值?,2020/4/6,22,表9-2 两组工人血铅值
10、的秩和检验,2020/4/6,23,1.建立检验假设,确定检验水准 H0:两组工人血铅值的总体分布位置相同 H1:铅作业组工人血铅值高于非铅作业组 单侧=0.05 2.计算检验统计量T值 (1)编秩 本例两组各有一个0.86,原秩次为10和11,各取平均秩次(10+11)/2=10.5。 (2)求秩和并确定检验统计量T值 本例n1=7,n2=10,检验统计量T=93.5。 且93.5+59.5=17(17+1)/2=153。计算正确,2020/4/6,24,3.确定P值,并作出推断结论 本例T93.5,以n1=7,n2n13,查附表10,T界值表,单侧T0.005(7,3)为3789,现T值在
11、此范围以外,故P0.005。按单侧=0.05,拒绝H0,接受H1,差异有统计学意义。故可认为两组工人血铅值的总体分布位置不同,铅作业工人的血铅值高于非铅作业工人。,2020/4/6,25,二、两组有序分类变量资料的秩和检验 例9-3用某药治疗不同病情的老年慢性支气管炎病人,不同疗效人数见表9-3第(2)、(3)栏,问该药对两种病情的疗效有无差别?,2020/4/6,26,表9-3 某药对支气管炎两种病情疗效的秩和检验,2020/4/6,27,解:1.建立检验假设,确定检验水准 H0:两种病情病人的疗效总体分布位置相同 H1:两种病情病人的疗效总体分布位置不同 =0.05 2.计算检验统计量T值
12、 (1)编秩 本例为有序分类资料,先计算各等级的合计人数,见第(4)栏,再确定秩次范围。如疗效控制者107例,其秩次范围1107,平均秩次为(1+107)/2=54,依此得第(6)栏。,2020/4/6,28,(2)求两组的秩和 将第(6)栏分别乘以第(2)、(3)栏,相加即得两组各自的秩和,见第(7)、(8)栏合计。用公式(9-3)检查:T1+ T2=8780.5+12955.5=21736, n(n+1)/2=208209/2=21736, 可见计算无误。 (3)计算z值 由于n1=82, 超出了附表10的范围,故需用z检验。本例n1=82, T=8780.5, N=208, 代入公式(9
13、-4),2020/4/6,29,因为每个等级的人数表示相同秩次的个数tj,由于相同秩次过多,故需要按公式(9-5)计算值。,2020/4/6,30,3.确定P值,作出推断结论 查附表2,t界值表(一行),Z0.50/2=0.6745, 现 故P0.50。按=0.05的水准,不拒绝H0, 差异无统计学意义。尚不能认为该药对两种病情的疗效有差别。,2020/4/6,31,指标变量为有序分类变量假设检验应注意的问题 1.两组(或多组)指标变量为有序分类资料的比较,当P,差异有统计学意义时,可分别计算两组(或多组)的平均秩和( )来说明两组(或多组)疗效的总的差别。 2. 指标变量为有序分类资料的行列
14、表,不宜进行 检验,因为行列表在周边合计值不变的情况下,任一调换行或列的位置, 值都不会发生变化。但临床意义发生了明显变化,秩和检验的检验统计量随之发生变化。,2020/4/6,32,第四节 完全随机设计多组独立样本比较的 秩和检验 完全随机设计多个样本比较的秩和检验(Kruskal-Wallis法,即H检验)主要适用于不宜用方差分析检验的多组数值变量资料以及有序分类资料的比较,该检验的目的是推断多组样本分别代表的总体分布是否不同。,2020/4/6,33,检验步骤 1.建立检验假设,确定检验水准 H0:各总体分布相同 H1:各总体分布不同或不全相同 =0.05 2.计算统计量 (1)编秩次:
15、将各组原始数据由小到大分组排列、统一编秩次。遇属于不同组的相同数据时取平均秩次。,2020/4/6,34,(2)求秩和:分别计算各组的秩和Ti。 对于有序分类变量资料,应首先根据各等级的合计例数,确定每个等级的秩次范围和平均秩次,再根据每组各等级的例数和对应的平均秩次求组的秩和。 3.计算统计量H,(9-6),式中,ni为各样本含量,N=ni,2020/4/6,35,当各样本的相同秩次较多时(如超过25%),如等级资料,由公式(9-6)计算得H值偏小,宜用公式(9-7)求校正Hc值。,(9-7),式中,为第j个相同秩次的个数。,2020/4/6,36,3.确定P值,作出推断结论 (1)若组数k
16、=3,每组例数ni5时,可查附表11,H界值表。若H;反之,HH,P。 (2)若组数k3,或每组例数ni 5时,H分布近似服从自由度为=k-1的 分布,可查附表8, 界值表,得P值。,2020/4/6,37,一、多组数值变量资料的秩和检验 例9-4 测得某学校教室内6个采样点不同时段空气中的CO2含量,结果见表9-4第(1)、(3)和(5)栏。问三个不同时段教室里空气中的CO2含量有无差别?,2020/4/6,38,表9-4 某学校教室内不同时段空气中CO2含量(mg/m3),2020/4/6,39,解:1.建立检验假设,确立检验水准 H0:三个不同时段空气中CO2含量总体分布位置 相同 H1
17、:三个不同时段空气中CO2含量总体分布位置 不同或不全相同 2.计算统计检验统计量H值 (1)编秩:表9-4有两个相同的观测值4.45,原顺序为12,13,因为这两个观测值出现在不同组内,所以取平均秩次(12+13)/2=12.5。,2020/4/6,40,(2)求秩和:分别计算各组的秩和,本例R1=21,R2=92.5,R3=57.5,且 总秩和 所以计算无误。 (3)计算H值:根据公式(9-6)计算检验统计 量H值。,2020/4/6,41,3.确定P值,作出推断结论 本例ni均为6,=31=2,查附表8,界值表得:2=10.60,现H=14.9510.60, 故P0.005。按=0.05
18、的水准,拒绝H0,接受H1,差异有统计学意义。可认为该校教室内三个不同时段空气中的CO2含量有差别。,2020/4/6,42,二、多组有序变量资料的秩和检验 例9-5 五种病人阴道涂片按巴氏细胞学分级的检查结果,见表9-5第(1)(6)栏,问五种病人的细胞学分级有无程度上的差别?,2020/4/6,43,巴氏 慢性炎症 不典型增生 原位癌 浸润癌 合计 秩次范围 平均秩次,表9-5 五种病人阴道涂片的细胞学分级比较,2020/4/6,44,解:1.建立检验假设,确定检验水准 H0:五种病人细胞学分级的总体分布位置相同 H1:五种病人细胞学分级的总体分布位置不同或 不全相同 2.计算检验统计量H
19、值 (1)编秩:先计算巴氏分级各等级的合计,见表9-5第(7)栏,再确定秩次范围和计算平均秩,如I型病人40例,其秩次范围140,平均秩次为(1+40)/2=20.5,依次得到表9-5中的第(8)栏、第(9)栏。,2020/4/6,45,(2)求秩和:把表中的第(2)至第(6)栏分别乘第(9)栏相加,得到每组病人的秩和。如(2)栏的秩和R1是用(2)栏各等级的频数与(9)栏平均秩次相乘再求和,即R1=2120.5 466.5=696.5 ,余仿此得各Ri值。 总秩和 所以计算无误。,2020/4/6,46,(3)计算H值 按公式(9-6)计算得:,由于本例每个等级的频数(即相同秩次的个数)较多
20、,需按公式(9-7)计算校正Hc值,2020/4/6,47,3.确定P值,作出推断结论 本例k=5,按=5-14,查附表8,界值表得:2=14.86,现2=195.5314.86, 故P0.005。按=0.05的水准,拒绝H0,接受H1,差异有统计学意义。故可认为五种病人的细胞学分级有程度上的差别。,2020/4/6,48,本章小结 1. 非参数检验是不依赖总体分布类型,也不对总体参数进行推断的一类统计方法。它具有广泛的适应性和较好的稳定性;但若资料符合参数检验条件,用非参数检验会损失部分信息,降低检验效能。 2. 非参数检验方法较多,有秩和检验、符号检验、游程检验等。其中秩和检验是比较系统和完整的一类非参数检验方法。,2020/4/6,49,3. 非参数检验适用于:等级资料;总体分布类型不明的资料;非正态分布的资料;对比组间方差不齐的资料;一端或两端不确切的资料。 4. 秩和检验是将原数据转换为秩次,比较各组秩和的一类非参数检验方法。不同设计类型的秩和检验其编秩、求秩和、计算统计量、确定值的方法有所不同。 5. 此外还需注意,有序分类变量资料运用非参数检验可推断各等级强度的总体差别,而列联表 检验只是比较不同等级频数分布之间的构成比的差别。,2020/4/6,50,Thank You !,
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。