1、卡方检验基础四格表卡方检验配对卡方检验与一致性检验两分类变量间关联程度的度量分层卡方检验小结v 内容提要 2 2检验是以检验是以 2 2分布为基础的一种假设检验方法,分布为基础的一种假设检验方法,主要用于分类变量,根据样本数据推断总体的分布主要用于分类变量,根据样本数据推断总体的分布与期望分布是否有显著差异,或推断两个分类变量与期望分布是否有显著差异,或推断两个分类变量是否相关或相互独立。其原假设为:是否相关或相互独立。其原假设为:H H0 0:观察频数与期望频数没有差别:观察频数与期望频数没有差别卡方检验基础 首先假设H0成立,计算出2值,它表示观察值与理论值之间的偏离程度。根据2分布,2统
2、计量以及自由度可以确定在H0成立的情况下获得当前统计量及更极端情况的概率P。如果P 很小,说明观察值和理论值偏离程度太大,应当拒绝原假设,表示比较资料之间有显著性差异;否则就不能拒绝原假设,尚不能认为样本所代表的实际情况与理论假设有差别。卡方检验基础v 2检验的基本思想 2 2值的计算:值的计算:22()AEE由英国统计学家Karl Pearson首次提出,故被称为Pearson 2。卡方检验基础 当n比较大时,2 统计量近似服从k-1个自由度的2分布。在自由度固定时,每个2值与一个概率值(P 值)相对应,此概率值即为在H0成立的前提下,出现这样一个样本或偏离假设总体更远的样本的概率。如果P
3、值小于或等于显著性水准,则拒绝H0,接受H1,即观察频数与期望频数不一致。如果P 值大于显著性水准,则不拒绝H0,认为观察频数与期望频数无显著性差异。P 值越小,说明H0假设正确的可能性越小;P 值越大,说明H0假设正确的可能性越大。卡方检验基础卡方分布 检验某个连续变量的分布是否与某种理论分布一致,如是否符合正态分布等 检验某个分类变量各类的出现概率是否等于指定概率 检验两个分类变量是否相互独立,如吸烟是否与呼吸道疾病有关 检验控制某种或某几种分类变量因素的作用之后,另两个分类变量是否独立,如上例控制年龄、性别之后,吸烟是否与呼吸道疾病有关 检验两种方法的结果是否一致,如两种诊断方法对同一批
4、人进行诊断,其诊断结果是否一致卡方检验基础用途 例例1 1 某种药物加化疗与单用某种药物治疗的两某种药物加化疗与单用某种药物治疗的两种处理方法,观察对某种癌症的疗效,结果见下种处理方法,观察对某种癌症的疗效,结果见下表。(数据见表。(数据见cancer.savcancer.sav)四格表卡方检验 处理 疗效 合计 有效 无效 药物加化疗 42 13 55 单用药物 48 3 51 合计 90 16 106两种治疗方法的疗效比较首先建立数据文件,如下。四格表卡方检验 注意:由于上表给出的不是原始数据,而是频数表数据,应该进行预处理。四格表卡方检验四格表卡方检验四格表卡方检验四格表卡方检验四格表卡
5、方检验四格表卡方检验结果分析v 表示药物加化疗与单用药物治疗某种癌症的疗效比较的行列表,除了观察值以外,还有期望值。四格表卡方检验结果分析v 此为四格表2检验的结果,26.508,P0.011,差异有显著性意义,即药物加化疗与单用药物治疗癌症的疗效有显著性差异。四格表卡方检验配对卡方检验 在Pearson卡方检验中,对行列变量的相关性作了检验,其中的行列变量是一个事物的两个不同属性。实际应用中,还有一种列联表,其中的行列变量反映的是一个事物的同一属性。例如把每一份标本分为两份,分别用两种方法进行化验,比较两种化验方法的结果是否有本质不同;或分别采用甲、乙两种方法对同一批病人进行检查,比较此两种
6、方法的结果是否有本质不同,此时要用配对卡方检验。例2 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统性红斑狼疮患者血清中抗核抗体进行测定,结果见下表,问两种方法的检测结果有无差别?(数据见McNemar.sav)免疫荧光法 乳胶凝集法 合计 +11 12 23 2 33 35 合计 13 45 58两种方法的检测结果配对卡方检验首先建立数据文件,如下。配对卡方检验配对卡方检验 同理,由于是频数表数据,应该先用weight cases进行预处理。不能忘记哦!在此选入频数变量即可进行下一步的分析。配对卡方检验配对卡方检验配对卡方检验配对卡方检验选中进行配对卡方检验配对卡方检验结果分析在在Pe
7、arson Pearson 卡方检验中,对行变量和列变量的相关性作检卡方检验中,对行变量和列变量的相关性作检验,其中行变量和列变量是一个事物的两个不同属性。验,其中行变量和列变量是一个事物的两个不同属性。在实际中,还有一种列联表,其行变量和列变量反映的是在实际中,还有一种列联表,其行变量和列变量反映的是一个事物的同一属性的相同水平,只是对该属性各水平的一个事物的同一属性的相同水平,只是对该属性各水平的区分方法不同。其特征是:行的数目和列的数目总是相同区分方法不同。其特征是:行的数目和列的数目总是相同的。如果希望检验这两种区分同一属性的方法给出的结果的。如果希望检验这两种区分同一属性的方法给出的
8、结果是否一致,则不应当使用是否一致,则不应当使用Pearson Pearson 2 2检验,而应该采用检验,而应该采用KappaKappa一致性检验对两种方法一致程度进行评价。一致性检验对两种方法一致程度进行评价。一致性检验结果分析v 如果在crosstab过程的 statistics子对话框中勾选上Kappa复选框,则有以下结果:一致性检验 一般认为,当Kappa0.75时,表明两者一致性较好;0.75Kappa 0.4时,表明一致性一般;Kappa0.4时,表明两者一致性较差。一致性检验 注意:Kappa检验会利用列联表的全部信息,而McNemar 检验只会利用非主对角线单元格上的信息。因
9、此,对于一致性较好,即绝大多数数据都在主对角线的大样本列联表,McNemar检验可能会失去实用价值。一致性检验两分类变量间关联程度的度量 2检验可以从定性的角度说明两个变量是否存在关联,当拒绝原假设时,在统计上有把握认为两个变量存在相关。但接下来的问题是,如果两变量之间存在相关性,它们之间的关联程度有多大?针对不同的变量类型,在SPSS中可以计算各种各样的相关指标,而且Crosstabs过程也对此提供了完整的支持,此处只涉及两分类变量间关联程度的指标,更系统的相关程度指标见相关与回归一章。两分类变量间关联程度的度量相对危险度RR:是一个概率的比值,指试验组人群反应阳性概率与对照组人群反应阳性概
10、率的比值。数值为1,表明试验因素与反应阳性无关联;小于1时,表明试验因素导致反应阳性的发生率降低;大于1时,表明试验因素导致反应阳性的发生率增加。优势比OR:是一个比值的比,是反应阳性人群中试验因素有无的比例与反应阴性人群中试验因素有无的比例之比。当关注的事件发生概率比较小时(0.1),优势比可作为相对危险度的近似。两分类变量间关联程度的度量 例3 某次食物中毒,现想通过调查发现,吃某海产品(food)和食物中毒发生(poison)是否具有相关性,以及吃了某食物的人是没吃海产品的人的几倍。数据文件见poison.sav。海鲜食物中毒合计是否吃103040未吃65460合计1684100两分类变
11、量间关联程度的度量两分类变量间关联程度的度量v 分别指定行列变量到Row(s)和Columns中。选中可得到RR值两分类变量间关联程度的度量两分类变量间关联程度的度量结果分析v 这就是两变量的四格表。两分类变量间关联程度的度量结果分析v 这是卡方检验的结果,说明吃食物与食物中毒相关。两分类变量间关联程度的度量结果分析v 结果显示,OR3.00,说明吃了该食物者发生食物中毒的可能性是没有吃该食物者的3.00倍?例例4 4 某研究人员病例对照研究服用某种药物与某研究人员病例对照研究服用某种药物与心肌梗死的关系,考虑到年龄是一个可能混杂的心肌梗死的关系,考虑到年龄是一个可能混杂的因素,因此也将年龄纳
12、入研究,结果如下:因素,因此也将年龄纳入研究,结果如下:分层卡方检验年龄40岁年龄40岁服药未服药服药未服药病例组21261888对照组1759795合计388525183分层卡方检验v选入分层变量center分层卡方检验进行分层卡方检验分层卡方检验v 首先给出的是层间差异的检验,结果显示,不同组别,药物与发病的联系是相同的。结果分析分层卡方检验v 分层卡方检验结果,即考虑了分层因素的影响以后,对年龄与发病的检验结果,共给出一致性2检验和分层 2检验两种结果,前者是后者的改进,可见P 值均小于0.05,即可认为年龄与发病有关。结果分析分层卡方检验v 结果显示,ORMH 值为0.636,表明去除
13、了年龄的混杂效应以后,和未服药相比,服药后发病优势比为0.636,或者说服药后更容易引发心肌梗死。结果分析 1.卡方检验是以2 分布为基础的一种常用假设检验方法,常用作计数资料的显著性检验。其基本思想是:首先假设观察频数与期望频数没有差别。而统计量2 值表示观察值与理论值之间的偏离程度。当n 比较大时,2 统计量近似服从k-1个自由度的2 分布。在自由度固定时,每个2 值与一个概率值相对应,此概率即为在H0假设成立的前提下,出现这样一个样本或更大差别样本的概率。如果P 值小于或等于显著性水准,则应拒绝H0,接受H1。小 结 2.关联程度的测量:卡方检验从定性的角度分析是否存在相关,而各种关联指
14、标从定量的角度分析相关的程度大小。不同的指标适合不同类型的变量。RR值是一个概率的比值,是指试验组人群反应阳性概率与对照组人群反应概率的比值。用于反映试验因素与反应阳性的关联程度。OR值是比值的比。是反应阳性人群中试验因素有无的比例与反应阴性人群中试验因素有无的比例之比。在下列两个条件均满足时,可用于估计RR值:所关注的事件发生概率比较小(0.1),所设计的研究是病例对照研究。小 结 3.Kappa一致性检验对两种方法结果的一致程度进行评价;配对检验则用于分析两种分类方法的分类结果是否有差异。小 结 4.分层卡方检验是把研究对象分解成不同层次,按各层对象来进行行变量与列变量的独立性研究。可在去除分层因素下更准确地对行列变量的独立性进行研究。在SPSS中,交叉表过程的统计量子对话框中选中Cochrans and MantelHaenszel statistics会自动给出分层卡方检验的结果。小 结感谢下感谢下载载