1、第十一章 两变量关联性分析 本章内容本章内容 第一节第一节 线性相关线性相关 第二节第二节 秩相关秩相关 第三节第三节 分类变量的关联性分析分类变量的关联性分析 第一节第一节 线性相关线性相关 一一 线性相关的概念线性相关的概念 线性相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由图11-2散点图直观的说明。目的:研究 两个变量X,Y数量上的依存(或相关)关系。特点:统计关系二、相关系数的意义与计算1.意义:相关意义:相关(correlation c
2、oefficient)又称又称Pearson积差相关系数,用来说明具有直线关积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。系的两变量间相关的密切程度与相关方向。2.计算:计算:样本相关系数的计算公式为样本相关系数的计算公式为22()()()()XYXX YYXXYYlrllXXYY(11-3)例11-2 计算例11-1中凝血酶浓度X与凝血酶时间Y之间样本相关系数。由例11-1得 ,由公式11-3得15114.7iix152114.81iix15n 151224iiy15213368iiy151216.7iiix y22216.7(14.7)(224)/150.92614
3、.81(14.7)/153368(224)/15 相关系数的特点1.相关系数r是一个无量纲的数值,且-1r0为正相关,r0为负相关;3./r/越接近于1,说明相关性越好./r/越接近于0,说明相关性越差.相关系数的统计推断(一)相关系数的假设检验 (11-5)(11-6)0rrrts212rrsn例11-3 继例11-2中算得r=-0926后,试检验相关是否具有统计学意义检验步骤0H:0,1H:0,=0.05 本例 n=15,r=-0.926,由公式(11-4)和公式(11-5)得20.9268.8741(0.926)152rt 13t0.001p 0H1H本例 ,查 界值表得 ,故拒绝 接受
4、 ,认为凝血酶浓度与凝血酶时间之间存在负相关。此结果与查表的结果是一致的。线性相关中应注意的问题 1.样本的相关系数接近零并不意味着两变量间一定无相关性.2.一个变量的数值人为选定时莫作相关.3.出现异常值时甚用相关.4.相关未必真有内在联系.5.分层资料盲目合并易出假象.第二节 秩相关适用条件:资料不服从双变量正态分布而不宜作积差相关分析;总体分布型未知,一端或两端是不确定数值(如10岁,65岁)的资料;原始数据用等级表示的资料。一、Spearman秩相关1.意义:等级相关系数rs用来说明两个变量间直线相关关系的密切程度与相关方向。2.计算公式)1(6122nndrs 例11-4 某地研究2
5、7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见表11-2,试用秩相关进行分析表11-2 急性白血病患儿的血小板(109/L)和出血症状病人编号 血小板数 秩次 p2 出血症状 秩次 q2 pq X p Y q(1)(2)(3)(4)(5)(6)(7)(8)=(3).(6)1 121 1 1 +11.5 132.25 11.52 138 2 4 +9.0 81 183 165 3 9 +7.0 49 214 310 4 16 -3.5 12.25 145 426 5 25 +9.0 81 456 540 6 36 +9.0 81 547 740 7 49 -3.5 2.25 24
6、.58 1060 8 64 -3.5 12.25 289 1260 9 81 -3.5 12.25 31.510 1290 10 100 -3.5 12.25 3511 1438 11 121 +11.5 132.25 126.2512 2004 12 144 -3.5 12.25 42合计 78 650 -78 630 451 利用表利用表11-2中的数据容易算得中的数据容易算得 秩相关系数为负,说明两变量间有负相关关系,秩相关系数为负,说明两变量间有负相关关系,同样由样本算得的秩相关系数是否有统计学意义,同样由样本算得的秩相关系数是否有统计学意义,也应做检验也应做检验143ppl123qq
7、l56pql 560.422143 123pqspp qqlrl l 2秩相关系数的统计推断秩相关系数的统计推断 检验步骤 假设检验假设检验 统计推断统计推断 当当 时,可查书后的时,可查书后的 临界值表,若秩相关临界值表,若秩相关系数超过临界值,则拒绝系数超过临界值,则拒绝 ;当;当 时,也可时,也可采用公式(采用公式(11-5)或()或(11-6)式做)式做 检验检验1:0sH0:0,sH0.050H50n sr50n t例11-5 对例1-4的秩相关系数作假设检验 例11-4中算得 查 临界值表,按 的水准,不能拒绝 ,可以认为急性白血病患儿的出血症状与血小板数之间无相关关系0.442s
8、r sr12,0.10.503srr0.050H第三节第三节 分类变量的关联性分析分类变量的关联性分析 适用条件对定性变量之间的联系通用的方法是根据两个定性变量交叉分类基数所得的频数资料(列联表)作关联性分析,即关于两种属性独立性的卡方检验计算公式22()A TT交叉分类22表的关联分析 例11-6 为观察婴儿腹泻是否与喂养方式有关,某医院儿科随机收集了消化不良的婴儿82例,对每个个体分别观察腹泻与否和喂养方式两种属性,22种结果分类记述如表11-3所示,试分析两种属性的关联性。表11-3婴儿腹泻与喂养方式的关系喂养方式 腹泻合计 有 无人工 30 10 40母乳 17 25 42合计 47
9、35 82 假设检验 :喂养方式与婴儿腹泻之间相互独立 :喂养方式与婴儿腹泻之间有关联将表中各数据代入公式(7-7)得 ,拒绝原假设,说明婴儿腹泻与喂养方式之间存在关联性.0H1H0.0529.98220.005,17.78,0.005p表11-3 婴儿腹泻与喂养方式的关系喂养方式 腹泻 合计 有 无人工 30 10 40 母乳 17 25 42合计 47 35 82二 22配对资料的关联性分析 例11-7 有56份咽喉涂抹标本,把每份标本一分为二,依同样的条件分别接种于甲乙两种白喉杆菌培养基上,观察白喉菌生长的情况,结果如表11-5,问两种培养基的结果有无关联?表11-5 两种白喉杆菌培养结
10、果甲培养基 乙培养基合计+-+22 18 40-2 14 16合计 24 32 56 假设检验 :两种培养基的结果之间互相独立 :两种培养基的结果之间有关联将本例数据代入公式(7-7)得有理由拒绝零假设,可以认为甲、乙两种培养基之间存在关联性0H1H0.0529.983.84,0.05p三 RC表分类资料的关联性分析 例11-8 某地居民主要有三种祖籍,均流行甲状腺肿。为探索甲状腺肿类型与祖籍是否有关联,现根据居民甲状腺肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分类,得表11-6的资料。问甲状腺肿类型与祖籍见有否关联?表11-6 某地居民按甲状腺肿类型与祖籍两种属性的交叉分类表祖籍 甲状腺肿类型合计弥漫型 结节型 混合型甲 486 2 4 492乙 133 260 51 444丙 100 315 85 500合计 719 577 140 1436 假设检验假设检验 :甲状腺类型与祖籍无关甲状腺类型与祖籍无关 :甲状腺类型与祖籍有关联甲状腺类型与祖籍有关联 同样作检验得同样作检验得由由 查查 界值表界值表,拒绝零拒绝零假设假设,说明甲状腺肿类型与祖籍之间有关联性说明甲状腺肿类型与祖籍之间有关联性计算列联系数计算列联系数0H1H0.0529.98(3 1)(3 1)4,2220.005,418.55,0.005p22723.7830.579723.783 1436rn