1、 关联性分析关联性分析有两个独立的随机变量:有两个独立的随机变量:例如:例如:父子的身高(父子的身高(X)、儿子的身高()、儿子的身高(Y)特点:特点:1.它们在客观上是有一定联系的;它们在客观上是有一定联系的;2.在观察时是独立地去测量的在观察时是独立地去测量的;X1 Y1、X2 Y2 、X3 Y3、Xn Yn 3.这两个随机变量都服从正态分布;这两个随机变量都服从正态分布;相关分析和回归分析相关分析和回归分析是否有联系,联系的方是否有联系,联系的方向、程度如何?向、程度如何?定量指示相关或关联的定量指示相关或关联的指标:如相关系数指标:如相关系数 定量描述其定量描述其依存关系依存关系回归分
2、析回归分析相关或关联相关或关联依存性依存性(relationship)数学模型:如数学模型:如Y=f(x)回归分析回归分析抽样研究抽样研究保证样本的合格性保证样本的合格性n 随机抽样随机抽样n 保证样本间相互独立保证样本间相互独立如何保证一份作关联性研究的样本合格?如何保证一份作关联性研究的样本合格?关关 联联 性性 分分 析析9.1 9.1 概述概述9.2 9.2 两个连续型随机变量的相关分析两个连续型随机变量的相关分析9.39.3 两个两个分类变量分类变量间的关联分析间的关联分析9.1 概概 述述例例9-1:下表为一项关于儿童健康和发展的研究中下表为一项关于儿童健康和发展的研究中10名学龄
3、儿童的身高和体重资料,试对学龄儿童的身高名学龄儿童的身高和体重资料,试对学龄儿童的身高(cm)和体重()和体重(kg)进行相关分析。)进行相关分析。12345678910 身高身高 X149.4 167.6 146.3 170.7 161.5 164.6 155.5 158.5 149.4 152.4 体重体重 Y30.842.633.144.036.340.832.735.4 33.131.8表表9-1 10名学龄儿童的身高和体重名学龄儿童的身高和体重图图9-1 10名学龄儿童的身高和体重的散点图名学龄儿童的身高和体重的散点图1.散点图散点图 Scatter plot(158.5,35.4)
4、(h)(f)(d)(b)(a)(c)(e)(g)Zero CorrelationPositive CorrelationNegative CorrelationPositive LinearNegative LinearZero CorrelationZero CorrelationCurvilinear relationship散点图能直观地看出两变量是否存在相关关系,故研散点图能直观地看出两变量是否存在相关关系,故研究两变量关系应先绘散点图,再量化两者的关系。究两变量关系应先绘散点图,再量化两者的关系。(h)(f)(d)(b)(a)(c)(e)(g)Zero CorrelationPosi
5、tive CorrelationNegative CorrelationPositive LinearNegative LinearZero CorrelationZero CorrelationCurvilinear relationship散点图能直观地看出两变量是否存在相关关系。故研散点图能直观地看出两变量是否存在相关关系。故研究两变量关系应先绘散点图,再量化两者的关系。究两变量关系应先绘散点图,再量化两者的关系。Linear Relationship 关联关联(association):两个两个分类变量间分类变量间的联系,的联系,则称为则称为。线性相关线性相关(linear corre
6、lation):若两个若两个连连续的随机变量间续的随机变量间存在存在线性联系线性联系,则称为,则称为,也称,也称为简单相关(为简单相关(simple correlation)。)。两个基本概念:两个基本概念:相关的种类相关的种类正相关正相关(positive correlation):在图中若):在图中若Y有随有随X增大而线性上升的趋势,则称为正相关。增大而线性上升的趋势,则称为正相关。负相关负相关(negative correlation):在图中若):在图中若Y有随有随X增大而线性下降的趋势,则称为负相关。增大而线性下降的趋势,则称为负相关。零相关零相关(zero correlation)
7、:在图中若):在图中若Y或或X不随另不随另一变量的改变而改变,则称为零相关。一变量的改变而改变,则称为零相关。非线性相关非线性相关(nonlinear correlation):散点图呈曲散点图呈曲线形状,表明变量间呈曲线相关,不是呈线性相关线形状,表明变量间呈曲线相关,不是呈线性相关关系,也不宜作线性相关分析。关系,也不宜作线性相关分析。线性相关系数线性相关系数 (linear correlation coefficient):):是是定量定量描述两个变量间线性联系的描述两个变量间线性联系的强度强度和和相关方相关方向向的统计学指标;又称的统计学指标;又称PearsonPearson积矩相关系
8、数积矩相关系数(Pearson product moment coefficient),),总体相关系数用总体相关系数用 表示表示样本相关系数用样本相关系数用 r 表示表示表示方法表示方法2.关联强度的指标关联强度的指标 Pearson积矩相关系数积矩相关系数的计算的计算 YYXXXYlllYYXXYYXXr22)()()(即:即:离均差的乘积离均差的乘积假定系独立随机的双正态样本:假定系独立随机的双正态样本:YX0)(yyxxiiXY0)(yyxxiiXYPearson积矩相关系数指示相关的方向:积矩相关系数指示相关的方向:u r0:X和和Y无线性相关或零相关无线性相关或零相关(null c
9、orrelation)u r0:则:则X和和Y线性相关线性相关u r1或或 r-1:完全相关(罕见):完全相关(罕见)u r 0:正相关:正相关u r 0:负相关:负相关YX(a)YX(b)YX(c)Pearson积矩相关系数积矩相关系数(Pearson product moment coefficient)weakSTRO NGSTRO NGCorrelation Coefficient0-11NegativePositiven总体相关系数用总体相关系数用 表示;样本相关系数用表示;样本相关系数用 r 表示;表示;n取值取值-11;0为正相关,为正相关,0为负相关;为负相关;n 越接近于越接
10、近于1,相关性越强;,相关性越强;越接近于越接近于0,相关性越差,相关性越差 相关系数反应线性相关性:相关系数反应线性相关性:正相关正相关 负相关负相关 非线性相关非线性相关例例9-1:计算学龄儿童的身高和体重的样本相关系数。计算学龄儿童的身高和体重的样本相关系数。93.0)()()(22YYXXYYXXr答:答:12345678910 身高身高 X149.4 167.6 146.3 170.7 161.5 164.6 155.5 158.5 149.4 152.4 体重体重 Y30.842.633.144.036.340.832.735.4 33.131.8表表9-1 10名学龄儿童的身高和
11、体重名学龄儿童的身高和体重3.Pearson积矩相关积矩相关系数的假设检验系数的假设检验 t 检验法检验法步骤:步骤:Pearson积矩积矩相关相关系数的假设检验系数的假设检验查表法查表法 (假定系独立、随机的双正态样本)(假定系独立、随机的双正态样本)直接查直接查 r 临界值表临界值表(P581)以自由度以自由度vn2查出查出r 临界值临界值,比较检验统计量,比较检验统计量 值与值与r 临界值,后确定临界值,后确定P值,作统计推断。值,作统计推断。统计量统计量 越大,概率越大,概率 P 越小;越小;统计量统计量 越小,概率越小,概率 P 越大。越大。rrr4.Pearson积矩相关积矩相关系
12、数的区间估计系数的区间估计即:以样本相关系数即:以样本相关系数r 以一定的概率估计总体相以一定的概率估计总体相关系数关系数 的置信区间。的置信区间。步骤:步骤:线性相关分析的步骤线性相关分析的步骤:绘制绘制散点图散点图:1.相关趋势?相关趋势?2.线性的还线性的还是曲线的?是曲线的?3.异常值或强影响点?异常值或强影响点?估计估计Pearson样本相关系数样本相关系数 r对相关系数的对相关系数的假设检验,假设检验,即回答在总即回答在总体中该相关关系是否存在的问题体中该相关关系是否存在的问题参数估计参数估计:以一定的概率估计总体相:以一定的概率估计总体相关系数所在的置信区间关系数所在的置信区间t
13、 检验法检验法YYXXXYlllYYXXYYXXr22)()()(9.2 9.2 两个连续随机变量的相关分析两个连续随机变量的相关分析一、一、Pearson积矩积矩u仅适用于仅适用于两个变量都是随机变量两个变量都是随机变量,并呈现,并呈现线性趋势线性趋势的情形。的情形。u要求要求x、y服从服从联合的双变量正态分布联合的双变量正态分布。u注意样本中的极端值,必要时可剔除或进注意样本中的极端值,必要时可剔除或进行变量变换。行变量变换。适用适用条件条件简单线性相关简单线性相关(simple linar correlation)例例9-1:下表为一项关于儿童健康和发展的研究中下表为一项关于儿童健康和发
14、展的研究中10名学龄儿童的身高和体重资料,试对学龄儿童的身高名学龄儿童的身高和体重资料,试对学龄儿童的身高(cm)和体重()和体重(kg)进行相关分析。)进行相关分析。解解:(1)绘制散点图绘制散点图(2)计算相关系数计算相关系数 r 从整体趋势而言,从整体趋势而言,随着身高的增加,体随着身高的增加,体重呈增加的趋势,二重呈增加的趋势,二者之间可能存在线性者之间可能存在线性相关关系。相关关系。93.012121nininiyyxxxyyyxxyyxxlllr图图9-1 10名学龄儿童的身高和体重的散点图名学龄儿童的身高和体重的散点图(3)假设检验:作总体相关系数假设检验:作总体相关系数=0的检
15、验的检验05.00:;0:10HH 查查t 分布表,分布表,t(0.05/2,8)=2.306,故,故P 0.05,拒绝,拒绝H0,接受,接受H1,可认为学龄儿童的身高与体重之间存在线性相关。,可认为学龄儿童的身高与体重之间存在线性相关。法一:法一:t 检验法检验法 法二:法二:查表法查表法 由由v=10-2=8,查,查 r界值表得界值表得 r(0.05/2,8)=0.632;因统计量;因统计量 r=0.93,故,故P 0.05,接受,接受H1,相关有统计学意义,可认为学,相关有统计学意义,可认为学龄儿童身高与体重之间存在线性相关。龄儿童身高与体重之间存在线性相关。8210,10.721093
16、.0193.021022nrrSrtrr(3)区间估计:区间估计:计算计算95%置信区间置信区间 经反双曲正切变换,得经反双曲正切变换,得 z 的的95%置信区间置信区间为:(为:(0.91,2.39)。)。反变换得相关系数反变换得相关系数的的95%置信区间为:置信区间为:(0.72,0.98)【电脑实现电脑实现】SPSS线性相关分析:线性相关分析:1.数据录入:数据录入:2.作散点图:作散点图:3.读散点图,作线性趋势判断:读散点图,作线性趋势判断:4.作线性相关分析作线性相关分析:Descriptive StatisticsDescriptive Statistics157.5908.36
17、831036.0604.754010身高体重MeanStd.DeviationNCorrelationsCorrelations1.930*.0001010.930*1.0001010Pearson CorrelationSig.(2-tailed)NPearson CorrelationSig.(2-tailed)N身高体重身高体重Correlation is significant at the 0.01 level(2-tailed).*.5.结果及结果输出:结果及结果输出:相关系数及假设检验相关系数及假设检验 【结果报告结果报告】为探讨学龄儿童身高与体重的关系,搜集了为探讨学龄儿童身高
18、与体重的关系,搜集了10名名学龄儿童的相关数据,经分析得以下结论:学龄儿童的相关数据,经分析得以下结论:1.10名儿童身高的均值为名儿童身高的均值为157.6cm,标准差为,标准差为8.4cm;体重的均值为体重的均值为36.1kg,标准差为,标准差为4.8kg;2.从散点图可见,其身高与体重有线性趋势,从散点图可见,其身高与体重有线性趋势,Pearson相关系数相关系数r=0.93(t=7.10,P0.001),总体相关系数的),总体相关系数的可信区间为(可信区间为(0.72,0.98),结果表明:学龄儿童的身),结果表明:学龄儿童的身高和体重之间呈线性正相关。高和体重之间呈线性正相关。小结:
19、小结:线性相关分析线性相关分析的通常有下面三个方面:的通常有下面三个方面:n X和和Y 间是否有联系,是线性还是非间是否有联系,是线性还是非线性联系线性联系?n 正向的还是负向的?正向的还是负向的?n 联系的程度?联系的程度?统计描述统计描述n X和和Y间的线性联系是否有统计学意义?间的线性联系是否有统计学意义?n 就总体而言,联系的程度如何?就总体而言,联系的程度如何?统计推断统计推断n 结合专业知识,如何对结合专业知识,如何对X和和Y间的联系进行解释?间的联系进行解释?统计应用统计应用二二、Spearman秩相关秩相关适用适用条件条件u不服从双变量正态分布的资料不服从双变量正态分布的资料u
20、总体分布类型未知,数据本身有不确定值总体分布类型未知,数据本身有不确定值u或等级资料或等级资料 秩相关秩相关(rank correlation)例例9-2:10名患者参加家庭计划的长度(天)和每名患者参加家庭计划的长度(天)和每名患者每天的费用(元)见名患者每天的费用(元)见下表示,问参加的时间下表示,问参加的时间长度和费用是否相关。长度和费用是否相关。编号编号12345678910时间时间 10150143 25132 65118129 70 92费用费用516122 82262135300 86268203134表表9-2 10名患者参加家庭计划的时间名患者参加家庭计划的时间/d和每名患者
21、每天的费用和每名患者每天的费用/元元独立随机独立随机的双变量资料的双变量资料;目的:讨论两变量时间目的:讨论两变量时间X和费用和费用Y的相关性的相关性;但该资料的两变量均不服从正态分布。但该资料的两变量均不服从正态分布。【案例解析案例解析】秩相关秩相关独立随机独立随机的双变量资料的双变量资料;目的:讨论两变量时间目的:讨论两变量时间X和费用和费用Y的相关性的相关性;但该资料的两变量均不服从正态分布。但该资料的两变量均不服从正态分布。【案例解析案例解析】Spearman 等级等级秩相关秩相关 计算秩相关系数:计算秩相关系数:将两变量将两变量X 和和Y 分别从小到大进行分别从小到大进行编秩编秩:S
22、pearman等级相关系数等级相关系数的计算公式的计算公式:类似与类似与pearson相关系数,不过在此应用的是数据相关系数,不过在此应用的是数据的秩次,而不是原始数据本身。的秩次,而不是原始数据本身。qqpppqslllqqppqqppr22)()()(即:即:770.0)()()(22qqppqqpprs上例题解:上例题解:(3)Spearman秩相关系数的秩相关系数的假设检验:假设检验:05.00:;0:10ssHH t(0.05/2,8)=2.306,故,故P 0.05,拒绝,拒绝H0,接受,接受H1。法一:法一:t 检验法检验法 法二:法二:查表法查表法 由由v=10-2=8,查,查
23、 r界值表得界值表得 r(0.05/2,8)=0.632;因统计量;因统计量 r=-0.707,故,故P 0.05,接受,接受H1,相关有统计学意义,可认为,相关有统计学意义,可认为参加家庭计划的时间长度和每天的费用之间有负相关关系。参加家庭计划的时间长度和每天的费用之间有负相关关系。8210,410.3210707.01707.021022nrrSrtrr【电脑实现电脑实现】SPSS线性相关分析:线性相关分析:1.数据录入:数据录入:2.秩转换:秩转换:3.作散点图:作散点图:4.读散点图,作线性趋势判断:读散点图,作线性趋势判断:5.作线性相关分析作线性相关分析:CorrelationsC
24、orrelations1.000-.770*.0091010-.770*1.000.009.1010Correlation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)N时间费用Spearmans rho时间费用Correlation is significant at the 0.01 level(2-tailed).*.3.结果及结果输出:结果及结果输出:Nonparametric Correlations四、线性相关分析应用中应注意的问题四、线性相关分析应用中应注意的问题只有当两变量有线性趋势时,才能进行线
25、性相只有当两变量有线性趋势时,才能进行线性相关分析。即:根据变量间可能的关系,选择不关分析。即:根据变量间可能的关系,选择不同的相关分析方法。同的相关分析方法。发现和处理异常点发现和处理异常点 1.首先绘制散点图,观察判断两变量间的关系。首先绘制散点图,观察判断两变量间的关系。2.2.线性相关分析要求的两个重要条件线性相关分析要求的两个重要条件线性相关分析仅适用于线性相关分析仅适用于二元正态分布资料二元正态分布资料,否否则需进行变量变换或采用其它计算方法,如秩则需进行变量变换或采用其它计算方法,如秩相关。相关。两个变量都是随机变量两个变量都是随机变量,当一个变量的数值人为当一个变量的数值人为选
26、定时不能做相关分析。选定时不能做相关分析。例:例:为为研究不同温度研究不同温度下兔肺动脉张力,人下兔肺动脉张力,人为选定四个温度,作为选定四个温度,作相关分析。相关分析。3.出现离群值(异常值)时,慎用相关。出现离群值(异常值)时,慎用相关。图图 剔除异常值前后的散点图剔除异常值前后的散点图 举例:儿子身高与树身高的故事。举例:儿子身高与树身高的故事。4.相关关系不一定是因果关系。相关关系不一定是因果关系。儿子身高儿子身高树身高树身高时间时间间接联系间接联系2)简单相关)简单相关=直接联系直接联系-间接联系。间接联系。注意:注意:1)不要抽任意两个变量放在一起算相关系数)不要抽任意两个变量放在
27、一起算相关系数 在专业上,只有两者存在直接联系的变量在专业上,只有两者存在直接联系的变量可能存在联系。可能存在联系。对相关的解释一定要结合专业知识,切不可把任意两对相关的解释一定要结合专业知识,切不可把任意两个变量拉在一起,盲目下结论个变量拉在一起,盲目下结论!(a)(b)5.分层资料盲目合并容易引起假象。分层资料盲目合并容易引起假象。6.“相关分析相关分析”的结果解释的结果解释:统计结论:可推断两变量呈统计结论:可推断两变量呈“线性相关线性相关”的。的。专业结论:不能因此推断两变量在生物学上有专业结论:不能因此推断两变量在生物学上有任何联系,更不能因为呈因果关系。任何联系,更不能因为呈因果关
28、系。(1)如果散点图可见如果散点图可见两随机变量有线性相关趋势两随机变量有线性相关趋势,且,且得到的相关系数得到的相关系数r 经假设检验后也得出拒绝经假设检验后也得出拒绝H0,即即否定总体相关系数否定总体相关系数=0的假设的假设,则:,则:(2)如果两变量经线性相关分析,及假设检验得到如果两变量经线性相关分析,及假设检验得到“不能拒绝总体相关系数不能拒绝总体相关系数=0”的结论时,不要的结论时,不要轻易下轻易下“两变量无关两变量无关”的结论。的结论。2)还要观察散点图,看两变量)还要观察散点图,看两变量1)应首先看样本含量是否足够。即:检验功效是否)应首先看样本含量是否足够。即:检验功效是否足
29、够大。足够大。如果不能进行深入分析,则应下结论:如果不能进行深入分析,则应下结论:“根据目根据目前数据尚不能认为两变量呈线性相关前数据尚不能认为两变量呈线性相关”曲线相关?曲线相关?是否应进行分层分析?是否应进行分层分析?9.2 9.2 两个分类变量间的关联分析两个分类变量间的关联分析 对对两个两个反应属性的反应属性的分类变量,分类变量,若有一份随若有一份随机样本,可作交叉分类的频数表,利用关于独机样本,可作交叉分类的频数表,利用关于独立性的立性的 检验和列联系数表示这两个变量之间检验和列联系数表示这两个变量之间的关联性的关联性(association)。)。2一、交叉分类一、交叉分类22列联
30、表的关联分析列联表的关联分析例例9-3 为观察行为类型与冠心病的关系,某研究组在为观察行为类型与冠心病的关系,某研究组在当地随机调查了当地随机调查了3154名居民,对象按行为类型分为名居民,对象按行为类型分为A型和型和B型。对每个个体分别观察是否为冠心病患者和型。对每个个体分别观察是否为冠心病患者和行为类型两种属性,试分析两种属性的关联性。行为类型两种属性,试分析两种属性的关联性。【资料特点】是关于是关于两个变量两个变量的的一份随机样本一份随机样本。或说:一份随机样本,同时按两种属性分类,形成或说:一份随机样本,同时按两种属性分类,形成一个一个22交叉分类表,也称的交叉分类表,也称的22列联表
31、列联表。目的:目的:冠心病的有无冠心病的有无和和行为方式行为方式两个变量之间的相两个变量之间的相关性,即讨论两个属性概率分布的关系。关性,即讨论两个属性概率分布的关系。如果一种属性的概率分布与另一种属性的概率分布如果一种属性的概率分布与另一种属性的概率分布无关,则称这无关,则称这两种属性相互独立两种属性相互独立(independence),),否否则称这两种属性之间则称这两种属性之间存在关联性存在关联性(association)。关于随机变量独立性的定理关于随机变量独立性的定理:设设X、Y为二维离散型随机变量,则为二维离散型随机变量,则X、Y相互独相互独立的充要条件是:对于任何立的充要条件是:
32、对于任何i、j=1,2,有,有jijiYYXXYYXX,jiij 即:即:22交叉分类资料关联分析的基本思想:交叉分类资料关联分析的基本思想:统计思想:统计思想:从概率角度出发,从概率角度出发,独立独立是指交叉分类表的每是指交叉分类表的每一个格子中同时一个格子中同时具有两种属性的联合概率具有两种属性的联合概率等于等于相应属性相应属性的边计概率的边计概率的乘积。的乘积。即:即:ciriij故,独立性检验实际上就是考察故,独立性检验实际上就是考察 是否成立。是否成立。ciriij1.假设检验证实两变量是否存在关联:假设检验证实两变量是否存在关联:2.计算计算 关联系数关联系数(associatio
33、n coefficient,r)以表示关联的程度:以表示关联的程度:nr22对对22交叉列联表而言,交叉列联表而言,r 介于介于0和和 之间,之间,其数值越大,说明两变量的关联程度越高。其数值越大,说明两变量的关联程度越高。5.0u关于交叉分类资料的独立性检验关于交叉分类资料的独立性检验u比较两独立样本率的假设检验比较两独立样本率的假设检验试区别:试区别:必须注意的是:必须注意的是:这两类问题的这两类问题的研究目的研究目的、设计方案设计方案、数据结数据结构构以及以及最终对结果的解释最终对结果的解释都是不同的。都是不同的。答:答:检验过程:检验过程:【电脑实现电脑实现】SPSS关联性分析:关联性
34、分析:1.数据录入:数据录入:2.加权:加权:3.关联性分析的步骤关联性分析的步骤:Symmetric MeasuresSymmetric Measures.112.0003154Contingency CoefficientNominal by NominalN of Valid CasesValueApprox.Sig.Not assuming the null hypothesis.a.Using the asymptotic standard error assuming the null hypothesis.b.Chi-Square TestsChi-Square Tests39.
35、898b1.00039.0801.00040.9001.000.000.00039.8851.0003154Pearson Chi-SquareContinuity CorrectionaLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesValuedfAsymp.Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)Computed only for a 2x2 tablea.0 cells(.0%)have expected count le
36、ss than 5.The minimum expected count is 127.52.b.4.结果及结果输出:结果及结果输出:行为类型*冠心病 Crosstabulation行为类型*冠心病 CrosstabulationCount17814111589791486156525728973154AB行为类型Total有没有冠心病Total【结果报告结果报告】为探讨冠心病患病与行为类型之间的关联,对为探讨冠心病患病与行为类型之间的关联,对3154例居民进行了分析,结果如下表示:例居民进行了分析,结果如下表示:以以Pearson 独立性检验,独立性检验,=39.900,P0.001,r=0
37、.112。结果表明,冠心病患病与行为类型间存在着。结果表明,冠心病患病与行为类型间存在着一定的联系。一定的联系。22二、二、22配对资料的关联分析配对资料的关联分析例例9-4 研究者对研究者对103例患者进行了影像学检验(例患者进行了影像学检验(A)和生化)和生化检验(检验(B),数据如下,试分析两种检验结果的关联性。),数据如下,试分析两种检验结果的关联性。【资料特点】资料特点】是关于是关于一份随机样本,同时按两种属性分类一份随机样本,同时按两种属性分类 是是22配对资料配对资料。目的:了解两种方法的结果之间目的:了解两种方法的结果之间是否有关联是否有关联。方法:两种属性的关联性分析。方法:
38、两种属性的关联性分析。)()()()(22dbcadcbanbcad检验统计量:检验统计量:答:答:检验过程:检验过程:三、多分类资料的关联分析三、多分类资料的关联分析例例9-5 有人在某地随机抽取有人在某地随机抽取2500名居民,记录其民族与血名居民,记录其民族与血型,资料见下表,试问民族和血型是否有关?型,资料见下表,试问民族和血型是否有关?【资料特点】【资料特点】多组资料的关联设计:一份样本,按两种属性交多组资料的关联设计:一份样本,按两种属性交叉分类,统计频数叉分类,统计频数。目的:了解两种属性间是否有关联。目的:了解两种属性间是否有关联。方法:方法:多组资料多组资料两种属性的关联性分
39、析。两种属性的关联性分析。检验统计量:检验统计量:RicjjiijmnAn11221多分类资料的多分类资料的 关联系数关联系数:nr22对多分类资料列联表而言,对多分类资料列联表而言,r 介于介于0和和 之间,其数值越大,说明两变量的关联程度越之间,其数值越大,说明两变量的关联程度越高。高。),min(11CR答:答:检验过程:检验过程:【电脑实现电脑实现】SPSS关联性分析:关联性分析:1.数据录入:数据录入:2.加权:加权:3.关联性分析关联性分析:4.结果及结果输出:结果及结果输出:四、四、偏相关偏相关 在研究两个事物或现象之间的关系时,要充在研究两个事物或现象之间的关系时,要充分考虑其
40、它事物和现象对两者之间的影响;分考虑其它事物和现象对两者之间的影响;偏相偏相关的优势关的优势就是在排除混杂因素的作用后,再评价就是在排除混杂因素的作用后,再评价两个事物或现象之间的联系。两个事物或现象之间的联系。例:考察消费者信心指数值和年龄的相关性,但考虑家庭例:考察消费者信心指数值和年龄的相关性,但考虑家庭月收入对其有一定的影响。月收入对其有一定的影响。结果输出:结果输出:在控制家庭收入的作用后,消费者总信息指数和年在控制家庭收入的作用后,消费者总信息指数和年龄之间龄之间Pearson相关系数相关系数r=-0.216,经检验有统计学意,经检验有统计学意义义(P=0.009),可以认为二者之
41、间存在负相关关系。),可以认为二者之间存在负相关关系。小小 结结相关是测量变量间的相互联系或关联的指标,要求变相关是测量变量间的相互联系或关联的指标,要求变量资料满足量资料满足独立独立随机随机性。性。在线性相关分析时必须先作散点图,发现有线性趋势在线性相关分析时必须先作散点图,发现有线性趋势后,再作进一步的分析。后,再作进一步的分析。依据不同资料的特点分别采用依据不同资料的特点分别采用Pearson相关分析,相关分析,Spearman秩相关分析,以及分类资料的秩相关分析,以及分类资料的 检验的关联检验的关联分析方法。分析方法。相关和关联是两变量之间在数量上的关联,不能据此相关和关联是两变量之间
42、在数量上的关联,不能据此推论两变量有生物学的联系,或有因果关系。相关有推论两变量有生物学的联系,或有因果关系。相关有可能只是伴随关系。可能只是伴随关系。2两样本资料的关联性分析两样本资料的关联性分析数据类型数据类型定量资料定量资料定性资料定性资料双变量正双变量正态分布态分布非双变量非双变量正态分布正态分布双变量一定双变量一定量一有序分量一有序分类变量资料类变量资料交叉分类交叉分类2222配对配对RC表表两有序两有序分类分类一致性一致性检验检验Pearson积积矩相关矩相关Pearson积矩积矩相关系数相关系数rSpearman秩秩相关相关Spearman秩秩相关系数相关系数rs 系数系数 Cr
43、amer V系数系数 Pearson列联系数列联系数列联相关列联相关Gamma系数系数Gamma法法Kappa一一致性检验致性检验Kappa系数系数12SPSS软件中软件中“相关相关”功能:功能:1.Pearson积矩相关分析积矩相关分析适用条件:两变量呈独立、随机及正态分布的资适用条件:两变量呈独立、随机及正态分布的资料。料。表示方法:相关系数表示方法:相关系数 r注意事项:一定要先绘制散点图,看出两变量间注意事项:一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数。不可用相有线性趋势时,再计算积差相关系数。不可用相关系数检验所得关系数检验所得P值的大小来判断有否线性关系。值的
44、大小来判断有否线性关系。YYXXXYlllYYXXYYXXr22)()()(2.Spearman秩相关分析秩相关分析适用条件:适用条件:两独立、随机变量不满足正态分布的两独立、随机变量不满足正态分布的 等级资料等级资料表示方法:相关系数表示方法:相关系数qqpppqslllqqppqqppr22)()()(3.分类资料的关联分析分类资料的关联分析 检验检验2适用条件适用条件:定性资料(一份随机样本,同时按定性资料(一份随机样本,同时按两种属性分类)两种属性分类),当两变量都是无序分类变量当两变量都是无序分类变量或一个是无序分类变量、另一个是有序分类变或一个是无序分类变量、另一个是有序分类变量时
45、。量时。表示方法:列联系数表示方法:列联系数 nr22案 例 分 析 一案 例 分 析 一案例案例9-2 有研究者欲评价两种量表对某疾病的严有研究者欲评价两种量表对某疾病的严重程度得分的一致性,评分者重程度得分的一致性,评分者A用量表用量表1,评分,评分者者B用量表用量表2,对同一批患者(,对同一批患者(5人)进行了评分,人)进行了评分,结果见教材表结果见教材表9-8,研究者在,研究者在Excel中采用中采用Pearson函数计算了两次评分的相关系数,结果两者相关函数计算了两次评分的相关系数,结果两者相关系数非常之高(系数非常之高(r=0.8663),因此认为,两种量),因此认为,两种量表 得
46、 分 是 一 致 的。表 得 分 是 一 致 的。.请问:请问:该研究的目的与设计方法吻合吗?该研究的目的与设计方法吻合吗?就本例的设计就本例的设计而言,存在任何不妥吗?而言,存在任何不妥吗?本例可否采用本例可否采用Pearson相关相关系数进行计算?系数进行计算?计算的结果正确吗?推论正确吗?计算的结果正确吗?推论正确吗?“相关相关”:1.可以是不同指标间的相关,可以是正可以是不同指标间的相关,可以是正相关,也可以是负相关,只表示变量间的联系。相关,也可以是负相关,只表示变量间的联系。2.一般用一般用“关联性分析关联性分析”来作。来作。“一致一致”:1.讲究同指标、同方向,用基本同值。讲究同
47、指标、同方向,用基本同值。2.用线性回归分析来作。用线性回归分析来作。“相关相关”与与“一致一致”概念上的差别概念上的差别案 例 分 析 二案 例 分 析 二案例案例9-3 有研究者欲研究某药口服量与血药浓度有研究者欲研究某药口服量与血药浓度关系,把口服药物设定为关系,把口服药物设定为1,2.5,5,7.5,10,15,20,30等档次,每档各取等档次,每档各取3只动物(共只动物(共24只)进行试验,只)进行试验,于服药后于服药后1 h抽血检验血药浓度。在抽血检验血药浓度。在SPSS中作散点中作散点图,计算得口服药物量与血药浓度的图,计算得口服药物量与血药浓度的Pearson相关相关系数系数=
48、0.979,经假设检验,经假设检验P0.001,认为口服药物,认为口服药物量与血药浓度呈线性正相关。量与血药浓度呈线性正相关。请问:请问:本例的两个变量各有本例的两个变量各有何特征?可以计算何特征?可以计算Pearson相相关系数吗?若可以,则计算关系数吗?若可以,则计算的方法与步骤有何不妥吗?的方法与步骤有何不妥吗?计算结果正确吗?可以推出计算结果正确吗?可以推出本例的结论吗?本例的结论吗?【最佳选择题最佳选择题】1.积差相关系数的计算公式是积差相关系数的计算公式是_。A.B.C.D.2.相关系数的检验可用相关系数的检验可用 。A.散点图直接观察法代替散点图直接观察法代替 B.t 检验检验
49、C.F 检验检验 D.卡方检验卡方检验 E.以上都可以上都可 3计算积差相关系数要求计算积差相关系数要求_。A.因变量因变量Y是正态变量,而自变量是正态变量,而自变量X可不满足正态的要求可不满足正态的要求 B.自变量自变量X是正态变量,而因变量是正态变量,而因变量Y可不满足正态的要求可不满足正态的要求 C.两变量都要求满足正态分布规律两变量都要求满足正态分布规律 D.两变量只要是测量指标就行两变量只要是测量指标就行 E.因变量因变量Y是定量指标,而自变量是定量指标,而自变量X可是任何类型的数据可是任何类型的数据【思考题思考题】1.应用线性相关分析时应注意哪些问题?应用线性相关分析时应注意哪些问题?2.线性相关分析的基本步骤是什么?线性相关分析的基本步骤是什么?3 线性相关分析中绘制散点图的目的是什么?线性相关分析中绘制散点图的目的是什么?