1、.1散点图与线性相关散点图与线性相关9.1相关分析相关分析9.2偏相关分析偏相关分析9.3.2 任何事物的变化都与其他事物是相互任何事物的变化都与其他事物是相互联系和相互影响的,用于描述事物数量联系和相互影响的,用于描述事物数量特征的变量之间自然也存在一定的关系。特征的变量之间自然也存在一定的关系。变量之间的关系归纳起来可以分为两种变量之间的关系归纳起来可以分为两种类型,即函数关系和统计关系。类型,即函数关系和统计关系。.3 当一个变量当一个变量x x取一定值时,另一变量取一定值时,另一变量y y可以按照确定的函数公式取一个确定的可以按照确定的函数公式取一个确定的值,记为值,记为y=f(x)y
2、=f(x),则称,则称y y是是x x的函数,的函数,也就时说也就时说y y与与x x两变量之间存在函数关系。两变量之间存在函数关系。又如,某种商品在其价格不变的情况下,又如,某种商品在其价格不变的情况下,销售额和销售量之间的关系就是一种函销售额和销售量之间的关系就是一种函数关系:销售额数关系:销售额=价格价格销售量。销售量。.4 函数关系是一一对应的确定性关函数关系是一一对应的确定性关系,比较容易分析和测度,可是在现系,比较容易分析和测度,可是在现实中,变量之间的关系往往并不那么实中,变量之间的关系往往并不那么简单。简单。.5 在医药研究中我们常常要分析变量间在医药研究中我们常常要分析变量间
3、的关系,如新生儿年龄与体重、血药的关系,如新生儿年龄与体重、血药浓度与时间关系等。变量之间的关系浓度与时间关系等。变量之间的关系一般可分为确定性的和非确定性的两一般可分为确定性的和非确定性的两大类。大类。我们称这种既有关联又不存在确定性我们称这种既有关联又不存在确定性的关系为的关系为相关关系相关关系(correlation)。)。.6 描述变量之间线性相关程度的强弱,并用描述变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程为相关分析。适当的统计指标表示出来的过程为相关分析。可根据研究的目的不同,或变量的类型不同,可根据研究的目的不同,或变量的类型不同,采用不同的相关分析方法。本章介
4、绍常用的相采用不同的相关分析方法。本章介绍常用的相关分析方法:二元定距变量的相关分析、二元关分析方法:二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析和距离相关定序变量的相关分析、偏相关分析和距离相关分析。分析。.7.8第一节 散点图和线性相关.9.10一、散点图的制作【Graphs(图形)】(图形)】【Legacy Dialogs(旧对话框)】(旧对话框)】【Scatter/Dot(散点图点状图)】(散点图点状图)】.11 例例9-1 某研究者测得某研究者测得84名名10岁男孩的身高、坐高、体岁男孩的身高、坐高、体重、胸围、肩宽、肺活量等重、胸围、肩宽、肺活量等6项生长发育指标进行
5、研项生长发育指标进行研究,观测数据如表究,观测数据如表9-3所示。对该研究问题可采用相所示。对该研究问题可采用相关分析的方法进行研究,首先绘制下列散点图。关分析的方法进行研究,首先绘制下列散点图。(1)绘制身高与体重的简单散点图;)绘制身高与体重的简单散点图;(2)绘制身高与坐高、身高与肩宽的重叠散点图;)绘制身高与坐高、身高与肩宽的重叠散点图;(3)绘制身高、体重与肺活量的散点图矩阵;)绘制身高、体重与肺活量的散点图矩阵;(4)绘制身高、体重与肺活量的三维)绘制身高、体重与肺活量的三维(3D)散点图;散点图;(5)绘制体重的简单点状图。)绘制体重的简单点状图。.12.13.14.15.16.
6、17.18.19.20.21.22.23.24.25.26.27 相关系数的取值范围在相关系数的取值范围在1 1和和+1+1之间,即之间,即1r+11r+1。其中:其中:若若0 0r1r1,表明变量之间存在正相关,表明变量之间存在正相关关系,即两个变量的相随变动方向相同;关系,即两个变量的相随变动方向相同;若若1r1r0 0,表明变量之间存在负相,表明变量之间存在负相关关系,即两个变量的相随变动方向相反;关关系,即两个变量的相随变动方向相反;.28.29.30.31 为了判断为了判断r对对的代表性大小,需要对相关的代表性大小,需要对相关系数进行假设检验。系数进行假设检验。(1 1)首先假设总体
7、相关性为零,即)首先假设总体相关性为零,即 H H0 0:两总体无显著的线性相关关系。:两总体无显著的线性相关关系。(2 2)选择检验统计量。对不同类型的变量应选择检验统计量。对不同类型的变量应采用不同的相关系数,对应也应采用不同的检采用不同的相关系数,对应也应采用不同的检验统计量。具体内容见后面讨论。验统计量。具体内容见后面讨论。.32(3 3)计算相应的)计算相应的p-p-值。值。(4 4)统计判断。如果相伴概率值小于或等于指)统计判断。如果相伴概率值小于或等于指定的显著性水平,则拒绝定的显著性水平,则拒绝H H0 0,认为两总体存在,认为两总体存在显著的线性相关关系;如果相伴概率值大于指
8、显著的线性相关关系;如果相伴概率值大于指定的显著性水平,则不能拒绝定的显著性水平,则不能拒绝H H0 0,认为两总体,认为两总体不存在显著的线性相关关系。不存在显著的线性相关关系。.33在使用相关系数时,应该注意下面几个问题:在使用相关系数时,应该注意下面几个问题:(1)相关分析之前一般要作散点图以观察可)相关分析之前一般要作散点图以观察可能的线性趋势以及数据分布条件,从而选挥能的线性趋势以及数据分布条件,从而选挥恰当的统计量。恰当的统计量。(2)相关系数受变量取值区间大小及样本数)相关系数受变量取值区间大小及样本数目多少的影响比较大。一般来说,如果变量目多少的影响比较大。一般来说,如果变量取
9、值区间小,样本所含数目较少,受抽样误取值区间小,样本所含数目较少,受抽样误差的影响较大,就有可能对本来无关的两种差的影响较大,就有可能对本来无关的两种现象,计算出较大的相关系数,得出错误的现象,计算出较大的相关系数,得出错误的结论。因此,一般计算相关的成对数据的数结论。因此,一般计算相关的成对数据的数目不应少于目不应少于30对。对。.34(3)来自于不同群体且不同质的事物的)来自于不同群体且不同质的事物的相关系数不能进行比较。相关系数不能进行比较。(4)对于不同类型的变量数据,计算相)对于不同类型的变量数据,计算相关系数的方法也不相同。关系数的方法也不相同。.35 在二元变量的相关分析过程中比
10、较在二元变量的相关分析过程中比较常用的几个相关系数是常用的几个相关系数是PearsonPearson简单相简单相关系数、关系数、SpearmanSpearman和和Kendalls tua-bKendalls tua-b等级相关系数。等级相关系数。.36二、常用的不同类型相关系数指标二、常用的不同类型相关系数指标(一)(一)Pearson相关系数相关系数 Pearson相关系数用来度量两数值型变量相关系数用来度量两数值型变量间的线性相关性。其定义为间的线性相关性。其定义为 12211()()()()niiinniiiixxyyrxxyy.37由此可进一步得知由此可进一步得知Pearson相关系
11、数还可以相关系数还可以表示为表示为11()()niiixyxxyyrnSS.38Pearson相关系数的显著性检验的统计量是相关系数的显著性检验的统计量是服从自由度为服从自由度为n2的的t分布的分布的t统计量:统计量:SPSS将自动计算将自动计算Pearson简单相关系数、简单相关系数、t检检验统计量的值和对应的概率验统计量的值和对应的概率P值。值。221rntr-=-.39 PearsonPearson简单相关系数用来衡简单相关系数用来衡量量定距变量间定距变量间的线性关系。的线性关系。例如,例如,“年龄年龄”变量、变量、“收入收入”变量、变量、“成绩成绩”变量等都是典型的定距变量等都是典型的
12、定距变量。变量。如衡量国民收入和居民储蓄存款、如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成身高和体重、高中成绩和高考成绩等变量间的线性相关关系可用绩等变量间的线性相关关系可用PearsonPearson简单相关系数。简单相关系数。.40(二)(二)Spearman相关系数相关系数Spearman相关系数(又称等级相关系数)用来度相关系数(又称等级相关系数)用来度量定序(等级)变量间的线性相关关系。它是利用量定序(等级)变量间的线性相关关系。它是利用两变量的秩次(两变量的秩次(rank)大小作线性相关分析。)大小作线性相关分析。12211()()()()niiiRnkiiiiuuv
13、vruuvv.41该公式还可简化为该公式还可简化为2121(1)niiRDrn n.42.43Spearman相关系数适用条件为相关系数适用条件为(1)两个变量的变量值是以等级次序(秩次)两个变量的变量值是以等级次序(秩次)表示的数据资料;。表示的数据资料;。(2)一个变量的变量值是等级(定序)数据,)一个变量的变量值是等级(定序)数据,另一个变量的变量值是等距或比率数据,另一个变量的变量值是等距或比率数据,且其两总体不要求是正态分布,样本容量且其两总体不要求是正态分布,样本容量n不一定大于不一定大于30。.44 在小样本时,在零假设成立时在小样本时,在零假设成立时Spearman等等级相关系
14、数服从级相关系数服从Spearman分布;分布;在大样本下,在大样本下,Spearman等级相关系数的检等级相关系数的检验统计量为近似服从标准正态分布的验统计量为近似服从标准正态分布的Z统计统计量:量:1Zr n.45 对于定序变量,例如,对于定序变量,例如,“最高学历最高学历”变量变量的的取值是:取值是:1小学及以下、小学及以下、2初中、初中、3高中、高中、中专、技校、中专、技校、4大学专科、大学专科、5大学本科、大学本科、6研究生以上。可以使用研究生以上。可以使用Spearman相关系相关系数来分析。数来分析。.46 显然,显然,Spearman相关系数的应用范围要比相关系数的应用范围要比
15、Pearson相关系数广泛,即使服从相关系数广泛,即使服从Pearson相关系数的数据也可计算相关系数的数据也可计算Spearman相关系相关系数,但统计效能比数,但统计效能比Pearson相关系数要低相关系数要低些。些。Spearman相关系数的突出优点是对数相关系数的突出优点是对数据的总体分布、样本大小都可以不作要求,据的总体分布、样本大小都可以不作要求,缺点是计算精度不高。缺点是计算精度不高。.47(三)(三)Kendall 相关系数相关系数Kendall 相关系数用于反映分类变量相关性的指相关系数用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情形,这种指标,适用于两个变量均
16、为有序分类的情形,这种指标采用非参数检验方法测度变量间的相关关系。标采用非参数检验方法测度变量间的相关关系。P为一致对子数、为一致对子数、Q为不一致对子数为不一致对子数一致即行变量等级高列变量等级也高。一致即行变量等级高列变量等级也高。(1)/2PQn n.48 在小样本下,在小样本下,Kendall 统计量服从统计量服从Kendall分布。分布。在大样本下采用近似服从标准正态分布的在大样本下采用近似服从标准正态分布的Z检验统计量:检验统计量:9(1)2(25)n nZn.49三、相关分析的SPSS操作 例例9-2 对例对例9-1中所考察的中所考察的84名名10岁男岁男孩的身高等孩的身高等6项
17、生长发育指标数据项生长发育指标数据,试作相关分析,试作相关分析,考察这些变量指标间是否具有显著的考察这些变量指标间是否具有显著的线性相关关系。线性相关关系。研究问题研究问题1 1(Pearson相关系数相关系数).50【Analyze(分析)】(分析)】【Correlate(相关)】(相关)】【Bivariate(两变量间相关)】(两变量间相关)】系统会弹出【系统会弹出【Bivariate Correlation(两(两变量间相关)】主对话框,用于设定进行变量间相关)】主对话框,用于设定进行相关分析的变量等。相关分析的变量等。.51.52.53.54.55 研究问题(研究问题(Pearson相
18、关系数相关系数)某班级学生数学和化学的期末考某班级学生数学和化学的期末考试成绩如表试成绩如表6-16-1所示,现要研究该班所示,现要研究该班学生的数学和化学成绩之间是否具有学生的数学和化学成绩之间是否具有相关性。相关性。.56人人 名名数数 学学化化 学学hxh99.0090.00yaju88.0099.00yu65.0070.00shizg89.0078.00hah94.0088.00smith90.0088.00watet79.0075.00jess95.0098.00wish95.0098.00laly80.0099.00john70.0089.00chen89.0098.00david
19、85.0088.00caber50.0060.00marry87.0087.00joke87.0087.00jake86.0088.00herry76.0079.00.57 实现步骤实现步骤.58.59.60结果和讨论结果和讨论.61 如果对变量之间的相关程如果对变量之间的相关程度不需要掌握得那么精确,可度不需要掌握得那么精确,可以通过绘制变量的相关散点图以通过绘制变量的相关散点图来直接判断。仍以上例来说明。来直接判断。仍以上例来说明。.62.63 研究问题(研究问题()某语文老师先后两次对其班级学生同一篇某语文老师先后两次对其班级学生同一篇作文加以评分,两次成绩分别记为变量作文加以评分,两次
20、成绩分别记为变量“作文作文1”1”和和“作文作文2”2”,数据如表,数据如表6-26-2所示。问两次所示。问两次评分的等级相关有多大,是否达到显著水平?评分的等级相关有多大,是否达到显著水平?.64人人 名名作作 文文 1作作 文文 2hxh86.0083.00yaju78.0082.00yu62.0070.00shizg75.0073.00hah89.0092.00smith67.0065.00watet96.0093.00jess80.0085.00wish77.0075.00laly59.0065.00john79.0075.00chen68.0070.00david85.0080.00
21、caber87.0075.00marry75.0080.00joke73.0078.00jake95.0090.00herry88.0090.00.65 实现步骤实现步骤.66结果和讨论结果和讨论.67 二元变量的相关分析在一些情况下无法较二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,为真实准确地反映事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。的关系中实际还包含了平均温度对产量的影
22、响。同时平均降雨量对平均温度也会产生影响。在同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关系数,显然不这种情况下,单纯计算简单相关系数,显然不能准确地反映事物之间地相关关系,而需要在能准确地反映事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问题的。偏相关分析正是用来解决这个问题的。.68 定义:偏相关分析是指当两个变量同时与定义:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。只
23、分析另外两个变量之间相关程度的过程。偏相关分析也称偏相关分析也称净相关分析净相关分析 偏相关分析的工具是计算偏相关系数偏相关分析的工具是计算偏相关系数r r1212,3 3。一、一、统计学上的定义和计算公式统计学上的定义和计算公式.69 利用偏相关系数进行变量间净关系分析通利用偏相关系数进行变量间净关系分析通常需要完成以下两大步骤:常需要完成以下两大步骤:第一,计算样本的偏相关系数。第一,计算样本的偏相关系数。.70.71 第二,对样本来自的两总体是否存在显著的第二,对样本来自的两总体是否存在显著的净相关进行检验推断。净相关进行检验推断。净相关显著性检验的基本步骤是:净相关显著性检验的基本步骤
24、是:(1)提出零假设)提出零假设H0:两总体的偏相关系数:两总体的偏相关系数为为0,即相关性不显著。,即相关性不显著。(2)选择偏相关分析的)选择偏相关分析的t检验统计量:检验统计量:.72.73(3)计算检验统计量的观测值和对应的概率)计算检验统计量的观测值和对应的概率P值。值。(4)统计判断。如果概率)统计判断。如果概率P值小于给定的显值小于给定的显著性水平著性水平,应拒绝零假设,认为两总体的,应拒绝零假设,认为两总体的偏相关系数与偏相关系数与0有显著差异,相关性显著;有显著差异,相关性显著;反之,如果概率反之,如果概率P值大于给定的显著性水平值大于给定的显著性水平,则不拒绝零假设,可以认
25、为两总体的偏,则不拒绝零假设,可以认为两总体的偏相关系数与相关系数与0无显著差异无显著差异,相关性不显著。相关性不显著。.74二、偏相关分析的二、偏相关分析的SPSS操作应用操作应用研究问题研究问题1 1例例9-2 对例对例9-1中研究的中研究的84名名10岁男孩岁男孩6项生长发育指标数据,试进行扣除了身项生长发育指标数据,试进行扣除了身高的影响时坐高、肩宽与肺活量之间的高的影响时坐高、肩宽与肺活量之间的偏相关分析。偏相关分析。.75.76.77.78表表9-18 偏相关系数偏相关系数CorrelationsControl Variables坐高坐高肩宽肩宽肺活量肺活量身高身高坐高坐高Corr
26、elation1.000-.022.087Significance(2-tailed).845.434df08181肩宽肩宽Correlation-.0221.000.362Significance(2-tailed).845.001df81081肺活量肺活量Correlation.087.3621.000Significance(2-tailed).434.001.df81810.79 研究问题研究问题2 2 某农场通过试验取得某农作某农场通过试验取得某农作物产量与春季降雨量和平均温度物产量与春季降雨量和平均温度的数据,如表的数据,如表6-36-3所示。现求降雨所示。现求降雨量对产量的偏相关
27、。量对产量的偏相关。.80产产 量量降降 雨雨 量量温温 度度150.0025.006.00230.0033.008.00300.0045.0010.00450.00105.0013.00480.00111.0014.00500.00115.0016.00550.00120.0017.00580.00120.0018.00600.00125.0018.00600.00130.0020.00.81 实现步骤实现步骤.82.83.84结果和讨论结果和讨论.85一、一、统计学上的定义和计算公式统计学上的定义和计算公式 距离相关分析是对观测量之间或变量之间距离相关分析是对观测量之间或变量之间相似或不相
28、似的程度的一种测量。距离相关分相似或不相似的程度的一种测量。距离相关分析可用于同一变量内部各个取值间,以考察其析可用于同一变量内部各个取值间,以考察其相互接近程度;也可用于变量间,以考察预测相互接近程度;也可用于变量间,以考察预测值对实际值的拟合优度。值对实际值的拟合优度。.86 距离相关分析的结果可以用于其他分析过距离相关分析的结果可以用于其他分析过程。例如,因子分析、聚类分析等,有助于分程。例如,因子分析、聚类分析等,有助于分析复杂的数据集合。析复杂的数据集合。.87 距离相关分析根据统计量不同,分为以下距离相关分析根据统计量不同,分为以下两种。两种。不相似性测量:通过计算样本之间或不相似
29、性测量:通过计算样本之间或变量之间的距离来表示。变量之间的距离来表示。相似性测量:通过计算相似性测量:通过计算PearsonPearson相关系相关系数或数或CosineCosine相关来表示。相关来表示。.88 距离相关分析根据分析对象不同,分为以距离相关分析根据分析对象不同,分为以下两种。下两种。样本间分析:样本和样本之间的距离样本间分析:样本和样本之间的距离相关分析。相关分析。变量间分析:变量和变量之间的距离变量间分析:变量和变量之间的距离相关分析。相关分析。.89 在不相似性测量的距离分析中,根据不同在不相似性测量的距离分析中,根据不同类型的变量,采用不同的统计量进行计算。类型的变量,
30、采用不同的统计量进行计算。(1 1)对连续变量的样本)对连续变量的样本 (x,y)(x,y)进行距离进行距离相关分析时,常用的统计量有以下几种。相关分析时,常用的统计量有以下几种。.90.91.92.93.94.95.96.97.98二、二、SPSS中实现过程中实现过程 距离相关分析分为相似性测量和不相似性距离相关分析分为相似性测量和不相似性测量,也可分为样本间分析和变量间分析。下测量,也可分为样本间分析和变量间分析。下面分别对这面分别对这4 4种情况进行讲解。种情况进行讲解。.99 研究问题研究问题11变量之间的相似性测量分析变量之间的相似性测量分析 对对6 6个标准电子元件的电阻(欧姆)进
31、行个标准电子元件的电阻(欧姆)进行3 3次平行测试,测得结果如表次平行测试,测得结果如表6-46-4所示。问测试所示。问测试结果是否一致。结果是否一致。123456第一次第一次0.1400.1380.1430.1410.1440.137第二次第二次0.1350.1400.1420.1360.1380.140第三次第三次0.1410.1420.1370.1400.1420.143.100 实现步骤实现步骤.101.102.103 .104.105 研究问题研究问题33个案之间的相似性测量分析个案之间的相似性测量分析 某动物一次产下某动物一次产下3 3个幼仔,分别对个幼仔,分别对3 3个幼仔个幼仔
32、的长、体重、四肢总长、头重进行测量,试就的长、体重、四肢总长、头重进行测量,试就这几个测量而言,分析这几个测量而言,分析3 3个幼仔的相似性,数个幼仔的相似性,数据如表据如表6-56-5所示。所示。.106长长体体 重重四四 肢肢 总总 长长头头 重重第一个第一个5021510011第二个第二个5122011012第三个第三个5222011212.107 实现步骤实现步骤.108.109 研究问题研究问题44个案之间的不相似性测个案之间的不相似性测量分析量分析 以问题以问题3 3中的数据为例,求幼仔的不相似程中的数据为例,求幼仔的不相似程度(距离)。度(距离)。.110 实现步骤实现步骤.11
33、1.1126.5.3 结果和讨论结果和讨论 (1 1)研究问题)研究问题1 1的的SPSSSPSS运行结果如下面两运行结果如下面两个表格所示。个表格所示。.113 (2 2)研究问题)研究问题2 2的的SPSSSPSS运行结果如下面两运行结果如下面两个表格所示。个表格所示。.114 (3 3)研究问题)研究问题3 3的的SPSSSPSS运行结果如下面两运行结果如下面两个表格所示。个表格所示。.115 (4 4)研究问题)研究问题4 4的的SPSSSPSS运行结果如下面两运行结果如下面两个表格所示。个表格所示。.116 相关分析即是用适当的统计指标来衡量事相关分析即是用适当的统计指标来衡量事物之
34、间,以及变量之间线性相关程度的强弱。物之间,以及变量之间线性相关程度的强弱。相关分析的方法很多,包括简单相关分析、偏相关分析的方法很多,包括简单相关分析、偏相关分析和距离相关分析。相关分析和距离相关分析。.117 简单相关分析包括定距变量的相关分析和简单相关分析包括定距变量的相关分析和定序变量的相关分析。前者通过计算定距变量定序变量的相关分析。前者通过计算定距变量间的相关系数来判断两个或两个以上定距变量间的相关系数来判断两个或两个以上定距变量之间的相关程度。后者则采用非参数检验的方之间的相关程度。后者则采用非参数检验的方法利用等级相关系数来衡量定序变量之间的相法利用等级相关系数来衡量定序变量之
35、间的相关程度;偏相关分析是指在排除了第三者影响关程度;偏相关分析是指在排除了第三者影响的前提下,衡量两个变量之间的相关程度,当的前提下,衡量两个变量之间的相关程度,当然第三者与这两个变量之间要有一定的联系;然第三者与这两个变量之间要有一定的联系;距离相关分析是对观测变量之间差异度或相似距离相关分析是对观测变量之间差异度或相似程度进行的测量。程度进行的测量。.118 1 1、简单相关分析可通过、简单相关分析可通过 “Analysis”/“Correlate”/“Bivariate”Analysis”/“Correlate”/“Bivariate”子菜单来实现;子菜单来实现;2 2、偏相关分析可通过、偏相关分析可通过“Analysis”/“Correlate”/“Partial”Analysis”/“Correlate”/“Partial”子菜单来实现;子菜单来实现;3 3、距离相关分析通过、距离相关分析通过“Analysis”/“Correlate”/“Distances”Analysis”/“Correlate”/“Distances”子菜单来实现。子菜单来实现。