1、第3章 相关分析 相关分析的任务,是揭示地理要素之间相关分析的任务,是揭示地理要素之间相互关系的密切程度。而地理要素之间相相互关系的密切程度。而地理要素之间相互关系密切程度的测定,主要是通过对相互关系密切程度的测定,主要是通过对相关系数的计算与检验来完成的。关系数的计算与检验来完成的。本节主要内容:两要素之间相关程度的测定多要素间相关程度的测定 简单相关分析是对两个变量之间的相简单相关分析是对两个变量之间的相关程度进行分析。简单相关分析所用的指关程度进行分析。简单相关分析所用的指标称为简单相关系数,又称为标称为简单相关系数,又称为Pearson(皮尔森)相关系数。(皮尔森)相关系数。通常以通常
2、以表示总体的相关系数,以表表示总体的相关系数,以表示样本的相关系数示样本的相关系数(一)相关系数的计算与检验(一)相关系数的计算与检验总体相关系数的定义式是:其中,其中,CovCov(X X,Y Y)是随机变量)是随机变量X X 和和Y Y 的协方的协方差;差;Var(XVar(X)和和Var(YVar(Y)分别为变量分别为变量X X 和和Y Y 的方差。的方差。总体相关系数是反映两变量之间线性相关程度的总体相关系数是反映两变量之间线性相关程度的一种特征值,表现为一个常数。一种特征值,表现为一个常数。样本相关系数的计算样本相关系数的计算 niyixiniiniiniiixyyyxxnyyxxy
3、yxxr112121)(1)()()(yx(3.1.1)两个要素标准化两个要素标准化后的积的平均数后的积的平均数 和和 为两要素的平均值。为两要素的平均值。2111212)1(12212221)222(12)(1111niniixnixnixnnxxnixnixnxxixnixixxixnixixxxLniiniiniinii niniiyniixniyixniiyniixnixniniiyniynininiixniyixy xniyixniiynixniiyixy xyixiynixiyixyiynixixxyL111111111111111111)1()(1)(2112121)(ninii
4、iniiyyynyyyLr样本相关系数 的另一个计算公式为:11122221111r()()nnniiiiiiinnnniiiiiiiinx yxynxxnyy r1r1 相关系数 的取值为:公式(公式(3.1.1)可简化为)可简化为yyLxxLxyLxyr(3.1.2)(1 1)说明)说明 :-1=1-1=/2(或(或p)表明在统计上是显)表明在统计上是显著的。著的。若若/2(或(或p),表明在统计),表明在统计上是不显著的。上是不显著的。SPSS将自动计算将自动计算Pearson简单相关系数、简单相关系数、t统统计量的观测值和对应的概率计量的观测值和对应的概率p值。值。n秩相关系数秩相关系
5、数 又称又称SpearmanSpearman等级相关系数,或顺序相关系等级相关系数,或顺序相关系数数,是将两要素的样本值按数据的大小顺序排列位是将两要素的样本值按数据的大小顺序排列位次,以各次,以各要素样本值的位次要素样本值的位次代替实际数据而求得代替实际数据而求得的一种统计量。的一种统计量。(二)秩相关系数的计算与检验(二)秩相关系数的计算与检验 其中,其中,di=(xi yi),x i 和和i y 分别是两个变分别是两个变量按大小(或优劣等)排位的等级(称为秩),量按大小(或优劣等)排位的等级(称为秩),n 是样本的容量。是样本的容量。)1(61212nndrniixy(3.1.4)与简单
6、相关系数类似,与简单相关系数类似,Spearman 等级相关等级相关系数的取值区间为:系数的取值区间为:1 r s 1。r s为正值时,存在正的等级相关,为正值时,存在正的等级相关,r s取负值取负值时,存在负的等级相关。时,存在负的等级相关。r s=1,表明两个变量的等级完全相同,存在完表明两个变量的等级完全相同,存在完全正相关。全正相关。r s=-1,表明两个变量的等级完全,表明两个变量的等级完全相反,存在完全的负相关。相反,存在完全的负相关。教材中表教材中表3.1.43.1.4给出了给出了20032003年中国大陆各省(直年中国大陆各省(直辖市、自治区)的辖市、自治区)的GDPGDP(x
7、)和总人口()和总人口(y)数据及其)数据及其位次,将数据代入公式(位次,将数据代入公式(3.1.43.1.4),就可以计算它们),就可以计算它们之间的秩相关系数之间的秩相关系数 即:即:GDPGDP(x)与总人口()与总人口(y)之间的等级相关系)之间的等级相关系数为数为0.78470.7847。7784.076029068161)131(316123112iixydr示例:示例:Spearman 等级相关系数检验 Spearman 等级相关系数是根据一定的样本计等级相关系数是根据一定的样本计算的。两个变量的总体是否存在显著的等级相关算的。两个变量的总体是否存在显著的等级相关也需要进行检验。
8、当样本容量也需要进行检验。当样本容量n 大于大于20 时,可利时,可利用以下用以下t 统计量,进行等级相关系数的显著性检验。统计量,进行等级相关系数的显著性检验。总体等级相关系服从自由度为总体等级相关系服从自由度为(n-2)的的t 分布。分布。在给定的显著水平在给定的显著水平下,如按上式计算的下,如按上式计算的t 值值(或者(或者p 值)大于临界值值)大于临界值t /2(n 2)(或(或pCorrelate=Partial(二)复相关系数的计算与检验(二)复相关系数的计算与检验 复相关系数:反映几个要素与某一个要素之间复相关系数:反映几个要素与某一个要素之间的复相关程度的复相关程度 。n 复相
9、关系数的计算复相关系数的计算 当有两个自变量时当有两个自变量时 当有三个自变量时当有三个自变量时(3.1.15))1)(1(11.221212.yyyrrR)1)(1)(1(112.321.2212123.yyyyrrrR(3.1.16)当有当有k个自变量时个自变量时)1)1)(1(1)1.(12.21.2212.12.kykyykyrrrR(3.1.17)复相关系数的性质复相关系数的性质 复相关系数介于复相关系数介于0到到1之间,即之间,即1012.kyR 复相关系数越大,则表明要素(变量)之间的相复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为关程度越密切。复相关系数为
10、1,表示完全相关;,表示完全相关;复相关系数为复相关系数为0,表示完全无关。,表示完全无关。复相关系数必大于或至少等于单相关系数的绝对复相关系数必大于或至少等于单相关系数的绝对值。值。n复相关系数的显著性检验复相关系数的显著性检验 F检验法。其统计量计算公式为检验法。其统计量计算公式为kknRRFkyky11212.212.(3.1.18)例题:在上例中,若以例题:在上例中,若以x4为因变量,为因变量,x1,x2,x3为为自变量,试计算自变量,试计算x4与与x1,x2,x3之间的复相关系数。之间的复相关系数。解:按照公式(解:按照公式(3.1.16)计算)计算 检验:检验:,故复相关达到了,故
11、复相关达到了极显著水平。极显著水平。974.0337.01)(956.01)(579.01(1)1)(1)(1(1222212.4321.42241123.4)rrrR3010.57190.12001.0FF相关分析中应注意的问题相关分析中应注意的问题n相关系数不解释两个变量间的因果关系,它相关系数不解释两个变量间的因果关系,它只是表明了两个变量间互相影响的程度和方只是表明了两个变量间互相影响的程度和方向。向。n有时两变量之间不存在相关关系,但却可能有时两变量之间不存在相关关系,但却可能出现较高的相关系数,要警惕虚假相关导致出现较高的相关系数,要警惕虚假相关导致的错误结论。的错误结论。如何运用
12、如何运用SPSS进行相关分析进行相关分析数据准备:来自历年河南统计年鉴数据准备:来自历年河南统计年鉴年份化肥施用量折纯量d万吨粮食产量d万吨1986148.732545.71987135.582948.41988150.5726631989184.253149.41990213.183303.71991239.73010.31992251.13109.6199328836391994292.473253.81995322.23466.51996345.33839.91997355.33894.71998382.84009.61999399.94253.32000419.54101.520014
13、41.74119.92002468.842102003467.93569.52004493.242602005518.14582文件保存为文件保存为excel格式,文件名格式,文件名相关分析数据相关分析数据CorrelationsCorrelations1.918*.0002020.918*1.0002020Pearson CorrelationSig.(2-tailed)NPearson CorrelationSig.(2-tailed)N化肥施用量折纯量d万吨粮食产量d万吨化肥施用量折纯量d万吨粮食产量d万吨Correlation is significant at the 0.01 le
14、vel(2-tailed).*.CorrelationsCorrelations1.000.997*.0003131.997*1.000.000.3131Correlation CoefficientSig.(2-tailed)NCorrelation CoefficientSig.(2-tailed)N人口排名GDP排名Spearmans rho人口排名GDP排名Correlation is significant at the 0.01 level(2-tailed).*.三种不同的相关系数三种不同的相关系数CorrelationsCorrelations1.000.561.929.891
15、.012.000.0000171717.5611.000.569.536.012.011.0181701717.929.5691.000.861.000.011.0001717017.891.536.8611.000.000.018.000.1717170CorrelationSignificance(2-tailed)dfCorrelationSignificance(2-tailed)dfCorrelationSignificance(2-tailed)dfCorrelationSignificance(2-tailed)df化肥施用量折纯量d万吨大牲畜头数d万头农业机械总动力d万千瓦农村
16、用电量d亿千瓦小时Control Variables粮食产量d万吨化肥施用量折纯量d万吨大牲畜头数d万头农业机械总动力d万千瓦农村用电量d亿千瓦小时回归分析回归分析 回归分析回归分析是对具有相关关系的两个或是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进两个以上变量之间数量变化的一般关系进行测定,确定一个相应的数学表达式,以行测定,确定一个相应的数学表达式,以便从一个已知量来推测另一个未知量,为便从一个已知量来推测另一个未知量,为估计预测提供一个重要的方法。估计预测提供一个重要的方法。回归与相关的区别与联系回归与相关的区别与联系 n 回归分析回归分析和和相关分析相关分析都是研究两个
17、变量相互都是研究两个变量相互关系的分析方法。关系的分析方法。n相关分析相关分析研究两个变量之间相关的方向和相研究两个变量之间相关的方向和相关的密切程度。但是相关分析不能指出两变关的密切程度。但是相关分析不能指出两变量相互关系的具体形式,也无法从一个变量量相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化关系。的变化来推测另一个变量的变化关系。n回归分析回归分析则是通过一定的数学方程来反映变则是通过一定的数学方程来反映变量之间相互关系的具体形式,以便从一个已量之间相互关系的具体形式,以便从一个已知量来推测另一个未知量。为估算预测提供知量来推测另一个未知量。为估算预测提供一个重要的方
18、法。一个重要的方法。n相关分析既可以研究因果关系的现象也可以研究相关分析既可以研究因果关系的现象也可以研究共变的现象,不必确定两变量中谁是自变量,谁共变的现象,不必确定两变量中谁是自变量,谁是因变量。而回归分析是研究两变量具有因果关是因变量。而回归分析是研究两变量具有因果关系的数学形式,因此必须事先确定变量中自变量系的数学形式,因此必须事先确定变量中自变量与因变量的地位。与因变量的地位。n相关分析相关分析中计算相关系数的两变量是对等的,可中计算相关系数的两变量是对等的,可以都是随机变量,改变两变量的地位并不影响相以都是随机变量,改变两变量的地位并不影响相关系数的数值。在关系数的数值。在回归分析
19、回归分析中因变量是随机的,中因变量是随机的,自变量是可控制的解释变量,不是随机变量。因自变量是可控制的解释变量,不是随机变量。因此回归分析只能用自变量来估计因变量,而不允此回归分析只能用自变量来估计因变量,而不允许由因变量来推测自变量许由因变量来推测自变量。n回归分析和相关分析是互相补充、密切联系回归分析和相关分析是互相补充、密切联系的。的。n相关分析需要回归分析来表明现象数量相关相关分析需要回归分析来表明现象数量相关的具体形式,而回归分析则应该建立在相关的具体形式,而回归分析则应该建立在相关分析的基础上。依靠相关分析表明现象的数分析的基础上。依靠相关分析表明现象的数量变化具有密切相关,进行回归分析求其相量变化具有密切相关,进行回归分析求其相关的具体形式才有意义。在相关程度很低的关的具体形式才有意义。在相关程度很低的情况下,回归函数的表达式代表性就很差情况下,回归函数的表达式代表性就很差。欢迎批评指正!