1、数据相关分析 Correlations 1 相关分析的概念与相关分析过程返回一、函数关系与相关关系q反映现象之间存在着严格严格的依存关系,即当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,这种关系为确定性的函数关系函数关系。q例如,圆周长L与圆半径r之间存在严格的确定性关系,因而两者为函数关系,即 。rL2q当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系相关关系。q它反映现象之间客观存在的、不严格、不确定的相互依存关系。这种关系不能通过个别现象体现其关系的规律性,必须在
2、大量现象中才能体现出来。q例如,身高与体重的关系。二、相关分析与回归分析 q是研究现象之间相关关系的两种基本方法。q相关分析相关分析是用一个指标来表明现象间相互依存关系的密切程度。q回归分析回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。相关分析和回归分析有着密切的联系密切的联系q相关分析需要依靠回归分析来表明现象数量相关的具体形式。q回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。但两者在研究目的和方法上有明显区别明显区别q相关分析研究变量之间相关方向和相关程度;回归分
3、析则研究变量之间相互关系的具体形式。q相关分析不必不必确定自变量与因变量,其所涉及的变量可以都是随机变量;而回归分析则必须必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量。q在应用这两项方法对客观现象进行研究时,一定要始终注意把定性分析和定量分析定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。三、相关分析的基本方法之一绘制散点图 Graphs scatterplot q在SPSS中提供了四种散点图,分别是:简单散点图(Simple)、重叠散点图(Overlay)、矩阵散点图(Matrix)和三维散点图(3-D)qData08-01、08-03四、相关分析的基本方法之二
4、计算相关系数 analyze correlate bivariate 二元变量相关分析主对话框二元变量相关分析主对话框 返回optionsoptions输出选择项对话框输出选择项对话框 返回1.Pearson简单相关系数简单相关系数q用来度量正态分布的定距变量定距变量间的线性相关关系。2.Spearman相关系数相关系数q是非参测度,即根据数据的秩秩而不是根据实际值计算的,即,先对原始变量的数据排秩,根据各秩使用Spearman相关系数公式进行计算。适用于有序数有序数据或不满足正态分布假设的定距变量据或不满足正态分布假设的定距变量。3.Kendalls tua-b等级相关系数等级相关系数q也是
5、非参测度,即对两个有序变量或两个秩变量有序变量或两个秩变量间的关系程度的测度。有关公式:有关公式:niniiiniiixyyyxxyyxxr11221)()()(Pearson积矩相关积矩相关 Spearman相关系数相关系数 22)()()(SSRRSSRRiiiiRS式中式中Ri是第是第i个个x值的秩,值的秩,Si是第是第i个个y值的秩。值的秩。分别是分别是Ri和和Si的平均值。的平均值。返回有关公式:有关公式:Kendalls tau-b:)()sgn()sgn(2010TTTTyyxxjijiji0 if 1 0 if 0 0 if 1)sgn(zzzz2/)1(2/)1(2)/2-(
6、T 210iiiiuuTttTnn;其中其中 ti(或(或ui)是)是x(或(或y)的第)的第i 组结点组结点x(或(或y)值的数目,)值的数目,n为观测量数。为观测量数。返回有关公式:关于相关系数统计意义的检验有关公式:关于相关系数统计意义的检验 212rrnt式中式中r是相关系数,是相关系数,n是样本观测量数,是样本观测量数,n2是自由度。是自由度。当当tt0.05(n-2)时,时,pt0.05(n-k-2)时,时,p0.05拒绝原假拒绝原假设设 零假设:总体中两个变量间的偏相关系数为零假设:总体中两个变量间的偏相关系数为0偏相关分析的主对话框偏相关分析的主对话框analyze analy
7、ze correlate correlate partialpartial 返回偏相关的选择项对话框偏相关的选择项对话框返回零阶相关矩阵,即pearsom相关矩阵偏相关应用实例输出偏相关应用实例输出data08-03 四川绵阳地区3年生中山柏的数据,分析月生长量与月平均气温、月降雨量、月平均日照时数、月平均湿度这四个气候因素哪个因素有关。各变量的描述统计量各变量的描述统计量生长量与各变量间生长量与各变量间PearsonPearson相关分析结果相关分析结果D De es sc cr ri ip pt ti iv ve e S St ta at ti is st ti ic cs s9.4592
8、7.177871298.891734.662621280.25003.360871285.216797.488341215.98337.4991912生长量(cm)月平均日照时数月平均湿度月降雨量(mm)月平均气温(c)MeanStd.DeviationNC Co or rr re el la at ti io on ns s1.983*.709*.704*.374.000.010.011.2321212121212Pearson CorrelationSig.(2-tailed)NVariables生长量(cm)生长量(cm)月平均气温(c)月降雨量(mm)月平均日照时数月平均湿度Corre
9、lation is significant at the 0.01 level(2-tailed).*.Correlation is significant at the 0.05 level(2-tailed).*.返回偏相关分析输出偏相关分析输出2:CorrelationsCorrelations1.000.632.06807.6321.000.068.70CorrelationSignificance(2-tailed)dfCorrelationSignificance(2-tailed)dfVariables生长量(cm)月平均日照时数Control Variables月平均湿度&月降
10、雨量(mm)&月平均气温(c)生长量(cm)月平均日照时数CorrelationsCorrelations1.000.731.02507.7311.000.025.70CorrelationSignificance(2-tailed)dfCorrelationSignificance(2-tailed)df生长量(cm)月平均湿度Control Variables月平均日照时数&月平均气温(c)&月降雨量(mm)生长量(cm)月平均湿度CorrelationsCorrelations1.000.977.00007.9771.000.000.70CorrelationSignificance(2
11、-tailed)dfCorrelationSignificance(2-tailed)df生长量(cm)月平均气温(c)Control Variables月平均日照时数&月平均湿度&月降雨量(mm)生长量(cm)月平均气温(c)返回偏相关分析结论偏相关分析结论中山柏生长量与四个气候因素的偏相关综合结果中山柏生长量与四个气候因素的偏相关综合结果 TEMPHUMIHSUNRAINHGROW.9774.7310.6318-0.4906(7)(7)(7)(7)p=0.000p=0.025p=.068p=0.180返回3 距 离 分 析返回q距离分析是对观测量之间或变量之间相似或不相似程度的一种测度,是
12、计算一对变量之间或一对观测量之间的广义的距离。相似性(Similarity)反映了研究对象之间的亲疏程度亲疏程度。这些相似性或距离测度可以用于因子分析、聚类分析等分析过程。距离分析的主对话框图距离分析的主对话框图analyzeanalyze correlate correlate distance distance 返回标识变量要求是字符型变量 不相似性距离测度选择项对话框不相似性距离测度选择项对话框 返回相似性测度选择项对话框相似性测度选择项对话框 返回距离分析实例距离分析实例 data08-03观测量间的欧氏距离观测量间的欧氏距离 Proximity Matrix.4901.49010.7
13、9012.99016.29017.99019.29014.79010.2907.990.990.4901.00010.30012.50015.80017.50018.80014.3009.8007.500.5001.4901.0009.30011.50014.80016.50017.80013.3008.8006.500.50010.79010.3009.3002.2005.5007.2008.5004.000.5002.8009.80012.99012.50011.5002.2003.3005.0006.3001.8002.7005.00012.00016.29015.80014.8005.
14、5003.3001.7003.0001.5006.0008.30015.30017.99017.50016.5007.2005.0001.7001.3003.2007.70010.00017.00019.29018.80017.8008.5006.3003.0001.3004.5009.00011.30018.30014.79014.30013.3004.0001.8001.5003.2004.5004.5006.80013.80010.2909.8008.800.5002.7006.0007.7009.0004.5002.3009.3007.9907.5006.5002.8005.0008.
15、30010.00011.3006.8002.3007.000.990.500.5009.80012.00015.30017.00018.30013.8009.3007.0001:12:23:34:45:56:67:78:89:910:1011:1112:121:12:23:34:45:56:67:78:89:910:1011:1112:12 Euclidean DistanceThis is a dissimilarity matrix返回行列之间数值越大的不相似性越强变量间不相似性分析例题输出变量间不相似性分析例题输出Proximity MatrixProximity Matrix2.505
16、2.6093.9472.5052.5613.6802.6092.5614.8083.9473.6804.808月平均气温(c)月降雨量(mm)月平均日照时数月平均湿度月平均气温(c)月降雨量(mm)月平均日照时数月平均湿度 Euclidean DistanceThis is a dissimilarity matrix变量间的不相似性测度变量间的不相似性测度 标准化后的欧氏距离标准化后的欧氏距离返回变量间的相似性测度例题变量间的相似性测度例题Proximity MatrixProximity Matrix.715.690.292.715.702.384.690.702-.051.292.384-.051月平均气温(c)月降雨量(mm)月平均日照时数月平均湿度月平均气温(c)月降雨量(mm)月平均日照时数月平均湿度 Correlation between Vectors of ValuesThis is a similarity matrix相关系数矩阵相关系数矩阵返回相似性越强,相关系数越大,不相似性距离越小注意使用辅助方法注意使用辅助方法GraphScatter返回