1、1实验七实验七 相关分析相关分析 27.1 相关分析和回归分析概述相关分析和回归分析概述7.2 相关分析相关分析7.3 偏相关分析偏相关分析 SPSS的相关分析的相关分析37.1 相关分析和回归分析概述相关分析和回归分析概述客观事物之间的关系大致可归纳为两大类客观事物之间的关系大致可归纳为两大类:函数关系(确定性关系)函数关系(确定性关系):指两事物之间的一种一一对应的关指两事物之间的一种一一对应的关系,如商品的销售额和销售量之间的关系。系,如商品的销售额和销售量之间的关系。统计关系(非确定性关系):统计关系(非确定性关系):指两事物之间的一种非一一对应的指两事物之间的一种非一一对应的关系,例
2、如家庭收入和支出、子女身高和父母身高之间的关系等关系,例如家庭收入和支出、子女身高和父母身高之间的关系等。统计关系又分为相关关系和回归关系两种。统计关系又分为相关关系和回归关系两种。相关分析和回归分析都是分析客观事物之间统计相关分析和回归分析都是分析客观事物之间统计关系的数量分析方法。关系的数量分析方法。4相关分析与回归分析的区别相关分析与回归分析的区别相关关系相关关系回归关系回归关系变量变量y与变量与变量x处于平等地位处于平等地位变量变量y处于被解释的特殊地位处于被解释的特殊地位变量变量y与与x均为随机变量均为随机变量变量变量y为随机变量,为随机变量,x可为随可为随机变量,也可为非随机变量机
3、变量,也可为非随机变量目的是刻画变量间的相关程目的是刻画变量间的相关程度度可解释可解释x对对Y Y的影响大小,还的影响大小,还可以对可以对y进行进行预测与控制预测与控制57.2 相关分析相关分析 7.2.1 散点图 7.2.2 相关系数 7.2.3 基本操作 7.2.4 应用举例6 相关分析通过图形和数值两种方式,有相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形效地揭示事物之间相关关系的强弱程度和形式。式。7.2.1 散点图 它将数据以点的的形式画在直角坐标系它将数据以点的的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间上,通过观察散点图能够直观的发现变量间
4、的相关关系及他们的强弱程度和方向。的相关关系及他们的强弱程度和方向。7散点图的绘制散点图的绘制 单击单击图形图形旧对话框旧对话框散点散点/点状点状,打开窗口,打开窗口8 简单分布简单分布(Simple Scatter),只能在图上显,只能在图上显示一对相关变量示一对相关变量 矩阵分布矩阵分布(Matrix Scatter),在矩阵中显示,在矩阵中显示多个相关变量多个相关变量 重叠分布重叠分布(Overlay Scatter),在图上显示多,在图上显示多对相关变量对相关变量 3-D分布分布(3-D Scatter),显示三个,显示三个相关变量相关变量 简单点,简单点,堆积散点图堆积散点图 91
5、1、简单散点图、简单散点图 选中选中简单分布简单分布,单,单击击定义定义Define按钮,按钮,打开窗口打开窗口相关回归分析(高校科研研究).sav10 Y轴轴Y Axis:选择选择Y轴要绘制的变量轴要绘制的变量 X轴轴X Axis:选择选择X轴要绘制的变量轴要绘制的变量 设置标记设置标记Set Markers by:选择分组变量选择分组变量,SPSS根据该变量的值将观测量分成几组根据该变量的值将观测量分成几组,每组采用不同的符号标注,每组采用不同的符号标注 标注个案标注个案Label Cases by:观测量标签变量:观测量标签变量11122、矩阵散点图、矩阵散点图 在矩阵散点图中,将图形分
6、成多个方格,在矩阵散点图中,将图形分成多个方格,在每个方格中单独绘制某两个变量的数据在每个方格中单独绘制某两个变量的数据。在散点图窗口中选择在散点图窗口中选择矩阵散点图矩阵散点图,单击,单击定定义义Define,在出现的窗口中,依次选择,在出现的窗口中,依次选择投入投入高级职称人数、课题总数、论文数和获奖高级职称人数、课题总数、论文数和获奖数数进入进入矩阵变量矩阵变量Matrix框框中,选择中,选择是否为直是否为直辖市辖市进入进入设置标记设置标记Set Markers框框中。中。13相关回归分析(高校科研研究).sav14153、重叠散点图、重叠散点图 在重叠散点图中,在一个坐标系中绘制在重叠
7、散点图中,在一个坐标系中绘制多个不同的变量对。多个不同的变量对。在散点图窗口中选择在散点图窗口中选择重叠散点图重叠散点图,单击,单击定义定义Define,在出现的窗口中,选择变量,在出现的窗口中,选择变量投入人年数投入人年数-论文数论文数对和对和投入高级职称的投入高级职称的人年数人年数-专著数专著数对进入对进入Y-X Pairs框中。框中。16相关回归分析(高校科研研究).sav17184、三维散点图、三维散点图 三维散点图在三维坐标系中绘制三个变三维散点图在三维坐标系中绘制三个变量的数据。量的数据。在散点图窗口中选择三维散点图,单击在散点图窗口中选择三维散点图,单击Define,在出现的窗口
8、中,分别选择,在出现的窗口中,分别选择论文论文数、投入人年数和获奖数数、投入人年数和获奖数为为Y轴变量、轴变量、X轴变量、轴变量、Z轴变量。轴变量。19相关回归分析(高校科研研究).sav20215、堆积散点图、堆积散点图-简单点图简单点图 选中选中简单点简单点,单击单击定义定义Define按钮,按钮,打开窗口打开窗口相关回归分析(高校科研研究).sav2223 对于其它图形的对于其它图形的SPSSSPSS绘制绘制,可阅读参考书,杜强、,可阅读参考书,杜强、贾丽艳,贾丽艳,SPSSSPSS统计分析统计分析从入门到精通从入门到精通,人民邮,人民邮电出版社,电出版社,20112011年年 书中的第
9、书中的第1919章,统计图形章,统计图形.247.2.2 相关系数 利用相关系数进行变量间线性关系的分析利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤:通常需要完成以下两个步骤:第一,计算样本相关系数第一,计算样本相关系数r;相关系数相关系数r的取值在的取值在-1+1之间之间r0,正的线性相关关正的线性相关关系;系;r0.8,较强的线性关系;较强的线性关系;|r|0.3,线性关系较弱线性关系较弱第二,对样本来自的两总体是否存在显著的线第二,对样本来自的两总体是否存在显著的线性关系进行推断。性关系进行推断。25双变量关系强度测量的主要指标双变量关系强度测量的主要指标对不同类型的变量
10、应采用不同的相关系数来度量对不同类型的变量应采用不同的相关系数来度量26适用于两分类适用于两分类变量的分析变量的分析适用于一分类适用于一分类变量一定距变变量一定距变量的分析量的分析适用于两顺序适用于两顺序变量的分析变量的分析更多指标更多指标-交叉列联表交叉列联表27 适用于两个变量都是数值型的数据适用于两个变量都是数值型的数据 Pearson简单相关系数的检验统计量为:简单相关系数的检验统计量为:1.Pearson简单相关系数简单相关系数22()()()()iiiiryyx xyyx xg221rntr28 用来度量用来度量两定序变量间两定序变量间的线性相关关系的线性相关关系,计计算时并不直接
11、采用原始数据算时并不直接采用原始数据 ,而是利而是利用数据的秩,用两变量的秩用数据的秩,用两变量的秩 代替代替 代入代入Pearson简单相关系数计算公式中,于简单相关系数计算公式中,于是其中的是其中的 和和 的取值范围被限制在的取值范围被限制在1和和n之间,且可被简化为:之间,且可被简化为:2.Spearman等级相关系数等级相关系数(,)iix y(,)iix y(,)iiU Vixiy222i21161()(1)nniiiiiDrDUVn n,其中29 如果两变量的正相关性较强,它们秩的变化具有同步如果两变量的正相关性较强,它们秩的变化具有同步性,于是性,于是 的值较小,的值较小,r趋向
12、于趋向于1;如果两变量的正相关性较弱,它们秩的变化不具有同如果两变量的正相关性较弱,它们秩的变化不具有同步性,于是步性,于是 的值较大,的值较大,r趋向于趋向于0;在小样本下,在零假设成立时,在小样本下,在零假设成立时,Spearman等级相关等级相关系数服从系数服从Spearman分布;在大样本下,分布;在大样本下,Spearman等等级相关系数的检验统计量为级相关系数的检验统计量为Z统计量,定义为:统计量,定义为:Z统计量近似服从标准正态分布。统计量近似服从标准正态分布。22i11()nniiiiDUV1Zr n22i11()nniiiiDUV30 用用非参数检验方法非参数检验方法来度量来
13、度量两定序变量间两定序变量间的的线性相关关系线性相关关系,利用变量秩数据计算一致对利用变量秩数据计算一致对数目数目(U)和非一致对数目和非一致对数目(V)。U较大,较大,V较小,较强正相关;较小,较强正相关;U较小,较小,V较大,较强负相关;较大,较强负相关;U和和V大致相当,各占样本数的大致相当,各占样本数的1/2,相关性较弱相关性较弱.3.Kendall 相关系数相关系数31.Kendall 统计量的数学定义统计量的数学定义 小样本下服从小样本下服从Kendall分布分布,大样本下采大样本下采用的检验统计量为用的检验统计量为21UVn n9125n nZn n327.2.3 基本操作 相关
14、分析相关分析用于用于描述两个变量间描述两个变量间 关系的密切程度,其关系的密切程度,其特点是特点是 变量不分主次,被置于同等的地位。变量不分主次,被置于同等的地位。在分析在分析Analyze的下拉菜单相关的下拉菜单相关Correlate命命令项中有三个相关分析功能子命令令项中有三个相关分析功能子命令双变量双变量Bivariate、偏相关、偏相关Partial、距离距离Distances,分别对应着相关分析、偏相关分析和相,分别对应着相关分析、偏相关分析和相似性测度(距离)的三个似性测度(距离)的三个SPSS过程。过程。33 Bivariate过程过程用于进行两个或多个变量间的用于进行两个或多个
15、变量间的相关分析,如为多个变量,给出两两相关的相关分析,如为多个变量,给出两两相关的分析结果。分析结果。Partial过程过程,当进行相关分析的两个变量的,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制偏相关分析对其他变量进行控制,输出控制其他变量影响后的偏相关系数。其他变量影响后的偏相关系数。Distances过程过程用于对各样本点之间或各个变用于对各样本点之间或各个变量之间进行相似性分析,一般不单独使用,量之间进行相似性分析,一般不单独使用,而作为聚类分析和因子分析等的预分析。而作为聚类分析和因子
16、分析等的预分析。34 Bivariate相关分析步骤相关分析步骤1)选择菜单选择菜单Analyze Correlate Bivariate,出现窗口:出现窗口:352)把要分析的变量选到把要分析的变量选到变量变量Variables框框。3)在在相关系数相关系数Correlation Coefficents框框中选中选择计算哪种相关系数。择计算哪种相关系数。4)在在显著性检验显著性检验Test of Significance框框中选择中选择输出相关系数检验的双边(输出相关系数检验的双边(Two-Tailed)概)概率率p值或单边(值或单边(One-Tailed)概率)概率p值。值。5)选中选中标
17、记显著性相关标记显著性相关Flag significance correlation选项表示分析结果中除显示选项表示分析结果中除显示p值值外,还输出星号标记,以标明变量间的相关外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。性是否显著;不选中则不输出星号标记。366)在在选项选项Option按钮中的统按钮中的统计计Statistics选项中,选中选项中,选中Cross-product deviations and covariances表示输出两表示输出两变量的离差平方和协方差。变量的离差平方和协方差。377.2.4 应用举例 为研究高等院校人文社会科学研究中立项课为
18、研究高等院校人文社会科学研究中立项课题数会受哪些因素的影响,收集题数会受哪些因素的影响,收集1999年年31个个省市自治区部分高校有关社科研究方面的数省市自治区部分高校有关社科研究方面的数据,研究立项课题数(当年)与投入的具有据,研究立项课题数(当年)与投入的具有高级职称的人年数(当年)、发表的论文数高级职称的人年数(当年)、发表的论文数(上年)之间是否具有较强的线性关系。(上年)之间是否具有较强的线性关系。对该问题的研究可以采用相关分析的方法对该问题的研究可以采用相关分析的方法,首先可绘制矩阵散点图;其次可以计算,首先可绘制矩阵散点图;其次可以计算Pearson简单相关系数。简单相关系数。相
19、关回归分析(高校科研研究).sav38输出结果输出结果397.3 偏相关分析偏相关分析 7.3.1 偏相关分析和偏相关系数 7.3.2 基本操作 7.3.3 应用举例40 上节中的相关系数是研究两变量间线性相上节中的相关系数是研究两变量间线性相关性的,若还存在其他因素影响,就相关关性的,若还存在其他因素影响,就相关系数本身来讲,它未必是两变量间线性相系数本身来讲,它未必是两变量间线性相关强弱的真实体现,往往有夸大的趋势。关强弱的真实体现,往往有夸大的趋势。例如,在研究商品的需求量和价格、消费例如,在研究商品的需求量和价格、消费者收入之间的线性关系时,需求量和价格者收入之间的线性关系时,需求量和
20、价格之间的相关关系实际还包含了消费者收入之间的相关关系实际还包含了消费者收入对价格和商品需求量的影响。对价格和商品需求量的影响。7.3.1 偏相关分析和偏相关系数41 偏相关分析也称净相关分析,它在控制其偏相关分析也称净相关分析,它在控制其他变量的线性影响的条件下分析两变量间他变量的线性影响的条件下分析两变量间的线性关系,所采用的工具是偏相关系数的线性关系,所采用的工具是偏相关系数。控制变量个数为控制变量个数为1时,偏相关系数称一阶偏时,偏相关系数称一阶偏相关;当控制两个变量时,偏相关系数称相关;当控制两个变量时,偏相关系数称为二阶偏相关;当控制变量的个数为为二阶偏相关;当控制变量的个数为0时
21、,时,偏相关系数称为零阶偏相关,也就是简单偏相关系数称为零阶偏相关,也就是简单相关系数。相关系数。42利用偏相关系数进行分析的步骤利用偏相关系数进行分析的步骤 第一,计算样本的偏相关系数第一,计算样本的偏相关系数假设有三个变量假设有三个变量y、x1和和x2,在分析,在分析x1和和y之间的净之间的净相关时,当控制了相关时,当控制了x2的线性作用后,的线性作用后,x1和和y之间的一之间的一阶偏相关定义为:阶偏相关定义为:偏相关系数的取值范围及大小含义与相关系数相同偏相关系数的取值范围及大小含义与相关系数相同.12 121,2121222212212(1)(1)yyxxxyyyyyyrr rrrrr
22、rr1 其中,、分别表示和x的相关系数,和 的相关系数,和 的相关系数43 第二,对样本来自的两总体是否存在显著第二,对样本来自的两总体是否存在显著的净相关进行推断的净相关进行推断检验统计量为:检验统计量为:其中,其中,r为偏相关系数,为偏相关系数,n为样本数,为样本数,q为为阶数。阶数。T统计量服从统计量服从n-q-2个自由度的个自由度的t分布分布。221nqtrr 447.3.2 基本操作1)选择菜单选择菜单Analyze Correlate Partial相关回归分析(高校科研研究).sav452)把参与分析的变量选择到把参与分析的变量选择到Variables框中。框中。3)选择一个或多
23、个控制变量到选择一个或多个控制变量到Controlling for框中。框中。4)在在Test of Significance框中选择输出偏相关框中选择输出偏相关检验的双尾概率检验的双尾概率p值或单尾概率值或单尾概率p值。值。5)在在Option按钮中的按钮中的Statistics选项中,选中选项中,选中Zero-order Correlations表示输出零阶偏相表示输出零阶偏相关系数。关系数。至此,至此,SPSS将自动进行偏相关分析和统计将自动进行偏相关分析和统计检验,并将结果显示到输出窗口。检验,并将结果显示到输出窗口。467.3.3 应用举例 上节中研究高校立项课题总数影响因素上节中研
24、究高校立项课题总数影响因素的相关分析中发现,发现立项课题数与论的相关分析中发现,发现立项课题数与论文数之间有较强正线性相关关系,但应看文数之间有较强正线性相关关系,但应看到这种关系中可能掺入了投入高级职称的到这种关系中可能掺入了投入高级职称的人年数的影响,因此,为研究立项课题总人年数的影响,因此,为研究立项课题总数和发表论文数之间的净相关系数,可以数和发表论文数之间的净相关系数,可以将投入高级职称的人年数加以控制,进行将投入高级职称的人年数加以控制,进行偏相关分析。偏相关分析。相关回归分析(高校科研研究).sav47输出结果输出结果相关分析相关分析输出结果输出结果正强相关正强相关偏相关分偏相关分析输出结析输出结果果负的弱相负的弱相关关48Thank you