1、下一张下一张 主主 页页 退退 出出 上一张上一张 下一张下一张 主主 页页 退退 出出 上一张上一张 如人的身高与体重的关系,作物种植密度与产量的关如人的身高与体重的关系,作物种植密度与产量的关系,食品价格与需求量的关系等等,这些变量间都存系,食品价格与需求量的关系等等,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。统计学中把这些变量间精确地求出另一个变量的值。统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相的关系称为相关关系,把存在相关关系的变量称为相关变量。关变量。下一张下一张 主主
2、页页 退退 出出 上一张上一张 在一定范围内,对一个变量的任意数值(在一定范围内,对一个变量的任意数值(Xi),虽然没有另),虽然没有另一个变量的确定数值一个变量的确定数值yi与之对应,但是却有一个特定与之对应,但是却有一个特定yi的条件概的条件概率分布与之对应,这种变量的不确定关系,称为相关关系。率分布与之对应,这种变量的不确定关系,称为相关关系。2、相关关系一些常用术语:、相关关系一些常用术语:直线相关:是指两个变量呈线性共同增大或者呈线性一直线相关:是指两个变量呈线性共同增大或者呈线性一增一减增一减曲线相关:两变量存在相关趋势,但并非线性,而是呈曲线相关:两变量存在相关趋势,但并非线性,
3、而是呈曲线趋势。曲线趋势。正相关:如正相关:如A变量增加时,变量增加时,B变量也增加变量也增加负相关:负相关:A变量增加时,变量增加时,B变量减小变量减小完全相关:两变量的相关程度达到了亲密无间的程度,完全相关:两变量的相关程度达到了亲密无间的程度,即确定性的函数关系,当得知即确定性的函数关系,当得知A变量取值时,就可以准变量取值时,就可以准确推算出确推算出B变量的取值。变量的取值。下一张下一张 主主 页页 退退 出出 上一张上一张 函数关系 有精确的数学表达式 (确定性的关系)直线回归分析 一元回归分析 变量间的关系 因果关系 曲线回归分析(回归分析)多元线性回归分析 多元回归分析 相关关系
4、 多 元 非 线 性 回 归 分 析 (非确定性的关系)简单相关分析 直线相关分析 平行关系 复相关分析 (相关分析)多元相关分析 偏相关分析 下一张下一张 主主 页页 退退 出出 上一张上一张 下一张下一张 主主 页页 退退 出出 上一张上一张 下一张下一张 主主 页页 退退 出出 上一张上一张 SPSS的相关分析功能被集中在的相关分析功能被集中在Statistic菜单的菜单的Correlate子菜单中,它包括以下子菜单中,它包括以下3个过程:个过程:Bivariate过程:此程度用于进行两个过程:此程度用于进行两个/多个变量之间的参多个变量之间的参数数/无参数相关分析,如果是多个变量,则给
5、出两两相关无参数相关分析,如果是多个变量,则给出两两相关的分析结果,这是的分析结果,这是Correlate子菜单中最为常用的一个过子菜单中最为常用的一个过程,实际上用户对它的使用可能占到相关分析的程,实际上用户对它的使用可能占到相关分析的95%以以上。上。Partial过程:就是偏相关分析。当需要进行相关分析的过程:就是偏相关分析。当需要进行相关分析的两个变量取值均受到其他变量的影响时两个变量取值均受到其他变量的影响时Distance过程:该过程一般不单独使用,而是作为因素过程:该过程一般不单独使用,而是作为因素分析、聚类分析和多维尺度分析的预先分析过程,以协分析、聚类分析和多维尺度分析的预先
6、分析过程,以协助了解复杂数据集的内在结构,为进一步分析做准备助了解复杂数据集的内在结构,为进一步分析做准备下一张下一张 主主 页页 退退 出出 上一张上一张 二、相关分析二、相关分析(correlation analysis)Bivariate过程是相关分析中用得最多的一个分析过程是相关分析中用得最多的一个分析过程,用于进行两个变量间的线性相关分析,结过程,用于进行两个变量间的线性相关分析,结果中可以给出果中可以给出Pearson相关系数、相关系数、Kendall等级相等级相关系数和关系数和Spearman等级关系数值,下面用一个例等级关系数值,下面用一个例子来说明子来说明Bivariate过
7、程。过程。例例 某地一年级某地一年级12名女大学生的体重与肺活量的名女大学生的体重与肺活量的数据如下,试分析两者有无直线相关关系?数据如下,试分析两者有无直线相关关系?下一张下一张 主主 页页 退退 出出 上一张上一张(一)、Bivariate过程体重(kg)424246464650505052525858肺活量(L)2.552.22.752.42.82.813.413.13.462.853.53corr在进行相关分析之前必须做散点图,以判断两变量之间在进行相关分析之前必须做散点图,以判断两变量之间有无相关趋势,及趋势是否呈线性有无相关趋势,及趋势是否呈线性(Line)关系,如果在关系,如果在
8、图形上两个变量之间存在线性相关趋势,才能继续后面图形上两个变量之间存在线性相关趋势,才能继续后面的分析。的分析。(1)、散点图分析:、散点图分析:Graphs Scatter Simple散点图中可以看出,体重与肺活量有着非常明显的直线散点图中可以看出,体重与肺活量有着非常明显的直线相关趋势,并且从图中可以看出,没有影响过强的异常相关趋势,并且从图中可以看出,没有影响过强的异常点,因此可放心地进行相关分析;如果有过强点,可考点,因此可放心地进行相关分析;如果有过强点,可考虑曲线回归分析或其它相关分析虑曲线回归分析或其它相关分析下一张下一张 主主 页页 退退 出出 上一张上一张 下一张下一张 主
9、主 页页 退退 出出 上一张上一张 用于选择需要计算的相关分析用于选择需要计算的相关分析指标:指标:Pearson:进行积距相关分析,:进行积距相关分析,最常用的相关分析最常用的相关分析Kendalls tau-b:计算:计算Kendalls等级相关系数,只能等级相关系数,只能在两个变量均属于有序分类时在两个变量均属于有序分类时使用使用Spearman:计算:计算Spearman相相关系数,即最常用的非参数相关分关系数,即最常用的非参数相关分析析用于确定是进行相关系用于确定是进行相关系数的单侧或双侧检验,数的单侧或双侧检验,一般是双侧一般是双侧用于选入需要分析的用于选入需要分析的变量,至少需要
10、选入变量,至少需要选入两个,如果选入了多两个,如果选入了多个,系统会给两两直个,系统会给两两直线相关分析的结果线相关分析的结果要求在结果中用星号标要求在结果中用星号标记有统计学显著性意义记有统计学显著性意义的相关系数,一般选中的相关系数,一般选中下一张下一张 主主 页页 退退 出出 上一张上一张 用于选择需要计算的描述统用于选择需要计算的描述统计量和统计分析计量和统计分析每个变量的平均值和标准差每个变量的平均值和标准差各变量的离均差平方和及变各变量的离均差平方和及变量方阵量方阵缺失值处理方法缺失值处理方法下一张下一张 主主 页页 退退 出出 上一张上一张 下一张下一张 主主 页页 退退 出出
11、上一张上一张 下一张下一张 主主 页页 退退 出出 上一张上一张 下一张下一张 主主 页页 退退 出出 上一张上一张 这是变量间两两Spearmans相关系数方阵下一张下一张 主主 页页 退退 出出 上一张上一张 当分析两个变量之间相关关系时,往往会有其他变量的当分析两个变量之间相关关系时,往往会有其他变量的影响掺和在里面,使得计算出的相关系数难以体现出这影响掺和在里面,使得计算出的相关系数难以体现出这两个变量间的真实相关关系。这时就要用两个变量间的真实相关关系。这时就要用Parial过程进过程进行偏相关分析。行偏相关分析。例例 现已测得现已测得20名糖尿病人的血糖名糖尿病人的血糖(y,mmo
12、l/L)、胰岛素、胰岛素(x1,mU/L)及生长激素及生长激素(x2,ug/L)的测量数据。请分析的测量数据。请分析糖尿病人的血糖与生长激素浓度间有无相关关系。糖尿病人的血糖与生长激素浓度间有无相关关系。下一张下一张 主主 页页 退退 出出 上一张上一张(二)、Parial过程pcorr1、Parial分析过程下一张下一张 主主 页页 退退 出出 上一张上一张 用于选入需要分析的用于选入需要分析的变量,至少需要选入变量,至少需要选入两个,如果选入了多两个,如果选入了多个,系统会给两两直个,系统会给两两直线相关分析的结果线相关分析的结果用于选入需要在偏相用于选入需要在偏相关分析时进行控制的关分析
13、时进行控制的共变量,如果不选,共变量,如果不选,即普通相关分析即普通相关分析用于确定是进行相关系用于确定是进行相关系数的单侧或双侧检验,数的单侧或双侧检验,一般是双侧一般是双侧要求在结果中用星号标要求在结果中用星号标记有统计学显著性意义记有统计学显著性意义的相关系数,一般选中的相关系数,一般选中下一张下一张 主主 页页 退退 出出 上一张上一张 用于选择需要计算的描述统用于选择需要计算的描述统计量和统计分析计量和统计分析每个变量的平均值和标准差每个变量的平均值和标准差包括协变量在内所有变量的包括协变量在内所有变量的相关方阵相关方阵缺失值处理方法缺失值处理方法(2)Parial分析过程下一张下一
14、张 主主 页页 退退 出出 上一张上一张 下一张下一张 主主 页页 退退 出出 上一张上一张 Descriptive Statistics MeanStd.Deviation血糖(mmol/L)10.85002.92585生长素(ug/L)8.94404.35242胰岛素(mU/L)17.33005.35862下一张下一张 主主 页页 退退 出出 上一张上一张 Distance过程是对观察值之间或变量之间相似或过程是对观察值之间或变量之间相似或不相似程度的一种测度,是计算一对变量之间或不相似程度的一种测度,是计算一对变量之间或一对观测值之间的广义的距离一对观测值之间的广义的距离例例 在某体育比
15、赛中,有中、英、法等在某体育比赛中,有中、英、法等7个国家的个国家的裁判对选手进行评分,评分结果见裁判对选手进行评分,评分结果见judges.sav。请根据评分高低判断哪些国家的裁判比较类似,请根据评分高低判断哪些国家的裁判比较类似,为以后的聚类分析提供信息。为以后的聚类分析提供信息。下一张下一张 主主 页页 退退 出出 上一张上一张(三)、Distances过程judges1、Distances分析过程Distance的顺序打开主对话框。的顺序打开主对话框。用于选入需要分析的用于选入需要分析的变量,至少需要选入变量,至少需要选入两个,如果选入了多两个,如果选入了多个,系统会给两两直个,系统会
16、给两两直线相关分析的结果线相关分析的结果计算距离:计算距离:个案间距离个案间距离变量间距离变量间距离选择计算距离方法:选择计算距离方法:相似性程度,数值越大,相似性程度,数值越大,距离越远距离越远不相似程度,数值越大,不相似程度,数值越大,距离越近距离越近下一张下一张 主主 页页 退退 出出 上一张上一张 用于确定测距方法,数据测量用于确定测距方法,数据测量方法不同,测距的方法也不同方法不同,测距的方法也不同有三类数据:计量数据、计数有三类数据:计量数据、计数数据和二值数据,选中后点击数据和二值数据,选中后点击下拉菜单,可以选择距离的计下拉菜单,可以选择距离的计算方法算方法用于确定在进行计算之
17、前,是用于确定在进行计算之前,是否对个案或变量进行标准化否对个案或变量进行标准化用于对距离测度的结果进行转用于对距离测度的结果进行转换换绝对值,对距离取绝对值改变符号,把相似性测度值转换成不相似性测度值或相反先减去最小值,然后除以范围差值下一张下一张 主主 页页 退退 出出 上一张上一张 用于确定测距方法,数据测量用于确定测距方法,数据测量方法不同,测距的方法也不同方法不同,测距的方法也不同有三类数据:计量数据、计数有三类数据:计量数据、计数数据和二值数据,选中后点击数据和二值数据,选中后点击下拉菜单,可以选择距离的计下拉菜单,可以选择距离的计算方法算方法下一张下一张 主主 页页 退退 出出
18、上一张上一张 Interval(计量数据计量数据):Euclidean distance:Euclidean距离,是两变量之差的距离,是两变量之差的平方和的平方根,默认选平方和的平方根,默认选 项项Squared Euclidean distanc:Euclidean距离平方,是两距离平方,是两变量之差的平方和变量之差的平方和Chebychev:Chebychev距离,两项之差的最大绝对值距离,两项之差的最大绝对值Block:区组距离,变量的两个值之间差的绝对值之和:区组距离,变量的两个值之间差的绝对值之和Minkowski:Minkowski距离,两变量值之差的距离,两变量值之差的p次幂绝次
19、幂绝对值之和的对值之和的p次方根次方根Customized:自定义距离,两变量值之差的:自定义距离,两变量值之差的p次幂绝对次幂绝对值之和的值之和的r次方根,可以设定次方根,可以设定p和和r下一张下一张 主主 页页 退退 出出 上一张上一张 用于确定测距方法,数据测量用于确定测距方法,数据测量方法不同,测距的方法也不同方法不同,测距的方法也不同有三类数据:计量数据、计数有三类数据:计量数据、计数数据和二值数据,选中后点击数据和二值数据,选中后点击下拉菜单,可以选择距离的计下拉菜单,可以选择距离的计算方法算方法下一张下一张 主主 页页 退退 出出 上一张上一张 用于选择需要计算的描述统用于选择需
20、要计算的描述统计量和统计分析计量和统计分析每个变量的平均值和标准差每个变量的平均值和标准差包括协变量在内所有变量的包括协变量在内所有变量的相关方阵相关方阵缺失值处理方法缺失值处理方法Distance的顺序打开主对话框。的顺序打开主对话框。1、Distances分析过程下一张下一张 主主 页页 退退 出出 上一张上一张 下一张下一张 主主 页页 退退 出出 上一张上一张 Tranform ValuesTranform Values框组与框组与Transform MeasuresTransform Measures复选框复选框组组 这两个框组的属性实际上和不相似性测距时完全相同,这两个框组的属性实际上和不相似性测距时完全相同,我们会在聚类分析中讲述。我们会在聚类分析中讲述。2 2、结果解释、结果解释 下一张下一张 主主 页页 退退 出出 上一张上一张