1、一、简单相关分析一、简单相关分析 又称直线相关、线性相关又称直线相关、线性相关二、偏(净)相关分析二、偏(净)相关分析三、等级相关分析三、等级相关分析第四章 相关分析一、相关分析的功用一、相关分析的功用 研究随机变量间的关系密切程度研究随机变量间的关系密切程度二、相关分析的应用二、相关分析的应用 已经广泛应用于各行各业已经广泛应用于各行各业 如:身高与体重的关系;如:身高与体重的关系; 越冬温度与病虫害发生的关系;越冬温度与病虫害发生的关系; 农作物施肥与增产的关系等。农作物施肥与增产的关系等。第一节 简单相关分析表表5.1 为说明两变量之间的线性关系而假设的三组(为说明两变量之间的线性关系而
2、假设的三组(x,y)观察值观察值组别组别 变量变量观观 察察 值值 平均数平均数 平方之和平方之和 第一组第一组 x17 7 1 6 5 3 8 9 3 1y15 9 6 1 3 1 9 4 6 8 第二组第二组 x29 8 7 7 6 5 3 3 1 1y29 9 8 6 6 5 4 3 1 1第三组第三组 x31 1 3 3 5 6 7 7 8 9y39 9 8 6 6 5 4 3 1 115.0 x 0 . 52x0 . 53x2 . 51y 32421x 35021y2 . 52y2 . 53y 32422x 32423x 35022y 35023y三、简单相关的散点图表示三、简单相关
3、的散点图表示第一节 简单相关分析第一节 两随机变量之间的线性关系表表5.1 为说明两变量之间的线性关系而假设的三组(为说明两变量之间的线性关系而假设的三组(x,y)观察值观察值组别组别 变量变量观观 察察 值值 平均数平均数 平方之和平方之和 第一组第一组 x17 7 1 6 5 3 8 9 3 1y15 9 6 1 3 1 9 4 6 8 第二组第二组 x29 8 7 7 6 5 3 3 1 1y29 9 8 6 6 5 4 3 1 1第三组第三组 x31 1 3 3 5 6 7 7 8 9y39 9 8 6 6 5 4 3 1 10 . 51x0 . 52x0 . 53x2 . 51y 3
4、2421x 35021y2 . 52y2 . 53y 32422x 32423x 35022y 35023y024681002468100246810024681002468100246810 第一组数据第一组数据 第二组数据第二组数据 第三组数据第三组数据 a b c 图图5.1 三组假设数据的散点图三组假设数据的散点图第一节 两随机变量之间的线性关系024681002468100246810024681002468100246810 第一组数据第一组数据 第二组数据第二组数据 第三组数据第三组数据 a b c 图图5.1 三组假设数据的散点图三组假设数据的散点图 在第三组数据中,随着x3数
5、值的增大, y3值有减少的趋势,有负的线形相关关系。 在第二组数据中,随着x2数值的增大, y2值有增加的趋势,有正的线形相关关系。 在第一组数据的散点图中,各点的位置很分散, x1和y1之间没有明显的关系。 相关系数相关系数是描述线性相关程度和方向的统计量Pearson相关系数:相关系数相关系数22()()()()( , )xyxxyyrxxyyCov x yS S四、简单相关系数四、简单相关系数第一节 简单相关分析四、简单相关系数四、简单相关系数相关系数的定义域:相关系数的定义域: 1 1,11相关系数是相关性大小的度量,是没有单位的量相关系数是相关性大小的度量,是没有单位的量相关系数相关
6、系数 为低度相关为低度相关相关系数相关系数 为中度相关为中度相关相关系数相关系数 为高度相关为高度相关4 . 0|0 r7 . 0|4 . 0 r1|7 . 0r四、简单相关系数性质四、简单相关系数性质正相关:正相关:0 r 1完全正相关:完全正相关: r = 1负相关:负相关:-1 r 0完全负相关:完全负相关: r = -1不相关:不相关:r = 0第一节 简单相关分析表表5.1 为说明两变量之间的线性关系而假设的三组(为说明两变量之间的线性关系而假设的三组(x,y)观察值观察值组别组别 变量变量观观 察察 值值 平均数平均数 平方之和平方之和 第一组第一组 x17 7 1 6 5 3 8
7、 9 3 1y15 9 6 1 3 1 9 4 6 8 第二组第二组 x29 8 7 7 6 5 3 3 1 1y29 9 8 6 6 5 4 3 1 1第三组第三组 x31 1 3 3 5 6 7 7 8 9y39 9 8 6 6 5 4 3 1 10 . 51x0 . 52x0 . 53x2 . 51y 32421x 35021y2 . 52y2 . 53y 32422x 32423x 35022y 35023y如果上例中的是样本数据,则它们的相关系数分别为:120.026174 79.6r 2750.977274 79.6r 3740.964274 79.6r练习:求三组数的相关系数 如
8、第如第2组数据的相关系数组数据的相关系数 r2 =0.9772;所以所以 x2 与与 y2之间有正的高度相关关系;之间有正的高度相关关系; 如第如第3组数据的相关系数组数据的相关系数 r3 = 0.9642;所以;所以 x3与与y3 之间有负的高度相关关系。之间有负的高度相关关系。 如第如第1组数据的相关系数组数据的相关系数 r1 =0.0261;所以所以 x1 与与 y1之间就几乎没有线性相关关系;之间就几乎没有线性相关关系;练习:求三组数的相关系数五、相关系数显著性检验五、相关系数显著性检验第一步:第一步: 统计假设:统计假设:H H0 0: 0 0,H HA A: 001 1、用统计量、
9、用统计量t t检验检验当要使用一个样本的相关系数当要使用一个样本的相关系数r r对相应的总体相关系对相应的总体相关系数数 进行估计,可以由两种统计量进行估计,可以由两种统计量 t t 和和 r r 来实现来实现总体相关系数是否为零的假设。总体相关系数是否为零的假设。第一节 简单相关分析相关系数显著性检验212nrrsrtr212nrsr第二步:计算统计量计算统计量t tdf = n-2抽样误差:相关系数显著性检验第三步:统计推断统计推断 1 1、| |t|t0.050.05 推断相关不显著推断相关不显著 2 2、t0.050.05| |t| t0.01 3.356推断变量推断变量x x2 2和
10、和y y2 2相关达极显著相关达极显著计算计算2 2、统计量、统计量r显著性检验显著性检验第一步:第一步:作统计假设作统计假设第二步:计算统计量计算统计量r,根据,根据df = =n-2-2,查相关,查相关系数显著性检验表,从而获得系数显著性检验表,从而获得r r0.050.05和和r r0.010.01 。第三步:第三步:作统计推断作统计推断 1 1、|r|r|r|r0.05 0.05 推断相关不显著;推断相关不显著; 2 2、r r0.050.05=|r|r=|r|=|r| = r r0.010.01 推断相关达极显著。推断相关达极显著。0:0H0:AH第一节 简单相关分析实例:相关系数显
11、著性检验相关系数显著性检验根据自由度根据自由度df=8=8,查相关系数显著性检验表,查相关系数显著性检验表, ,从而获得从而获得 r r0.050.05 = 0.632 = 0.632 r r0.010.01 = 0.765 = 0.765作统计推断作统计推断 今今|r|=0.97721 r|r|=0.97721 r0.01 0.01 推断推断x x2 2和和y y2 2相关达极显著相关达极显著计算得:计算得:0.9772r 相关系数显著性检验相关系数显著性检验t和和r检验是等价的,在检验是等价的,在水平下水平下相关系数显著性检验相关系数显著性检验22trdft六、相关矩阵六、相关矩阵多个变量
12、间的简单相关,设有多个变量间的简单相关,设有n个变量个变量x1 1xn n,其相关系数可以写成矩阵的形式:,其相关系数可以写成矩阵的形式:121121221212111nnnnnnxxxxrrxrrxrr第二节第二节 偏(净)相关分析偏(净)相关分析一级偏相关一级偏相关二级偏相关二级偏相关 最高级偏相关最高级偏相关偏相关:偏相关:用数学方法固定其余的变量,消除用数学方法固定其余的变量,消除其余变量的影响,只研究指定两个变量间的其余变量的影响,只研究指定两个变量间的纯相关关系。纯相关关系。 弥补了简单相关不能真实地反映两个变弥补了简单相关不能真实地反映两个变量间的相关关系。量间的相关关系。一级偏
13、相关一级偏相关df = n-32232132313123 .1211rrrrrr2232122312132 .1311rrrrrr2132121312231 .2311rrrrrr第二节第二节 偏(净)相关分析偏(净)相关分析二级偏相关二级偏相关df = n-422 .3422 .142 .342 .142 .1324.1311rrrrrr23 .2423 .143 .243 .143 .1234.1211rrrrrr22 .3422 .132 .342 .132 .1423.1411rrrrrr第二节第二节 偏(净)相关分析偏(净)相关分析最高级偏相关最高级偏相关df = n-m将将m个变量
14、中的个变量中的m-2-2个变量固定,只研究另个变量固定,只研究另外两个变量的相关外两个变量的相关jjiiijijcccr.mmmmmmrrrrrrrrrR212222111211相关矩阵相关矩阵mmmmmmcccccccccRC2122221112111第二节第二节 偏(净)相关分析偏(净)相关分析第二步:计算统计量计算统计量第一步:统计假设统计假设 H H0 0: ijij. .0 0,H HA A: ijij. .00n为观测数据组数,为观测数据组数,m为相关变量总个数为相关变量总个数mnrrSrtijijrijrij2.1.第二节第二节 偏(净)相关分析偏(净)相关分析第三步:统计推断统
15、计推断 1 1、|t|tr r| |t t0.050.05 推断相关不显著推断相关不显著 2 2、t t0.050.05|t|tr r| |t t0.010.01 推断相关达显著推断相关达显著 3 3、|t|tr r| |t t0.010.01 推断相关达极显著推断相关达极显著第二节第二节 偏(净)相关分析偏(净)相关分析对于定性数据,特别是等级数据或有次序的数对于定性数据,特别是等级数据或有次序的数据,就不能用简单相关来进行描述。据,就不能用简单相关来进行描述。次序在数列中代表了某个具体变量值的位置、次序在数列中代表了某个具体变量值的位置、等级或秩,因此,这类相关分析通常被称为非等级或秩,因
16、此,这类相关分析通常被称为非参数相关分析、等级相关分析或秩相关分析,参数相关分析、等级相关分析或秩相关分析,其计算的相关系数被称为非参数相关系数、等其计算的相关系数被称为非参数相关系数、等级相关系数或秩相关系数。级相关系数或秩相关系数。根据计算方法不同,非相关系数主要有根据计算方法不同,非相关系数主要有SpearmanSpearman、Kendall Kendall tau-btau-b等级相关系数。等级相关系数。第三节 等级相关分析其中,其中,Rx和和Ry表示分别表示表示分别表示x变量和变量和y变变量经过排序后的秩(次序),量经过排序后的秩(次序), 和和 分分别表示别表示Rx和和Ry的平均
17、值。的平均值。第三节 等级相关分析1 1、SpearmanSpearman相关系数相关系数22()()()()xxyyxxyyRRRRrRRRRxRyR其中,其中,P和和Q表示分别表示同序对子数和异表示分别表示同序对子数和异序对子数,序对子数,Tx为在为在x变量上是同序但在变量上是同序但在y变变量上不是同序的对子数,量上不是同序的对子数,Ty为在为在y变量上是变量上是同序但在同序但在x变量上不是同序的对子数。变量上不是同序的对子数。第三节 等级相关分析()()bxyPQPQTPQT2 2、Kendall Kendall tau-btau-b相系关数相系关数某公司随机调查了某公司随机调查了101
18、0个人的学历和收入情况。个人的学历和收入情况。第三节 等级相关分析示例示例其中,学历其中,学历1 1为小学,为小学,2 2为初中,为初中,3 3为高中,为高中,4 4为为大学,大学,5 5为研究生。试分析学历和收入有没有为研究生。试分析学历和收入有没有关系。关系。序号序号学历学历收入收入序号序号学历学历收入收入1545006435002436007120003230008126004535509222005328001033850某公司随机调查了某公司随机调查了1010个人的学历和收入情况。个人的学历和收入情况。第三节 等级相关分析示例示例0.8124r 0.6500bSpearmanSpearman相关系数相关系数Kendall Kendall Tau-bTau-b相关系数相关系数P=0.0043P=0.0043P=0.0106P=0.0106