1、相相关关分分析析第第八八章章。的度量一般用相关系数的度量一般用相关系数相关性相关性机变量间的相关性机变量间的相关性这一章我们要来考虑随这一章我们要来考虑随,.Pearson线性相关系数线性相关系数系数,又叫相关系数或系数,又叫相关系数或矩相关矩相关最常用的是最常用的是矩相关系数为矩相关系数为中抽取,中抽取,从总体从总体随机样本随机样本的相关程度,假设二维的相关程度,假设二维,考虑随机变量考虑随机变量Pearson,11 YXyxyxYXnn niiniiniiiyyxxyyxxr12121)()()(但但是是相相关关系系数数有有它它的的局局限限性性。22(0,),0XNYX例例如如,相相关关系
2、系数数为为 ,但但是是却却不不独独立立对对于于来来自自正正态态总总体体的的随随机机变变量量X,Y,X,Y,他他们们相相关关跟跟独独立立是是等等价价的的,所所以以相相关关系系数数常常常常用用来来检检验验正正态态总总体体之之间间的的独独立立性性。若若总总体体非非正正态态,采采用用此此方方法法就就会会得得到到错错误误的的结结论论。 若若总总体体正正态态的的假假设设不不满满足足的的时时候候,如如何何衡衡量量变变量量之之间间的的相相关关性性?矩矩相相关关系系数数Pearson.Pearson间间线线性性相相关关程程度度的的度度量量和和矩矩相相关关系系数数是是YX. 0 . 1), 2 , 1)(,( 将
3、等于或接近于将等于或接近于线时,线时,都落在或接近于一条直都落在或接近于一条直若若rniyxii.),(),(价值价值没有太大的没有太大的或在构成置信区间时,或在构成置信区间时,未知,作为检验统计量未知,作为检验统计量的分布的分布的二维分布,若的二维分布,若变量,它的分布依赖于变量,它的分布依赖于是随机是随机任意的数值型数据,但任意的数值型数据,但这个相关性度量可用于这个相关性度量可用于rYXYXr niiniiniiiyyxxyyxxr12121)()()(秩秩相相关关系系数数Spearman1 . 8的秩相关系数的秩相关系数设有成对数据设有成对数据 nnyxyxyx,2211,)1(221
4、1 nnQRQRQR求出各自的秩求出各自的秩.21212121中没有重复的观察值中没有重复的观察值,以及以及,设设中的秩中的秩,在在为为中的秩,中的秩,在在为为其中其中nnniiniiyyyxxxyyyyQxxxxR nnQRQRQR,2211来讨论秩数据来讨论秩数据秩秩相相关关系系数数、Spearman1 niiniiniiisQQRRQQRRr12121)()()()2(计算矩相关系数计算矩相关系数)1()1(312221s nnnnQRrniii可简化为可简化为、秩秩相相关关系系数数检检验验2.,1111中没有重复的观察数据中没有重复的观察数据,以及在以及在,是连续型随机变量,在是连续型
5、随机变量,在总体总体中抽取,中抽取,从总体从总体假设成对二维随机样本假设成对二维随机样本nnnnyyxxYXYXyxyx 负相关负相关和和:相互独立,相互独立,和和:正相关正相关和和:相互独立,相互独立,和和:检验问题:检验问题:YXHYXHYXHYXH1010)2()1(.2121中的秩中的秩,在在为为中的秩,中的秩,在在为为记记niiniiyyyyQxxxxR.,1的性质的性质我们先讨论我们先讨论的性质的性质计量计量值,下面来讨论检验统值,下面来讨论检验统为确定临界值或求为确定临界值或求 niiiQRp niidniiiiRQRYX111独立时,独立时,和和在原假设为真,即在原假设为真,即
6、性质性质)1()1(312221s nnnnQRrniii检验统计量检验统计量W)2(W)1(ssdrcr 检验问题检验问题拒绝域:检验问题拒绝域:检验问题独独立立时时,和和在在原原假假设设为为真真,即即性性质质YX2.), 2 , 1(),( ,:),(#)(6)12)(1(,6)2)(1(!)(1111的一个排列的一个排列是是其中其中nrrdirrrdSnnnnnndndSdQRPnniinnnniii niidniiiiRQRYX111独立时,独立时,和和在原假设为真,即在原假设为真,即性质性质 )1()1(312322nnnndrPYXs独立时,独立时,和和在原假设为真,即在原假设为真
7、,即性质性质6)12)(1(,6)2)(1( nnnnnnd.), 2 , 1(),( ,:),(#)(111的一个排列的一个排列是是其中其中nrrdirrrdSnniinn !)(1ndSdQRPnniii . 11 ,最小值为,最小值为的最大值为的最大值为注:注:sr.0)(5的对称分布的对称分布服从对称中心为原点服从对称中心为原点系数系数,秩相关,秩相关独立时独立时和和即即在原假设为真在原假设为真性质性质srYX,独独立立时时和和即即在在原原假假设设为为真真性性质质)(4YX6)12)(1(,6)2)(1(2)1(211 nnnnnnddnnQRPdQRPniiiniii.4)1(21的
8、对称分布的对称分布服从对称中心为服从对称中心为即即 nnQRniii,所以可得:,所以可得:因为因为)1()1(312221s nnnnQRrniii nNrnrLss),1 , 0(17正态性:正态性:有渐近有渐近关系数关系数在原假设为真时,秩相在原假设为真时,秩相性质性质11)(, 0)(6 nrDrErsss和方差为和方差为的期望的期望关系数关系数在原假设为真时,秩相在原假设为真时,秩相性质性质关关系系数数的的修修正正:有有相相等等观观察察值值时时的的秩秩相相 niiniiniiisQQbRRaQQbRRar12121)()()()( yxgttytygttxtxniiisnnnnnnQ
9、bRar1,3,21,3,221)()1()()1()1(3)()(12 可简化为可简化为同样如此同样如此秩的平均秩的平均时,时,在结的长度在结的长度时,时,在结的长度在结的长度siiirbRaRRa.)(1,)(1 ).1 , 0(1)()1()()1( )()()2(11)(0)()(81,3,21,3,21,3,1,3,0NrnnnnnnnnrDrEHLsgttytygttxtxgttytygttxtxssyxyx 且且,有结时有结时成立时成立时在在性质性质 .P206W)2(W)1(3ss解解表或用渐近正态分布求表或用渐近正态分布求查查检验问题检验问题检验问题检验问题域:域:、秩相关系
10、数检验拒绝、秩相关系数检验拒绝drcr .GPAGMAT),GPA(MBA)GMAT(MBA12的关系的关系和和是讨论是讨论项目时的平均成绩项目时的平均成绩和他们读和他们读研究生的入学考试成绩研究生的入学考试成绩个个测量测量例例12 11 10 9 8 7 6 5 4321学学生生560 570 540 560 530 610 560 545 580640610710GMAT3.2 3.2 3.3 3.5 3.5 3.5 3.6 3.7 8 . 39 . 30 . 40 . 4GPA相相关关系系数数 Kendall2 . 8中抽取,中抽取,从总体从总体随机样本随机样本的相关程度,假设二维的相关
11、程度,假设二维,考虑随机变量考虑随机变量 YXyxyxYXnn,11 niiniiniiiyyxxyyxxr12121)()()(Pearson)1(矩相关系数矩相关系数 niiniiniiisQQRRQQRRr12121)()()(Spearman)2(秩相关系数秩相关系数线线性性相相关关程程度度和和矩矩相相关关系系数数表表示示注注:YXPearson)1(相相关关程程度度和和秩秩相相关关系系数数表表示示YXSpearman)2(.Kendall的相关性的相关性和和来度量来度量个相关系数个相关系数这堂课我们引入另外一这堂课我们引入另外一YX )0)(P)0)(P12121212 yyxxyy
12、xx 令令.1. 01, 0越负相关越负相关和和,越接近于越接近于负相关时,负相关时,和和在在越正相关;越正相关;和和,越接近于越接近于正相关时,正相关时,和和说明:在说明:在YXYXYXYX .1212的趋势的趋势有大于有大于时,时,有增大的趋势,在有增大的趋势,在增加时增加时注:正相关是当注:正相关是当yyxxYX njiijijyyxxnn1)(sgn)1(2 0)(, 10)(, 00)(, 1)(sgnijijijijijijijijyyxxyyxxyyxxyyxx相相关关系系数数、 Kendall1其其中中 )(1E性性质质.,11中抽取中抽取从总体从总体随机样本随机样本的相关程度
13、,假设二维的相关程度,假设二维,考虑随机变量考虑随机变量 YXyxyxYXnn.:的的相相关关性性和和来来度度量量的的无无偏偏估估计计,可可用用是是说说明明YX 相相关关系系数数 Kendall.,1111中没有重复的观察数据中没有重复的观察数据,以及在以及在,是连续型随机变量,在是连续型随机变量,在总体总体中抽取,中抽取,从总体从总体假设成对二维随机样本假设成对二维随机样本nnnnyyxxYXYXyxyx 负相关负相关和和:相互独立,相互独立,和和:正相关正相关和和:相互独立,相互独立,和和:检验问题:检验问题:YXHYXHYXHYXH1010)2()1(.2121中的秩中的秩,在在为为中的
14、秩,中的秩,在在为为记记niiniiyyyyQxxxxR相相关关系系数数检检验验、 Kendall2 njiijijyyxxnn1)(sgn)1(2 相相关关系系数数检检验验统统计计量量: KendallW)2(W)1(dc 检验问题检验问题拒绝域:检验问题拒绝域:检验问题.Kendall相关系数的分布相关系数的分布下面我们讨论下面我们讨论总体分布无关,总体分布无关,是秩统计量,其分布与是秩统计量,其分布与由于由于 njiijijQQRRnn1)(sgn)1(2)2 , 1 (),(,)sgn(:),(#)(,2)1(2)1(,!)()()1(2)sgn()1(2)sgn()1(2211111
15、0的一个排列的一个排列是是其中其中且且分布,其中分布,其中同同和和相互独立时,相互独立时,和和为真时,即为真时,即在在性质性质nnjiijnnnnjiijnjiijrrdrrrrdTnndnnndTdkPdnnPxxnnRRnnYXH .03的对称分布的对称分布服从对称中心为原点服从对称中心为原点相关系数相关系数相互独立时,相互独立时,和和在原假设为真时,即在原假设为真时,即性质性质 YX)1(9)52(2)(, 0)(4 nnnDEYX 的期望和方差为:的期望和方差为:相关系数相关系数相互独立时,相互独立时,和和在原假设为真时,即在原假设为真时,即性质性质 nNnnnYXL),1 , 0()
16、52(2)1(35 相互独立时,相互独立时,和和在原假设为真时,即在原假设为真时,即性质性质 )()(sgn)()(sgn)()()()(sgn11ijnjiijijijnjiQbQbRaRaQbQbRaRak 相相关关系系数数修修正正为为有有相相等等观观察察值值时时的的 Kendall.)(1,)(1,秩的平均秩的平均时,时,当结长当结长时,时,都是计分函数,当结长都是计分函数,当结长其中其中 iiiRaRRaba2)1(2)1(2)1(2)1(11 yxgty,ty,tgtx,tx,tnnnnk .KendallKendallSpearman相关系数更可靠相关系数更可靠用用样本容量并不大时
17、,使样本容量并不大时,使若使用渐近正态性,在若使用渐近正态性,在,际问题中最好两种都用际问题中最好两种都用没有确定的说法,在实没有确定的说法,在实那种更好,那种更好,相关系数都可以,至于相关系数都可以,至于和和秩相关系数秩相关系数验用验用注:相关性的度量和检注:相关性的度量和检 协协和和系系数数Kendall3 . 8.kendallSpearmanPearson量间的相关程度量间的相关程度相关系数来度量两个变相关系数来度量两个变秩相关系数和秩相关系数和矩相关系数、矩相关系数、 .,验问题验问题检验问题称为一致性检检验问题称为一致性检这类这类或同时下降的趋势或同时下降的趋势多个变量有无同时上升
18、多个变量有无同时上升检验检验变量间的相关性变量间的相关性这一节我们来讨论多个这一节我们来讨论多个.明明我我们们通通过过一一个个例例子子来来说说 Kendall协同相关系数用于考察多个变量之间的协同相关系数用于考察多个变量之间的相关性。例如,歌手大赛中,评委对歌手的评分是相关性。例如,歌手大赛中,评委对歌手的评分是否一致?变量之间的协同系数检验也是以多变量的否一致?变量之间的协同系数检验也是以多变量的秩检验为基础的。秩检验为基础的。)1(3)1(12)()1(12Friedman1212 kbRkbkRRbkkQkiikii检验统计量:检验统计量:由由)1()1(312)1(222212 kkb
19、kkbRkbQWkii协协和和系系数数引引入入Kendall上上机机实实验验内内容容) P30 P442(Minitab1P531步步骤骤见见、9 P1493、.12.24办办公公室室前前实实验验报报告告交交到到统统计计学学.321分析分析实验结果及对结果进行实验结果及对结果进行实验步骤实验步骤实验题目实验题目实验报告:实验报告:) P1152(Minitab P1262步步骤骤见见、非非参参数数统统计计复复习习)1 . 3P28(1例例、符符号号检检验验)1 . 4P42(2例例、符符号号秩秩和和检检验验例子例子的证明的证明定理定理定理定理秩和检验秩和检验、P612 . 51 . 5P60W
20、ilcoxon31 . 6P92WallisKruskal4例例检验检验、 检验统计量的期望检验统计量的期望例例检验检验、FriedmanP1131 . 7P110Friedman5性性检验统计量的渐近正态检验统计量的渐近正态例例检验检验、PageP1233 . 7P125Page6.KendallSpearman7看课上的两个例子看课上的两个例子相关系数相关系数秩相关系数秩相关系数、 记录了如下的数据:记录了如下的数据:系系告费和销售收入间的关告费和销售收入间的关零售商要了解每周的广零售商要了解每周的广例例,:)100()10(万元万元销售收入销售收入万元万元广告费广告费461694321151297531是否相等?为什么?是否相等?为什么?秩相关系数,秩相关系数,矩相关系数和矩相关系数和计算计算SpearmanPearson
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。