1、LOGLOGO O第第6章章 相关分析相关分析 在体育科研中,经常需要分析两种现象或事在体育科研中,经常需要分析两种现象或事物之间的关系。例如百米跑成绩与跳远成绩间有物之间的关系。例如百米跑成绩与跳远成绩间有无关系?如果有,其关系如何?百米跑成绩提高无关系?如果有,其关系如何?百米跑成绩提高0.01秒,跳远成绩将会受到何种影响呢?对于这秒,跳远成绩将会受到何种影响呢?对于这类变量间关系的研究就属于相关与回归问题。类变量间关系的研究就属于相关与回归问题。6.1线性相关分析线性相关分析一、变量间的两种关系一、变量间的两种关系 在统计学中,事物或现象之间的关系是通过变量间的关系反映出来的。变量间的关
2、系分为确定性关系和非确定性关系两类。确定性关系即函数关系,非确定性关系即相关关系。v 函数关系函数关系 函数关系反映着现象之间存在着严格的依存关系,在这种关系中,对于变量X的每一个数值,都可以通过对应法则 使变量Y有一个确定的值与相对应(反之亦然),此时称变量X和Y有函数关系。例如,圆面积S对于圆半径R的依存关系可用一个确定的对应法则(函数式)反映出来。两个变量如果有函数关系,知道其中一个变量的值,另外一个变量的值就会被确定。v 相关关系相关关系 当研究的两个事物或现象之间,既存在着相互影响、相互制约的数量关系,又不像函数关系那样,能由一个变量的数值精确地求出另一个变量的数值来,这类变量间的关
3、系称为相关关系,简称相关。在体育运动中,存在着许多相关关系,如身高与体重之间的关系、百米跑成绩与跳远成绩之间的关系、现代五项运动中的游泳成绩与越野跑成绩之间的关系,等等。在实际中,由于测量误差的存在,变量间的函数关系往往以相关关系表现出来,相关又可分为线性相关与非线性相关。)(XfY RS2二、线性相关系数的意义二、线性相关系数的意义v 散点图散点图 为了考察两个连续型随机变量X和Y之间是否存在某种程度的线性关系,可以对同一观察单位同时测量X和Y的数值,从而得到一对观察值。从总体中随机抽取n对观察值,记为 ,这就是讨论两个连续型变量线性相关的样本。图图6-1 散点图散点图 考察相关性最简单而直
4、观的办法是在XOY直角坐标系上画出散点图,通过散点图可以看出两个变量间是否存在线性关系。这n对观察值分别代表n个点,在直角坐标系XOY上将其点画出,便构成了一幅散点图,如图6-1所示。),(,),(2211yxyxyxnn,),(),(,),(2211yxyxyxnn,),(v 线性相关系数的意义线性相关系数的意义 对于两个连续型变量来说,描述两个变量之间直线关系的密切程度和相关方向的统计指标叫相关系数。统计上也称为Pearson 积矩相关系数。样本线性相关系数一般用表示、总体相关系数一般用 表示。相关系数没有单位,其取值范围为 ,若变量间的直线关系越密切,则 越接近于1;当变量之间的直线关系
5、越不密切,越接近0。1、正相关、正相关 若两个变量同时趋于同一方向变化,即当X增加(或减少)时,Y也相应具有增加(或减少)的趋势时,则称为正相关,此时 ;若此时所有点都在同一条直线上,称为完全正相关。如图6-2所示。11rrr10 r1r1、负相关、负相关 若两个变量间,当X增加(或减少)时,Y却具有减少(或增加)的趋势时,称为负相关,此时,;若此时所有点都在同一条直线上,称为完全负相关。如图6-3所示。3、完全无关、完全无关 当两个变量X与Y之间,Y值的变化不受X值变化的影响时(反之亦然),我们称X与Y完全无关,此时必有 。但须注意的是X与Y完全无关(零相关)时,两个变量无任何关系,必定有
6、但反过来 只表示与之间无直线相关关系,并不能保证两变量间无其他非线性关系。如图6-4所示。01r1r0r0r0r三、线性相关系数的计算三、线性相关系数的计算v 公式公式 在实际工作中,我们通常只计算样本相关系数。其公式为:(6-1)式6-1中:,是变量的离均差平方和;,是变量的离均差平方和;,是变量X、Y的离均差积和。v 计算相关系数的实例计算相关系数的实例 例6-1 为讨论父子身高间线性相关程度,某教师在大学一年级中随机抽取了16名男生,分别调查了他们及他们父亲的身高数据(cm),如表6-1所示,计算父子间身高的相关系数。LLLyyxxxyrnxxxxLxx)()(222nyyyyLyy)(
7、)(222nyxxyyyxxLxy)(解:用EXCEL软件计算,如表6-2所示。例6-2 32名大学女生的身高(厘米)与体重(公斤)数据如表6-3所示,求身高与体重的相关系数。解:用EXCEL软件计算,如表6-3所示。90.5252x77.8628102x40.1691y38.898602y28.277942yx32n68.293nyxxyLxy82.530)(22nxxLxx32.459)(22nyyLyy595.032.45982.53068.293LLLyyxxxyr四、线性相关系数的假设检验四、线性相关系数的假设检验v 检验的基本原理检验的基本原理 在实际工作中,不能简单的由 的大小对
8、两个变量间的关系做出判断。因为 存在着两种可能:第一,样本是由 (零相关)的总体抽出的,是由抽样误差所致,此时,即使 值较大,也不能认为两变量是相关的;第二,样本是由 (线性相关)的总体中抽出的,是由条件误差所致,此时,即使 较小,也应认为两变量存在线性相关关系。因此,由样本数据计算得到的样本相关系数 只能作为总体相关系数 的一个估计值,从同一总体中抽出不同的样本会得到不同的样本相关系数。为弄清样本信息所反映的相关是抽样误差所致还是两总体确有相关(条件误差所致),必须对样本相关系数进行显著性检验。检验的无效假设 (即两总体不存在线性相关关系);(两总体存在线性相关关系)。若检验结果得到 (即
9、成立条件下的概率大于选定的显著性水平 ),认为 与 的差别无显著性意义,两变量间不存在线性相关关系;若检验结果得到 (即 成立条件下的概率小于等于选定的显著性水平 ),认为与 的差别有显著性意义,两变量间存在线性相关关系。r0r00rr00rr)(0HpH00)(0HpH00rrrv 检验方法检验方法 相关系数的显著性检验有t-检验和查r界值表两种方法。1、t-检验法 在 成立条件下,检验统计量tt(n-2),其中:选定显著性水平 ,查书后附表2的值表得到双侧临界值 ,若 ,则拒绝 ,表明两变量间存在线性相关关系;若 ,则接受 ,表明两变量间不存在线性相关关系。例6-3 试对例6-1计算得到的
10、相关系数 进行显著性检验()。rnrt212)2(2nttt2H0tt2H0r05.0例6-4 试对例6-2计算得到的相关系数进行显著性检验()。2、查表法 为了给使用者提供方便,统计学家根据t分布表求出 的不同显著性水平下的临界值,列成相关系数界值表(附表7),使用者对相关系数进行显著性检验时,只须根据选定的显著性水平,在相应自由度下直接查表获得临界值 ,通过 与 的比较获得检验结果。判断方法如下:若 ,表明两变量间不存在线性相关关系;若 ,表明两变量间存在线性相关关系。例6-3用查表法对相关系数 进行检验时,自由度 ,查附表7得 ,两变量不存在线性相关关系。例6-4用查表法对相关系数 进行
11、检验时,自由度 ,查附7表得 ,两变量存在线性相关关系。05.0rrrrrr)(0Hprr)(0Hpr142 nn497.005.0rrr05.030.0r30232 n349.005.0rr05.0595.0rr 6.2等级相关分析等级相关分析一、公式一、公式 设X和Y至少是两个用定序尺度度量的变量,要研究它们所代表的二元变量X和Y是否存在关联关系,从总体中随机抽取n对观察值,记为 。将n对观察值中所有 在X样本中由小到大编秩(首先将n对观察值由小到大排序,每一序号即为相应的的秩次),所有 在Y样本中由小到大编秩;如果数值相同时取平均秩次。记 的秩为 、的秩为 则Spearman等级相关系数
12、定义为:如果在没有打结时(或 中出现秩次相同时叫打结),也可用下面公式计算:注意:Spearman秩相关系数的基本思想是利用两变量秩次排列的一致性来描述其关联程度,如果 表示两变量秩次排列完全一致,即完全正关联(正相关);如果 表示两变量的秩次排列完全相反,即完全负关联(负相关)。),(,),(2211yxyxyxnn)、(xiyixiyinininiiisSSRRSSRRrii12121)()()()(xiyirs)1(61212nndrniis11rs1rs1rs二、二、Spearman等级相关系数的检验等级相关系数的检验 在抽样过程中由于抽样误差的存在,计算出的Spearman秩相关系数
13、也需要进行检验,其原理同Pearson积矩相关系数。:X和Y不存在关联关系;:X和Y存在关联关系。对于 ,在 成立条件下可查书后附表8的等级相关系数界值表(Spearman秩相关系数界值表)进行判断。若 ,则拒绝 ,认为两个等级变量存在关联关系;若 ,则接受 ,认为两个等级变量不存在关联关系。注意:查表时,n为样本量。当 时,可利用 的极限分布进行检验,进行判断。三、三、Spearman秩相关系数的实例秩相关系数的实例例6-5 表6-5列出了某次男子蓝球比赛前10名的名次和平均投蓝命中率,试检验它们之间的关联关系()。H0H1100nH0rrs2H0rrs2H0100nrs1nrus)1,0(
14、N05.0解:分别将名次与平均投蓝命中率列出秩次,并计算,见表6-6所示。,查书后附表8的Spearman等级相关系数界值表得 ,则 拒绝 ,表明名次与投蓝命中率之间存在秩关联(等级相关)关系。101230iid10n818.0)110(103061)1(612212ndrnniis05.0648.0205.0rrrs205.0H0 6.3 多个连续型变量间的相关分析多个连续型变量间的相关分析 一、复相关系数一、复相关系数 复相关系数是用来表示因变量与自变量 之间线性关系密切程度的指标,用R表示,也称为判定系数或决定系数,在下一章加以详述。二、偏相关系数二、偏相关系数 在多变量的情况下,变量间
15、的相关关系是很复杂的,这是因为任意两个变量之间都可能存在着相关关系。这时,用Pearson简单相关系数往往不能正确地说明两个变量之间的真正关系。如果需要真正表示两个变量之间的相关关系,那么必须在消除其它变量影响的情况下,计算这两个变量间的相关系数。这种相关系数称为偏相关系数。例如,有三个变量 彼此存在着相关关系,消除 的影响后,可计算 对的偏相关系数,记作 ,它可以由 的简单相关系数 按下面公式计算而得:偏相关系数的数值和简单相关系数的数值常常是不同的,在计算简单相关系数时,所有其它自变量不予考虑,在计算偏相关系数时,要考虑其它自变量对因变量的影响,只不过把其它自变量当作常数处理了。xxxk、2110 RR2xxx321、x3xx21、r3,12xxx321、rrr231312、