1、直线相关与回归分析第七章平均数平均数标准差标准差方差分析方差分析多重比较多重比较集中点集中点离散程度离散程度差异显著性差异显著性一个变量(产量)施肥量播种密度品种p 在实际研究中,事物之间的相互在实际研究中,事物之间的相互关系涉及关系涉及两个或两个两个或两个以上的变量,以上的变量,只要其中的一个变量变动了,另只要其中的一个变量变动了,另一个变量也会跟着发生变动,这一个变量也会跟着发生变动,这种关系称为种关系称为协变关系协变关系,具有协变,具有协变关系的变量称为关系的变量称为协变量协变量。确定的函数关系确定的函数关系PV=RT 气体压强S=r2 圆的面积协协变变量量S=a b 长方形面积身高与胸
2、围、体重施肥量与产量溶液的浓度与OD值人类的年龄与血压 温度与幼虫孵化不完全确定的函数关系(相关关系)协协变变量量相相关关变变量量一个变量一个变量的变化受的变化受另一个另一个变量或几个变量变量或几个变量的制约的制约因果关系因果关系平行关系平行关系两个以上变量两个以上变量之间共同之间共同受到另外因素的影响受到另外因素的影响动物的生长速度受遗传、营养等影响子女的身高受父母身高的影响人的身高和体重之间的关系兄弟身高之间的关系 为了确定相关变量之间的关系,首为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上该是成对的,然后在直角坐标
3、系上描述这些点,这一组点集称为散点描述这些点,这一组点集称为散点图。图。散点图散点图(scatter diagram)(scatter diagram)u为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。 散点图散点图(scatter diagram)两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切)两个变量间关系的类型(直线型或曲线型)
4、是否有异常观测值的干扰 1 2 3 4 5 64321 1 2 3 4 5 64321 1 2 3 4 5 64321正向直线关系负向直线关系曲线关系散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。回归回归( (regerssionregerssion) )相关相关(correlation)(correlation)定量研究p 在生物学中,研究两个变量间的关在生物学中,研究两个变量间的关系,主要是为了探求两变量的内在系,主要是为了探求两变量的内在联系,或从一个变量联系,或从一个变量X X(可以是随机(可以是随机变量,也可以是一
5、般的变量),去变量,也可以是一般的变量),去推测另一个随机变量推测另一个随机变量Y Y。xy施肥量施肥量( (可以严格地人为控制可以严格地人为控制) )产量产量p 如果对如果对x x(非随机变量或随机变量)的每一个(非随机变量或随机变量)的每一个可能的值,都有随机变量可能的值,都有随机变量y y的一个分布相对应,的一个分布相对应,则称随机变量则称随机变量y y对变量对变量x x存在回归存在回归(regression)(regression)关系。关系。自变量(independent variable)因变量(dependent variable)一个变量的变化受另一个变量或几个变量的制约一个变
6、量的变化受另一个变量或几个变量的制约因果关系因果关系p研究研究“一因一果一因一果”,即一个自变量与一个,即一个自变量与一个依变量的回归分析称为依变量的回归分析称为一元一元回归分析回归分析 p研究研究“多因一果多因一果”,即多个自变量与一个,即多个自变量与一个依变量的回归分析称为依变量的回归分析称为多元回归分析多元回归分析。直线回归分析直线回归分析曲线回归分析曲线回归分析多元线性回归分析多元线性回归分析多元非线性回归分析多元非线性回归分析在大量测量各种身高人群的体重时会发现,虽然在同样身高在大量测量各种身高人群的体重时会发现,虽然在同样身高下,体重并不完全一样。但在每一身高下,都有一个确定的下,
7、体重并不完全一样。但在每一身高下,都有一个确定的体重分布与之相对应体重分布与之相对应; ;在大量测量各种体重人群的身高时会发现,虽然在同样体重在大量测量各种体重人群的身高时会发现,虽然在同样体重下,身高并不完全一样。但在每一体重下,都有一个确定的下,身高并不完全一样。但在每一体重下,都有一个确定的身高分布与之相对应身高分布与之相对应; ;p 身高与体重之间存在相关关系。X身高身高Y体重体重X体重体重Y身高身高相关关系相关关系p 两变量两变量x x、y y均为随机变量,任一变量的每一可均为随机变量,任一变量的每一可能值都有另一变量的一个确定分布与之对应,能值都有另一变量的一个确定分布与之对应,则
8、称这两个变量存在则称这两个变量存在相关相关(correlationcorrelation)关)关系。系。p 对两个变量间的直线关系进行相关分析称为对两个变量间的直线关系进行相关分析称为简简单相关分析单相关分析(也叫(也叫直线相关分析直线相关分析););p 对多个变量进行相关分析时,研究一个变量与对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为多个变量间的线性相关称为复相关分析复相关分析;研究;研究其余变量保持不变的情况下两个变量间的线性其余变量保持不变的情况下两个变量间的线性相关称为相关称为偏相关分析偏相关分析。第二节:直线回归 Linear Regression一、直线回归方
9、程的建立一、直线回归方程的建立二、直线回归的数学模型和基本假定二、直线回归的数学模型和基本假定三、直线回归的假设检验三、直线回归的假设检验四、直线回归的区间估计四、直线回归的区间估计简单回归简单回归(Simple Regression)一、直线回归方程的建立p 直线回归就是用来描述一个变量如何依赖于另一个变量温度温度天数天数Y=a+bx直线回归方程(linear regression equation)截距截距(intercept)回归截距回归截距斜率斜率(slope)回归系数回归系数(regerssion coefficient)自变量自变量与与x值相对应的依变量值相对应的依变量y的点估计值
10、的点估计值0 xya0,b0a0a0,b0a=0b=0bxay变量变量1变量变量2收集数据收集数据散点图温度天数 X Y平均温度() 历期天数(d ) 11.8 30.1 14.7 17.3 15.6 16.7 16.8 13.6 17.1 11.9 18.8 10.7 19.5 8.3 20.4 6.7p黏虫孵化历期平均温度与历期天数关系图0 010102020303040401010121214141616181820202222温度温度天数(天)天数(天)()bxayp回归直线在平面坐标系中的位置取决于回归直线在平面坐标系中的位置取决于a,ba,b的取值。的取值。nyy12)(ybxay
11、nnbxayyyQ1212)()(最小最小最小二乘法(method of least square)nnbxayyyQ1212)()(0)(2bxayaQ0)(2xbxaybQ根据微积分学中的求极值的方法,令Q对a、b的一阶偏导数等于0,即:xbyanxxnyxxyb/)(/ )(22xxySSSPxxyyxxb2)()(bxaynyyQ12)(为最小值0)(yy),(yx基本性质bxayxbya)(xxbyy回归方程的中心化形式 X Y平均温度() 历期天数(d ) 11.8 30.1 14.7 17.3 15.6 16.7 16.8 13.6 17.1 11.9 18.8 10.7 19.
12、5 8.3 20.4 6.77 .134x19.23232x3 .115y03.20392y8n8375.16nxx4125.14nyySUMPRODUCTSUMPRODUCT:返回若干数组中彼此对应元素的乘积的:返回若干数组中彼此对应元素的乘积的和和1788.55)()(222xxnxxSSx2688.377)()(222yynyySSy6937.139)( )()( )(yyxxnyxxySPxy5317.2xxySSSPb0400.57xbyaxy5317. 20400.570 010102020303040401010121214141616181820202222温度温度天数(天)天
13、数(天)()xy5317. 20400.5711.8-20.4用用x x估计估计y y,存在随机误差,必须根据回归的数,存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进学模型对随机误差进行估计,并对回归方程进行检验。行检验。ybxay误差二、数学模型和基本假定yiy)(xxy y的总体平均数的总体平均数因因x x引起引起y y的变异的变异y y的随机误差的随机误差)(xyxyxy总体回归截踞总体回归截踞总体回归系数总体回归系数随机误差随机误差直线回归的直线回归的数学模型数学模型( (model of linear regression)model of linear re
14、gression)基本假定x x是没有误差的固定变量,或其误差可以忽是没有误差的固定变量,或其误差可以忽略,而略,而y y是随机变量,且有随机误差。是随机变量,且有随机误差。x x的的任一值对应着一个任一值对应着一个y y总体,且作正态分总体,且作正态分布,其平均数布,其平均数+x+x,方差受偶然因,方差受偶然因素的影响,不因素的影响,不因x x的变化而改变。的变化而改变。随机误差随机误差是相互独立的,呈正态分布。是相互独立的,呈正态分布。ybxayxyp 若若x x和和y y变量间并不存在直线关系,变量间并不存在直线关系, 但由但由n n对对观测值(观测值(x xi i,y yi i)也可以
15、根据上面介绍的方)也可以根据上面介绍的方法求得一个回归方程法求得一个回归方程bxayp 显然,这样的回归方程所反应的两个变量间显然,这样的回归方程所反应的两个变量间 的直线关系是不真实的。的直线关系是不真实的。 如何判断直线回如何判断直线回归方程所反应的两个变量间的直线关系的真归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量实性呢?这取决于变量x x与与y y间是否存在直线间是否存在直线关系。关系。三、直线回归的假设检验bxay 有意义有意义 指导实践指导实践?是否真正存在线性关系是否真正存在线性关系回归关系是否显著回归关系是否显著一、直线回归的变异来源y=a+bxy(x,y)y-y
16、y-yy-y实际值与估计值之差,剩余或残差。y-y估计值与均值之差,它与回归系数的大小有关。) ()()(yyyyyy22) ()()(yyyyyy) ( )(2) ()(22yyyyyyyy0)()()()()()() ( )()(2222)(xxxxxySSSSSPSPSSSPSSbbSPyyxxbxxbyyxxbyyyyxxbyyxxb) ( )(yyyy22) ()()(yyyyyy) ( )(2) ()(22yyyyyyyy22) ()(yyyy一、直线回归的变异来源y=a+bxy(x,y)y-yy-yy-y实际值与估计值之差,剩余或残差。y-y估计值与均值之差,它与回归系数的大小有
17、关。依变量依变量 y y的平方和,总平方和,的平方和,总平方和,SSSSy y,SS,SS总总回归平方和回归平方和 U U离回归平方和离回归平方和 Q Q222) ()()(yyyyyyp y y的离均差,反映了的离均差,反映了y y的总变异程度,的总变异程度,称为称为y y的总平方和。的总平方和。 说明未考虑说明未考虑x x与与y y的回归关系时的回归关系时y y的的变异。变异。2)(yyySSp 反映了由于反映了由于y y与与x x间存在直线关系所引起的间存在直线关系所引起的y y的变异程度,因的变异程度,因x x的变异引起的变异引起y y变异的平方和,变异的平方和,称为回归平方和。称为回
18、归平方和。p 它反映在它反映在y y的总变异中由于的总变异中由于x x与与y y的直线关系,的直线关系,而使而使y y变异减小的部分,在总平方和中可以变异减小的部分,在总平方和中可以用用x x解释的部分。解释的部分。 U U值大,说明回归效果好。值大,说明回归效果好。回归平方和回归平方和(regression sum of squares)(regression sum of squares)U U2)(yyp 误差因素引起的平方和,反映了除去误差因素引起的平方和,反映了除去x x与与y y的直的直线回归关系以外的其余因素使线回归关系以外的其余因素使y y引起变化的大引起变化的大小。小。p 反
19、映反映x x对对y y的线性影响之外的一切因素对的线性影响之外的一切因素对y y的的变异的作用,也就是在总平方和中无法用变异的作用,也就是在总平方和中无法用x x解释的部分。解释的部分。离回归平方和离回归平方和误差平方和,剩余平方和误差平方和,剩余平方和(residual sum of squares)(residual sum of squares)Q Q 在散点图上,各实测点离回归直线越近,在散点图上,各实测点离回归直线越近,Q Q值越小,说明直线回归的估计误差越小。值越小,说明直线回归的估计误差越小。2) (yy依变量依变量 y y的平方和,总平方和,的平方和,总平方和,SSSSy y,
20、SS,SS总总回归平方和回归平方和 U U离回归平方和离回归平方和 Q Q222) ()()(yyyyyyQUSSy222) ()()(yyyyyyQUSSyQUydfdfdfxxSSSPbSPSSbxxbyxxbyyyU222222)()()(直线回归分析中,回归自由度等于自变量直线回归分析中,回归自由度等于自变量的个数,只涉及到的个数,只涉及到1 1个自变量个自变量df回归1df总n-1df离回归n-22/nQsxyQ/n-2Q/n-2离回归标准差离回归标准差回归估计标准误回归估计标准误剩余标准差剩余标准差离回归方差离回归方差假 设H H0 0: :两变量间两变量间无无线性关系线性关系H
21、HA A: :两变量间两变量间有有线性关系线性关系在无效假设存在下,回归方差与离回归在无效假设存在下,回归方差与离回归方差的比值服从方差的比值服从F F分布。分布。)2(2/1/nQUnQUFdf1= 1df2= n-2(二)F检验H H0 0: :黏虫孵化历期平均温度黏虫孵化历期平均温度x x与历期天数与历期天数y y之之间间 不存在不存在线性关系线性关系H HA A: :两变量间两变量间有有线性关系线性关系变异来源 df SS s2 F F0.05 F0.01 回归 1 353.6628 353.6628 89.89* 5.99 13.74 离回归 6 23.6060 3.9343 总变异
22、 7 377.2688p 检验线性回归系数的显著性,采用检验线性回归系数的显著性,采用t t检检验法进行。验法进行。假 设H H0 0: :=0=0H HA A: :00p 检验样本回归系数检验样本回归系数b b是否来自是否来自=0=0的双的双变量总体,以推断线性回归的显著性。变量总体,以推断线性回归的显著性。(三)t检验样本统计量样本统计量 的分布的分布1. 是根据最小二乘法求出的样本统计量,它有自是根据最小二乘法求出的样本统计量,它有自己的分布己的分布2. 的的分布具有如下性质分布具有如下性质分布形式:正态分布分布形式:正态分布数学期望:数学期望:标准差:标准差:由于由于 未知,需用其估计
23、量未知,需用其估计量s sy y来代替得到来代替得到 的估计的的估计的标准差标准差bbsbsbtxxyxybSSsxxsxxnyys/22/22)()()2() (df=n-2回归系数的标准误回归系数的标准误9835. 12/nQsxy1788.55xSS5317. 2b48. 91788.55/9835. 15317. 2/xxybSSsbsbt48. 9t707. 3)6(01. 0tp 否定否定H H0 0:=0:=0,接受,接受H HA A:0:0,认为黏,认为黏虫孵化历期平均温度与历期天数间有真虫孵化历期平均温度与历期天数间有真实直线回归关系。实直线回归关系。48.9bsbt89.8
24、92/1/nQUF同一概率值同一概率值F F(一尾)值(一尾)值(dfdf1 1=1,df=1,df2 2=n-2=n-2)t t值(两尾)(值(两尾)(dfdf=n-2=n-2)2tF 28704.8989.89tFa和b的置信区间(一)y/x 的置信区间和单个的置信区间和单个y y的预测区间的预测区间(二)y/x 和单个和单个y y观测值置信区间图示观测值置信区间图示(三)四、直线回归的区间估计四、直线回归的区间估计(一)a和b的置信区间xbya)1(22/2xxyaSSxnss)1(2/xxyaSSxnssasatdf = n-2(一)a和b的置信区间aastaLstaL21 总体回归截
25、距总体回归截距的置信区间的置信区间)1(2/xxyaSSxnss(一)a和b的置信区间总体回归系数总体回归系数 的置信区间的置信区间bbstbLstbL21xxybSSss/8375.16nxx9835. 12/nQsxy1788.55)()(222xxnxxSSx3009. 1)1(2/xxyaSSxnss2670. 0/xxybSSss707. 3447. 2)6(01. 0)6(05. 0tt2233.608567.5321aastaLstaL8784. 11850. 321bbstbLstbL3009. 1as0400.57a2670. 0bs5317. 2bxy5317. 20400
26、.57 95%95%的样本回归截的样本回归截距落在该区间内距落在该区间内 95%95%的样本回归系的样本回归系数落在该区间内数落在该区间内(二)y/x 的置信区间和单个的置信区间和单个y y的预测区间的预测区间xy/)(xxbybxay不包含随机误差不包含随机误差p由回归方程预测由回归方程预测x x为某一定值时为某一定值时y y的观测值所在区间,则的观测值所在区间,则y y观测观测值不仅受到值不仅受到y y和和b b的影响,也受到随机误差的影响。的影响,也受到随机误差的影响。xy5317. 20400.57bxay)(xxyy y总体的平均数总体的平均数单个单个y y值所在的区间值所在的区间x
27、 x点估计点估计(二)y/x 的置信区间和单个的置信区间和单个y y的预测区间的预测区间xxyySSxxnss22/2)(1xxyySSxxnss2/)(1yxysyt/df = n-2y y总体的平均数总体的平均数单个单个y y值所在的区间值所在的区间x xy y总体的平均数总体的平均数yystyLstyL21xy/xxyySSxxnss2/)(1黏虫孵化历期平均温度为黏虫孵化历期平均温度为1515时,历期时,历期天数为多少天(取天数为多少天(取9595置信概率)?置信概率)?8559.0)(12/xxyySSxxnss0645.1915)5317. 2(0400.57bxay1589.21
28、9701.1621yystyLstyLxxyySSxxnss22/2)(11xxyySSxxnss2/)(11ysyytdf =n-2y y总体的平均数总体的平均数x x单个单个y y值所在的区间值所在的区间单个单个y y值所在的区间值所在的区间yystyLstyL21yxxyySSxxnss2/)(11某年的历期平均温度为某年的历期平均温度为1515时,该年的历时,该年的历期天数为多少天(取期天数为多少天(取9595置信概率)?置信概率)?1603. 2)(112/xxyySSxxnss0645.1915)5317. 2(0400.57bxay3508.247782.1321yystyLst
29、yL(二)y/x的的置信区间和单个置信区间和单个y y的预测区间的预测区间1603. 2)(112/xxyySSxxnss3508.247782.1321yystyLstyL8559. 0)(12/xxyySSxxnss1589.219701.1621yystyLstyL(三)y/x 和单个和单个y y观测值置信区间图示观测值置信区间图示xxyySSxxnss2/)(11xxyySSxxnss2/)(1xxxSSn正比正比反比反比p 愈靠近愈靠近 x x ,对,对y y总体平均值或单个总体平均值或单个y y的估的估计值就愈精确,而增大样本含量,扩大计值就愈精确,而增大样本含量,扩大x x的取值
30、范围亦可提高精确度。的取值范围亦可提高精确度。p 作回归分析时要有实际意义。作回归分析时要有实际意义。直线回归注意问题直线回归注意问题 不能把毫无关联的两种现象勉强作回不能把毫无关联的两种现象勉强作回归分析,即便有回归关系也不一定是归分析,即便有回归关系也不一定是因果关系,还必须对两种现象的内在因果关系,还必须对两种现象的内在联系有所认识,即能从专业理论上作联系有所认识,即能从专业理论上作出合理解释或有所依据。出合理解释或有所依据。p 进行直线回归分析之前,绘制散点进行直线回归分析之前,绘制散点图。图。 当观察点的分布有直线趋势时,才适宜作当观察点的分布有直线趋势时,才适宜作直线回归分析。直线
31、回归分析。 散点图还能提示资料有无异常值,即对应散点图还能提示资料有无异常值,即对应于残差绝对值特别大的观测数据。异常点于残差绝对值特别大的观测数据。异常点的存在往往对回归方程中的的存在往往对回归方程中的a和和b的估计产的估计产生较大的影响。因此,需要复查此异常点生较大的影响。因此,需要复查此异常点的值。的值。直线回归注意问题直线回归注意问题p 直线回归的适应范围一般以自变量直线回归的适应范围一般以自变量的取值为限。的取值为限。 在自变量范围内求出的估计值,一在自变量范围内求出的估计值,一般称为内插般称为内插(interpolation);超过自变超过自变量取值范围所计算出的估计值,称量取值范
32、围所计算出的估计值,称为外延为外延(extrapolation)。 若无充分理由证明超过自变量取值范若无充分理由证明超过自变量取值范围还是直线,应该避免外延。围还是直线,应该避免外延。直线回归注意问题直线回归注意问题p描述两变量间的描述两变量间的依存依存关系。关系。直线回归的应用直线回归的应用xy5317. 20400.57p 利用回归关系进行利用回归关系进行预测预测(forecast)(forecast)。xy5317. 20400.57 将自变量作为预报回子,代入方程对将自变量作为预报回子,代入方程对预报量进行估计,其波动范围可按个预报量进行估计,其波动范围可按个体体y y值容许区间方法计
33、算。值容许区间方法计算。 回归方程进行回归方程进行统计控制统计控制(statistical control).(statistical control). NO2浓度浓度Y(NO2浓度,mg/m3)= -0.064866+0.000133x(车流量,辆小时)直线回归的应用直线回归的应用第三节:直线相关 Linear Correlation一、相关系数和决定系数一、相关系数和决定系数二、相关系数的假设检验二、相关系数的假设检验三、相关系数的区间估计三、相关系数的区间估计一、相关系数和决定系数一、相关系数和决定系数xy 线性关系 了解x和y相关以及相关的性质相关系数相关类型相关类型正相关负相关零相
34、关IIIIIIIVIIIIIIIVIIIIIIIV),(yx),(yyxxIIIIIIIV0, 0:yyxxI0, 0:yyxxII0, 0:yyxxIII0, 0:yyxxIV0)(yyxxIIIIIIIV0)(yyxx0)(yyxxIIIIIIIVIIIIIIIV0)(yyxx)(yyxx直线相关的两个变量的相关程度和性质直线相关的两个变量的相关程度和性质1)(nyyxx乘积和乘积和互变量(1)1)单位问题单位问题(2)x2)x与与y y本身的变异不影响本身的变异不影响x x与与y y之间的相关性之间的相关性?)(yyxxr r22)()()(yyxxyyxxnyxyyxx)()(yyxx
35、yx22)()()(yyxxyyxxr两个变量的变异程度两个变量的度量单位两个变量的个数r r可以用来比较不同双变量的相关程度和性质。可以用来比较不同双变量的相关程度和性质。22)()()(yyxxyyxxr22)()()(yxyxyxyx样本样本总体总体22)()()(yyxxyyxxr两个变量在相关系数计算两个变量在相关系数计算中的地位是中的地位是平等平等的,没有的,没有自变量和依变量之分自变量和依变量之分相关相关回归回归区别联系yyyxyxxySSUSSbSPSSSPSSSPSSSSSPryyyxyxxySSUSSbSPSSSPSSSPSSSSSPryyyySSQSSQSSSSUr12决
36、定系数coefficient of determinationyyyySSQSSQSSSSUr12p 变量变量x x引起引起y y变异的回归平方和占变异的回归平方和占y y总变异平方总变异平方和的比率和的比率p 当当SSySSy固定时,回归平方和固定时,回归平方和U U的大小取决于的大小取决于r r2 2。p 回归平方和回归平方和U U是由于引入了相关变量而使总平是由于引入了相关变量而使总平方和方和SSySSy减少的部分。减少的部分。12rSSUy说明引入相关的效果好yyyySSQSSQSSSSUr12102 r11r1r1r1r0Q用 y 可以准确预测y值x与y完全相关。完全正相关完全负相关
37、散点图上所有点必在一条直线上。ySSQr120rySSQ p 回归一点作用也没有,即用x的线性函数完全不能预测y值的变化。1rySSQr12p x与y之间不存在直线相关关系,这时散点图分布紊乱,没有直线的趋势,但可能存在非线性关系。IIIIIIIV10 rp x x的线性函数对预测的线性函数对预测y y值的变化有一值的变化有一定作用,但不能准确预测,说明定作用,但不能准确预测,说明y y还还受其他因素(包括随机误差)受其他因素(包括随机误差)的影的影响。响。相关系数相关系数(r) 和决定系数和决定系数(r2) 的区别的区别(1) (1) 除去除去 r =1r =1和和0 0的情况外,的情况外,
38、r r 2 2 r r ,这样可以防止这样可以防止对相关系数所表示的相关程度作夸张的解释。对相关系数所表示的相关程度作夸张的解释。(2 2)r r可正可负,可正可负,r r2 2取正,取正, r r2 2一般只用于表示相关程度而不表一般只用于表示相关程度而不表示相关性质。示相关性质。温度天数9682. 02688.3771788.556937.139yxxySSSSSPr9374. 02r 黏虫孵化历期平均温度与历期天数成负相关。黏虫孵化历期平均温度与历期天数成负相关。 x x和和y y的变异有的变异有93.7493.74可用二者之间的线性可用二者之间的线性关系来解释。关系来解释。=0=0 x
39、y(x1,y1)(x2,y2)(x3,y3)(xn,yn)yxxySSSSSPrP ?二、相关系数的假设检验二、相关系数的假设检验p r是线性关系强弱的指标2/) ()(2/22nyyyynQUF2121ndfdfxSSbU2222)()()(xxxxyyxxU222)()()(xxxxyyxxU2222)()()()(yyyyxxyyxxU222222)()()()()(yyryyyyxxyyxxUH H0 0: :=0=0H HA A: :00p 检验样本回归系数检验样本回归系数b b是否来自是否来自=0=0的的双变量总体,以推断线性回归的显著双变量总体,以推断线性回归的显著性。性。p 对
40、于相关系数对于相关系数r r作显著性检验的无效假设作显著性检验的无效假设为为=0 =0 ,即测定,即测定r r来自来自=0 =0 总体的概率,总体的概率,也就是判断也就是判断r r所代表的总体是否存在直线所代表的总体是否存在直线相关。相关。总体相关系数=022)(yyrU22222)()1 ()()(yyryyryyUSSQy2/ )1 (2/22nrrnQUF2121ndfdf2)1 (2nrrt2 ndf2)1 (2nrsr相关系数相关系数r r的的标准误标准误2tF ()假设(2)水平(3)检验(4)推断H H0 0:=0 :=0 ;H HA A:0:0选取显著水平选取显著水平2)1 (
41、2nrrsrtr 在在显著水平上,否定显著水平上,否定H H0 0,接受,接受H HA A;推;推断断r r显著。显著。)2(ntt 在在显著水平上,接受显著水平上,接受H H0 0,否定,否定H HA A;推;推断断r r不显著。不显著。)2(nttp r r经显著性检验的结果呈不显著时,经显著性检验的结果呈不显著时,便推断两变数间不存在相关关系,便推断两变数间不存在相关关系,这时不能用这时不能用r r代表其相关密切程度。代表其相关密切程度。()假设(2)水平(3)检验(4)推断H H0 0:=0 :=0 ;H HA A: 0 0选取显著水平选取显著水平0.010.0148.91021.09
42、682.02)1 (2nrrsrtr 否定否定H H0 0,接受,接受H HA A;推断;推断r r极显著,黏虫孵化历期温度与极显著,黏虫孵化历期温度与历期天数之间存在着极显著的直线相关关系。历期天数之间存在着极显著的直线相关关系。707.3)6(01.0 tt48.91021.09682.02)1 (2nrrsrtr48. 91788.55/9835. 15317. 2/xxybSSsbsbt必然结果bsbt xxyxybSSsxxsxxnyys/22/22)()()2() (22/nbSPSSnQsyxy)2/()(nbSPSSSSbsbtyxb)2/()1 (nSSSPSSSPSSSSS
43、SSPtyxyxx)2/()1 (nSSSSSPSPSSSSSPtyxyxrsrnrrt)2/()1 (2)2/()1 (nSSSSSPSPSSSSSSSPtyxyxx)2/()(nbSPSSSSbsbtyxb2)1 (2nrrsrtr2)1(222nrrt2222tntr22tntrr与t符号相同。)2()2(nnrt)2(,nrrp相关系数的假设检验可不计相关系数的假设检验可不计算算t t值,直接从附表值,直接从附表1212查出查出dfdf=n-2=n-2时时r r的临界值。的临界值。)2(,nrr椰子树的产量数X(个)椰子树的高度Y(尺)X(个) 120 121 123 126 128Y
44、(尺) 21 23 22 25 248783.07996.0)3(05.0rrp 椰子树的产果树与树高之间椰子树的产果树与树高之间无无直线相关关直线相关关系。系。当样本太小时,即使当样本太小时,即使r r值达到值达到0.79960.7996,样本也可能来自总体,样本也可能来自总体相关系数相关系数=0=0的总体。的总体。不能直观地由不能直观地由r r值判断两变数间的相关密切程度。值判断两变数间的相关密切程度。试验或抽样时,所取的样本容量试验或抽样时,所取的样本容量n n大一些,由此计算出大一些,由此计算出来的来的r r值才能参考价值。值才能参考价值。12三、相关系数的区间估计p r r值经假设检
45、验达到显著水平,需值经假设检验达到显著水平,需要由要由r r估计总体相关系数估计总体相关系数所在的所在的区间。区间。 y(x1,y1)(x2,y2)(x3,y3)(xn,yn)yxxySSSSSPrX 0 0两变量无直线相关关系Nr 0 0两变量有直线相关关系tNr,)11lg(1513. 1)11ln(5 . 0rrrrz)3(1nzzzuzLuzL21)1()1(22LLeer正态分布0627. 2)9682. 019682. 01ln(5 . 0)11ln(5 . 0rrz4472. 0)38(1)3(1nz1862.19392.221zzuzLuzL9682.0r8294.0)1()1
46、(9944.0)1()1(2211222221LLLLeeLeeLp 黏虫孵化历期温度与历期天数的总体相关系黏虫孵化历期温度与历期天数的总体相关系数数的的9595的置信区间为(的置信区间为(-0.9944-0.9944,- -0.82940.8294)。)。回归方程的显著性回归方程的显著性回归系数的显著性回归系数的显著性相关系数的显著性相关系数的显著性xybxay相关与回归的联系相关与回归的联系一致一致rbbxay三者三者同时同时显著或不显著。显著或不显著。r r与与b b的符号一致,由两变量离均差乘积的符号一致,由两变量离均差乘积之和的符号决定。之和的符号决定。)2(2/1/nQUnQUFb
47、bsbsbtrrsrsrt相关与回归的联系相关与回归的联系rbbxayr:+,两变量间的相互关系是同向变化的。两变量间的相互关系是同向变化的。b:+,x增(减)一个单位,增(减)一个单位,y平均值增平均值增(减)(减)b个单位。个单位。相关与回归的联系相关与回归的联系p用回归解释相关:ySSUr2相关与回归的联系相关与回归的联系y关于x的直线回归系数x 关于y的直线回归系数2/)()(xxyyxxbxy2/)()(yyyyxxbyx22/rSSSSSPbbyxxyyxxyyxSSSSyyxxr)(回归相关x x是可以精确测量是可以精确测量和严格控制的变量和严格控制的变量。y y服从正态分布。服
48、从正态分布。x x服从正态分布。服从正态分布。y y服从正态分布。服从正态分布。xbayxyxy/ybaxyxyx/I型回归II型回归资料要求资料要求xy相关与回归的联系相关与回归的联系两变量间依存变化的数量关系两变量间依存变化的数量关系两变量间相关关系两变量间相关关系回归相关应用xy单向单向xyxy双向双向相关与回归的联系相关与回归的联系p 回归系数与相关系数的正负号都由两回归系数与相关系数的正负号都由两变量离均差积之和的符号决定,所以变量离均差积之和的符号决定,所以同一资料的同一资料的b b与其与其r r的符号相同。的符号相同。p 回归系数有单位,形式为(应变量单回归系数有单位,形式为(应
49、变量单位位/ /自变量单位),相关系数没有单位。自变量单位),相关系数没有单位。p 相关系数的范围在相关系数的范围在-1-1+1+1之间,而回之间,而回归系数没有这种限制。归系数没有这种限制。p 有些资料用相关表示较适宜,比如兄弟有些资料用相关表示较适宜,比如兄弟与姐妹间的身长关系、人的身长与前臂与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。长之间的关系等资料。p 有些资料用相关和回归都适宜,此时须有些资料用相关和回归都适宜,此时须视研究需要而定。视研究需要而定。p 就一般计算程序来说,是先求出相关系就一般计算程序来说,是先求出相关系数数r r并对其进行假设检验,如果并对其进行假设检验
50、,如果r r显著并显著并有进行回归分析之必要,再建立回归方有进行回归分析之必要,再建立回归方程。程。 作相关与回归分析要有实际意义。作相关与回归分析要有实际意义。p 不要把毫无关联的两个事物或现象用来作相不要把毫无关联的两个事物或现象用来作相关或回归分析。关或回归分析。*p 如儿童身高的增长与小树的增长,作相关分如儿童身高的增长与小树的增长,作相关分析是没有实际意义的,如果计算由儿童身高析是没有实际意义的,如果计算由儿童身高推算小树高的回归方程则更无实际意义。也推算小树高的回归方程则更无实际意义。也许算得的许算得的r r、b b是显著的,也是没有意义的。是显著的,也是没有意义的。 p 相关分析