1、第七章 一元回归分析与简单相关分析 变量间的关系有两类:变量间的关系有两类:一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。如长方形的面积(S)与 长(a)和 宽(b)的关系可以表达为:S=ab 它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为函数关系。另一类是 变 量 间不存在完全的确定性关系,不能用精确的数学公式来表示。例如:黄牛的体长与体重的关系;仔猪初生重与断奶重的关系;猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系等等。这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。统计学
2、中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。相关变量间的关系一般分为两种:1、因果关系。一个变量的变化受另一个或几个变量的影响。如仔猪的生长速度受遗传、营养水平、饲养管理条件等因素的影响;子代的体高受亲本体高的影响。2、平行关系。它们互为因果或共同受到另外因素的影响。如黄牛的体长和胸围之间的关系,猪的背膘厚度和眼肌面积之间的关系等都属于平行关系。统计学上采用回归分析 研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为依变量。研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个依变量的回归分
3、析称为多元回归分析。一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。图7-1 x,y的散点图从散点图可以看出:从散点图可以看出:两个变量间直线关系的性质(是正相关还是负相关)和程两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切)。度(是相关密切还是不密切)。根据n对观测值所描出的散点图,可以直观看出呈因果关系的两个相关变量y(依变量)与x(自变量)间的关系是直线关系还是曲线关系。iiixy22 在x、y直角坐标平面上可以作出无数 条直线,我们把所有直线中最接近散点图中全部散点的直线用来表示x与y的直线关系,
4、这条直线称为回归直线。bxay 其中,a是的估计值,b是的估计值。a、b应使回归估计值 与实际观测值y的偏差平方和最小,即:0)(2bxayaQ0)(2xbxaybQy 22)()(bxayyyQyxbanxyxbxa2xxySSSPxxyyxxnxxnyxxyb 222)()(/)(/)(xbya整理得关于a、b的正规方程组:(7-3)式中的分子是自变量x的离均差 与 依 变 量 y 的 离 均 差 的 乘 积和 ,简称乘积和,记作 ,分母是自变量x的离均差 平方和 ,记作SSx。a叫做样本回归截距,是回归直线与y轴交点的纵坐标,当x=0时,=a;)(yyxxxySP2)(xxy y 叫做回
5、归估计值,是当x在在其研究范围内取某一个值时,y值平均数+x的估计值。2)(yyQ0)(yy)(xxbybxxbyy回归方程的基本性质:如果将(7-4)式代入(7-2)式,得到回归方程的另一种形式(中心化形式):),(yx【例7.1】二、直线回归的显著性检验 若x和y变量间并不存在直线关系,但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程 =a+bx。显然,这样的回归方程所反应的两个变量间 的直线关系是不真实的。为了判断直线回归方程所反应的两个变量间的直线关系是否真实,我们先探讨依变量y的变异,然后再作出统计推断。y 图7-4 的分解图1、直线回归的变异来源)(yy 由此图
6、,可以得出 从图7-4看到:上式两端平方,然后对所有的n点求和,则有 )()()(yyyyyy2)(yy2)()(yyyy)(2)()(22yyyyyyyy)()(xxbyyxxb)(xxbybxay)(xxbyy)()(yyxxbyyyy 所以有所以有 (7-6)反映了y的总变异程度,称为y的总平方和,记为SSy;反映了由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为SSR;)()()(xxbxxbyyxxbxxySSbSPb202xxxyxyxxySSSSSPSPSSSP2)(yy22)()(yyyy2)(yy2)(yy 反映了除y与x存在直线关系以外的原因,包括随机误差
7、所引起的y的变异程度,称为离回归平方和或剩余平方和,记为SSr。(7-8)式又可表示为:(7-7)这表明y的总平方和剖分为 回归平方和 与离回归平方和两部分。与此相对应,y的总自由度dfy也划分为回归自由度dfr与离回归自由度dfr两部分,即 2)(yyrRySSSSSSrRydfdfdf(7-8)在直线回归分析中,回归自由度等于自变量的个数,即 ;y 的总自由度 ;离回归自由度 。于是:离回归均方:回归均方:1Rdf1 ndfy2 ndfrrrrdfSSMS/RRRdfSSMS/无效假设HO:=0,备择假设HA:0。在无效假设成立的条件下,回归均方与离回归均方的比值服从 和 的F分布,所以可
8、以用 11df22 ndf)2/(/nSSSSdfSSdfSSMSMSFrRrrRRrR2、F检验df1=1,df2=n-2 (7-9)回归平方和可用下面的公式计算得到:根据(7-7)式,可得到离回归平方和计算公式为:22)()(xxbyySSRxyxbSPSSbxxb222)(xxyxyxxySSSPSPSSSP2xxyyRyrSSSPSSSSSSSS2(7-10)(7-11)对于【例7.1】资料,有于是可以列出方差分析表进行回归关系显著性检验。,67.831491ySS,00.36585xySP00.1685xSS60.79433900.168500.3658522xxyRSSSPSS07
9、.3715260.79433967.831491RyrSSSSSS10212,1,111121rRydfdfndf变异来源变异来源dfSSMSF值F0.05F0.01回归回归1794339.60794339.60213.81*4.9610.04离回归离回归1037152.073715.21总变异总变异11831491.67表7-2 四川白鹅70日龄重与雏鹅重回归关系方差分析3、t检验 采用回归系数的显著性检验t检验也可检验x与y间是否存在直线关系。回归系数显著性检验的无效假设和备择假设为 HO:0,HA:0。2,ndfSbtbxyxbSSSS 对于【例8.1】资料,已计算得 故有9525.60
10、,00.1685yxxSSS 4849.11685/9525.60/xyxbSSSS62.144849.17122.21bSbt102122ndf 经查表检验,否定HO:0,接受HA:0,即直线回归系数b=21.7122是极显著的,表明四川白鹅 70 日龄重 与雏鹅重间存在极显著的直线关系。F检验的结果与t检验的结果一致。直线相关 直线相关分析的基本任务:根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量相关系数r并进行显著性检验。决定系数和相关系数由得出:y与x直线回归效果的好坏取决于回归平方和 与离回归平方和 的大小,或者说取决于回归平方和在y的总平方和中所占的
11、比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。我们把比值 叫做 x 对 y 的决定系数 ,记为 r2,即 2)(yy22)()(yyyy2)(yy2)(yy/)(2 yy2)(yy (7-14)决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低。显然有0r21。因为222)()(yyyyrxyyxyxyxxyyxxybbSSSPSSSPSSSSSPyyyyr2222)()(由上式可知:决定系数反应了x为自变量、y为依变量和y为自变量、x为依变量时两个相关变量x与y直线相关的信息;即决定系数表示了两个互为因果关系的相关变量间直线相关的程度。但决定系
12、数介于0和1之间,不能反应直线关系的性质是同向增减或是异向增减。若求r2的平方根,且取平方根的符号与乘积和SPxy的符号一致,即与bxy、byx的符号一致,这样求出的平方根既可表示y与x的直线相关的程度,也可表示直线相关的性质。统计学上把这样计算所得的统计量称为x与y的相关系数,记为r,即yxxySSSSSPr nyynxxnyxxy2222)()()((7-15)(7-16)【例【例7.2】计算10只绵羊的胸围(cm)和体重(kg)的相关系数。表7-3 10只绵羊胸围和体重资料编号12345678910胸围(x)68707071717173747676体重(y)506068656972717
13、37577计算:6410/)720(51904/)(222nxxSSx57810/)680(46818/)(222nyySSy16310/)680)(720(49123/)(nyxxySPxy8475.057864163yxxySSSSSPr相关系数的显著性检验 上述根据实际观测值计算得来的相关系数r是样本相关系数,它是双变量正态总体中的总体相关系数的估计值。样本相关系数r是否来自0的总体,还须对样本相关系数r 进行显著性检验。此时无效假设、备择假设为HO:=0,HA:0。与直线回归关系显著性检验一样,可采用t检验法与F检验法对相关系数r的显著性进行检验。统计学家已根据相关系数r显著性t检验法
14、计算出了临界r值并列出了表格。所以 可以直接采用查表法对相关系数r进行显著性检验。具体作法是:根据自由度 n-2 查临界 r 值,得 ,。用|r|与它们比较,作出判断。)2(05.0nr)2(01.0nr相关系数与回归系数的关系 从相关系数计算公式的导出可以看到:相关变量x与y的相关系数r是y对x的回归系数与x对y的相关系数bxv的几何平均数:xyyxbbr 若双变量x和y,y为依变量、x为自变量,样本观察值有n对,则:11nSSnSSrSSSSSSSSSPSSSSSSSPbxyxyyxxyyyxxyyxxySSr.同理,若x为依变量、y为自变量,有yxxySSrb.为了正确地应用直线回归分析
15、和相关分析这一工具,在使用时必须注意以下几点:1、变量间是否存在相关 直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或依变量的确定等等,都必须由生物科学相应的专业知识来决定,并且还要用到生物科学实践中去检验。如果不以一定的生物科学依据为前提,把风马牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。2、其余变量尽量保持一致 由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量
16、的影响,因此,在研究两个变量间关系时,要求其余变量应尽量保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如研究人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围越小,但当体重在变化时,其结果也就会变化。3、观测值要尽可能的多 在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有5对以上的观测值。同时变量x的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系。4、外推要谨慎 直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在自变量x的
17、取值区间以内,外推要谨慎,否则会得出错误的结果。5、正确理解回归或相关显著与否的含义 一个不显著的相关系数并不意味着变量x和y之间没有关系,而只有能说明两变量间没有显著的直线关系;一个显著的相关系数或回归系数亦并不意味着x和y的关系必定为直线,因为并不排除有能够更好地描述它们关系的非线性方程的存在。6、一个显著的回归方程并不一定具有实践上的预测意义 如一个资料x、y两个变量间的相关系数r=0.5,在df=24 时,r0.01(24)=0.496,rr0.01(24),表明相关系数极显著。而r2=0.25,即x变量或y变量的总变异能够通过y变量或x变量以直线回归的关系来估计的比重只占25%,其余
18、的 75%的变异无法借助直线回归来估计。曲线回归概述曲线回归概述 直线关系是两变量间最简单的一种关系。这种关系往往在变量一定的取值范围内成立,取值范围一扩大,散点图就明显偏离直线,此时两个变量间的关系不是直线而是曲线。例如,细菌的繁殖速率与温度关系,畜禽在生长发育过程中各种生理指标与年龄的关系,乳牛的泌乳量与泌乳天数的关系等都属这种类型。曲线回归分析的基本任务是:通过两个相关变量x与y的实际观测数据建立曲线回归方程,以揭示x与y间的曲线联系的形式。变量y与x间的曲线关系的类型。通常通过两个途径来确定:1、利用生物科学的有关专业知识,根据已知的理论规律和实践经验。例如,细菌数量的增长常具有指数函
19、数的形式:bxaey 畜禽体重的增长常具有“S”型曲线的形状,即Logistic曲线的形式等。2、若没有已知的理论规律和经验可资利用,则可用描点法将实测点在直角坐标纸上描出,观察实测点的分布趋势与哪一类已知的函数曲线最接近,然后再选用该函数关系式来拟合实测点。可用来表示双变量间关系的曲线种类很多。对于可直线化的曲线函数类型,曲线回归分析的基本过程是:先将x或y进行变量转换,然后对新变量进行直线回归分析,建立直线回归方程并进行显著性检验和区间估计,最后将新变量还原为原变量,由新变量的直线回归方程和置信区间得出原变量的曲线回归方程和置信区间。如果找不到已知的函数曲线较接近实测点的分布趋势,这时可利
20、用多项式回归,通过逐渐增加多项式的高次项来拟合,直到满意为止。能直线化的曲线类型 1、双曲线函数 xbay/1 图7-2 双曲线函数图形(虚线为渐进线)baxy 2、幂函数(a0)图7-3 幂函数图形bxaey xbaey/3、指数函数或(a0)图7-4a 指数函数 图形bxaey(b0)(b0)图7-4b 指数函数 图形xbaey/xbaylg4、对数函数图7-5 对数函数 图xbaylg5、Logistic生长曲线bxaeky1 图7-6 Logistic生长曲线图形endend本章思考 认真领会回归与相关分析的基本条件和注意事项。认真领会回归与相关分析的基本条件和注意事项。研究回归和离回归的意义。研究回归和离回归的意义。当直线回归检验不显著时,可能的原因有哪些?当直线回归检验不显著时,可能的原因有哪些?决定系数和相关指数的意义比较。决定系数和相关指数的意义比较。学习学习SASSAS和和SPSSSPSS中一元线性回归分析的方法。中一元线性回归分析的方法。找一个动物生长发育(比如增重)的资料,在找一个动物生长发育(比如增重)的资料,在SASSAS中拟合中拟合其生长曲线方程并画出生长曲线。其生长曲线方程并画出生长曲线。