1、第八章第八章 直线回归和相关直线回归和相关第一节第一节 回归和相关的概念(掌握)回归和相关的概念(掌握)第二节第二节 直线回归(掌握)直线回归(掌握)第三节第三节 直线相关(掌握)直线相关(掌握)第四节第四节 直线回归与相关的内在关直线回归与相关的内在关系和应用要点(理解)系和应用要点(理解)第五节第五节 协方差分析协方差分析第一节第一节 回归和相关的概念回归和相关的概念1.1.函数关系与统计关系函数关系与统计关系 函数关系函数关系(完全相关)是确定性关系,即一个变数的(完全相关)是确定性关系,即一个变数的任一变量必与另一变数的一个确定值相对应。任一变量必与另一变数的一个确定值相对应。不包不包
2、括误差的干扰,常见于物理学、化学等理论科学。括误差的干扰,常见于物理学、化学等理论科学。统计关系统计关系(不完全相关)(不完全相关)是非确定性的关系,即一个是非确定性的关系,即一个变数的取值受到另一变数的影响,两者之间既有关变数的取值受到另一变数的影响,两者之间既有关系,但又不存在完全确定的函数关系。系,但又不存在完全确定的函数关系。例如,作物的产量与施肥量的关系,两类变数因受误例如,作物的产量与施肥量的关系,两类变数因受误差的干扰而表现为统计关系,在生物学中常见。差的干扰而表现为统计关系,在生物学中常见。2.2.自变数与依变数自变数与依变数 有统计关系的两个变数,分别用符号有统计关系的两个变
3、数,分别用符号Y Y和和X X表示。统计关系分表示。统计关系分因果关系因果关系和和相关关相关关系系两种。两种。如果两个变数并非因果关系,而是共如果两个变数并非因果关系,而是共同变化,则为同变化,则为相关关系相关关系。相关关系中并没。相关关系中并没有自变数和依变数之分。有自变数和依变数之分。如玉米穗长与穗重的关系。如玉米穗长与穗重的关系。两个变数间的关系若有因果关系,并定两个变数间的关系若有因果关系,并定义以义以X X表示自变数,表示自变数,Y Y表示依变数。表示依变数。如施肥量与产量的关系,施肥量是是自如施肥量与产量的关系,施肥量是是自变数(变数(X X);产量是依变数();产量是依变数(Y
4、Y)。)。3 3回归分析和相关分析回归分析和相关分析 回归分析回归分析是建立是建立X X与与Y Y之间的数学关系式,之间的数学关系式,用于预测;用于预测;相关分析相关分析研究研究X X与与Y Y两个随机变量之间的两个随机变量之间的共同变化规律,例如当共同变化规律,例如当X X增大时增大时Y Y如何变化,如何变化,以及这种共变关系的强弱。以及这种共变关系的强弱。原则上原则上Y Y含有试验误差,而含有试验误差,而X X不含试验不含试验误差时着重回归分析;误差时着重回归分析;Y Y和和x x均含有试验均含有试验误差时着重相关分析。误差时着重相关分析。但讨论但讨论X X为非随机变量的情况,所得到为非随
5、机变量的情况,所得到的参数估计式也可用于的参数估计式也可用于X X为随机变量的情为随机变量的情况。况。4 4两个变数资料的散点图两个变数资料的散点图 对对x、y进行考察的简便方法是将进行考察的简便方法是将n对观察值对观察值(x1,y1)、(x2,y2)、(xn,yn)于同一直于同一直角坐标平面上制作散点图:角坐标平面上制作散点图:X和和Y的相关的性质(正或负)和密切程度;的相关的性质(正或负)和密切程度;X和和Y的关系是直线型的还是非直线型的;的关系是直线型的还是非直线型的;是否有一些特殊的点表示其他因素的干扰等。是否有一些特殊的点表示其他因素的干扰等。图图9.1A 单株的生物产量(单株的生物
6、产量(X)和稻谷产量()和稻谷产量(Y)图图9.1B 每平方米土地上每平方米土地上 的总颖花数(的总颖花数(X)和结实率(和结实率(Y)图图9.1C 最高叶面积指数(最高叶面积指数(X)和)和每亩稻谷产量(每亩稻谷产量(Y)从中可以看出:从中可以看出:图图9.1A和和9.1B都是直线型的,但方向相反;前都是直线型的,但方向相反;前者表示两个变数的关系是正的,后者表示关系者表示两个变数的关系是正的,后者表示关系是负的。是负的。图图9.1B的各个点几乎都落在一直线上,图的各个点几乎都落在一直线上,图9.1A则较为分散;因此,图则较为分散;因此,图9.1B中中X和和Y相关的密相关的密切程度必高于图切
7、程度必高于图9.1A。图图9.1C中中X和和Y的关系是非直线型的;的关系是非直线型的;第二节第二节 直线回归直线回归一、一、一元正态线性回归统计模型和基本假定一元正态线性回归统计模型和基本假定 直线回归模型中,直线回归模型中,Y Y 总体的每一个值由以下三部总体的每一个值由以下三部分组成:分组成:回归截距回归截距,回归系数回归系数,Y Y变变数的随机误差数的随机误差。总体直线回归的数学模型:相应的样本线性组成为:iiixy),0(2NIDi回归分析时的假定回归分析时的假定:(1)(1)Y Y 变数是随机变数,而变数是随机变数,而X X 变数则是没有误差的固定变数,至变数则是没有误差的固定变数,
8、至少和少和Y Y 变数比较起来变数比较起来X X 的误差小到可以忽略。的误差小到可以忽略。(2)(2)在任一在任一X X 上都存在着一个上都存在着一个Y Y 总体总体(可称为条件总体可称为条件总体),它是作,它是作正态分布的,其平均数正态分布的,其平均数 是是X X 的线性函数:的线性函数:的样本估计值,与X 的关系就是线性回归方程 (3)所有的Y 总体都具有共同的方差 ,而直线回归总体具有 。试验所得的一组观察值(xi,yi)只是 中的一个随机样本。(4)随机误差 相互独立,并作正态分布,具有 。二、二、参数参数和和的估计的估计 和和是参数,是参数,只能根据有限的观察只能根据有限的观察数据求
9、出相应的估计值数据求出相应的估计值a a和和b b,并得到,并得到y yi i的估计的估计值:值:为为残差平方和SSe(Q)使残差平方和达到最小的直线为回归线 iibxayniiiyy12)(SSe对a、b的一阶偏导数等于的一阶偏导数等于0 niiiebxaySS12)(00bSSaSSeeniiiiniiibxayxbxay110)()2(0)(2(为X的校正平方和 为Y的总校正平方和 为校正交叉乘积和 xbyaxxyyxxnxxnyxyxbniiniiininiiiniiniiniii1211212111)()(/)()()(niixxxSS12)(niiixyyyxxSP1)(则:a样本
10、回归截距回归截距,是回归直线与y轴交点的纵坐标;b b样本回归系数,回归系数,表示x 改变一个单位,y平均改变的数量;b 的符号反映了x影响y的性质,b的绝对值大小反映了x 影响y 的程度;回归估计值,回归估计值,是当x在在其研究范围内取某一个值时,x的估计值xxySSSPb y a0,b0,b0 a0 x 直线回归方程的图象 由下式可看到:当x以离均差(x-)为单位时,回归直线的位置仅决定于 和b;当将坐标轴平移到以(,)为原点时,回归直线的走向仅决定于b,所以一般又称b为回归斜率(regression slope)。xyxy 在实际计算时,可采用以下公式:SSSSx x=x=x2 2-(-
11、(x)2 2/n/nSSSSy y=y2-(y)2/nSPxy=xy-xy/n三、三、直线回归方程的计算直线回归方程的计算 例例9.19.1一些夏季害虫盛发期的早迟和春季一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续温度高低有关。江苏武进连续9 9年测定年测定3 3月月下旬至下旬至4 4月中旬平均温度累积值(月中旬平均温度累积值(x x,旬旬度)和水稻一代三化螟盛发期(度)和水稻一代三化螟盛发期(y,以,以5月月10日为日为0)的关系,得结果于表)的关系,得结果于表9.19.1。试。试计算其直线回归方程。计算其直线回归方程。首先由表首先由表9.19.1算得回归分析所必须的算得回归分析
12、所必须的6 6个一级个一级数据(即由观察值直接算得的数据数据(即由观察值直接算得的数据):n=9n=9x=35.5+34.1+44.2=333.7x=35.5+34.1+44.2=333.7xx2 2=35.5=35.52 2+34.1+34.12 2+44.2+44.22 2=12517.49=12517.49y=12+16+(-1)=70y=12+16+(-1)=70yy2 2=12=122 2+16+162 2+(-1)+(-1)2 2=794=794xy=(35.5xy=(35.512)+(34.112)+(34.116)+16)+44.2 +44.2(-1)=2436.4(-1)=2
13、436.4表表9.1 9.1 累积温和一代三累积温和一代三化螟盛发期的关系化螟盛发期的关系x累积温累积温 y盛发期盛发期35.5 1234.1 1631.7 940.3 236.8 7 40.2 331.7 1339.2 944.2 -1然后,由一级数据算得然后,由一级数据算得5 5个二级数据:个二级数据:SSSSx x=x=x2 2-(-(x)2 2/n=12517.49-(333.7)/n=12517.49-(333.7)2 2/9/9 =144.6356 =144.6356SSSSy y=y2-(y)2/n=794-(70)2/9=249.5556SPxy=xy-xy/n=2436.4-
14、(333.770)/9=-159.0444X=x/n=333.7/9=37.0778Y=y/n=70/9=7.7778因而有:因而有:b=SPxy/SSx=-159.0444/144.6356 =-1.0996 天天/(旬(旬度)度)a=ya=ybx=7.7778-(-1.0996bx=7.7778-(-1.099637.0778)=48.5485(37.0778)=48.5485(天天)故得表故得表9.1资料的回归方程为:资料的回归方程为:=48.5485-1.0996x 上述方程的意义为上述方程的意义为:当当3 3月下旬至月下旬至4 4月中旬的积温(月中旬的积温(x x)每提高)每提高1
15、1旬旬度时,度时,一代三化螟的盛发期平均将提早一代三化螟的盛发期平均将提早1.11.1天;天;若积温为若积温为0 0,则一代三化螟的盛发期将在,则一代三化螟的盛发期将在6 6月月27-2827-28日日(x=0 x=0时,时,y=48.5;y=48.5;因因y y是以是以5 5月月1010日为日为0 0,故,故48.548.5为为6 6月月27-2827-28日)。日)。由于由于x x变数的实测区间为变数的实测区间为31.731.7,44.244.2,当,当x x31.731.7或或44.244.2时,时,y y的变化是否还符合的变化是否还符合y=48.5-1.1xy=48.5-1.1x的的规
16、律,观察数据中未曾得到任何信息。规律,观察数据中未曾得到任何信息。X,y四、直线回归方程的图示四、直线回归方程的图示 3月下旬至4月中旬旬平均温度累积值图 旬平均温度累积值和一代三化螟盛发期的关系五、直线回归的偏离度估计五、直线回归的偏离度估计 表示了实测点与回归直线偏离的程度,因而偏表示了实测点与回归直线偏离的程度,因而偏差平方和又称为差平方和又称为离回归平方和离回归平方和。其自由度为n-2(用了用了a a和和b b两个统计数)两个统计数)所以,所以,离回归均方为离回归均方为 离回归标准误为离回归标准误为 表示了回归直线与实测点偏差的程度,即回归方程的偏离度。niiiyy12)(Q=(y-y
17、)Q=(y-y)2 2=SS=SSy y-(SP-(SPxyxy)2 2/SS/SSx x =SS =SSy y-b(SP-b(SPxyxy)=SS =SSy y-b-b2 2(SS(SSx x)=y =y2 2-ay-bxy-ay-bxy 例例9.29.2 试计算由表试计算由表9.19.1资料获得的回归方程的估资料获得的回归方程的估计标准误。计标准误。由例由例9.1算好的有关数据可直接得到:算好的有关数据可直接得到:Q=249.5556-(-159.0444)2/144.6356=74.6670 sy/x=Q/(n-2)1/2=(y-y)2/(n-2)1/2=3.266(天)(天)统计意义是
18、:在统计意义是:在y3.266天范围内约有天范围内约有68.27%个观察点,在个观察点,在y6.532天范围内约有天范围内约有95.45%个观察点等。个观察点等。六、直线回归的显著性检验和区间估计六、直线回归的显著性检验和区间估计直线回归的变异来源直线回归的变异来源(一)一元回归的方差分析(一)一元回归的方差分析)()()(yyyyyynininiiiiiiininiiiiiyyyyyyyyyyyyyy111221122)(2)()()()()(0)SP()()()()()()(112111xxyniniiiiniiiiniiiiiniiiSbSbxxbxxyybxbbxbxxbyyxbabx
19、abxayyyyynininiiiiiyyyyyy111222)()()(即:SSy =SSe +SSR y的总校正平方和 残差平方和 回归平方和自由度:n-1 n-2 1y y的总变异程度的总变异程度 y y与与x x间存在直线关系间存在直线关系所引起的所引起的y y的变异程度的变异程度 除除y y与与x x存在直线关系存在直线关系以外的原因,以外的原因,包括随机误差所引起包括随机误差所引起的的y y的变异程度的变异程度)2/(nSSSSMSMSFeReR回归和离回归的方差比遵循df1=1,df2=n-2 的F分布F-检验 H0:=0。若F F0.01(1,7),拒绝拒绝H H0 0,差异极
20、显著。,差异极显著。即应认为回归方程有效。即应认为回归方程有效。3958.167/667.748886.174F(二)一元回归的(二)一元回归的t检验检验 H0:=0HA:0 (双侧检验)(双侧检验)HA:0(或(或 0)(单侧检验)(单侧检验)Sb为回归系数标准误为回归系数标准误;自由度为;自由度为n-2 exbbMSSSbSbt/对例对例9.1中的中的 作作t-检验检验:H0:=0667.102nSSMSeexebSSMSbSbt/0486.46356.144/667.10/0996.1查表,t0.01(7)=3.499 t,差异极显著,应拒绝H0,即 0,或X与Y有着极显著的线性关系。(
21、三)两个回归系数比较时的假设测验 H0:对 HA:021021212121/22xxyxxybbbbSSsSSssss22)()(/2221212nnQQsxy 例 测定两玉米品种叶片长宽乘积(x)和实际叶面积(y)的关系,得表9.4结果,试测验两回归系数间是否有显著差异。表9.4 玉米叶片长宽乘积和叶面积关系的计算结果 由表9.4可得:品 种nSSxSSySPbQ七叶白2213518246585139424830.697181420石榴子1810708225168637436520.69447 42051.112)(182)(2242014202xys/这一结果是完全不显著的,所以应接受H0
22、:即认为叶片长宽乘积每增大1cm2,叶面积平均要增大的单位数在七叶白和石榴子两品种上是一致的,其共同值为:0.0092107082251.11135182451.1121bbs0.30.00920.694470.69718t212121xxSSSSSPSPb0.695981070822135182474365294248322(cm/cm)(四)直线回归的区间估计 1直线回归的抽样误差 在直线回归总体 中抽取若干个样本时,由于 、各样本的a、b 值都有误差。因此,由 =a+bx给出的点估计的精确性,决定于 和a、b的误差大小。比较科学的方法应是考虑到误差的大小和坐标点的离散程度,给出一个区间估
23、计,即给出对其总体的 、等的置信区间。)(2,XN2y 2xys/XY/2回归截距的置信区间 样本回归截距a ,而 和b的误差方差分别为:。故根据误差合成原理,a的标准误为:由 是遵循 的t 分布的。总 体 回归截距有95可靠度的置信区间为:L1=a-t 0.05 ,L2=a+t0.05 /22/2/222xxyxxyxybyaSSxnsSSxsnsxsss21xby yxxybxyySSssnss2/22/2,asa/)(2 nasas 3回归系数的置信区间 可推得总体回归系数 的95%可靠度的置信区间为:L1=b-t 0.05 ,L2=b+t 0.05 4条件总体平均数 的置信区间 由 ,
24、故 的标准误为:条件总体平均数 的95%置信区间为:L1=-t 0.05 ,L2=+t0.05 XY/)(xxbyyy xxyxxyxybyySSxxnsxxSSsnsxxsss2/22/2/222)(1)()(XY/y y ysysbsbs 5条件总体观察值Y Y 的预测区间 yi=+ei,)(xxby2/22/2/2/222xyxxyxyxybyysxxSSsnssxxsss)()(xxySSxxns2/)(11 保证概率为0.95的Y 的预测区间为:L1=-t0.05 ,L2=+t0.05 (923)6置信区间和预测区间的图示 首先取若干个等距的x 值(x 取值愈密,作图愈准确),算得与
25、其相应的 、和 、的值;然后再由 和 算得各x上的L1和L2,并标于图上;最后将各个L1和L2分别连成曲线即可。y y ysysy ysysyst 0.05yst 0.05ysty 0.05ysty 0.05 例9.10 试制作例9.1资料的y估计值包括和y在内有95%可靠度的置信区间图。表9.6 例9.1资料的置信区间和y y的预测区间的计算y XY/ysyst 0.05ysyst 0.051L2L(2)(3)(4)(6)(7)(8),(1)x的95置信区间计算y的95预测区间计算(5)L1,L23032343637384042444615.613.411.29.07.96.84.62.40
26、.2-2.02.211.751.371.131.091.121.351.722.172.665.24.13.22.72.62.63.24.15.16.310.4,9.3,8.0,6.3,5.3,4.2,1.4,-1.7,-4.9,-8.3,20.817.514.411.710.59.47.86.55.34.33.952.723.533.463.433.463.533.693.924.219.38.88.38.28.18.28.38.79.39.96.3,4.6,2.9,0.8,-0.2,-1.4,-3.7,-6.3,-9.1,-11.9,24.922.219.517.216.015.012.9
27、11.19.57.9 一代三化螟盛发期估计及其 95%置信限 画出 的图像,依次标出(x,L1)和(x,L2)坐标点,再连接各(x,L1)得 线,连接各(x,L2)得 线。和 所夹的区间即包括 在内有95可靠度的置信区间。称(x,)的连线 ,(x,)的连线 。其所夹的区间即为y的95的预测区间或预测带。3月下至4月中旬平均温度累积值 例9.1资料的y y 估计值及其95%置信带y CDABABCDXY/1LGH2LEF-15-10-5051015202528303234363840424446cDABEFGH第三节第三节 直线相关直线相关 直线相关分析是根据直线相关分析是根据x x、y y的实
28、际观测值,计算的实际观测值,计算表示两个相关变量表示两个相关变量x x、y y间线性相关程度和性质的间线性相关程度和性质的统计量统计量相关系数相关系数r r并进行显著性检验。并进行显著性检验。一、相关系数一、相关系数例例:(1)X 7 7 1 6 5 3 8 9 3 1 1 总和50 Y 5 9 6 1 3 1 9 4 6 6 6 总和52 (2)X 9 8 7 9 6 5 3 3 1 1 总和50 Y 9 9 8 6 6 5 4 3 1 1 总和52 (3)X 1 1 3 3 5 6 7 1 8 9 总和50 Y 9 9 8 6 6 5 4 3 1 1 总和52可见:(1)X、Y关系紊乱 (
29、2)X减小、Y也减小 (3)X增大、Y减小 作散点图,如果以X和Y的平均数作坐标原点,将原散点图划分为四个象限,则:各点均匀分布 0(如(1);落在2、4象限则小于0负相关(如(3);落在1、3象限则大于0正相关。为消除变异程度(n-1)和单位的影响,需除以标准差。yxxySSSPxyyyxxyyxxnyynxxnyyxxSxSyyyxxnrSS)()()(1)(1)(1)()(112222(X,Y)总体没有相关,则落在象限、的点是均匀分散的,因而正负相消,=0。NYXYX1)(当(X,Y)总体呈正相关时,落在象限、的点一定比落在象限、的多,故 一定为正;同时落在象限、的点所占的比率愈大,此正
30、值也愈大。NYXYX1)()(当(X,Y)总体呈负相关时,则落在象限、的点一定比落在象限、的为多,故 一定为负;且落在象限、的点所占的比率愈大,此负值的绝对值也愈大。NYXYX1)(性质:性质:。当 时,SSe=0,即用可以准确预测y值。当r=0时,SSe=SSy,回归无作用,即用X的线性函数完全不能预测Y的变化。但X与Y间还可能存在着非线性关系。当 时,X的线性函数对预测Y的变化有一定作用,但不能准确预测,这说明Y还受其他一些因素,包括随机误差的影响。yeyRyxyyxxySSSSSSSSSSbSPSSSSSPr1221r1r10 r二、决定系数和相关系数二、决定系数和相关系数 即:即:y与
31、与x直线回归效果的好坏取决于回归平方和直线回归效果的好坏取决于回归平方和在在y的总平方和中所占的比例的大小。的总平方和中所占的比例的大小。2)(yy22)()(yyyy222)()(yyyyr r2为为 x 对对 y 的决定系数,表示了回归方程估测可靠程度的高低。的决定系数,表示了回归方程估测可靠程度的高低。决定系数和相关系数的区别在于:决定系数和相关系数的区别在于:除掉除掉r r=1=1和和0 0的情况外,的情况外,r r2 2总是小于总是小于r r。这就。这就可以防止对相关系数所表示的相关程度作夸张的解释。可以防止对相关系数所表示的相关程度作夸张的解释。例如:例如:r=0.5r=0.5,只
32、是说明由,只是说明由x x的不同而引起的的不同而引起的y y变异平变异平方和仅占方和仅占y y总变异(或总变异(或x x总变异)平方和的总变异)平方和的r r2 2=0.25=0.25,即即25%25%,而不是,而不是50%50%。r r是可正可负的,而是可正可负的,而r r2 2则一律取正值,其取值区间为则一律取正值,其取值区间为00,11。因此,在相关分析中将两者结合起来是可取。因此,在相关分析中将两者结合起来是可取的,即由的,即由r r的正或负表示相关的性质,由的正或负表示相关的性质,由r r2 2的大小表的大小表示相关的程度。示相关的程度。相关系数和决定系数的计算相关系数和决定系数的计
33、算 例例9.11 9.11 试计算例试计算例9.19.1资料资料3 3月下旬至月下旬至4 4月中旬积温和一代三化月中旬积温和一代三化螟盛发期的相关系数和决定系数。螟盛发期的相关系数和决定系数。解:解:SSSSx x=144.6356=144.6356,SSSSy y=249.5556=249.5556,SPSPxyxy=-159.0444=-159.0444 r=-159.0444/r=-159.0444/(144.6356144.6356249.5556249.5556)1/21/2=-0.8371=-0.8371 r r2 2=(-159.0444-159.0444)2 2/144.635
34、6/144.6356249.5556=0.7008249.5556=0.7008 以上结果表明,一代三化螟盛发期与以上结果表明,一代三化螟盛发期与3 3月下旬至月下旬至4 4月中旬月中旬的积温成负相关,即积温愈高,一代三化螟盛发期愈早。的积温成负相关,即积温愈高,一代三化螟盛发期愈早。在一代三化螟盛发期的变异中有在一代三化螟盛发期的变异中有70.08%70.08%是由是由3 3月下旬至月下旬至4 4月月中旬的积温不同造成的。中旬的积温不同造成的。三、相关系数的显著性检验三、相关系数的显著性检验(一)查表法:例9.1,查相关系数检验表(附表12),可得:剩余自由度为7,独立自变量为1;r0.05
35、=0.666,r0.01=0.798 0.83710.8371,差异为极显著。(二)t-检验 当总体相关系数=0时,r的分布近似于正态分布。t=b/Sb b=SPxy/SSx 0:0H21)2(1)1(1222nrSSSSSSnSSSSSPSSSSnbSPSSSSMSSxyxyxxyyxxyyxeb)2(121212222ntrnrrnrrnSSSSSSSPtyxxxy 对例9.1进行相关显著性检验 查表,t0.01(7)=3.499 t,差异极显著,即X与Y有极显著的线性关系。0482.48371.01298371.01222rnrt(1 1)回归和相关分析要有学科专业知识作指导,回归和相关
36、分析要有学科专业知识作指导,回归和相关分析只是作为一种工具。回归和相关分析只是作为一种工具。(2 2)要严格控制研究对象(要严格控制研究对象(X X和和Y Y)以外的有关因)以外的有关因素,使之保持稳定一致。如身高与胸围。素,使之保持稳定一致。如身高与胸围。(3 3)直线回归和相关不显著,并不意味着直线回归和相关不显著,并不意味着X X和和Y Y没没有关系,只说明没有显著的线性关系,不能排除有关系,只说明没有显著的线性关系,不能排除存在曲线关系的可能性。存在曲线关系的可能性。第四节第四节 直线回归与相关的应用要点直线回归与相关的应用要点(4)需限制自变量的范围,结论不能外推。)需限制自变量的范
37、围,结论不能外推。(5)一个显著的相关或回归并不一定具有实践上的一个显著的相关或回归并不一定具有实践上的预测意义。预测意义。例如,当例如,当v=50 时,时,r=0.273即显著,但这即显著,但这表明表明X和和Y可用线性关系说明的部分仅占总变异的可用线性关系说明的部分仅占总变异的7.4%,显然由,显然由X预测预测Y并不可靠。一般,当需要由并不可靠。一般,当需要由X预测预测Y时,时,r必须在必须在0.7以上,此时以上,此时Y的变异将有的变异将有49%以上可以为以上可以为X的变异说明。的变异说明。(6)为了提高分析的准确度,为了提高分析的准确度,n要尽可能大要尽可能大一些,至少应有一些,至少应有5
38、对以上。同时,对以上。同时,X变数的取变数的取值范围尽可能宽些,一方面可降低回归方程值范围尽可能宽些,一方面可降低回归方程的误差,另一方面也能及时发现的误差,另一方面也能及时发现X和和Y间可间可能存在的曲线关系。能存在的曲线关系。第五节 协方差分析 一、协方差分析的意义和功用 二、单向分组资料的协方差分析 三、两向分组资料的协方差分析一、协方差分析的意义和功用一、协方差分析的意义和功用(一)协方差分析的意义 协方差(covariance)是两个变数的互变异数。对于一个具有N 对(X,Y)的有限总体,定义为:NYiXiYXNcov1)(1(945)对于由n 对(x,y)组成的样本,定义:样本协方
39、差是乘积和与自由度的商,即平均的乘积和。又称为均积(mean products)或协方(MP),是总体协方差 cov 的估值。协方差分析(analysis of covariance)是将回归分析和方差分析综合起来的一种统计方法。niiyyxxncov1)(11(946)(二二)协方差分析的功用协方差分析的功用1.当(x,y)为因果关系时,利用 y 依 x 的回归系数矫正y变数的处理平均数,提高精确度。2.当(x,y)为相关关系时,可通过估计不同变异来源的总体方差和协方差,作出相应的相关分析。二、单向分组资料的协方差分析二、单向分组资料的协方差分析(一)资料模式与线性组成设有k 组回归样本,每
40、组各有n 对观察值,则该资料共有kn 对数据,其模式如表9.8。1xT1x 1yT1y 2xT2x 2yT2y1kx2kx3kxnkx kxTkx1ky2ky3kynky kyTkyxTyTxy组 别观察值总和平均1x11x12x13x1ny11y12y13y1n2x21x22x23x2ny21y22y23y2nk 单向分组资料协方差分析的样本线性组成为:(947A)将(947A)移项得:(947B)和 (947C)ijijeiijexxbtyy)(ijijeiijexxbyty)(ijijeexbaijiijeijetyxxby)(二)乘积和和自由度的分解 上式中和的 i=1,2,3,k。其
41、中:1)-(1)-(1)-(相应自由度为:111 1nkknkSPSPSPyyxxyyxxnyyxxetTknkk niiii )()()()()()()(tTyxkkneyxkyxtyxknTSPSPTTnxySPTTnkTTnSPTTnkxySPiiii11111111(949)(948)如果各组的n不等,分别为n1、n2、nk,其和为,则 其相应自由度为 、。22112211)()(1)()(1211211kyxyxyxneyxikyxyxyxtyxinTnTTnTTnTTxySPTTnnTTnTTnTTSPTTnxySPkkikki1in1kkni(950)(三)回归关系的协方差分析
42、协方差分析解决问题的步骤如下:(1)列出处理间、处理内和总变异的DF、SSx、SSy和SP。(2)测验x 和y 是否存在直线回归关系。(3)测验矫正平均数间的差异显著性。(4)如果所得F 为不显著,表明处理处理间无显著差异;如果F 为显著,则必须算出各个矫正平均数矫正平均数,进行多重比较,作出相应推断。【例【例10.1】为了寻找一种较好的哺乳仔猪食欲增进剂,为了寻找一种较好的哺乳仔猪食欲增进剂,以增进食欲,提高断奶重,对哺乳仔猪做了以下试验:以增进食欲,提高断奶重,对哺乳仔猪做了以下试验:试验设对照、配方试验设对照、配方1、配方、配方2、配方、配方3共四个处理,重复共四个处理,重复12 次,选
43、择初始条件尽量相近的长白种母猪的哺乳仔次,选择初始条件尽量相近的长白种母猪的哺乳仔猪猪48头头,完全随机分为,完全随机分为4组进行试验,结果见表组进行试验,结果见表10-2,试作分析。试作分析。表表102 不同食欲增进剂仔猪生长情况表不同食欲增进剂仔猪生长情况表 (单位:(单位:kg)此例,此例,=18.25+15.40+15.65+13.85=63.15 =141.80+130.10+144.80+133.80 =550.50 k=4,n=12,kn=412=48.4321xxxxx.4321yyyyy 协方差分析的计算步骤如下:协方差分析的计算步骤如下:(一一)求求x变量的各项平方和与自由
44、度变量的各项平方和与自由度 1、总平方和与自由度、总平方和与自由度 dfT(x)=kn-1=412-1=47 75.14815.638325.844815.63)10.185.150.1(2222222)(knxxSSijxT83.04815.63)85.1365.1540.1525.18(121.122222212)(knxxnSSkiixt)(xtdf 3、处理内平方和与自由度、处理内平方和与自由度 (二二)求求y变量各项平方和与自由度变量各项平方和与自由度 1、总平方和与自由度、总平方和与自由度92.083.075.1)()()(xtxTxeSSSSSS44347)()()(xdftxd
45、fTdfxe76.96485.55031.6410485.550)00.11.00.1240.12(222222.2)(knyySSijyT4711241)(kndfyT下一张下一张 主主 页页 退退 出出 上一张上一张 2、处理间平方和与自由度、处理间平方和与自由度 3、处理内平方和与自由度、处理内平方和与自由度(三三)求求x和和y两变量的各项离均差乘积和与自由度两变量的各项离均差乘积和与自由度 1、总乘积和与自由度、总乘积和与自由度 68.114850.550)80.13380.14410.13080.141(121.1222222.2)(knyynSSiyt3141)(kdfyt08.8
46、568.1176.96)()()(ytyTyeSSSSSS44347)()()(ytyTyedfdfdf =kn-1=412-1=47 2、处理间乘积和与自由度、处理间乘积和与自由度 =1.64knyxyxSPkinjijijT.1125.812450.55015.6350.73212450.55015.6300.1110.1.00.1285.140.1250.1),(yxTdfknyxyxnSPkiiit.1112450.55015.63)80.13385.1380.14465.1510.13040.1580.14125.18(121下一张下一张 主主 页页 退退 出出 上一张上一张 =k-
47、1=4-1=3 3、处理内乘积和与自由度、处理内乘积和与自由度 平方和、乘积和与自由度的计算结果列于表平方和、乘积和与自由度的计算结果列于表103。表表103 x与与y的平方和与乘积和表的平方和与乘积和表),(yxtdf61.664.125.8tTeSPSPSP44347)()(),(vxtvxTyxedfdfdf (四四)对对x和和y各作方差分析各作方差分析(表表104)表表104 初生重与初生重与50日龄重的方差分析表日龄重的方差分析表下一张下一张 主主 页页 退退 出出 上一张上一张 结果表明,结果表明,4种处理的供试仔猪平均初生重间存在种处理的供试仔猪平均初生重间存在着极显著的差异,其
48、着极显著的差异,其50 日龄平均重差异不显著。日龄平均重差异不显著。须进行协方差分析,以消除初生重不同对试验结果须进行协方差分析,以消除初生重不同对试验结果的影响,减小试验误差,揭示出可能被掩盖的处理间的影响,减小试验误差,揭示出可能被掩盖的处理间差异的显著性。差异的显著性。(五五)协方差分析协方差分析 下一张下一张 主主 页页 退退 出出 上一张上一张 1、误差项回归关系的分析、误差项回归关系的分析 误差项回归关系分析的意义是要从剔除处理间差异的影响误差项回归关系分析的意义是要从剔除处理间差异的影响的误差变异中找出的误差变异中找出50日龄重日龄重(y)与初生重与初生重(x)之间是否存在线性之
49、间是否存在线性回归关系。回归关系。计算出误差项的回归系数并对线性回归关系进行显著性检计算出误差项的回归系数并对线性回归关系进行显著性检验。验。若显著则说明两者间存在回归关系,可应用线性回归关系若显著则说明两者间存在回归关系,可应用线性回归关系来校正来校正y值值(50日龄重日龄重)以消去仔猪初生重以消去仔猪初生重(x)不同对它的影响。不同对它的影响。根据校正后的根据校正后的y值值(校正校正50日龄重日龄重)来进行方差分析。如线性回归来进行方差分析。如线性回归关系不显著,则无需继续进行分析。关系不显著,则无需继续进行分析。回归分析的步骤如下:回归分析的步骤如下:(1)计算误差项回归系数,回归平方和
50、,离回计算误差项回归系数,回归平方和,离回归平方和与相应的自由度归平方和与相应的自由度 从误差项的平方和与乘积和求误差项回归系从误差项的平方和与乘积和求误差项回归系数:数:(10-10)误差项回归平方和与自由度误差项回归平方和与自由度 (10-11)dfR(e)=11848.792.061.6)()(xeeeyxSSSPb49.4792.061.62)(2)(xeeeRSSSPSS下一张下一张 主主 页页 退退 出出 上一张上一张 误差项离回归平方和与自由度误差项离回归平方和与自由度 =85.08-47.49=37.59 (10-12)(2)检验回归关系的显著性检验回归关系的显著性(表表105
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。