1、华南热带农业大学农学院唐燕琼制华南热带农业大学农学院唐燕琼制第十章直线回归与相关分析第十章直线回归与相关分析10.1回归和相关分析概述10.2直线回归分析10.3直线相关分析华南热带农业大学农学院唐燕琼制华南热带农业大学农学院唐燕琼制10.110.1回归和相关分析概述回归和相关分析概述一、变量间的关系分为两类:一、变量间的关系分为两类:函数关系函数关系:完全确定性的关系:完全确定性的关系可用精确的数学式来可用精确的数学式来表示;表示;统计关系统计关系:不存在完全确定性的关系:不存在完全确定性的关系不能用精确的不能用精确的数学式来表示。数学式来表示。统计关系这一类变量间的关系就是统计学中回归分析
2、与统计关系这一类变量间的关系就是统计学中回归分析与相关分析所要讨论的问题。相关分析所要讨论的问题。常用常用x x、y y来表示两个变量,来表示两个变量,(x(x,y)y)的各对观察值用的各对观察值用(x(x1 1,y y1 1),(x),(x2 2,y y2 2),(x),(xn n,y,yn n) )表示。表示。在统计上,在统计上,x x和和y y变量的关系有两种理论模型:变量的关系有两种理论模型:回归模型和回归模型和相关模型相关模型。回归模型回归模型(因果关系)中:(因果关系)中: x x表示原因的变量;表示原因的变量;y y是表示结果的变量。是表示结果的变量。回归分析目的:回归分析目的:
3、导出由导出由x x 来预测或控制来预测或控制y y的回归方程,的回归方程,即确定当自变量即确定当自变量x x为某一值时依变量为某一值时依变量y y将会在什么范围内将会在什么范围内变化。变化。二、回归、相关分析的任务与类型二、回归、相关分析的任务与类型在相关模型中在相关模型中,其,其x x和和y y变量是变量是平行变化平行变化关系关系,不能区别哪一个是自变量,哪一个不能区别哪一个是自变量,哪一个是依变量。是依变量。相关分析目的相关分析目的:确定两个变量在数量关:确定两个变量在数量关系上的密切程度和性质。不能用一个或多系上的密切程度和性质。不能用一个或多个变量去预测、控制另一个变量的变化。个变量去
4、预测、控制另一个变量的变化。 回归分析的类型:回归分析的类型: 一元回归分析(直线和曲线回归分析);一元回归分析(直线和曲线回归分析); 多元回归分析(多元线性回归分析和曲面多元回归分析(多元线性回归分析和曲面回归分析)。回归分析)。相关分析的类型:相关分析的类型:直线相关分析;直线相关分析; 复相关分析。复相关分析。 偏相关分析。偏相关分析。三、两个变数资料的散点图三、两个变数资料的散点图对具有统计关系的两个变数的资料进行初步考察对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法,是将这两个变数的的简便而有效的方法,是将这两个变数的n对观对观察值察值(x1,y1)、(x2,y2)、
5、(xn,yn)分别以分别以坐标点的形式标记于同一直角坐标平面上,获得坐标点的形式标记于同一直角坐标平面上,获得散点图散点图(scatter diagram)。 例如:例如:根据散点图可初步判定双变数根据散点图可初步判定双变数X和和Y间的关系间的关系: X和和Y相关的性质相关的性质(正或负正或负)和密切程度和密切程度 X和和Y的关系是直线型的还是非直线型的的关系是直线型的还是非直线型的 是否有一些特殊的点表示着其他因素的干扰是否有一些特殊的点表示着其他因素的干扰 华南热带农业大学农学院唐燕琼制华南热带农业大学农学院唐燕琼制10.210.2直线回归分析直线回归分析一、一、直线回归方程的建立直线回归
6、方程的建立二、二、直线回归的显著直线回归的显著性检验性检验三、三、直线回归的区间估计直线回归的区间估计一、直线回归方程的建立一、直线回归方程的建立设变量设变量x与与y间存在直线关系,根据间存在直线关系,根据n对观察对观察值所描出的散点图如下。值所描出的散点图如下。bxay图图2 直线回归散点图直线回归散点图总体直线回归方程:总体直线回归方程:y=+x实际观察值可表示为:实际观察值可表示为: yi =+xi+i (i=1,2,,n) i为随机误差,与、相互独立,且服从N(0,2)。这就是直线回归的数学模型直线回归的数学模型根据样本实际观察值对根据样本实际观察值对、以及误差方以及误差方差差 2 2
7、作出估计,作出估计, 即建立样本回归方程并估即建立样本回归方程并估计出误差的大小。计出误差的大小。设样本直线回归方程为:设样本直线回归方程为:bxay总体总体直线回归方程:y=+x其中其中a a是是 的估计值,称为回归截距;的估计值,称为回归截距;b b是是的估计值,称为回归系数,表示自变量的估计值,称为回归系数,表示自变量每改变一个单位数时,每改变一个单位数时, 依变量依变量y y平均改变的单平均改变的单位数位数(b(b0 0时,增加;时,增加;b b0 0时,减少时,减少) )是是 +xi的估计值的估计值iy 回归方程的基本条件(性质):回归方程的基本条件(性质): 2) (yyQ0) (
8、yy),(yx22)()(iiiibxayyyQ利用最小二乘法利用最小二乘法,即最小的方法求,即最小的方法求a a与与b b的的值。根据微积分学中求极值的原理,将值。根据微积分学中求极值的原理,将Q Q对对a a与与b b求偏导数并令其等于求偏导数并令其等于0 0:0)(20)(2iiiiixbxaybQbxayaQ整理后可得:整理后可得:iiiiiiyxbxaxybxna2)()()(上式叫做a与b的正规方程组正规方程组。xbyanxxnyxyxbiiiiii/)(/)(22xbyanxxnyxxyb/)(/)(22简记为:解之可得:nyxxyyyxxspxy/)(x x与与y y的离均差乘
9、积和,简称为的离均差乘积和,简称为乘积和乘积和,记为记为 SPSPxyxy。记记 ssssx x=x=x2 2-(x)-(x)2 2n n,则,则xbyaSSSPbxxy/a a、b b是是、的最小二乘估计也是无偏估计。的最小二乘估计也是无偏估计。例例9.19.1一些夏季害虫盛发期的早迟和春季温度高一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续低有关。江苏武进连续9 9年测定年测定3 3月下旬至月下旬至4 4月中旬月中旬旬平均温度累积值(旬平均温度累积值(x,x,旬旬. .度)和水稻一代三化螟度)和水稻一代三化螟盛盛发期(发期(y,y,以以5 5月月1010日为日为0 0)的关系,得
10、结果于表)的关系,得结果于表9.19.1。试计算其直线回归方程。试计算其直线回归方程。表表9.1 累积温和一代三化螟盛发期的关系累积温和一代三化螟盛发期的关系积累温积累温(x)35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2 盛发期盛发期(y)12 16 9 2 7 3 13 9 -1SAS分析分析0444.159nyxxySP解:6356.144)1(0778.377 .33392SSSxxnxxn5556.249)1(7778.7702SSSyynyy/(0996.1:度)旬天因而有ssxSPbxyxy1 . 15 .480996. 15485.48
11、或简化为:回归方程有:天)(5485.48xbya上述方程中回归系数上述方程中回归系数b b和回归截距和回归截距a a的意义为:的意义为:xy1 . 15 .48b=-1.1 当当3月下旬至月下旬至4月中旬的积温月中旬的积温(x)每提高每提高1旬旬度时,一代三化螟的盛发期平均将提早度时,一代三化螟的盛发期平均将提早1.1天;天;a=48.5 若积温为若积温为0,则一代三化螟的盛发期将在,则一代三化螟的盛发期将在6月月2728日日(x=0时,时,=48.5;因;因y是以是以5月月10日为日为0,故,故48.5为为6月月2728日)。日)。 由于由于x x变数的实测区间为变数的实测区间为31.73
12、1.7,44.244.2,在应用在应用 =48.5-1.1x=48.5-1.1x于预测时,需限定于预测时,需限定x x的的区间为区间为31.731.7,44.244.2;如要在;如要在x x31.731.7或或44.244.2的区间外延,则必须有新的依据。的区间外延,则必须有新的依据。y 二、直线回归的显著性检验二、直线回归的显著性检验回归关系的假设测验:回归关系的假设测验: 对于样本的回归方程,必须测定其来自对于样本的回归方程,必须测定其来自无无直线回归关系总体的概率大小直线回归关系总体的概率大小。只有当这种概。只有当这种概率小于率小于0.05或或0.01时,我们才能冒较小的危时,我们才能冒
13、较小的危险确认其所代表的总体存在着直线回归关系。险确认其所代表的总体存在着直线回归关系。这就是回归关系的假设测验这就是回归关系的假设测验 。回归关系的假设测验有两种方法:回归关系的假设测验有两种方法:t t测验或测验或F F测验测验1 1、回归系数显著性检验、回归系数显著性检验t t检验检验 对直线回归系数对直线回归系数b b的假设检验为:的假设检验为: H HO O :=0=0;H HA A 00。 在在H HO O成立的条件下,回归系数成立的条件下,回归系数b b服从服从t t分布。分布。2ndfsbtbxxybSSSS/其中其中 ,为回归系数标准误。,为回归系数标准误。 例例9.3 9.
14、3 试测验例试测验例9.19.1资料回归关系的显著性。资料回归关系的显著性。已算得已算得b b=-1.0996=-1.0996,SSSSx x=144.6356=144.6356,s sy y/ /x x=3.266=3.266,故有:故有: 0.2716144.63563.266xxybSSSS/4.050.27151.0996bsbt查附表查附表4,t0.05,7=2.36,t0.01,7=3.50。 |t|=4.05t0.01,7=3.50,接受,接受HA:0结论结论:认为积温和一代三化螟盛发期是有真实认为积温和一代三化螟盛发期是有真实直线回归关系的。直线回归关系的。或者说此或者说此b=
15、-1.0996是极显著的。是极显著的。 4.050.27151.0996bsbt2.回归关系显著性检验回归关系显著性检验F检验检验图图9-4 的分解图的分解图)(yy 直线回归的变异来源直线回归的变异来源0(2)(:2222)(则),因为)()()()()(得将上式两端平方求和,)()(yyyyxxbyyxxbybxayyyyyyyyyyyyyyyyyyyyy离回归回归即)(所以ssssssyyyyyyy222) ()(上式中上式中:回归平方和,它是由回归平方和,它是由x的不同而引起的的不同而引起的.df回归回归=1 xSSSPyyss22回归)()(回归2离回归)或SSSSyyQy) (SS
16、(df离回归离回归=n-2离回归平方和离回归平方和:2)(yySSyDf总总=n-1 总平方和:总平方和:已算得已算得SSSSX X=144.6356 SSy=249.5556 =144.6356 SSy=249.5556 SP=-159.044 SP=-159.0446356.144)0444.159(2xSSSPSS2回归)(解:解:回归平方和回归平方和6670.748886.1745556.249回归SSSSQy离回归平方和离回归平方和:例例9.4 试用试用F测验法检测例测验法检测例9.1资料回归关系资料回归关系的显著性。的显著性。表表9.3 例例9.1资料回归关系的方差分析资料回归关系
17、的方差分析 变异来源变异来源DFSSMSFF0.01回回 归归1174.8886174.888616.40*12.25离离 回回 归归774.667010.6667总总 变变 异异8249.5556结论结论:表明积温和一代三化螟盛发期是有真实直线表明积温和一代三化螟盛发期是有真实直线回归关系的,即回归关系的,即0(准确地说,在(准确地说,在=0的总体中的总体中获得现有回归样本的概率小于获得现有回归样本的概率小于0.01)。)。统计学已证明,在直线回归分析中统计学已证明,在直线回归分析中F F检验与检验与t t检检验法是等价的,可任选一种进行检验。验法是等价的,可任选一种进行检验。特别要指出的是
18、:利用直线回归方程进行预测特别要指出的是:利用直线回归方程进行预测或控制,一般只能内插,不要轻易外延。或控制,一般只能内插,不要轻易外延。离回归标准差:离回归标准差:统计意义:统计意义:p162天)(266. 3296670.74sxy三、三、直线回归的区间估计直线回归的区间估计1直线回归的抽样误差直线回归的抽样误差 在直线回归总体在直线回归总体 中抽取若干个样本时,中抽取若干个样本时,由于,各样本的由于,各样本的a、b值都有误差。值都有误差。因此,由因此,由=a+bx给出的点估计的精确性,决定于给出的点估计的精确性,决定于SY/X和和a、b的误差大小。的误差大小。 比较科学的方法比较科学的方
19、法: 给出对其总体的给出对其总体的 等的等的置信区间。置信区间。 、y/x、)(2,XN2y 2回归截距的置信区间回归截距的置信区间 a a的标准误为:的标准误为: /xxyaSSxnss21总体回归截距总体回归截距有有95可靠度的置信区间为:可靠度的置信区间为: ,05. 0205. 01aastaLstaL3回归系数的置信区间回归系数的置信区间 xxybSSss/b b的标准误为:的标准误为: 总体回归系数总体回归系数有有95可靠度的置信区间为:可靠度的置信区间为: ,05. 0205. 01bbstbLstbL4.4.条件总体平均数条件总体平均数 的置信区间的置信区间: :XY /样本估
20、计值样本估计值 的标准误为:的标准误为: y xxyySSxxnss2/)(1 的置信区间的置信区间: :XY /,05. 0205. 01yystyLstyL5.5.条件总体预测值的置信区间条件总体预测值的置信区间: :单个预测值的估计单个预测值的估计标准误为:标准误为: y xxypySSxxnss2/)(1)(1,)(05. 02)(05. 01pypystyLstyLY(P)的置信区间的置信区间:例例9.6 测定迟熟早籼广陆矮测定迟熟早籼广陆矮4号在号在5月月5日至日至8月月5日播日播种时种时(每隔每隔10天播一期天播一期),播种至齐穗的天数,播种至齐穗的天数(x)和播种和播种至齐穗的
21、总积温至齐穗的总积温(y,日,日度度)的关系列于表的关系列于表9.5,试计算:,试计算:(1)回归方程及其显著性测验;)回归方程及其显著性测验;(2)其回归截距和回归系数)其回归截距和回归系数95%可靠度的置信区间。可靠度的置信区间。表表9.5 广陆广陆4号播种至齐穗天数(号播种至齐穗天数(x)和总积温()和总积温(y)的关系)的关系播种至齐穗天数(播种至齐穗天数(x)总积温(日度总积温(日度)()(y) 70 67 55 52 51 52 51 60 64 1 616.3 1 610.9 1 440.0 1 400.7 1 423.3 1 471.3 1 421.8 1 547.1 1 53
22、3.0(1)2000.471804444.14960000.584022.552730000.4445 . 9SPyxSSSSyx可算得:由表度日进而得:50.8795863.1004444.149663.104442 .4718aCbxy63.1050.879故有直线回归方程。度日以上的有效积温号从播种到齐穗需要即广陆矮,为生物学起点温度为有效积温,:皆有专业上的实际意义和上述方程的50.87963.104Cbaba08.27290886.51350886.51354444022.77273ss2 .47182ysxyssQ回归(2)其回归截距和回归系数其回归截距和回归系数95%可靠度的置信
23、区间。可靠度的置信区间。度日度日故69.105608.7536. 250.87931.70208.7536. 250.87908.754449108.2721258LLsa区间内。,值在本的样验,将有重复这样的分期播种实号;或者说,对广陆内的可靠度为,在区间度日有效温度需的号总体从播种至齐穗所此即广陆矮69.105631.702%954%9569.105631.7024aa度。日积温号从播种至齐穗需有效即广陆矮形式。通常写成08.7550.8794saastLstLbbbb05. 0205. 01,%95可靠度的置信区间为的总体回归系数CCLLsb65.1328. 163. 263.1061.
24、 728. 136. 263.1028. 144408.2721故形式。成在表达数据时,通常写。为区间内的可靠度,值在点温度学起号从播种至齐穗是生物即广陆矮bsb %9565.1361. 74度。起点温度号从播种至齐穗生物学即广陆矮28. 163.104例例9.19.1一些夏季害虫盛发期的早迟和春季温度高低一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续有关。江苏武进连续9 9年测定年测定3 3月下旬至月下旬至4 4月中旬旬平月中旬旬平均温度累积值(均温度累积值(x,x,旬旬. .度)和水稻一代三化螟盛发期度)和水稻一代三化螟盛发期(y,y,以以5 5月月1010日为日为0 0)的关系
25、,得结果于表)的关系,得结果于表9.19.1。表表9.1 累积温和一代三化螟盛发期的关系累积温和一代三化螟盛发期的关系积累温积累温(x)35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2 盛发期盛发期(y)12 16 9 2 7 3 13 9 -1(1)计算其直线回归方程,并进行回归显著性测验计算其直线回归方程,并进行回归显著性测验。(2)当)当3月下旬至月下旬至4月中旬的积温为月中旬的积温为40旬旬度时,度时,历年的一代三化螟平均盛发期在何时历年的一代三化螟平均盛发期在何时(取取95%可可靠度靠度)? (3)某年)某年3月下旬至月下旬至4月中旬的积温为月
26、中旬的积温为40旬旬度,度,试估计该年的一代三化螟盛发期在何时试估计该年的一代三化螟盛发期在何时(取取95%可靠度可靠度)? 的置信区间条件总体平均数即求XY /(2 2)当当3 3月下旬至月下旬至4 4月中旬的积温为月中旬的积温为4040旬旬度度时,历年的一代三化螟平均盛发期在何时时,历年的一代三化螟平均盛发期在何时( (取取95%95%可靠度可靠度) )?,56. 4400996. 15485.4840yx代入方程得将日月即日月即故得:据代入再将前已算得的有关数1857 . 735. 136. 256. 41254 . 135. 136. 256. 435. 16356.1440778.3
27、74091226. 3209212LLsy日。月,即,信区间为置平均盛发期当的年份,其一代三话螟度旬月中旬的积温为月下旬至即181257 . 74 . 1%954043。区间为置信在内的时,包括即为:当18. 356. 435. 136. 256. 4%9540/xyx(3)某年某年3月下旬至月下旬至4月中旬的积温为月中旬的积温为40旬旬度,试估计度,试估计该年的一代三化螟盛发期在何时该年的一代三化螟盛发期在何时(取取95%可靠度可靠度)? 日月即日月即因此可得:和再由是当2359 .1253. 336. 256. 4658 . 353. 336. 256. 453. 36356.144077
28、8.3740911266. 3239229,56. 440212LLspyyx治。内都需要注意检查和防区间,则生产上在整个置信如果该虫态是防治对象次是对的。次中将有日。这种预报在月既,置信区间为年一代三化螟盛发期的该度时,旬月中旬的积温为月下旬至即某年951002365,9 .128 . 3%954043华南热带农业大学农学院唐燕琼制华南热带农业大学农学院唐燕琼制 进行直线相关分析的基本任务在于根据进行直线相关分析的基本任务在于根据x、y的的实际观测值,计算表示两个相关变量实际观测值,计算表示两个相关变量x、y间线性间线性相关程度和性质的统计量相关程度和性质的统计量相关系数相关系数r并进行显并
29、进行显著性检验。著性检验。10.310.3直线相关分析直线相关分析 y y与与x x直线回归效果的好坏取决于直线回归效果的好坏取决于SSSS回归回归 与与SSSS离回归离回归 的大小,或者说取决于的大小,或者说取决于SSSS回归回归 在在y y的的SSSS总总中所占比例的大小。这个比例越大,中所占比例的大小。这个比例越大,y y与与x x的直线回归效果就越好,反之则差。的直线回归效果就越好,反之则差。222) ()()(yyyyyy一、决定系数和相关系数一、决定系数和相关系数回归平方和回归平方和离回归平方和离回归平方和222)()(yyyyr决定系数决定系数r r2 2的大小表示了回归方程的可
30、靠程度,的大小表示了回归方程的可靠程度,显然有显然有0r0r2 211。因为。因为xyyxyxyxxyyxxybbSSSPSSSPSSSSSPyyyyr2222)()( b byxyx =SP =SPxyxy/SS/SSx x 是是x x为自变量、为自变量、y y为依变为依变量时的回归系数。量时的回归系数。决定系数决定系数r r2 2等于等于y y对对x x的回归系数的回归系数b byxyx与与x x对对y y的回归系数的回归系数b bxyxy的乘积的乘积xyyx2bbr b bxyxy = =SPSPxyxy/SS/SSy y 是是y y为自变量、为自变量、x x为依变为依变量时的回归系数。
31、量时的回归系数。 决定系数决定系数r r2 2表示了互为因果关系的相关变表示了互为因果关系的相关变量量x x与与y y间直线关系的程度。间直线关系的程度。决定系数介于决定系数介于0 0与与1 1之间,不能反映之间,不能反映x x与与y y直线直线关系的性质关系的性质是同向增减或异向增减。是同向增减或异向增减。 若求若求r2的平方根,且取平方根的符号与乘的平方根,且取平方根的符号与乘积和积和SPxy的符号一致,即与的符号一致,即与bxy 、byx的符号的符号一致,这样求出的平方根一致,这样求出的平方根既可表示既可表示y与与x的直的直线相关的程度,也可表示直线相关的性质。线相关的程度,也可表示直线
32、相关的性质。统计学上把这样计算所得的统计量称为统计学上把这样计算所得的统计量称为x与与y的的相关系数相关系数(coefficient of correlation),),记为记为r,即即yxxySSSSSPr 显然相关系数介于显然相关系数介于-1-1与与+1+1之间,之间,即即 -1r1-1r1。 若若r=-1r=-1,为完全负相关;,为完全负相关; r=+1r=+1,为完全正相关。,为完全正相关。在农业研究中,完全相关的情况很罕在农业研究中,完全相关的情况很罕见,多数相关系数是大于见,多数相关系数是大于-1-1,小于,小于+1+1的。的。无效假设无效假设H HO O:=0 =0 ; 备择假设
33、为备择假设为: :H HA A:0:0。三、相关系数的显著性检验三、相关系数的显著性检验相关系数相关系数r是样本相关系数,是样本相关系数, 它是双变量正它是双变量正态总体中的总体相关系数态总体中的总体相关系数的估计值。样本相关系的估计值。样本相关系数数r是否来自是否来自0的总体,还须对样本相关系数的总体,还须对样本相关系数r 进行显著性检验。进行显著性检验。 可采用可采用t t检验法、检验法、F F检验法及检验法及查表法查表法对相对相关系数关系数r r的显著性进行检验。的显著性进行检验。查表法查表法 先根据自由度先根据自由度n-2n-2查临界查临界r r值值( (附表附表10)10),得,得
34、若若|r|r| ,P P0.050.05,则相关系数,则相关系数r r不显著;不显著;若若 |r|r| ,0.010.01P P0.050.05,则相关系数,则相关系数r r显著,标记显著,标记“* *”;若若|r| |r| ,P0.01P0.01, 则相关系数则相关系数r r极显著,标记极显著,标记“* * *”。01.005.0, rr05.0r01.0r05. 0r01.0r例例9.11 试计算例试计算例9.1资料资料3月下旬至月下旬至4月中旬积温月中旬积温和一代三化螟盛发期的相关系数和决定系数。和一代三化螟盛发期的相关系数和决定系数。已算得该资料的已算得该资料的SSx=144.6356
35、,SSy=249.5556,SP=-159.0444,故,故 0.8371249.5556144.6356159.0444yssxssspr. r=-0.8371表明:一代三化螟盛发期与表明:一代三化螟盛发期与3月月下旬至下旬至4月中旬的积温成负相关,即积温愈高,月中旬的积温成负相关,即积温愈高,一代三化螟盛发期愈早。一代三化螟盛发期愈早。 r2=0.7008表明:在一代三化螟盛发期表明:在一代三化螟盛发期的变异中有的变异中有70.08%是由是由3月下旬至月下旬至4月中月中旬的积温不同造成的。旬的积温不同造成的。0.70082)8371. 0(2r四、直线回归与直线相关的联系四、直线回归与直线
36、相关的联系研究对象都是呈直线关系的相关变量。研究对象都是呈直线关系的相关变量。直线回归分析直线回归分析将二个相关变量区分为自变量与依变将二个相关变量区分为自变量与依变量,量,侧重于寻求它们之间的联系形式侧重于寻求它们之间的联系形式建立直建立直线回归方程;线回归方程;直线相关分析直线相关分析不区分自变量于依变量,不区分自变量于依变量,侧重于揭示侧重于揭示它们之间联系程度与性质它们之间联系程度与性质计算出相关系数计算出相关系数。xyyxbbr 两种分析的显著性检验都是解决两种分析的显著性检验都是解决y与与x是否存是否存在直线关系,因而二者的检验是等价的。在直线关系,因而二者的检验是等价的。 可用相
37、关系数显著性检验代替直线回归关系可用相关系数显著性检验代替直线回归关系显著性检验,即可先计算相关系数显著性检验,即可先计算相关系数r并对其进行并对其进行检验,显著后再建立直线回归方程。检验,显著后再建立直线回归方程。 五、应用直线回归与相关的注意事项五、应用直线回归与相关的注意事项 直线回归分析与相关分析在生物科学直线回归分析与相关分析在生物科学研究领域中已得到了广泛的应用,但在实研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出错误的解际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:分析
38、这一工具,必须注意以下几点: 1、变量间是否存在相关、变量间是否存在相关 直线回归分析和相关分析毕竟是处理变量间关系的数学方直线回归分析和相关分析毕竟是处理变量间关系的数学方法,在将这些方法应用于生物科学研究时要考虑到生物本身的法,在将这些方法应用于生物科学研究时要考虑到生物本身的客观实际情况,譬如变量间是否存在直线相关以及在什么条件客观实际情况,譬如变量间是否存在直线相关以及在什么条件下会发生直线相关,求出的直线回归方程是否有意义,某性状下会发生直线相关,求出的直线回归方程是否有意义,某性状作为自变量或依变量的确定等等,都必须由生物科学相应的专作为自变量或依变量的确定等等,都必须由生物科学相
39、应的专业知识来决定,并且还要用到生物科学实践中去检验。如果不业知识来决定,并且还要用到生物科学实践中去检验。如果不以一定的生物科学依据为前提,把风马牛不相及的资料随意凑以一定的生物科学依据为前提,把风马牛不相及的资料随意凑到一块作直线回归分析或相关分析,那将是根本性的错误。到一块作直线回归分析或相关分析,那将是根本性的错误。 2、其余变量尽量保持一致、其余变量尽量保持一致 由于自然界各种事物间的相互联系和相互制约,一个变量由于自然界各种事物间的相互联系和相互制约,一个变量的变化通常会受到许多其它变量的影响,因此,在研究两个变的变化通常会受到许多其它变量的影响,因此,在研究两个变量间关系时,要求
40、其余变量应尽量保持在同一水平,否则,回量间关系时,要求其余变量应尽量保持在同一水平,否则,回归分析和相关分析可能会导致完全虚假的结果。例如研究人的归分析和相关分析可能会导致完全虚假的结果。例如研究人的身高和胸围之间的关系,如果体重固定,身高越高的人,胸围身高和胸围之间的关系,如果体重固定,身高越高的人,胸围越小,但当体重在变化时,其结果也就会变化。越小,但当体重在变化时,其结果也就会变化。 3、观测值要尽可能的多、观测值要尽可能的多 在进行直线回归与相关分析时,两个变量成对观测值应尽在进行直线回归与相关分析时,两个变量成对观测值应尽可能多一些,这样可提高分析的精确性,一般至少有可能多一些,这样
41、可提高分析的精确性,一般至少有5对以上对以上的观测值。同时变量的观测值。同时变量x的取值范围要尽可能大一些,这样才容的取值范围要尽可能大一些,这样才容易发现两个变量间的变化关系。易发现两个变量间的变化关系。 4、外推要谨慎、外推要谨慎 直线回归与相关分析一般是在一定取值区间内对两个变量直线回归与相关分析一般是在一定取值区间内对两个变量间的关系进行描述,超出这个区间,变量间关系类型可能会发间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变,所以回归预测必须限制在自变量生改变,所以回归预测必须限制在自变量x的取值区间以内,的取值区间以内,外推要谨慎,否则会得出错误的结果。外推要谨慎,否则
42、会得出错误的结果。 5、正确理解回归或相关显著与否的含义、正确理解回归或相关显著与否的含义 一个不显著的相关系数并不意味着变量一个不显著的相关系数并不意味着变量x和和y之间没有关系,之间没有关系,而只有能说明两变量间没有显著的直线关系;一个显著的相关而只有能说明两变量间没有显著的直线关系;一个显著的相关系数或回归系数亦并不意味着系数或回归系数亦并不意味着x和和y的关系必定为直线,因为并的关系必定为直线,因为并不排除有能够更好地描述它们关系的非线性方程的存在。不排除有能够更好地描述它们关系的非线性方程的存在。6 6、一个显著的回归方程并不一定具有实践上的预测、一个显著的回归方程并不一定具有实践上
43、的预测意义意义 如如 一一 个个 资资 料料 x x 、y y 两两 个变量间的相关系个变量间的相关系数数 r r =0.5=0.5,在,在 df df = 2 4 = 2 4 时时 ,r r0.01(24)0.01(24)=0. 4 9 6=0. 4 9 6,r r r r0.01(24)0.01(24),表明相关系数极显著。而,表明相关系数极显著。而r r2 2=0.25=0.25,即,即x x变量或变量或y y变量的总变异能够通过变量的总变异能够通过y y变量或变量或x x变量以直线变量以直线回归的关系来估计的比重只占回归的关系来估计的比重只占25%25%,其余的,其余的 75% 75%
44、 的的变异无法借助直线回归来估计。变异无法借助直线回归来估计。 小结:应用直线回归与相关的注意事项小结:应用直线回归与相关的注意事项 1 1、要考虑到客观实际情况。、要考虑到客观实际情况。 2 2、要考虑到回归系数、相关系数的适用范围。、要考虑到回归系数、相关系数的适用范围。 3 3、必须严格控制被研究的两个变量以外的各个变、必须严格控制被研究的两个变量以外的各个变量的变动范围。量的变动范围。 4 4、正确理解、正确理解“相关不显著相关不显著”和和“回归不显著回归不显著”。 x x,生物产量生物产量(g)(g)图图9.1A 水稻单株生物产量水稻单株生物产量与稻谷产量的散点图与稻谷产量的散点图x x,每,每m m2 2颖花数颖花数( (万万) )图图9.1B 水稻每水稻每m2颖花数和结实率的散点图颖花数和结实率的散点图x,最高叶面积指数,最高叶面积指数图图9.1C 水稻最高叶面积指数和亩产量的散点图水稻最高叶面积指数和亩产量的散点图