1、直线相关与回归分析两变量或多变量之间的关系,总起来可分为两类,一类是函数关系,确两变量或多变量之间的关系,总起来可分为两类,一类是函数关系,确定关系的例子,在生物界中是极少见的。定关系的例子,在生物界中是极少见的。生物中生物中,大量存在的情况是大量存在的情况是:一种变量受另一种变量的影响一种变量受另一种变量的影响,两者之间既有两者之间既有关系,但又不存在完全确定的函数关系。知道其中一种变量,并不能精关系,但又不存在完全确定的函数关系。知道其中一种变量,并不能精确求出另一变量。下面请同学们举几个例子。确求出另一变量。下面请同学们举几个例子。p单位面积的施肥量、播种量和产量三者之间的关系。单位面积
2、的施肥量、播种量和产量三者之间的关系。p树木胸径与树木高度的关系。树木胸径与树木高度的关系。p人类血压与年龄的关系。人类血压与年龄的关系。p玉米的穗长与穗重的关系。玉米的穗长与穗重的关系。p人的身高与体重的关系。人的身高与体重的关系。身高与胸围、体重溶液的浓度与OD值人类的年龄与血压 温度与幼虫孵化相关关系:当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不确定不确定,但它仍按某种规律在一定的范围内一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系 p 生物学中,研究两变量间的关系,主要是为了探求两变量的生物学中,研究两变量间的关系,主要是为了探求两变量的
3、内在联系,或者是从一个变量内在联系,或者是从一个变量X去推测另一个随机变量去推测另一个随机变量Y.例例如,我们希望通过施肥量如,我们希望通过施肥量X去推测去推测Yp如果对于变量如果对于变量X的每一个可能的值的每一个可能的值xi,都有随机变量都有随机变量Y的一个的一个yi与之对应,则称随机变量与之对应,则称随机变量Y对变量对变量X存在回归关系。存在回归关系。p为了确定相关变量之间的关系,首先应该收集一些数据,这为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上描述这些点,这些数据应该是成对的,然后在直角坐标系上描述这些点,这一组点集称为散点图。一组点集称为
4、散点图。u为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。 散点图散点图(scatter diagram)两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切)两个变量间关系的类型(直线型或曲线型)是否有异常观测值的干扰 1 2 3 4 5 64321 1 2 3 4 5 64321 1 2 3 4 5 64321正向直线关系负向直线关系曲
5、线关系定性研究编辑ppt8第一节:回归与相关的概念相相关关变变量量因果关系因果关系互依关系互依关系回归分析(回归分析(regression analysisregression analysis)相关分析(相关分析(correlation analysiscorrelation analysis)一个变量的变化受另一个一个变量的变化受另一个变量或几个变量的制约变量或几个变量的制约两个以上变量之间共同受两个以上变量之间共同受到另外因素的影响到另外因素的影响xy施肥量施肥量( (可以严格地人为控制可以严格地人为控制) )产量产量如果对如果对x x的每一个可能的值,都有随机变量的每一个可能的值,都有
6、随机变量y y的一个分布相对应,则称随机变量的一个分布相对应,则称随机变量y y对变量对变量x x存在回归存在回归(regression)(regression)关系。关系。自变量(independent variable)因变量(dependent variable)因果关系因果关系一个变量的变化受另一个变量或几个变一个变量的变化受另一个变量或几个变量的制约量的制约在大量测量各种身高人群的体重时会发现,虽然在同在大量测量各种身高人群的体重时会发现,虽然在同样身高下,体重并不完全一样。但在每一身高下,都样身高下,体重并不完全一样。但在每一身高下,都有一个确定的体重分布与之相对应有一个确定的体重
7、分布与之相对应; ;在大量测量各种体重人群的身高时会发现,虽然在同在大量测量各种体重人群的身高时会发现,虽然在同样体重下,身高并不完全一样。但在每一体重下,都样体重下,身高并不完全一样。但在每一体重下,都有一个确定的身高分布与之相对应有一个确定的身高分布与之相对应; ;身高与体重之间存在相关关系。X身高身高Y体重体重X体重体重Y身高身高相关关系相关关系编辑ppt11u例:土壤内NaCl含量对植物的生长有很大影响,NaCl含量过高,将增加组织内无机盐的累积,抑制植物生长。下表中的数据是每1000g土壤中所含NaCl的不同克数(X),对植物单位叶面积干物重的影响。 NaCl含量X(g/kg)00.
8、81.62.43.24.04.8干重Y(mg/dm2)809095115130 115 135不同NaCl含量对单位叶面积干物重的影响一、直线回归方程的建立第二节:直线回归 Linear Regression编辑ppt12散点图如下 u我们描绘散点的目的:(1)两变量之间的关系是否密切,能否用X来估计Y;(2)两变量之间的关系是呈线性或某种曲线;(3)是否存在某个点偏离过大;(4)是否存在其他规律。 编辑ppt13变量变量1变量变量2收集数据收集数据散点图温度天数X平均温度()Y历期天数(d)11.830.114.717.315.616.716.813.617.111.918.810.719.
9、58.320.46.7例:黏虫孵化历期平均温度与历期天数例:黏虫孵化历期平均温度与历期天数编辑ppt14黏虫孵化历期平均温度与历期天数关系图0 010102020303040401010121214141616181820202222温度温度天数(天)天数(天)()bxay编辑ppt15若我们增加每一NaCl浓度下的观测次数,其散点图如下:(可见其平均值更趋近于一条直线) 编辑ppt16l平均数有一个特性,即在各种离差平方和中,以距平均数的离差平方和最小。我们把观测值与回归估计值之间的离差平方和最小时的回归线作为最好的回归线。其方法为最小二乘法u而回归直线是指所有直线中最接近散点图中全部散点的
10、直线。设样本直线回归方程为:bxay编辑ppt17回归直线在平面坐标系中的位置取决于回归直线在平面坐标系中的位置取决于a,ba,b的取值。的取值。nyy12)(ybxay最小最小最小二乘法(method of least square)编辑ppt180 010102020303040401010121214141616181820202222温度温度天数(天)天数(天)()xy5317. 20393.5711.8-20.4用用x x估计估计y y,存在随机误差,必须根据回归的数学模型,存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进行检验。对随机误差进行估计,并对回归方程
11、进行检验。Y=a+bx直线回归方程(linear regression equation)截距截距(intercept)回归截距回归截距斜率斜率(slope)回归系数回归系数(regerssion coefficient)自变量自变量与与x值相对应的依变量值相对应的依变量y的的点点估计值估计值0 xya0,b0a0a0,br0.01结论是用KP法与用DBC法测得的水稻籽粒蛋白质含量间有极显著的相关。两变量间依存变化的数量关系两变量间依存变化的数量关系两个变量在相关系数计算中的地位是两个变量在相关系数计算中的地位是平等平等的,的,没有自变量和依变量之分没有自变量和依变量之分回归相关相关与回归的区
12、别相关与回归的区别单向xyxy双向回归系数有单位,形式为(应变量单位回归系数有单位,形式为(应变量单位/ /自变量单自变量单位),相关系数没有单位。位),相关系数没有单位。相关系数的范围在相关系数的范围在-1-1+1+1之间,而回归系数没有之间,而回归系数没有这种限制。这种限制。有些资料用相关表示较适宜,比如兄弟与姐妹间的有些资料用相关表示较适宜,比如兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。身长关系、人的身长与前臂长之间的关系等资料。有些资料用相关和回归都适宜,此时须视研究需要而定。有些资料用相关和回归都适宜,此时须视研究需要而定。就一般计算程序来说,就一般计算程序来说,是先
13、求出相关系数是先求出相关系数r并对其进行假设检并对其进行假设检验,验,如果如果r显著并有进行回归分析之必要,再建立回归方程。显著并有进行回归分析之必要,再建立回归方程。 作相关与回归分析要有实际意义。作相关与回归分析要有实际意义。不要把毫无关联的两个事物或现象用来作相关或回归分析。*如儿童身高的增长与小树的增长,作相关分析是没有实际意义如儿童身高的增长与小树的增长,作相关分析是没有实际意义的,如果计算由儿童身高推算小树高的回归方程则更无实际意的,如果计算由儿童身高推算小树高的回归方程则更无实际意义。也许算得的义。也许算得的r、b是显著的,也是没有意义的。是显著的,也是没有意义的。 对相关分析的
14、作用要正确理解。*相关并不一定就是因果关系,切不可单纯依靠相关系数或回归系数的显著性“证明”因果关系之存在。要证明两事物间的因果关系,必须凭籍专业知识从理论上加以阐明。但是,当事物间的因果关系未被认识前,相关分析可为理论研究提供线索。在回归分析中,由X推算Y与由Y推算X的回归方程是不同的,不可混淆。 一般说,事物的原因作自变量X,当事物的因果关系不很明确时,选误差较小的即个体变异小的变量作自变量X,以推算应变量Y。回归方程的适用范围有其限度,一般仅适用于自变量X的原数据范围内,而不能任意外推。因为我们并不知道在这些观察值的范围之外,两变量间是否也呈同样的直线关系。 编辑ppt37可直线化的非线
15、性回归分析编辑ppt38p生物学中两变量间呈曲线关系的例子很多。p例如生物生长中某时期的重量与时间的关系、细菌生长的数量与时间的关系等,都不是用简单的直线关系所能表达的。p这时应选择适当类型的曲线,使之能更符合两变量的实际关系。在确定了两变量间所呈函数关系以后,需通过适当变换(transform) ,便可将曲线化为直线,再按直线回归处理。 编辑ppt39常用的直线化方法指数函数bxaey bxay lnlnbxay 各种曲线中,除S型曲线及抛物线外,首先可以尝试进行对数变换。编辑ppt40专业知识、经验或文献确定曲线类型专业知识、经验或文献确定曲线类型单细胞生物生长初期符合指数函数增长,但若考
16、虑到生长一定时间后,后期生长受到抑制,其生长曲线变成“S”形。酶促反应动力学中的米氏方程是一种双曲线。一、确定曲线类型的方法1散点图的方法散点图的方法2通过散点图,确定曲线类型,如果几种类型可供选择,可多做几次回归,进行比较,再确定曲线类型。编辑ppt41735. 0)9(01. 0 rr编辑ppt42u在辐射遗传和药理学实验中,经常遇到寻找半致死剂量问题。u致死率与剂量间的关系曲线往往程S形。在半致死处,曲线的曲率最大,与死亡率的交点最清楚。在全致死处,曲线与死亡率已近于平行,交点不清,剂量也就不好确定了。因此在实际工作中,常常用半致死尽量这一标准。u确定半致死剂量,最常用的方法是对数据进行
17、概率对数变换。编辑ppt43u例:用不同计量的r射线照射小麦品种库斑克,调查死苗率,得到以下结果: 剂量(Kr)X14161820222426死苗率()Y6104070809395编辑ppt44lgY=1.2771Y=18.92779397Y=101.2771=18.92编辑ppt45多元线性 回归分析编辑ppt46主穗重主穗重X1有效蘖数有效蘖数X2单株产量单株产量Y2.697.81.612.81.813.22.7610.72.245279.12.536.31.868.61.824.11.546.82.556.82.313.71.601.62.202.21.732.4例:小麦单株产量不仅与单穗重有关,而且与有效分蘖有关。左表为一部分数据。Y=0.541+0.949X1+0.841X20.949和0.841都称为偏回归系数。它表示当其它自变量都固定时,某一自变量每变化一个单位而使因变量平均改变的数值。