1、线性回归和相关(优选)线性回归和相关 在生物学中,还有很多现象之间有类似的或强或在生物学中,还有很多现象之间有类似的或强或弱的相互依存关系弱的相互依存关系.例如身高与体重例如身高与体重、体温与脉搏、年龄与血压、毒、体温与脉搏、年龄与血压、毒物剂量与动物的存活时间等等。物剂量与动物的存活时间等等。英国统计学家英国统计学家Pearson K(18571936)1903搜集了搜集了1078个家庭人员的身高、前臂长等指标的记录,发个家庭人员的身高、前臂长等指标的记录,发现儿子的身高(现儿子的身高(Y,英寸)与父亲的身高(,英寸)与父亲的身高(X,英,英寸)存在线性关系。寸)存在线性关系。0 0.5 5
2、1 16 6x x3 33 3.7 73 3Y YK.K.皮尔逊皮尔逊(K.Pearson,1857-1936)(K.Pearson,1857-1936)Galton将这种趋向于种族稳定的现象将这种趋向于种族稳定的现象称之为称之为“回归回归”(regression).“回归回归”逐渐发展成为分析两个变量或逐渐发展成为分析两个变量或多个变量之间某种数量依存关系的一多个变量之间某种数量依存关系的一类统计方法。类统计方法。(Francis Galton,1822-1911)8.1直线回归直线回归 在实际生活中,很多双变量间关系呈直线趋势,但不是严格在实际生活中,很多双变量间关系呈直线趋势,但不是严格
3、的直线关系,为了区别于两变量间的直线关系,我们称这种的直线关系,为了区别于两变量间的直线关系,我们称这种关系为直线回归。关系为直线回归。直线回归仍用直线方程来描述两变量间的回归关系,但称为直线回归仍用直线方程来描述两变量间的回归关系,但称为直线回归方程。直线回归方程。直线方程:直线方程:y=a+bx直线回归方程:直线回归方程:b bx xa aY Y8.1.1、直线回归的概念、直线回归的概念实例实例 某地某地1212名女大学生的体重与肺活量的测量值如下名女大学生的体重与肺活量的测量值如下 体体重重(kg)X 42 42 46 46 46 50 50 50 52 52 58 58 肺肺活活量量(
4、L)Y 2.55 2.20 2.75 2.40 2.80 2.81 3.41 3.10 3.46 2.85 3.50 3.00 图12-1 女大学生体重与肺活量散点图图12-1 女大学生体重与肺活量散点图2.02.02.42.42.82.83.23.23.63.640404545505055556060体重X(Kg)体重X(Kg)肺肺活活量量Y(L)Y(L)两变量之间存在一定两变量之间存在一定关系,但不十分确定的。关系,但不十分确定的。表现在表现在X与与Y的散点图中,的散点图中,散点有回归到某条直线上散点有回归到某条直线上去的趋势,这种关系称为去的趋势,这种关系称为直线回归。直线回归。相关:只
5、说明是否有关联。CASIO fx3600PA条件两变量(X,Y)都是来自正态分布的随机变量5 8.53 293.(1)回归直线应在X的实测范围内或实际可应用范围内绘制,不要任意延长。y发育历期;例棉红铃虫蛹的发育历期与温度的关系如下00 2500 76.05,拒绝H0,接受H1。y(Tt)=K K有效积温;Sb为回归系数的标准误2)x必须是简单性状,y必须是难于观测的复杂性状。在实际生活中,很多双变量间关系呈直线趋势,但不是严格的直线关系,为了区别于两变量间的直线关系,我们称这种关系为直线回归。1狗的红血细胞数(y,单位百万个)和填充细胞体长度(x,单位mm)的关系表现在X与Y的散点图中,散点
6、有回归到某条直线上去的趋势,这种关系称为直线回归。axx),(yxbxayy0)(ayxtg 当x、y为不确定关系时)1,0(:,:,Nbxayxyxiiiiiiii一般认为为随机误差有实际上对每个受随机因素的影响由于值现有一组bxayxy8.1.2 直线回归方程式的建立直线回归方程式的建立(1)一般表达式一般表达式 a:截距,直线与:截距,直线与Y轴交点的纵坐标。轴交点的纵坐标。b:斜率,:斜率,又称回归系数,用来描述又称回归系数,用来描述Y依赖依赖X的直的直线变化的数量关系与大小线变化的数量关系与大小。意义意义:X每改变每改变一个一个单位,单位,Y平均改变平均改变b个单位。个单位。bXaY
7、 b0,y随随x的增大而增大的增大而增大-斜上;斜上;b0a=0a 0b=0b0(2)确定直线回归方程的准则(参数)确定直线回归方程的准则(参数a和和b的估计)的估计)2.02.02.42.42.82.83.23.23.63.640404545505055556060最小必须使根据最小二乘法的数量关系与能最好地反映要使设拟合出来的方程为222)()(Q:,iiiiibxayyyyxbxaybxay0,回归有意义。Sum of square05,不拒绝H0,若r r0.如果两H0均被接受,则可认为两组数据是抽自同一总体,从而将两回归方程合并,得到一个更加精确的方程。直线方程:y=a+bx则“+”
8、的乘积占优势,点的趋势6应用直线回归应注意事项:而且 越大,例棉红铃虫蛹的发育历期与温度的关系如下描述两变量间是否有直线关系 以及直线关系的方向和密切程度的分析方法。表现在X与Y的散点图中,散点有回归到某条直线上去的趋势,这种关系称为直线回归。附计算器的相关和回归功能(优选)线性回归和相关1“狗红血细胞数和填充细胞体长度”的回归模型作显著性检验应对回归系数进行假设检验。公式 t(dfn-2)4直线回归的区间估计7 xy=3441.05,拒绝H0,接受H1。xyxbxayxbanequationregularxbxaybbxaybxaybxaybbxayxbnayabxaybxaybxayabx
9、ayabxayyyiii22222222:0)(2)()()()(0222)()()()(:,0bQ;0Q:,)()(Q正则方程整理得以下方程组即有理原值小最的学分微照按最小SSXSSXYxxyyxxnxxnyxxyxxnyxxynbyxxynxxnbxnbxbyxxynxbxnxbyxynxbyaxyxbxayxban 22222222222)()()()()()()(II)(I)(II)(I)式得,代入式得由XY乘积和X的平方和),(_yxxbynxbnynxbya即直线通过点nyxxySSXYnyySSYnxxSSXXYyyxxSSXYYyySSYXxxSSX)()()(,)(,)()(
10、222222在实际计算时,的乘积和;称为的平方和;称为的平方和;,称为记35 5.90 206.50 1225 34.810058 9.49 550.42 3364 90.060140 6.20 248.00 1600 38.440039 6.55 255.45 1521 42.902550 8.72 436.00 2500 76.0384x=455 y=73.7 xy=3441.52 x2=21203 y2=560.322417.887.7345510152.344115.17107.733224.560)(50.5001045521203)(37.7107.73;50.4510455322
11、4.560;2120352.3441;7.73;455222222_22nyxxySSXYnyySSYnxxSSXnyynxxyxxyyx解:xyxbyaSSXSSXYb176.064.064.05.45176.037.7,176.050.50017.88所求的回归方程为:例例8.2 某地某地10名女中学生的体重与肺活量数据如下,试进行名女中学生的体重与肺活量数据如下,试进行肺活量肺活量y(L)对体重对体重x(kg)的回归分析。的回归分析。计算步骤:计算步骤:编编 号号 X Y X2 Y2 X Y 1 3 5 1.6 0 1 2 2 5 2.5 6 0 0 5 6.0 0 2 3 7 1.6
12、0 1 3 6 9 2.5 6 0 0 5 9.2 0 3 3 7 2.4 0 1 3 6 9 5.7 6 0 0 8 8.8 0 4 4 0 2.1 0 1 6 0 0 4.4 1 0 0 8 4.0 0 5 4 0 2.6 0 1 6 0 0 6.7 6 0 0 1 0 4.0 0 6 4 2 2.5 0 1 7 6 4 6.2 5 0 0 1 0 5.0 0 7 4 2 2.6 5 1 7 6 4 7.0 2 2 5 1 1 1.3 0 8 4 3 2.7 5 1 8 4 9 7.5 6 2 5 1 1 8.2 5 9 4 4 2.7 5 1 9 3 6 7.5 6 2 5 1 2 1.
13、0 0 1 0 4 5 2.2 0 2 0 2 5 4.8 4 0 0 9 9.0 0 4 0 5 2 3.1 5 1 6 5 0 1 5 5.2 8 7 5 9 4 6.5 5 表表12-1 某地某地10名女中学生的体重与肺活量数据名女中学生的体重与肺活量数据y复杂的、调查困难的、真正要调查性状。1)设总体相关系数为,H0=0则“+”的乘积占优势,点的趋势病虫害预测预报因子的选择类型则“+”的乘积占优势,点的趋势4 LD50或LC50的计算零相关 零相关 零相关r说明具有直线关系的两个变量间关系的密切程度和方向。MODE 2 进入相关与回归 LR1 24.不同饲料组大鼠肝中维生素A的含量(I
14、U/g)例棉红铃虫蛹的发育历期与温度的关系如下例棉红铃虫蛹的发育历期与温度的关系如下r说明具有直线关系的两个变量间关系的密切程度和方向。1狗的红血细胞数(y,单位百万个)和填充细胞体长度(x,单位mm)的关系Sum of square12只大鼠的进食量与体重增生量3 相关系数示意图1 24.r说明具有直线关系的两个变量间关系的密切程度和方向。回归:由一个变量值推算另一个变量的数值,说明依存变化的数量关系。图1 2-1 女 中学生体重与肺活量散点图图1 2-1 女 中学生体重与肺活量散点图1.21.21.41.41.61.61.81.82 22.22.22.42.42.62.62.82.8333
15、3353537373939414143434545体重体重x(Kg)(Kg)肺肺活活量量y(L)(L)/由数据及散点图初步分析,有直线趋势时转入下步由数据及散点图初步分析,有直线趋势时转入下步(否则不能作此分析)。(否则不能作此分析)。8.2求合计数求合计数,405 X,165012 X,15.23 Y,2875.552 Y 55.946XY0911.010405165011015.2340555.946/)(/)(222nXXnYXXYb3746.1104050911.01015.23 XbYa列出回归方程列出回归方程XY0911.03746.1 直线回归方程的图示直线回归方程的图示 图1
16、2-2 女 中学生体重与肺活量散点图及回归直线图1 2-2 女 中学生体重与肺活量散点图及回归直线1.21.21.41.41.61.61.81.82 22.22.22.42.42.62.62.82.83333353537373939414143434545体重体重x(Kg)(Kg)肺肺活活量量y(L)(L)/XY注意:注意:(1)(1)回归直线应在回归直线应在X X的实测范围内或实际可应用范围内绘制,不要任意延长。的实测范围内或实际可应用范围内绘制,不要任意延长。点点)y y,x x直直线线经经过过(2 2)(3)(3)直线与纵轴交点的纵坐标为截距直线与纵轴交点的纵坐标为截距 a a8.2回归
17、系数的假设检验回归系数的假设检验样本回归系数样本回归系数b0原因原因 由于抽样误差引起,由于抽样误差引起,=0 存在回归关系,存在回归关系,0问题:总体回归方程是否成立问题:总体回归方程是否成立(即总体回归系数即总体回归系数是否为是否为0)?若若=0,则,则Y不依赖于不依赖于X,回归无意义;,回归无意义;0,回归有意义。,回归有意义。-假设检验:方差分析或假设检验:方差分析或 t 检验检验 1方差分析方差分析 F检验检验1)变异来源总体变异来源总体Y的变异由的变异由2个原因个原因a)x 的变动引起的变动引起 y 的变异(回归,的变异(回归,regression)b)其他因素)其他因素除回归因素
18、以外的因素,除回归因素以外的因素,是随机误差。也称为剩余(残差,是随机误差。也称为剩余(残差,residuals)因素或离回归因素。)因素或离回归因素。2)平方和的分解)(:;:)()()()()(22_2_2_离回归平方和剩余平方和回归平方和总平方和SSESSRSSESSRyyyyyyyyyySSY22222222)()()()()()()()(xxbyyxxbyybxxbyybxaybxayyySSExbya22222222)()()()()()(yyxxbyyxxbyyyySSE移项得即SSXYbSSYSSRSSYSSESSXYbSSXSSXYSSXSSXSSXYSSXbxxbSSR )
19、(22222即SSYSSRSSE211:1121:1:QnndfdfdfdfndfRTRT剩余自由度变量个数回归自由度总自由度2)自由度的分解:自由度的分解3)原假设H0B=04)统计量.,能性就很大变动的可的变动引至反之因变动的可能性就很小变动引至的则因如两方差为同源源性方的同检验回归均方与剩余均yxyx.,:;,:;,:)2,1(,)2,1()2(SSE1005.001.005.0001.0相关不显著接受若相关显著若的线性关系极显著与则拒绝若值表得临介值查对于给定的剩余自由度剩余平方和剩余自由度回归自由度回归平方和回归均方HFFFFFxyHFFnFFnFMSMSFnMSSSRSSRMSER
20、ER)2,1()2/(nFnSSESSRMSMSFERSourceDegree of freedomSum of squareMean squareFRegression1SSR MSRMSR/MSEResidualsn-2SSEMSETotaln-1SSY2 t检验检验 公式公式 t(dfn-2)bbSbSbt0Sb为回归系数的标准误为回归系数的标准误SSXMSSEb2SSXMSbSbtnSSXYbSSYnSSEMSEbE/2)(2即:理论上,同一份资料,理论上,同一份资料,F检验和检验和t检验有关系式检验有关系式t2=F。相关极显著现已知:检验,326.11)8,1(69.768/62.1
21、53.15)2(n62.153.1515.17,53.155.50017.88)(176.0,17.88,15.17,50.500,0:H:)101.001.0220FFFSSESSRFSSRSSYSSESSXSSXYSSRbSSXYSSYSSXBF请对例8.1“狗红血细胞数和填充细胞体长度”的回归模型作显著性检验SourceDegree of freedomSum of squareMean squareFRegression1 15.53 15.5376.69*Residuals81.620.2025Total917.15方差分析表FtFttFtYXttdftSSXMSbSbtnSSXYb
22、SSYnSSEMSbSSXYSSYSSXBHtEbE2201.001.0076,76,718.8,355.3)8(718.850.500/204.0176.0/204.021017.88176.015.172)(2176.0,17.88,15.17,50.5000:)2即值:值与比较有极显著的线性关系。与说明检验l利用利用F值和值和t值还可以进行两回归方程的比较,值还可以进行两回归方程的比较,l即检验即检验H0B1B2,H0A1A2l如果两如果两H0均被接受,则可认为两组数据是抽自同均被接受,则可认为两组数据是抽自同一总体,从而将两回归方程合并,得到一个更加精一总体,从而将两回归方程合并,得到
23、一个更加精确的方程。确的方程。l见书见书119页例页例8.3。(1)回归系数的区间估计回归系数的区间估计SSXMStbBBtSSXMSBbtPntSSXMSBbEEE的置信区间为:即:1)/()2(/228.1.4直线回归的区间估计直线回归的区间估计 信区间信区间的的置Y(2)总体均值总体均值6.8124)(1:2)2(页例见书的置信区间总体平均值SSXxxnMSSStyYiEYYndfiYii2控制控制如果希望 在区间(c,d)内取值,应如何确定x的控制范围(x1,x2),即为控制问题。在企业质量管理(QC)等较为常用。010203040506070800510152025dSSXxxnSt
24、bxacSSXxxnStbxadStycStyxyxyYY2_222_1121)(1)(1:11即cd1x2xy3昆虫(病原物)发育起点温度及有效积温的计算昆虫(病原物)发育起点温度及有效积温的计算y(Tt)=K K有效积温;有效积温;t发育起点温度;发育起点温度;y发育历期;发育历期;T环境温度环境温度为求为求K和和 t,可把上式写成,可把上式写成T=t+KV V为发育速率(为发育速率(1/y)为方便计算把为方便计算把V定为相对发育速率(定为相对发育速率(V)例棉红铃虫蛹的发育历期与温度的关系如下例棉红铃虫蛹的发育历期与温度的关系如下T(oC)y(天天)V18.3 33.5 2.9821.1
25、 24.3 4.1124.9 16.3 6.1328.0 11.4 8.7730.5 9.3 10.7531.5 8.7 11.4935.0 8.5 11.76100,1001KKVKtTyV)(09.14:)(85.1616185.1100100:*)*983.0(6185.109.14CtKKrVTo发育起点温度日度有效积温90 206.当x、y为确定性关系时y=a+bx利用F值和t值还可以进行两回归方程的比较,a为截距,b为斜率(x每增加一个单位,y平均增加或减少的单位数,b=tg)如果大多数的点落在I、III象限,1)直线相关系数的意义和计算05(df),则 P0.病虫害预测预报因子的
26、选择类型50 360.回归:由一个变量值推算另一个变量的数值,说明依存变化的数量关系。x(个/单位):6 3 12 12 28 32 12 27 23 12 19 17 12 12 12 13 20 21 19 14Galton将这种趋向于种族稳定的现象称之为“回归”(regression).(3)直线与纵轴交点的纵坐标为截距 a49 550.T(oC)y(天)V回归:由一个变量值推算另一个变量的数值,说明依存变化的数量关系。图狗红血细胞数与填充细胞长度的关系b越大,表示y随x变化越快,直线越陡峭。05,拒绝H0,接受H1。(4)取值范围:b+;4 LD50或或LC50的计算的计算例例 剂量剂
27、量(y)供试虫数供试虫数 死亡虫数死亡虫数 死亡率死亡率(%)(x)800 10 0 0.0 1000 10 1 10.0 1200 10 3 30.0 1400 10 7 70.0 1600 10 8 80.0 1800 10 9 90.0 2000 10 10 100.0 13555044.1033.833:50*)*9750.0(44.1033.83350LDxrxy时5 双重取样双重取样x简单的、容易调查的性状;简单的、容易调查的性状;y复杂的、调查困难复杂的、调查困难的、真正要调查性状。的、真正要调查性状。双重取样的条件双重取样的条件1)x、y必须存在显著的线性相关必须存在显著的线性
28、相关关系;关系;2)x必须是简单性状,必须是简单性状,y必须是难于观测必须是难于观测的复杂性状。的复杂性状。例玉米螟幼虫的调查玉米螟(例玉米螟幼虫的调查玉米螟(y)难于调查;玉米)难于调查;玉米螟蛀孔(螟蛀孔(x)容易调查。现调查)容易调查。现调查20个单位,每单个单位,每单位位5株玉米,数据如下株玉米,数据如下 x(个个/单位单位):6 3 12 12 28 32 12 27 23 12 19 17 12 12 12 13 20 21 19 14 y(头头/单位单位):3 1 6 8 12 18 10 16 15 6 12 10 7 5 5 5 10 12 8 6)(42.163056.03
29、78.0:30,*)*9238.0(56.0378.0头为则玉米螟幼虫的估计值蛀孔数为如果在一次调查中yxrxy8.1.6应用直线回归应注意事项应用直线回归应注意事项:1.回归方程要有实际意义。回归方程要有实际意义。2.分析前绘制散点图(直线否?异常点?)。分析前绘制散点图(直线否?异常点?)。3.两变量有直线关系时,不一定是因果关系。两变量有直线关系时,不一定是因果关系。4.应对回归系数应对回归系数 进行假设检验。进行假设检验。5.直线回归的适用范围一般以自变量的取值范围为限直线回归的适用范围一般以自变量的取值范围为限没有充分理由没有充分理由X的取值不要外延。的取值不要外延。8.2 直线相关
30、直线相关大纲要求大纲要求 1)直线相关系数的意义和计算直线相关系数的意义和计算 2)直线相关系数的假设检验直线相关系数的假设检验 3)直线回归系数与相关系数的区别和联系直线回归系数与相关系数的区别和联系 线性相关分析线性相关分析-描述两变量间是否有直线关系描述两变量间是否有直线关系 以及直线关系的方以及直线关系的方向和密切程度的分析方法。向和密切程度的分析方法。8.2.1直线相关的概念直线相关的概念 条件两变量(条件两变量(X,Y)都是来自正态分布的)都是来自正态分布的随机变量随机变量图图10.3 相关系数示意图相关系数示意图 散点呈椭圆形分布,散点呈椭圆形分布,x x、y y同时增减同时增减
31、-正相关正相关(postive correlation)postive correlation);x x、y y此增彼减此增彼减-负相关负相关(negative correlation)(negative correlation)。x x、y y变化趋势相同变化趋势相同-完全正相关完全正相关;反向变化反向变化-完全负相关。完全负相关。x x、y y变化互不影响变化互不影响-零相关零相关(zero correlation)(zero correlation);零相关零相关 零相关零相关 零相关零相关r 0 r 0 r 0而且而且越大,越大,点点(x,y)越靠近一条直线。越靠近一条直线。)_,(y
32、yxxii)(_yyxx)(_yyxx)(_yyxx)(_yyxxIIIIIIIV)0,0(O),(_yxOy yx x)(_yyxx),(yxOSSYSSXSSXYyyxxyyxxryxyyxxyxyyxx2_2_)()()(:,)(.,)(:指标就必须抽象化要作为一个的测量单位有关它的大小和位的是有单但线性相关关系越强直线每个点越靠近一条而且这个值越大还是负相关之间是正相关可以衡量因此 nyynxxnyxxyyyyyxxxxyyxxyyxxyyxxyyxxrnnnn2222221221212_2_)()()()()()()()()()()(相关系数公式可转化为为方便计算,根据以前的推导结果
33、,有就是线性关系弱。就是线性关系强,接近接近指标,间线性关系强弱的一种可以作为因此,之间。时,情况介于上述二者当回归一点作用都没有。时,当值。可以准确预测,即用时,当即01,10,0011,1,01)()()(222YXrrSSYSSEryySSErrrSSESSYSSESSYSSESSYSSYSSRSSYSSXYbSSYSSXSSXYrSSXSSXYb 决定系数决定系数 r0原因原因 由于抽样误差引起,由于抽样误差引起,=0 存在相关关系,存在相关关系,0问题:总体相关系数问题:总体相关系数是否有统计学意义?是否有统计学意义?若若H0:=0,则,则X与与Y无相关关系;无相关关系;H1:0,相
34、关有意义,相关有意义-假设检验:假设检验:直接查直接查r界值表界值表或采用或采用t检验检验 根据自由度根据自由度(df=n1)查相关系数查相关系数r界界值表(表值表(表C6),查出),查出r0.05(df),若,若r r0.05(df),则则 P0.05,不拒绝,不拒绝H0,若若r r0.05(df),则则 P 0.05,拒绝,拒绝H0,接受接受H1。1查表法查表法0,回归有意义。“回归”逐渐发展成为分析两个变量或多个变量之间某种数量依存关系的一类统计方法。7 xy=3441.LR=Linear Regression1狗的红血细胞数(y,单位百万个)和填充细胞体长度(x,单位mm)的关系r说明
35、具有直线关系的两个变量间关系的密切程度和方向。800 10 0 0.点(x,y)越靠近一条直线。r说明具有直线关系的两个变量间关系的密切程度和方向。2相关系数(r)的推导(Francis Galton,1方差分析 F检验00 1600 38.Galton将这种趋向于种族稳定的现象称之为“回归”(regression).(1)回归直线应在X的实测范围内或实际可应用范围内绘制,不要任意延长。而且 越大,病虫害本身前一时期发生情况的数据如发生量、发生期、为害程度等;例棉红铃虫蛹的发育历期与温度的关系如下如果两H0均被接受,则可认为两组数据是抽自同一总体,从而将两回归方程合并,得到一个更加精确的方程。
36、50 8.当x、y为不确定关系时2 t检验1)设总体相关系数为,H0=02)统计量21:)2(2nrSntSrSrtorroroooo其中.:;:;:05.001.005.001.0相关不显著若相关显著若相关极显著若ttttttt.,355.3)8(29.12077.0952.0077.0210952.01212,952.0,765.0,632.02C682102)1*952.015.175.50017.880:17.88,15.17,50.5001.801.001.02201.001.005.00相关极显著检验:)极显著相关。今个时,当变量的数目为查表查表法:以自由度已知:验。相关系数进行显
37、著性检试对其作相关分析并对,充细胞体长度的关系”:“狗的红血细胞与填例ttdftSrtnrStrrrrnSSYSSXSSXYrHSSXYSSYSSXoorooroo1)区别)区别 8.2.4 直线回归与相关的区别与联系直线回归与相关的区别与联系 资料要求不同资料要求不同 x、y服从双变量正态分布服从双变量正态分布-型回归型回归 y正态随机变量,正态随机变量,x为选定变量为选定变量-型回归型回归 回归回归应用应用:回归回归:由一个变量值推算另一个变量的数值,说明依存变化由一个变量值推算另一个变量的数值,说明依存变化的数量关系。的数量关系。相关相关:只说明是否有关联。只说明是否有关联。相关相关SS
38、XSSXYbbxay时,当,而回归是单向的。相关是双向的关系均值,两个回归系数的几何平即:相关系数实际上是定义由对称性得令)(,)(:1221111rSSYSSXSSXYbbrSSYSSXSSXYbbSSYSSXYbybax回归系数回归系数b 和相关系数和相关系数r的区别的区别 3)意义:意义:b表示表示X每增(减)一个单位,每增(减)一个单位,Y平均改变平均改变b个个单位;单位;r说明具有直线关系的两个变量间关系的密切说明具有直线关系的两个变量间关系的密切程度和方向。程度和方向。(4)取值范围:取值范围:b+;1r+1。(5)回回归系数有单位,相关系数无单位。归系数有单位,相关系数无单位。2
39、)关系)关系 方向一致方向一致对一组数据若同时计算对一组数据若同时计算r与与b,其正负号一致,其正负号一致。(2)假设检验等价假设检验等价 对同一样本,对同一样本,tr=tb,值相等。,值相等。(3)用回归解释相关用回归解释相关。决定系数决定系数:SSYSSESSYSSRSSYSSXYbSSYSSXSSXYr1)()()(22 反映反映Y的总变异中有多大可能可由的总变异中有多大可能可由X来解释。越接近来解释。越接近1,回归的,回归的效果越好。效果越好。nxxxyyy,22_,xyrbaDDyx,DATA1)幂函数xbayaaxxyyxbayaxyb:ln;ln;ln:lnlnln得令对方程取对
40、数得:0 020204040606080801001001201201401400 02 24 46 68 810101b1b10 b2)指数函数0123456789-0.4-0.200.20.40.60.800.511.522.533.54-0.4-0.200.20.40.60.8bxayaayybxayaeybx:ln;ln:lnln:得令两边取对数0b0b3)双曲线00.511.522.533.544.5024681012:1;1:1;:1;bXaYXxYyxbayxxyyxbayxbay得令得令xbayxbay14)对数函数01234567012345678910-3-2.5-2-1.
41、5-1-0.500.511.522.5012345678910 xbayxxxbay;ln:ln令0b0b例棉红铃虫蛹的发育历期与温度的关系如下描述两变量间是否有直线关系 以及直线关系的方向和密切程度的分析方法。y正态随机变量,x为选定变量-型回归00 1600 38.5 8.42 6.(3)直线与纵轴交点的纵坐标为截距 a回归:由一个变量值推算另一个变量的数值,说明依存变化的数量关系。由数据及散点图初步分析,有直线趋势时转入下步(否则不能作此分析)。42 6.b越大,表示y随x变化越快,直线越陡峭。1600 10 8 80.则“+”的乘积占优势,点的趋势如果两H0均被接受,则可认为两组数据是抽自同一总体,从而将两回归方程合并,得到一个更加精确的方程。例如身高与体重、体温与脉搏、年龄与血压、毒物剂量与动物的存活时间等等。05,拒绝H0,接受H1。病虫害本身前一时期发生情况的数据如发生量、发生期、为害程度等;x、y服从双变量正态分布-型回归描述两变量间是否有直线关系 以及直线关系的方向和密切程度的分析方法。5)S型曲线00.10.20.30.40.50.6-4-202468012345678910024681012xbayxeyybeayxx;1:1令bxaeKyestic1:log方程