1、第七章第七章 回归与相关分析回归与相关分析n(针对两个变量的相互关系进行分析)(针对两个变量的相互关系进行分析)n第一节第一节 直线回归直线回归n第二节第二节 直线相关直线相关n第三节第三节 多项式回归多项式回归n第四节第四节 协方差分析协方差分析*第七章要点提示第七章要点提示 本章对两个变量的相互关系进行分析,是多元统计分析的基石。本章对两个变量的相互关系进行分析,是多元统计分析的基石。学习时学习时首先要求区分首先要求区分“回归回归”术语古今含义的不同之处,充分认识一术语古今含义的不同之处,充分认识一元线性回归与相关分析的基础地位;元线性回归与相关分析的基础地位;熟悉回归关系与相关关系的本质
2、熟悉回归关系与相关关系的本质区别及两者在统计表述方法上的联系(如区别及两者在统计表述方法上的联系(如r与与b在数学意义上的统一性)在数学意义上的统一性)和各自的侧重点;和各自的侧重点;重点掌握直线回归与相关分析的显著性检验方法和重点掌握直线回归与相关分析的显著性检验方法和双变量回归模型的协方差分析技术,以便将统计控制手段与试验控制手双变量回归模型的协方差分析技术,以便将统计控制手段与试验控制手段一起综合运用到试验设计和统计分析中去。段一起综合运用到试验设计和统计分析中去。涉及教材内容:第八章,涉及教材内容:第八章,第九章第四节,第九章第四节,第十章。第十章。作业布置:作业布置:教材教材第九章一
3、、二、三节内容自习第九章一、二、三节内容自习;教材教材P1175 P1175 T4、T5、T6;P210 P210 T4、T5。第一节第一节 直线回归直线回归一、回归的含义一、回归的含义 “回归回归”原文为原文为regression,该术语最,该术语最先由英国的先由英国的F.Galton于于1886年左右研究人年左右研究人类身高遗传的规律时所作的类身高遗传的规律时所作的“高尔顿解释高尔顿解释”中使用,详情如右图所示:中使用,详情如右图所示:高尔顿对此所作的解释是:大自然有高尔顿对此所作的解释是:大自然有一种约束机制,使人类身高分布保持某种一种约束机制,使人类身高分布保持某种稳定形态而不作两极分
4、化,也就是有稳定形态而不作两极分化,也就是有回归回归于中心的作用于中心的作用,这个中心值,这个中心值即该种族身即该种族身高在一定历史时期的平均值。高在一定历史时期的平均值。现在就现在就“回归回归”所作的定义是:所作的定义是:如果两个变量如果两个变量X和和Y,总是,总是Y随着随着X的的变化而变化,且这种变化而变化,且这种变化关系不可逆变化关系不可逆,则,则称称X和和Y为回归关系。其中:为回归关系。其中:X叫自变量叫自变量dependent variable;Y叫叫因变量或依变量因变量或依变量independent variable。高高:xg 71 72 g (69)64 a矮矮:xa 67 调
5、查调查n 1074个家庭,统计结果:个家庭,统计结果:X 68英寸英寸 69英寸英寸得:得:X 1 (1英寸英寸2.54cm)但分组统计的结果却并非如此但分组统计的结果却并非如此父母为高个子组时,父母为高个子组时,g 721父母为矮个子组时,父母为矮个子组时,a 641 走向指回归的本意走向指回归的本意 走向指回归的今义走向指回归的今义第一节第一节 直线回归直线回归二、建立直线回归方程二、建立直线回归方程 例例7.1 在四川白鹅的生产性能研究中,在四川白鹅的生产性能研究中,得到如下一组得到如下一组n=12(只)关于雏鹅重(只)关于雏鹅重(g)与与70日龄重(日龄重(10g)的关系的数据,其结)
6、的关系的数据,其结果如下表,试予分析。果如下表,试予分析。解解 描散点图描散点图 本例已知雏鹅本例已知雏鹅70日龄重随雏鹅重的变日龄重随雏鹅重的变化而变化,且不可逆;又据散点图反映的化而变化,且不可逆;又据散点图反映的趋势来看,在趋势来看,在80120g的重量范围,的重量范围,70日日龄重随雏鹅重呈上升的线性变化关系。龄重随雏鹅重呈上升的线性变化关系。故可假定直线回归方程为:故可假定直线回归方程为:y a bx 读作读作“Y依直线回归依直线回归”70 90 110 130 编号编号123456789101112X(g)808698901201029583113105110100Y(10g)23
7、5240272250315268263240308292296286y a bx340340300300260260220220第一节第一节 直线回归直线回归数据整理数据整理 由原始数据算出由原始数据算出一级数据一级数据6个个:X1182 Y32650 XY3252610X 2118112 Y 2896696700 n12 再由一级数据算出再由一级数据算出二级数据二级数据5个个:SSX X 2 (X)2/n1685.00SSY Y 2 (Y)2/n 831491.67SP XY X Y/n 36585.00 XX/n 98.5 Y/n 2720.8333计算计算三级数据三级数据 b SP/SS
8、X 21.7122 365851685 a bX582.1816 2720.8333 21.712298.5 得所求直线回归方程为:得所求直线回归方程为:y 582.1816+21.7122 x 80 100 120 y a bx3203202802802402402002008080120120第一节第一节 直线回归直线回归三、直线回归关系的显著性检验三、直线回归关系的显著性检验 将将a bx 代入代入Y a bx 得:得:y b(xx)及及 y b(xx)于是由因变量离均差的两个线性分量:于是由因变量离均差的两个线性分量:(Y)2(Yy)(y )2 可推导出因变量总可推导出因变量总SS的如
9、下分解公式:的如下分解公式:(Y)2(Yy)2(y )2 简写成:简写成:SSY SSR SSr分别叫分别叫“离回归离回归平方和平方和”与与“回归回归平方和平方和”其计算公式及本例分解结果:其计算公式及本例分解结果:SSRSP2/SSX365852/1685 794339.6 SSrSSY SSR 37152.07 83149167 794339.6故故 F MSR/MSr 213.81*(F0.01,1,1010.04)(794339.6 1)/(37152.0710)表明双变量直线回归关系极显著表明双变量直线回归关系极显著,所得方所得方程程 y 582.1816+21.7122 x可用于预
10、测。可用于预测。也可对回归系数进行也可对回归系数进行t-test来证实。来证实。只是要利用分子只是要利用分子df1时,时,Ft2的关系的关系推导出回归系数的标准误推导出回归系数的标准误SbSe/SSX其中,其中,Se2SSr/dfr3715.21 37152.0710 于是于是t-test的步骤如下:的步骤如下:(1)H0:=0(为回归系数为回归系数b的真值的真值)(2)Sb Se2/SSX 1.4849(3)3715.211685 t(b)Sb 21.71221.484914.62(3)按自由度按自由度dfr 10 查得两尾查得两尾 t0.01=3.169(4)推断:推断:t t0.01 H
11、0 不成立。不成立。可见可见t-test与与F-test的效果完全一致。的效果完全一致。若显著性检验结果不显著若显著性检验结果不显著,则则三选一:三选一:Y与与X没有回归关系;没有回归关系;Y与与X有回归关系,但不是直线回归;有回归关系,但不是直线回归;Y与与X有回归关系,但不是简单回归,有回归关系,但不是简单回归,而是多元回归。而是多元回归。第二节第二节 直线相关直线相关一、相关的含义一、相关的含义 如果两个变量如果两个变量X和和Y,总是,总是X和和Y 相互相互制约、平行变化制约、平行变化,则称,则称X和和Y为相关关系。为相关关系。此时,此时,X和和Y没有严格意义上的自变没有严格意义上的自变
12、量和因变量之分,既可以说量和因变量之分,既可以说Y随着随着X的变的变化而变化,化而变化,也可以讲也可以讲X随着随着Y 的变化而变的变化而变化。即不存在谁决定谁或谁依赖谁的问题。化。即不存在谁决定谁或谁依赖谁的问题。如人或动物的胸围和体重,作物的生物如人或动物的胸围和体重,作物的生物产量和经济产量,树干的胸径与材积等。产量和经济产量,树干的胸径与材积等。可见,相关关系以双向、平行为特征。可见,相关关系以双向、平行为特征。但相关关系如果仅从数学角度看,和但相关关系如果仅从数学角度看,和回归关系是统一的,因为其双变量变化规回归关系是统一的,因为其双变量变化规律如果是线性关系的话,也可以由根据律如果是
13、线性关系的话,也可以由根据“最小二乘法最小二乘法”原理得出的直线方程来表原理得出的直线方程来表述,所以有些文献不区分回归关系和相关述,所以有些文献不区分回归关系和相关关系,将二者笼统地称之关系,将二者笼统地称之“回归回归”或者或者“相关相关”。从统计上讲,相关分析的侧重点和回从统计上讲,相关分析的侧重点和回归分析不完全一样。归分析不完全一样。二、相关系数二、相关系数 前已述及,具有线性回归关系的双前已述及,具有线性回归关系的双变量中,变量中,Y变量的总变异量分解为:变量的总变异量分解为:SSY SSr SSR 对于具有线性对于具有线性相关关系的双变量,相关关系的双变量,Y变量的总平方和也可以分
14、解成同样变量的总平方和也可以分解成同样的两个分量,只是分别改称为的两个分量,只是分别改称为“非相非相关平方和关平方和”与与“相关相关平方和平方和”于是有:于是有:r SSR/SSY SP/SSX SSY “r”叫叫相关系数相关系数,其绝对值越大,其绝对值越大,SSR所占的比重就越大,在散点图上所占的比重就越大,在散点图上就表现为各散点越靠近直线;反之,就表现为各散点越靠近直线;反之,即即SSr所占的比重越大,各散点越远所占的比重越大,各散点越远离直线。并且有以下性质:离直线。并且有以下性质:r 的正负和的正负和b一样取决于一样取决于SP的正负;的正负;r0,正相关;,正相关;r0,负相关,负相
15、关 r1,1或或r(1,1););决定系数决定系数 r 2bb 或或 r bb第二节第二节 直线相关直线相关三、相关分析举例三、相关分析举例 例例7.2 为研究绵羊胸围(为研究绵羊胸围(cm)和体重)和体重(kg)的相互关系,调查了)的相互关系,调查了10只绵羊胸围只绵羊胸围和体重的对应观察值和体重的对应观察值X和和Y,所得结果如所得结果如下表,试予分析。下表,试予分析。解解 描散点图描散点图 本例已知绵羊胸围(本例已知绵羊胸围(X)和体重()和体重(Y)为相关关系,散点图也显示两者的变化规为相关关系,散点图也显示两者的变化规律呈律呈线性正相关线性正相关,SP0。故可假定直线相关方程为:故可假
16、定直线相关方程为:y a bx 或或 x a b y后一个方程也可写成:后一个方程也可写成:y a b x6666686870707272747476767878绵羊绵羊12345678910X(cm)68707071717173747676720Y(kg)50606865697271737577680y a bx807468625650第二节第二节 直线相关直线相关数据整理数据整理 由原始数据算出由原始数据算出一级数据一级数据6个个:X720 Y680 XY49123X 251904 Y 246818 n10 再由一级数据算出再由一级数据算出二级数据二级数据5个个:SSX X 2 (X)2/
17、n64SSY Y 2 (Y)2/n 578SP XY X Y/n 163 XX/n 72 Y/n 68计算计算三级数据三级数据 b SP/SSX 16364 2.547 a 72 2.54768 115.4b SP/SSY 163578 0.282 a 68 0.282 72 52.82 即所求相关方程可以有两个即所求相关方程可以有两个(如右图如右图)r SP/SSX SSY 0.8475r 2bb2.547 0.2820.7192y 52.82 0.282 x76726840 50 60 70 80807060506666686870707272747476767878y 2.547x115
18、.4第二节第二节 直线相关直线相关、直线相关关系的显著性检验、直线相关关系的显著性检验 和直线回归关系的显著性检验原理和直线回归关系的显著性检验原理一样,直线相关关系的双变量也可导出一样,直线相关关系的双变量也可导出Y变量总变量总SS的如下分解公式:的如下分解公式:(Y)2(Yy)2(y )2 简写成:简写成:SSY SSR SSr分别叫分别叫“非相关非相关平方和平方和”与与“相关相关平方平方和和”其计算公式引用三级数据后简化为:其计算公式引用三级数据后简化为:SSY (1 r 2)SSY r 2 SSY 或者或者 SSX (1 r 2)SSX r 2 SSX SSR r 2 SSY0.718
19、2 578 415 SSr(1 r 2)SSY 0.2818 578 163 故故 F MSR/MSr 20.4*(F0.01,1,811.26)(n 2)r 2/(1 r 2)表明双变量直线相关关系极其显著表明双变量直线相关关系极其显著,所得两个直线相关方程都可用于预测。所得两个直线相关方程都可用于预测。也可对回归系数进行也可对回归系数进行t-test来证实。来证实。只是要利用只是要利用df(分子分子)1时,时,Ft2的关系的关系推导出相关系数的标准误:推导出相关系数的标准误:Sr(1 r 2)/(n 2)并且并且Se2SSr/dfr 1638 20.4于是于是t-test的步骤如下:的步骤
20、如下:(1)H0:=0(为相关系数为相关系数 r 的真值的真值)(2)Sr 0.28188 0.1877 t(r)Sr0.84750.18774.516(3)按自由度按自由度dfr 8 查得两尾查得两尾 t0.01=3.355(4)推断:推断:t t0.01 H0 不成立。不成立。可见可见t-test与与F-test的效果完全一致。的效果完全一致。若显著性检验结果不显著若显著性检验结果不显著,则则三选一:三选一:Y与与X没有相关关系;没有相关关系;Y与与X有相关关系,但不是直线相关;有相关关系,但不是直线相关;Y与与X有相关关系,但不是简单相关,有相关关系,但不是简单相关,而是复相关。而是复相
21、关。第二节第二节 直线相关直线相关四、回归与相关关系的统一性四、回归与相关关系的统一性 既然相关关系和回归关系的显著性检验既然相关关系和回归关系的显著性检验原理一样,那么,不论回归还是相关关系,原理一样,那么,不论回归还是相关关系,其检验都其检验都可用可用“相关系数相关系数”r 进一步简化进一步简化如下:如下:即由即由 t2 F (n 2)r 2/(1 r 2)解得:解得:r t2/(n 2 t2)于是利用这一关系将各个自由度下的于是利用这一关系将各个自由度下的 t 临界值临界值t0.05和和 t0.01换算出相关系数换算出相关系数r的临界值的临界值r0.05和和 r0.01,从而得到直接用于
22、检验回归或,从而得到直接用于检验回归或者是相关关系显著性的临界值表者是相关关系显著性的临界值表(附表附表8)。如从教材如从教材P309查得查得M2,dfr8时时 r0.05 0.632,r0.01 0.765今得今得 r 0.8475*r0.01 再由例再由例7.1从从P309查得查得M2,dfr10时时 r0.05 0.576,r0.01 0.708算得算得“r”0.9774*r0.01 检验效果与检验效果与F-test或者是或者是t-test完全一样。完全一样。例例7.2关于关于体重体重(Y)的的ANOVA表:表:SOV DF SSY MS F F 0.01相关相关 1 415 415 2
23、0.4*11.26非相关非相关 8 163 20.4 总总 9 578也可针对也可针对胸围胸围(X)做做ANOVA表:表:SOV DF SSX MS F F 0.01相关相关 1 46 46 20.4*11.26非相关非相关 8 18 2.25 总总 9 64例例7.1只针对只针对70日龄重日龄重(Y)做做ANOVA表:表:SOV DF SSY MS F 回归回归 1 794339.6 794339.6 213.81*离回归离回归 10 37152.07 3725.21 总总 11 831491.67第三节第三节 多项式回归多项式回归 例例7.3 给动物口服某种药物给动物口服某种药物1000m
24、g,每间隔,每间隔1小时(时长小时(时长X)测定血液浓度)测定血液浓度Y(g/ml),每),每5头供试动物的平均血液浓度整理结果如下,试就其数量变化特头供试动物的平均血液浓度整理结果如下,试就其数量变化特点建立多项式回归方程并予以分析。点建立多项式回归方程并予以分析。解解 先描散点图;先描散点图;初步判断为二次多项式初步判断为二次多项式 通常称之为抛物线;通常称之为抛物线;这种变化关系在农业和这种变化关系在农业和动物科学领域普遍存在;动物科学领域普遍存在;完成这类实例分析的方完成这类实例分析的方法是法是将曲线单回归的问题通将曲线单回归的问题通过变量代换转化为二元线性过变量代换转化为二元线性回归
25、的问题回归的问题来解决,这也是来解决,这也是完成更高次多项式回归分析完成更高次多项式回归分析的基本点。的基本点。X(h)123456789Y(g/ml)21.89 47.13 61.86 70.78 72.81 66.3650.34 25.31 3.17419.650 0101020203030404050506060707080800 02 24 46 68 81010y y2 2a ab b1 1x xb b2 2x x2 2的图象的图象 一、确定多项式方程次数的方法一、确定多项式方程次数的方法b b2 2 0 0 b b2 2 0 0 当两个变数间的曲线关系很难确定时,当两个变数间的曲线
26、关系很难确定时,可以使用多项式去逼近,称为多项式回归可以使用多项式去逼近,称为多项式回归(polynomial regression)polynomial regression)。最简单的多项式是二次多项式,其方最简单的多项式是二次多项式,其方程为:程为:y y2 2 a ab b1 1x xb b2 2x x2 2 它的图象是抛物线。当它的图象是抛物线。当b b2 20 0时,曲线时,曲线凹向上,有一个极小值;凹向上,有一个极小值;b b2 2 0 0时,曲线时,曲线凸向上,有一个极大值,见右图。凸向上,有一个极大值,见右图。本例本例(x,y)(x,y)的散点图呈的散点图呈单锋单锋趋势,没有
27、趋势,没有明显的其它凹凸变化,故预期可用明显的其它凹凸变化,故预期可用二次式二次式配合配合。但多项式回归方程通常只能用于描述但多项式回归方程通常只能用于描述试验范围内试验范围内Y Y依依X X的变化关系,外推一般不的变化关系,外推一般不可靠,这一点首先必须明确。可靠,这一点首先必须明确。三次多项式的方程为:三次多项式的方程为:y y3 3a ab b1 1x xb b2 2x xb b3 3x x3 3它的图形是具有两个弯曲它的图形是具有两个弯曲(一个极大值和一个极大值和一个极小值一个极小值)和一个拐点的曲线。当和一个拐点的曲线。当b b3 30 0时,时,这类曲线由凸向上转为凹向上;当这类曲
28、线由凸向上转为凹向上;当b b3 3 0 0时,时,这类曲线由凹向上转为凸向上,见右图。这类曲线由凹向上转为凸向上,见右图。多项式方程的一般形式:多项式方程的一般形式:y ya ab b1 1x xb b2 2x x2 2.b bk kx xk k 这是这是k-1k-1个具有个弯曲个具有个弯曲(k-1(k-1个极值个极值)和和k-2k-2 个拐点的曲线;两个变数的个拐点的曲线;两个变数的n n对观察值最多可对观察值最多可 配到配到 k k n 1 n 1 次多项式;次多项式;k k越大,包含的越大,包含的 统计数越多,计算和解释越复杂;一个多项式统计数越多,计算和解释越复杂;一个多项式 回归方
29、程应取多少次为宜,可根据资料的散点回归方程应取多少次为宜,可根据资料的散点 图作出初步选择;散点图趋势所表现的曲线的图作出初步选择;散点图趋势所表现的曲线的 峰数谷数峰数谷数1 1,即为,即为多项式回归方程次数多项式回归方程次数。散点波动较大或峰谷两侧不对称,可再高一次。散点波动较大或峰谷两侧不对称,可再高一次。一、确定多项式方程次数的方法b30 b30y3=a+b1x+b2x2+b3x3 的图象二、建立多项式回归方程二、建立多项式回归方程变量代换变量代换(代换得到的变量个数以(代换得到的变量个数以m表示)表示)设例设例7.3的二次多项式方程为:的二次多项式方程为:y y2 2 a ab b1
30、 1x xb b2 2x x2 2 令令x1 x,x2x 2 ;则方程线性化为:则方程线性化为:y y2 2 a ab b1 1x x1 1b b2 2x x2 2数据整理数据整理 由原始数据算出由原始数据算出一级数据一级数据9个个:X1 X 45 Y419.65 X1Y XY 1930.45 X2 X 2285 Y 224426.5833 X1 X2 X3 2025 n9 X2 2 X 4 15333 X2Y X2Y10452.11 再由一级数据算出再由一级数据算出二级数据二级数据9个个:SS1 X 2 (X)2/n60 SS2 X2 2 (X2)2/n6308 SP10 X1Y X1 Y/
31、n 167.8 SP20 X2Y X2 Y/n 2836.8067 SP12 SP21 X1 X2 X1 X2/n 600 SSY 4859.2364 Y/n 46.6278 x x1 1 X1/n 5 x x2 2 X2/n 31.6667 仍按仍按“最小二乘方最小二乘方”原理计算原理计算三级数据三级数据bi 例例7.1已知已知 a bx,则二次多项式可类推,即:,则二次多项式可类推,即:a b1 1x1 1 b2 2x2 2 也就是列方程组求算各回归系数时,不必把常数项列为未知数求解,这样也就是列方程组求算各回归系数时,不必把常数项列为未知数求解,这样一来,就可用阶数更少的矩阵运算来减少解
32、方程的工作量。一来,就可用阶数更少的矩阵运算来减少解方程的工作量。二、建立多项式回归方程二、建立多项式回归方程 1 1、只将只将b bi i 列为未知数列为未知数求解的方法;求解的方法;对于任意次多项式,对于任意次多项式,y ya ab b1 1x xb b2 2x x2 2.b bk kx xk k 若令若令x x1 1x x,x x2 2x x2 2,,x,xk kx xk k,则该式可化为:则该式可化为:y yk ka ab b1 1x x1 1b b2 2x x2 2.b bk kx xk k 这时多元线性方程采用矩阵方法只需求这时多元线性方程采用矩阵方法只需求 m=k m=k 元方程
33、组的解。元方程组的解。SSSS11 11 SP SP1212 SP SP1k1k b b1 1 SPSP1010 SP SP21 21 SSSS22 22 SP SP1k1k b b2 2 SPSP2020 A A .,b b .Z Z .SP SPm1m1 SP SPm2m2 SS SSmkmk b bk k SPSPm0m0 也就是说,以也就是说,以二级数据二级数据为元素构建的矩阵为元素构建的矩阵 AbAbZ Z 阶数只有阶数只有 m mm m 。求得求得A A-1-1,并由,并由b bA A-1-1 Z Z 可获得相应的多项式回归方程中可获得相应的多项式回归方程中 k k 个回归个回归系
34、数系数b bi i的解,本例的解,本例 m=k=2m=k=2,求解过程如下:,求解过程如下:A A SSSS1111 SP SP1212 60.0000 600.000060.0000 600.0000 ,Z Z SPSP1010 -167.8000-167.8000 SPSP2121 SS SS22 22 600.0000 6308.0000600.0000 6308.0000 SP SP2020 -2836.8067-2836.8067二、建立多项式回归方程 1 1、只将只将b bi i 列为未知数列为未知数求解的方法;求解的方法;采用矩阵方法求解的关键在于求逆矩阵,这属于采用矩阵方法求解
35、的关键在于求逆矩阵,这属于线性代数线性代数范围的知识,范围的知识,教材分别在教材分别在P203P203和和P204P204提示了逆矩阵求算方法,本例用提示了逆矩阵求算方法,本例用二级数据二级数据构建两个矩构建两个矩阵后简化了计算,只需对二阶矩阵求逆阵后简化了计算,只需对二阶矩阵求逆(C(Cijij叫叫高斯乘数高斯乘数),结果如下:,结果如下:A A-1-1 SSSS1111 SP SP1212 -1-1 0.341349 0.341349 -0.032468 -0.032468 C C1111 C C1212 SPSP2121 SS SS22 22 -0.032468 -0.032468 0.
36、0032470.003247 C C21 21 C C2222 b bA A-1-1 Z Z 0.341349 0.341349 -0.032468 -167.8000-0.032468 -167.8000 34.827134.8271 -0.032468 -0.032468 0.0032470.003247 -2836.8067 -3.7630 -2836.8067 -3.7630 于是获得多项式回归方程中两个回归系数:于是获得多项式回归方程中两个回归系数:b b1 134.827134.8271,b b2 2-3.763-3.763 a a b1 1x1 1 b2 2x2 2-8.3459
37、-8.3459 46.627846.627834.827134.82715 5(3.763)3.763)31.666731.6667I IA A-1-1 A A 1.000140 0.000120 1.000140 0.000120 1 0 1 0(单位矩阵单位矩阵)0.001376 1.002652 )0.001376 1.002652 0 10 1二、建立多项式回归方程 2 2、把常数项把常数项 a a 列为未知数列为未知数求解的方法;求解的方法;对于任意次多项式,对于任意次多项式,y ya ab b1 1x xb b2 2x x2 2.b bk kx xk k 若令若令x x1 1x x
38、,x x2 2x x2 2,,x,xk kx xk k,则该式可化为:则该式可化为:y yk ka ab b1 1x x1 1b b2 2x x2 2.b bk kx xk k 一般的多元线性方程,采用矩阵方法需求一般的多元线性方程,采用矩阵方法需求 m+1+1 元方程组的解。元方程组的解。1 x1 x12 12 x x22 22 x xk2 k2 1 x 1 x12 12 x x12122 2 x x1212k k y y1 1 1 x 1 x1111 x x21 21 x xk1k1 1 x 1 x11 11 x x11112 2 x x1111k k y y2 2X X .,Y Y .1
39、 x1 x1n1n x x2n2n x xknkn 1 x 1 x1n1n x x1n1n2 2 x x1n 1n y yn n 求得求得X XX X,X XY Y和和(X(XX)X)-1-1,并由,并由b b(X(XX)X)-1-1(X(XY)Y)获得相应的获得相应的多项式回归方程中多项式回归方程中k k个回归系数个回归系数 b bi i 和一个常数项和一个常数项 a a 的解。的解。教材从直线回归的内容开始就介绍了利用矩阵计算三级数据教材从直线回归的内容开始就介绍了利用矩阵计算三级数据 a a 和和 b b 并并进行显著性检验的方法,以此作为用矩阵进行多元回归与相关分析的铺垫。进行显著性检
40、验的方法,以此作为用矩阵进行多元回归与相关分析的铺垫。这在当今电脑普及的时代意义非同小可,因为用矩阵进行回归与相关分析可这在当今电脑普及的时代意义非同小可,因为用矩阵进行回归与相关分析可一石三鸟一石三鸟:更容易理解计算机解方程的程序;更容易理解计算机解方程的程序;其中的其中的m+1+1阶阶(或或 m=k=k 阶阶)逆矩阵可验证所得方程组的解是否正确包括其精度是否足够;逆矩阵可验证所得方程组的解是否正确包括其精度是否足够;该逆矩阵的该逆矩阵的对角线上的元素用于检验回归与相关关系的显著性非常方便。对角线上的元素用于检验回归与相关关系的显著性非常方便。图图7 71 1 服药时间与血液浓度的关系服药时
41、间与血液浓度的关系至此即获得了二元线性回归方程:至此即获得了二元线性回归方程:Y Y-8.3459-8.345934.8271x34.8271x1 13.763x3.763x2 2 y=-8.3459-8.3459 34.827134.8271x3.763x2二、建立多项式回归方程0 0101020203030404050506060707080800 02 24 46 68 81010 多项式回归分析中,多项式回归分析中,Y Y 变量的总平方和变量的总平方和SSSSY Y 亦可分解为回归和离回归亦可分解为回归和离回归两部分两部分,即:即:SSSSY Y SSSSR R SSrSSr 上式中,
42、上式中,SSSSR R为为 k k 次多项式的总回归效应平方和,即次多项式的总回归效应平方和,即 Y Y 变量总变异变量总变异中能被中能被 X X 的的 k k 次多项式所说明的部分,计算过程用矩阵表述为:次多项式所说明的部分,计算过程用矩阵表述为:SSSSY YY YY Y(1(1Y)Y)2 2/n/n 24426.583324426.5833419.65419.652 2/9/94859.2364 4859.2364 SSrSSr为为k k次多项式的离回归平方和,其中:次多项式的离回归平方和,其中:SSrSSr Y YY Yb b(X(XY)Y)28.320228.3202 24426.5
43、833 24426.5833(-8.3459 34.8271 3.763)(-8.3459 34.8271 3.763)(X(XY)Y)SSSSR R SSSSY Y SSrSSr 4859.2364 4859.2364 28.320228.3202 4830.91624830.9162 也可利用二、三级数据直接计算总回归效应平方和也可利用二、三级数据直接计算总回归效应平方和SSSSU U:SSSSR R b b1 1 SPSP10 10 b b2 2 SPSP20 20 4830.91624830.9162 34.827134.8271(-167.8-167.8)(-3.763)(-3.76
44、3)(-2836.8067-2836.8067)SSrSSr SSSSY Y SSSSR R 4859.23644859.23644830.9162 4830.9162 28.320228.3202三、多项式回归的假设测验总回归关系的总回归关系的F-testF-test 将将Y Y变量的总平方和变量的总平方和SSSSy y分解成多项式回归分解成多项式回归(SS(SSR R)和离回归和离回归(SSr(SSr)两部分。前者由两部分。前者由X X的各次分量项的引起,包括一次回归效应和二的各次分量项的引起,包括一次回归效应和二次回归效应,具有自由度次回归效应,具有自由度dfdfk k;后者与;后者与X
45、 X的不同无关,具有自的不同无关,具有自由度由度dfdfn-(k+1)n-(k+1),也就是误差效应。于是:,也就是误差效应。于是:F F(SS(SSR R/k)/(SSr/n-(k+1)/k)/(SSr/n-(k+1)可测验多项式回归关系的真实性。可测验多项式回归关系的真实性。根据本例已算得的结果,可作成方差分析表于下。该表的根据本例已算得的结果,可作成方差分析表于下。该表的F F测测验结果极其显著,表明用所得二次多项式来描述验结果极其显著,表明用所得二次多项式来描述服药时间与血服药时间与血液浓度液浓度是可行的。是可行的。二次多项式回归关系的二次多项式回归关系的 F-testF-test表表
46、 变异来源变异来源 DF SS MS F FDF SS MS F F0.010.01 多项式回归多项式回归 2 4830.9162 2415.4581 511.752 4830.9162 2415.4581 511.75*10.9210.92 离回归离回归 6 28.3202 4.72006 28.3202 4.7200 总总 8 4859.2364 8 4859.2364 总回归关系的总回归关系的R-testR-test 同多元相关系数同多元相关系数R Ry.12.my.12.m相类似,相类似,k k次多项式的回归平方和占次多项式的回归平方和占Y Y总平总平方和的比率的平方根值(记作方和的比
47、率的平方根值(记作R Ry.x.x2,y.x.x2,.,xk.,xk),可用来表示),可用来表示Y Y与与X X的多的多项式的相关密切程度,即有:项式的相关密切程度,即有:R Ry.x.x2,y.x.x2,.,xk.,xk SSSSR R/SS/SSY Y 和线性相关的情况一样:和线性相关的情况一样:R R2 2y.x.x2,y.x.x2,.,xk.,xk SSSSR R/SS/SSY Y(0.99420.9942)上式中的上式中的R R2 2y.x.x2,y.x.x2,.,xk.,xk叫相关指数。实质上是叫相关指数。实质上是k k次多项式的次多项式的决定系决定系数数,即在,即在Y Y的总平方
48、和的总平方和SSSSY Y中,可由中,可由X X的的k k次多项式引起的平方和次多项式引起的平方和SSSSR R所所占的比率。占的比率。R Ry.x.x2,y.x.x2,.,xk.,xk的显著性可通过查表直接获知。如本例查附表的显著性可通过查表直接获知。如本例查附表8 8,当,当dfdf6,k6,k2(2(即附表即附表8 8中的中的M Mk k1 13)3)时,时,R R0.010.010.886,0.886,于是于是:R Ry.x.x2,y.x.x2,.,xk.,xk4830.91624830.91624859.2364 4859.2364 0.99710.9971*R R0.010.01
49、故故Y Y与与X X的二次多项式的的二次多项式的“复相关复相关”(总回归总回归)关系极显著。关系极显著。对于对于R Ry.x.x2,y.x.x2,.,xk.,xk的测验和本例的的测验和本例的F-testF-test结论完全一致,择一即可。结论完全一致,择一即可。但不论但不论F-testF-test还是还是R-testR-test都都只是一个综合性测验只是一个综合性测验,表明服药时,表明服药时间与血液浓度需要一个多项式来描述,并不能证实间与血液浓度需要一个多项式来描述,并不能证实 k k 次项或者其次项或者其它各它各次项的显著性。次项的显著性。各次分量项偏回归关系的各次分量项偏回归关系的F-te
50、stF-test 本例总回归效应极显著既然不能排除多项式方程中个别乃至若干个本例总回归效应极显著既然不能排除多项式方程中个别乃至若干个分量项不显著的可能性,就有必要分别对各次分量项进行偏回归关系的分量项不显著的可能性,就有必要分别对各次分量项进行偏回归关系的F-testF-test。这与多元线性回归中偏回归关系的假设测验相类似,亦需先计。这与多元线性回归中偏回归关系的假设测验相类似,亦需先计算各次分量项的偏回归平方和算各次分量项的偏回归平方和SSSSbibi ,即:,即:SSSSbibi b bi i2 2/C/C(i+1)(i+1)(i+1)(i+1)此时此时SSSSbibi具有自由度具有自