1、9.1 单因素方差分析9.2 回归分析第第9 9章章 方差分析与回归分析方差分析与回归分析下面通过实例引出方差分析的有关概念和方差分析要解决的问题下面通过实例引出方差分析的有关概念和方差分析要解决的问题.例例9.1.1 9.1.1 用五种不同的施肥方案分别对某农作物进行了用五种不同的施肥方案分别对某农作物进行了4 4次试次试验,得到某农作物的产量(单位:公斤)如下表验,得到某农作物的产量(单位:公斤)如下表施肥方案施肥方案IIIIIIIVV16798607990267966964703559150817944266357088平均平均57.7587.7553.573.581.759.1 9.1
2、 方差分析与回归分析方差分析与回归分析 问这五种不同施肥方案对该农作物的产量是否有显著影响问这五种不同施肥方案对该农作物的产量是否有显著影响?要解决这个问题,实质上是判断不同的要解决这个问题,实质上是判断不同的“施肥方案施肥方案”对对“该农该农作物产量作物产量”是否有显著影响,一般来说,产量越高说明这种施肥方是否有显著影响,一般来说,产量越高说明这种施肥方案越好案越好.因此,如果每个总体的分布都是正态分布,且它们的方差因此,如果每个总体的分布都是正态分布,且它们的方差相等,问题归结为要检验这五种施肥方案带来的农作物产量均值相等,问题归结为要检验这五种施肥方案带来的农作物产量均值是否相等是否相等
3、.为方便起见,在试验中,我们称影响试验的每个条件为因素为方便起见,在试验中,我们称影响试验的每个条件为因素或因子,用或因子,用A、B、C表示表示.因素的不同表现状态称为水平,用因素的不同表现状态称为水平,用 表示表示.每个因素水平下得到的样本数据称为观测值每个因素水平下得到的样本数据称为观测值.如上例如上例中中“施肥方案施肥方案”是影响是影响“农作物产量农作物产量”的一个条件,因此称为因素,的一个条件,因此称为因素,五种不同施肥方案就是五种不同施肥方案就是“施肥方案施肥方案”这一因素的不同状态,称之为这一因素的不同状态,称之为水平水平.每种施肥方案下得到的农作物的产量称为观测值每种施肥方案下得
4、到的农作物的产量称为观测值.试验中,影响农作物产量的因素很多,如土壤、环境、种子试验中,影响农作物产量的因素很多,如土壤、环境、种子等,这里仅考虑施肥量问题等,这里仅考虑施肥量问题.上例中仅涉及上例中仅涉及“施肥方案施肥方案”对农作物产对农作物产量的影响,这种只考虑一个因素影响总体均值的方差分析称为单量的影响,这种只考虑一个因素影响总体均值的方差分析称为单因子方差分析因子方差分析.若考虑多个(至少两个)因素影响总体均值的方差若考虑多个(至少两个)因素影响总体均值的方差分析称为多因子方差分析分析称为多因子方差分析.12,.A A 一般地,设因素一般地,设因素 有有 个不同的水平个不同的水平 ,在
5、每个在每个水平下进行了水平下进行了 次独立试验,试验结果如下表次独立试验,试验结果如下表 Ar12,rAAA,1,(2)inir 水平水平 观观 测测 值值 样本均值样本均值表9-21A2ArA11y21y1ry12y22y2ry11ny22nyrrny1y2yry9.1.2 9.1.2 单因子方差分析数学模型单因子方差分析数学模型 设因素设因素 的第的第 个水平对应的总体为个水平对应的总体为 ,且相互独立且相互独立,为来自总体的样本(观测值为来自总体的样本(观测值).因此要因此要检验的问题为检验的问题为:Ai2(,),1,2,3 iiNir r1,2,,ijiyjn012112:;:,.,不
6、全相等rrHH为研究方便,引入如下记号:为研究方便,引入如下记号:为试验总次数;为试验总次数;为总均值;为总均值;称称 为因素为因素 的水平的水平 的效应,且有的效应,且有 .称为随机误差称为随机误差.1riinn11riiinn,1,2,iiiriAiA10riiin,1,2,1,2,ijijiiyjn ir因此单因素方差分析数学模型为因此单因素方差分析数学模型为:21,1,2,;1,2,;(0,),0.且各相互独立;ijiijiijijriiiyjn irNn (9.1.2)检验问题(检验问题(9.1.1)等价于)等价于012112:0;:,不 全 为 零.rrHH (9.1.3)给出方差
7、分析的数学模型后,我们需寻找合适的统计量,对检验给出方差分析的数学模型后,我们需寻找合适的统计量,对检验问题问题(9.(9.1.3)1.3)作出判断作出判断.首先分析一下引起各样本值首先分析一下引起各样本值 波动的原波动的原因可以分为两种情况:一种是假设检验(因可以分为两种情况:一种是假设检验(9.1.39.1.3)中)中 为真时,为真时,各样本值各样本值 的波动纯粹是由相应的的波动纯粹是由相应的 的随机波动而引起的;另的随机波动而引起的;另一种是由于一种是由于 不真所带来的不真所带来的.为研究各样本值为研究各样本值 波动的原因,波动的原因,我们从方差分析中常用的平方和分解入手来导出检验(我们
8、从方差分析中常用的平方和分解入手来导出检验(9.1.39.1.3)的统计量的统计量.令令ijy0Hijijy0Hijy 表示第组样本的平均值表示第组样本的平均值.表示全体样本的总平均表示全体样本的总平均.称为总偏差平方和称为总偏差平方和.11,1,2,iniijjiyy irn111,inri jijyyn211(),inrTijijSyy9.1.3 9.1.3 方差分析方差分析 称为因素称为因素 的效应平方和或组间平方和的效应平方和或组间平方和.称为误差平方和或组内平方和称为误差平方和或组内平方和.则有以下平方和分解式则有以下平方和分解式:21(),rAiiiSnyyA211(),inrei
9、jiijSyyTAeSSS(9.1.4)事实上事实上221111()()iinnrrTijijiiijijSyyyyyy22111111()()2()()iiinnnrrriijiijiiijijijyyyyyyyy22111()()inrriiijiiijnyyyy 其中交叉项为其中交叉项为11112()()2()()0.iinnrrijiiiijiijijyyyyyyyy 为了更清楚地看出为了更清楚地看出 的含义,记的含义,记,AeSS11,1,2,inii jjiirn111inri jijn(9.1.5)2211()(+),rrAiiiiiiiSnyyn(9.1.6)于是于是22111
10、1()()iinnrreijiijiijijSyy(9.1.49.1.4)反映了总偏差平方和分解为误差平和与因素)反映了总偏差平方和分解为误差平和与因素 的效应平的效应平方和方和.而(而(9.1.59.1.5)则反映了试验过程中各种随机因素所引起的试)则反映了试验过程中各种随机因素所引起的试验误差验误差.(9.1.69.1.6)反映了除随机误差外,还包含不同水平的效应)反映了除随机误差外,还包含不同水平的效应.当当 成立时,诸水平的效应为零,因此成立时,诸水平的效应为零,因此 中仅含有随机误差,此中仅含有随机误差,此时相对于某一给定的显著水平时相对于某一给定的显著水平 ,与之间不应相差太大与之
11、间不应相差太大.若相差若相差悬殊,则有理由怀疑悬殊,则有理由怀疑 不仅与随机误差有关,还与诸水平效应有不仅与随机误差有关,还与诸水平效应有关,从而可以拒绝关,从而可以拒绝 ,这正是方差分析的基本思想,这正是方差分析的基本思想.A0HAS0HeSAS如何构造检验的统计量?我们可以首先计算一下如何构造检验的统计量?我们可以首先计算一下 的期望的期望.,AeSS211()inreijiijESEyy21(1)riin2().nr22211()rrAiiiiiiE SEnyyEn yn y221riiinE yn E y22221()+()riiiinnnn221(1).riiinr(9.1.7)(9
12、.1.8)(9.1.89.1.8)最后一步用到了)最后一步用到了 ,且(,且(9.1.89.1.8)表明)表明当当 成立时,成立时,为为 的无偏估计量的无偏估计量.由此可取由此可取10riiin0H/(1)ASr2/(1)/()AeSrFSnr (9.1.9)作为检验作为检验 (或(或 )的统计量)的统计量.根据根据FisherFisher定理知,在定理知,在 (或(或 )成立的条件下,)成立的条件下,0H0H0H0H22()eSnr22(1)ASr;对给定的显著水平对给定的显著水平 ,由,由(1,).PFFrnr于是可得拒绝域为于是可得拒绝域为 .由样本观测值由样本观测值 计算统计量值,计算
13、统计量值,若若 ,则拒绝,则拒绝 (或(或 ),否则就接受),否则就接受 .上述检验方法列表如下上述检验方法列表如下(1,),)F rn rF(1,)FF rnr0H0H0H 表表 9-3 9-3 方差分析表方差分析表方差来源方差来源 平方和平方和 自由度自由度 均方均方 比比 显著性显著性 因素因素 拒绝拒绝 误差误差 总和总和FAAS1r/(1)ASr/(1)/()(1,)AeSrFSn rF rn r(1,)FF rnreSnr/()eSnrTS1n0H 在实际计算中,可运用一些统计分析软件非常方便地得到在实际计算中,可运用一些统计分析软件非常方便地得到方差分析表方差分析表.如如Micr
14、osoft Excel 2003中文版所提供的中文版所提供的“数据分析数据分析”功能工具箱功能工具箱.下面对例子下面对例子9.1.1进行单因素方差分析:进行单因素方差分析:检验问题:检验问题:给定显著水平给定显著水平01251125:,.,,不全相等 HH0.055,4,1,5,20.irnin542211106093,20100394.5,ijijyy54221120106093 100394.55698.55,TijijSyy5221420103930.8 100394.53536.3,AiiSyy5698.553536.32162.25.eTASSS 表表9-4 方差分析方差分析方差来源
15、方差来源 平方和平方和 自由度自由度 均方均方 比比 显著性显著性 因素因素 3536.3 4 884.075 6.133 拒绝原假设拒绝原假设 误差误差 2162.25 15 144.15 总和总和 5698.55 19AF0.05(4,15)3.06FF即认为五中不同施肥方案对该农作物产量有显著影响即认为五中不同施肥方案对该农作物产量有显著影响.自然界中许多现象或变量之间都存在一定依存和制约关系自然界中许多现象或变量之间都存在一定依存和制约关系.这些关系有两种不同的类型:一种是确定的函数关系,如做匀这些关系有两种不同的类型:一种是确定的函数关系,如做匀速直线运动的物体运动的位移速直线运动的
16、物体运动的位移 、速度、速度 和运动时间和运动时间 之间的关之间的关系系 ,这三个变量知道其中任意两个就可精确地求出另一,这三个变量知道其中任意两个就可精确地求出另一个;另一种是不确定性的统计关系或相关关系,如施肥量和小个;另一种是不确定性的统计关系或相关关系,如施肥量和小麦的产量之间的关系,人的年龄与血压之间的关系,人体的脚麦的产量之间的关系,人的年龄与血压之间的关系,人体的脚印尺寸与身高之间的关系等等印尺寸与身高之间的关系等等.这些变量不能用一个确定的函数这些变量不能用一个确定的函数关系表达出来,但又存在一定的统计关系,这种非确定的关系关系表达出来,但又存在一定的统计关系,这种非确定的关系
17、在数理统计中称为相关关系或回归关系在数理统计中称为相关关系或回归关系.回归分析就是通过对这种不确定关系的相关变量进行不断回归分析就是通过对这种不确定关系的相关变量进行不断观察,并探索分析出它们之间内在统计规律的一种统计方法观察,并探索分析出它们之间内在统计规律的一种统计方法.只只SvtSvt9.2 9.2 回归分析回归分析考虑两个变量之间的回归分析称为一元回归分析,考虑两个以上考虑两个变量之间的回归分析称为一元回归分析,考虑两个以上变量的回归分析称为多元回归分析变量的回归分析称为多元回归分析.其中比较简单的是线性回归其中比较简单的是线性回归.本本节主要讨论一元线性回归的相关问题节主要讨论一元线
18、性回归的相关问题.先看一个实例先看一个实例:例例9.2.1 对某一市场调查,获知某种商品的供给量对某一市场调查,获知某种商品的供给量 (单位:吨)单位:吨)与价格与价格 (单位:元)之间的一组数据如下表单位:元)之间的一组数据如下表:表表9-5Sp价格价格 P 711.5 6 7.5 10 8 11 6.510.5 9 12 10供给量供给量 54 72 51 57 60 55 70 53 65 58 76 62S 为探讨供给量为探讨供给量 和价格和价格 之间的关系之间的关系.我们首先把价格我们首先把价格 作为横作为横坐标,供给量坐标,供给量 作为纵坐标,把上表中作为纵坐标,把上表中12对数据
19、在坐标平面上画对数据在坐标平面上画出来,得到散点图(图出来,得到散点图(图9-1).SppS 图 9-1 从散点图中可以看出,所有的点大体散布在一条直线的附近,从散点图中可以看出,所有的点大体散布在一条直线的附近,因而可认为这两个变量之间有相关关系,且可以用直线型函数来因而可认为这两个变量之间有相关关系,且可以用直线型函数来描述描述.建立如下数学模型建立如下数学模型01Sp(9.2.1)02040608002468101214S供给量p价格这里这里 称为自变量,可以控制,可看成一般变量,而供给量称为自变量,可以控制,可看成一般变量,而供给量 是是随机变量,称为因变量随机变量,称为因变量.的值在
20、一定程度上决定的值在一定程度上决定 ,但不能精确,但不能精确地确定地确定 ,故会导致一定的随机误差,故会导致一定的随机误差 .一般地,称一般地,称pSpSS012;0,.其中YxED(9.2.2)为一元线性回归模型(为一元线性回归模型(univariate linear regression model).称为回归方程,称为回归方程,称为回归系数称为回归系数.通常假通常假设设 ,从而,从而 ,其中其中 为未知参数为未知参数.对于模型(对于模型(9.2.2),我们需根据样本),我们需根据样本 和样本观和样本观测值测值 解决以下问题:解决以下问题:(1)对未知参数)对未知参数 的点估计;的点估计;
21、(2)回归方程的显著性检验;)回归方程的显著性检验;(3)利用回归方程进行预测与控制)利用回归方程进行预测与控制.01EYx12(0,)N201(,)YNx201,(,),1,2,iix Yin(,),1,2,iix yin201,最小二乘法的基本思想是寻找最小二乘法的基本思想是寻找 的估计值的估计值 使得使得 达到最小达到最小.由微分学的知识,可将由微分学的知识,可将 分别关于分别关于 求偏导数,并令它们等于求偏导数,并令它们等于零,得到如下方程组零,得到如下方程组201,对于模型(对于模型(9.2.2)中未知参数)中未知参数 ,通常采用最小二乘法,通常采用最小二乘法(least squar
22、es estimates)来进行估计)来进行估计.对给定的样本对给定的样本 ,令,令01,Q(,),1,2,iix Yin22010111(,)()nniiiiiQYx(9.2.3)01,01,01,Q011001112()02()0 niiiniiiiQYxQYxx(9.2.4)9.2.2 9.2.2 未知参数未知参数 的点估计的点估计即即0111201111nniiiinnniiiiiiinxYxxx Y(9.2.5)称(称(9.2.5)为正规方程)为正规方程.解正规方程得解正规方程得.;)()()(_1_012_1_1xYxxYYxxniiinii(9.2.6)这里这里 称分别为称分别为
23、 的最小二乘估计的最小二乘估计.为计算上的方便,引入下列记号为计算上的方便,引入下列记号1111=,=.nniiiixx YYnn01,222112221111();();()().nnxxiiiinnYYiiiinnxYiiiiiiLxxxnxLYYYnYLxxYYx YnxY于是(于是(9.2.6)中变)中变 为为 将样本观测值将样本观测值 代入(代入(9.2.6)可得)可得 的估计值,的估计值,于是所求的回归方程为:于是所求的回归方程为:11x Yx xLL(,),1,2,iix yin01,01+yx(9.2.8)将将 代入(代入(9.2.8),得到),得到 .即回归方程即回归方程过定
24、点过定点 .根据以上方法可求例根据以上方法可求例9.2.1的线性回归方程,计算结果列表如下:的线性回归方程,计算结果列表如下:01+yx1y()yxx(,y)x 表9-6 编号编号 价格价格 P 供给量供给量 S 1 7 54 49 2916 378 2 11.5 72 132.25 5184 828 3 6 51 36 2601 306 4 7.5 57 56.25 3249 427.5 5 10 60 100 3600 600 6 8 55 64 3025 440 7 11 70 121 4900 770 8 6.5 53 42.25 2809 344.5 9 10.5 65 110.25
25、 4225 682.5 10 9 58 81 3364 522 11 12 76 144 5776 912 12 10 62 100 3844 620 合计合计 109 733 1036 45493 6830.52p2ssp由(由(9.2.8)式可得)式可得 ,于是回归方程为于是回归方程为 具有如下性质具有如下性质:(1)即即 分别为分别为 的无偏估计,且在一的无偏估计,且在一定条件下,还可证明定条件下,还可证明 是所有线性无偏估计中最好的是所有线性无偏估计中最好的.(2)103.755,28.97628.7563.755Sp01,0011.EE,01,01,01,2220111(),.xxx
26、xxDDnLL 令令220111()().nniiiiiiQYyYx(9.2.9)称为剩余平方和或残差平方和称为剩余平方和或残差平方和.它是通过回归直线进行估计后,仍它是通过回归直线进行估计后,仍未消除或未被解释的误差,反映了观测值未消除或未被解释的误差,反映了观测值 偏离回归直线的程度,偏离回归直线的程度,它是由随机误差和其他未被考虑的因素引起的它是由随机误差和其他未被考虑的因素引起的.iy21().niiS S RyY上一节我们利用最小二乘法估计出了上一节我们利用最小二乘法估计出了 ,但,但 和和 之间是否真之间是否真的存在这种线性相关关系呢?这就需要用统计的方法来进行检验,的存在这种线性
27、相关关系呢?这就需要用统计的方法来进行检验,如果回归系数如果回归系数 ,则表明,则表明 和和 之间存在着一定的线性相关关之间存在着一定的线性相关关系,否则系,否则 对对 没有解释作用没有解释作用.从而问题归结为检验从而问题归结为检验 (9.2.10)为判断原假设为判断原假设 是否成立需构造合适的统计量是否成立需构造合适的统计量.假设假设 ,令令01,YxYx10 xY0111:0:0.HH0H2(0,)N21(),nYYiiT SSLYY21(),niiiS S EQYy9.2.3 9.2.3 回归方程的显著性检验回归方程的显著性检验则有下列平方和分解式则有下列平方和分解式:.TSSSSESS
28、R(9.2.11)事实上事实上2211()()nniiiiiiTSSYYYyyY22111()+()+2()().nnniiiiiiiiiYyyYYyyY其中其中211112()()=2()()()nniiiiiiiiiYyyYYYxxxx1=2()0 x Yx YLL这里这里 称为总偏差平方和称为总偏差平方和.因为在不了解因为在不了解 与与 之间的相关关系之间的相关关系时,对时,对 的最佳估计只能是的最佳估计只能是 ,因此,因此 反映了的观测值围绕样反映了的观测值围绕样本均值本均值 总的分散程度总的分散程度.TSSxYYYTSS1,2,,iyin若用若用 来表示平方和,则有来表示平方和,则有
29、,,xxxYYYLLL22010111()()nniiiiSSRyYxx22211().nxYiixxLxxL2.xYYYxxLSSETSSSSRLL (9.2.12)(9.2.13)当当 成立时,可以证明成立时,可以证明0H22(1)SSR22(2)SSEn22(1)TSSn ,.因此可以选取统计量因此可以选取统计量(1,2)./(2)SSRFFnSSEn对给定显著水平对给定显著水平 ,根据样本观测值计算值根据样本观测值计算值 .若若 ,则则拒绝拒绝 ,即认为即认为 和和 之间存在着一定的线性相关关系;否则接之间存在着一定的线性相关关系;否则接受受 ,即认为即认为 和和 之间不存在线性相关关
30、系,就没有必要配置之间不存在线性相关关系,就没有必要配置回归直线了回归直线了.上述检验过程也可表述为下列方差分析表上述检验过程也可表述为下列方差分析表 表表 9-7F(1,2)FFn0HYx0HYx 方差来源方差来源 平方和平方和 自由度自由度 均方均方 比比 显著性显著性 回归和回归和 1拒绝拒绝 剩余和剩余和 n-2 总和总和 n-1FSSRSSETSS/1SSR/(2)SSE n/1/(2)(1,2).SSRFSSEnFn(1,2)FFn0H 以上是对回归系数以上是对回归系数 进行检验,我们所采用的是进行检验,我们所采用的是 检验法检验法.另外,我们还可通过引入另外,我们还可通过引入 和
31、和 之间的相关系数之间的相关系数1FYxxYxxYYLrLL(9.2.14)对相关系数利用对相关系数利用 检验法进行检验检验法进行检验.检验问题为检验问题为:t01:0:0.HrHr (9.2.15)可以证明,当检验(可以证明,当检验(9.2.15)中)中 成立时,成立时,0H22(2)1rtnt nr给定显著水平给定显著水平 ,根据样本观测值计算,根据样本观测值计算 值,若值,若 ,则拒,则拒绝绝 ,否则接受,否则接受 .根据根据 分布和分布和 分布的关系:分布的关系:.故对一元线性回归的故对一元线性回归的检验,两种检验法是一致的,我们只需选择其中一种检验法即可检验,两种检验法是一致的,我们
32、只需选择其中一种检验法即可.例例9.2.2 给定显著水平给定显著水平 ,检验例,检验例9.2.1中回归效果是否显著?中回归效果是否显著?解解 根据表根据表9-6中的数据,可得中的数据,可得t(2)ttn0H0HtF2(1,2)tFn=0.0545.917,172.417,718.917.pppSSSLLL其方差分析表为其方差分析表为 表9-8 方差来源方差来源 平方和平方和 自由度自由度 均方均方 比比 显著性显著性 回归和回归和 647.423 1 647.423 90.556拒绝拒绝 剩余和剩余和 71.494 10 7.1494 总和总和 718.917 11F0.05(1,10)4.9
33、6FF0H拒绝拒绝 ,即认为价格和供给量两变量之间存在显著线性相关关系,即认为价格和供给量两变量之间存在显著线性相关关系.0H 上面讨论了一元线性回归方程的假设检验问题上面讨论了一元线性回归方程的假设检验问题.那么如何根据那么如何根据求出的回归方程求出的回归方程 和任一给定的值和任一给定的值 ,对,对 的值进行估计的值进行估计呢?这就涉及到预测问题,也就是已知呢?这就涉及到预测问题,也就是已知 的值的值 ,要预测变量,要预测变量 的的值或取值范围值或取值范围.对于给定的对于给定的 及置信度及置信度 ,根据第七章知识,要求,根据第七章知识,要求 的预测的预测区间,即寻找区间,即寻找 ,使得,使得
34、01yx0 xYx0 xY0 x10Y10()y x20()yx10020()()1.P y xYyx(9.2.16)这里这里 ,还可依赖于样本还可依赖于样本 ,但与第七章置,但与第七章置信区间是不同,它是随机变量而不是参数信区间是不同,它是随机变量而不是参数.可以证明可以证明10()y x20()yx(,),1,2,iix Yin0020(2).()1(1)2xxyYtt nxxQnnL(9.2.17)9.2.1 9.2.1 一元线性回归方程的预测与控制一元线性回归方程的预测与控制因此,对给的置信度因此,对给的置信度 ,有于是可得有于是可得 的置信度为的置信度为 的预测的预测区间为区间为1/
35、2(|(2).P ttn0Y1200/2()1(2)(1).2xxxxQytnnnL(9.2.18)20()yx01yx10()y xx图9-2当样本容量当样本容量 固定,固定,和和 仅与样本观测值有关,从而预测的精仅与样本观测值有关,从而预测的精度与度与 有关,当时,带形区域宽度是最窄的,即当越靠近时预测有关,当时,带形区域宽度是最窄的,即当越靠近时预测就越精确就越精确.在实际计算中,当样本容量在实际计算中,当样本容量 很大时,对任一给定的很大时,对任一给定的 ,近似地服从正态分布近似地服从正态分布 .因此,可得置信度为因此,可得置信度为 的的 的的预测区间近似为预测区间近似为置信上下限置信
36、上下限 ,都为都为 的函数,其形状如图的函数,其形状如图9-2,它们形,它们形成了一个包含回归直线的带形域,其宽度为成了一个包含回归直线的带形域,其宽度为10()y x20()yx0 x20/2()12(2)(1)2xxxxQtnnnLnQxxL0 xn0 x0Y0(,)2QN yn10Y0/20/2,.22QQyuyunn直线直线 和直线和直线 所夹得带所夹得带10/21:2QLyuxn20/21:2QLyuxn型区域为型区域为 的近似预测区域的近似预测区域.如图如图9.30YL2LL1图 9-3 控制问题为预测问题的反问题控制问题为预测问题的反问题.对于一元线性回归模型,要对于一元线性回归
37、模型,要使得使得 的观测值的观测值 落在一定范围落在一定范围 内,应把内,应把 的的取值控制在什么范围内?根据(取值控制在什么范围内?根据(9.1.27)式求)式求 的预测区间的方的预测区间的方01YxY12(,)y yxY法,反过来可求出相应的法,反过来可求出相应的 ,使得满足使得满足1212,()x xxx2/211()(2)(1);2xxQxxytnynnL2/221()(2)(1)2xxQxxytnynnL当当 时,有时,有 对应的观测值对应的观测值 落在落在 之间的概率不小之间的概率不小于于 .即即12(,)xx xxy12(,)y y112121 P yYyP yYy当样本容量当样
38、本容量 很大时,可根据如下方程组很大时,可根据如下方程组n10/2120/2122QyuxnQyuxn 例例9.2.3给定给定 ,求例,求例9.2.1中的供给量的预测区中的供给量的预测区间?间?解解 当当 时,根据例时,根据例9.2.1中已求出回归方程可得中已求出回归方程可得 求出相应的求出相应的12,x x10/21120/2212;2.QyunxQyunx注意,为了实现控制,必须使区间注意,为了实现控制,必须使区间 的长度的长度 .12(,)y y21yy/222Qun0.05,8.0p8.0p028.7563.7558.058.796.S根据例根据例9.3计算的结果有计算的结果有71.4
39、942.674210Qn220()11(89.083)1+1+1.053.1245.917ppppnL给定,查表得给定,查表得 ,从而可得,从而可得0.025(10)2.23t200.025()1(10)1+2.23 2.674 1.0536.282ppppQtnnL故供给量故供给量 的的95%的预测区间为的预测区间为S(52.51665.076),在实际问题,我们经常会遇到一些变量之间的关系不是线性在实际问题,我们经常会遇到一些变量之间的关系不是线性的,而是非线性的的,而是非线性的.但对于一些特殊问题,可以通过变量代换将它但对于一些特殊问题,可以通过变量代换将它们转化为线性关系,利用线性回归
40、的方法来处理们转化为线性关系,利用线性回归的方法来处理.有如下常见的类型:有如下常见的类型:(1)双曲型函数)双曲型函数 1;bayx令令 ,则,则11,yxyx.yabx(2)幂函数型)幂函数型.byax令令 ,则,则ln,ln,lnyy aa xxyabx9.2.5 9.2.5 一元非线性回归问题的线性化一元非线性回归问题的线性化(3)对数函数型)对数函数型 ln.yabx令令 ,则,则ln xx.yabx(4)指数函数型)指数函数型(i);令 ,则bxyaeln,lnyy aa.yabx(ii)令 ,则(0);bxyaea1ln,ln,yy aa xx.yabx 在具体实际问题中,可以先
41、根据样本观测值作出散点图,然在具体实际问题中,可以先根据样本观测值作出散点图,然后由散点图呈现的趋势来选配回归方程后由散点图呈现的趋势来选配回归方程.例例9.2.4 在彩色显影中,为研究形成染料光学密度之间的关系,在彩色显影中,为研究形成染料光学密度之间的关系,测得测得11组试验数据如下表:组试验数据如下表:型曲线型曲线 作为选配曲线作为选配曲线.表9-90.050.100.140.590.381.190.060.140.200.790.431.250.070.230.251.000.471.290.100.370.311.12xyxyxy试确定试确定 与与 之间的回归关系?之间的回归关系?x
42、y解解 首先画出散点图如图首先画出散点图如图9-4,从散点图的趋势我们可以选用指数,从散点图的趋势我们可以选用指数bxyae0.20.40.60.811.21.4024681012因此单因素方差分析数学模型为因此单因素方差分析数学模型为:图9-4 令令 ,求出相应的值如下表:,求出相应的值如下表:1ln,yy xx 表9-1020.000-2.3037.143-0.5282.6320.17416.667-1.9665.000-0.2362.3260.22314.286-1.4704.0000.0002.1280.25510.000 -0.994 3.2260.113 x y x x y y相应
43、的散点图如图(相应的散点图如图(9.5),对应的点基本上在一条直线上,说),对应的点基本上在一条直线上,说明明 与与 之间近似地有线性关系之间近似地有线性关系.因此,因此,令令 .y x201(0,),yxN-3.000-2.500-2.000-1.500-1.000-0.5000.0000.5005.00010.00015.00020.00025.000图9-5经计算可得经计算可得 010.54765,0.14593 从而回归方程为从而回归方程为 .于是于是 对对 的回归方程的回归方程为为0.547650.14593yxyx0.145931.729.xye 在实际中,影响变量在实际中,影响变
44、量 的因素通常有多个,要研究它们之间的的因素通常有多个,要研究它们之间的关系比较复杂,最简单的是假设它们为线性关系,这就涉及到多关系比较复杂,最简单的是假设它们为线性关系,这就涉及到多元线性回归(元线性回归(multiple linear regression),其分析原理与一元线性),其分析原理与一元线性回归类似,但计算和检验上要复杂得多回归类似,但计算和检验上要复杂得多.1.数学模型数学模型y01 1ppYxx这里这里 为可控变量,为可控变量,为随机变量为随机变量.给定一组样本观测值给定一组样本观测值 则则1,,pxx2(0,)NY1(,),1,2,.,iiipy xxin011,1,2,
45、.+iipipiyxxin其中其中 相互独立,且都服从相互独立,且都服从 ,这就为,这就为 元线元线性回归数学模型性回归数学模型.,1,2,iin2(0,)Np*9.2.6 9.2.6 多元线性回归多元线性回归2.回归参数的最小二乘估计回归参数的最小二乘估计与一元线性回归类似,可采用最小二乘法原理对与一元线性回归类似,可采用最小二乘法原理对 元线性回归中元线性回归中回归参数回归参数 进行估计进行估计.p01,,p20111()niipipiQyxx求未知参数求未知参数 的估计量使得的估计量使得 达到最小达到最小.根据多元微积分知识,对根据多元微积分知识,对 分别关于分别关于 求偏导数,并令它求
46、偏导数,并令它们等于零,得们等于零,得01,pQQ01,,p01 11001 112()02()0,1,2,niip ipiniip ipijijQyxxQyxx xjp从而可得从而可得0111112011111111120111111nnnipipiiiinnnniipiipiiiiiinnnnipiippipipiiiiinxxyxxx xx yxx xxxy(9.2.19)称(称(9.2.19)式为正规方程)式为正规方程.为求出的最小二乘估计,引入矩阵为求出的最小二乘估计,引入矩阵1110121212111,1ppnnppnxxyxxyxxyXY于是于是(9.2.19)式可表示为矩阵方程
47、式可表示为矩阵方程 X XX Y若若 可逆,则可逆,则XX011=()pX XX Y即即 为所求的为所求的 元线性回归方程,且可用元线性回归方程,且可用01 1ppyxxp221()1niiiyynp作为作为 的无偏估计的无偏估计.2(3)回归方程的显著性检验)回归方程的显著性检验为验证回归方程的意义,可提出如下检验为验证回归方程的意义,可提出如下检验012:0pH令令21(),niiT S SYY同样有平方和分解公式同样有平方和分解公式TSSSSRSSE检验的统计量为检验的统计量为/(1)SSR pFSSEnp当当 成立时,成立时,给定显著水平给定显著水平 ,可得拒绝域为,可得拒绝域为0H(
48、,1).F F pn p(,1).FFp np例9.2.5 下表给出了13个同样身高的男人的收缩压 、体重 和年龄 的数据,试求 和 、的回归方程,设误差 ,并对回归方程进行检验.(取显著水平 )y1x2xy1x2x2(0,)N0.05 表9-1112014112412611712512312513212313215514715218317116515816114615817015316419018550202030305060504055404020y1x2x解解 根据表中数据可得正规方程为根据表中数据可得正规方程为01201201213+2156+505=16902156+359754+8
49、2155=281908505+82155+21925=64935解得解得01265.0665,1.0768,0.4249.即回归方程即回归方程1265.0665 1.07680.4249.yxx ,查查 分布表分布表 ,从而拒绝从而拒绝 ,即认为回归方程有显著性意义,即认为回归方程有显著性意义.检验问题为检验问题为:012:0H进一步可算得进一步可算得1321()1512iiTSSyy1321()107.4881iiiSSEyy1404.512.SSRTSSSSE于是检验统计量于是检验统计量 值为值为 ,给定显著平,给定显著平 F/2=65.333/(132 1)SSRFSSE0.05F0.05(2,10)4.96F0.0565.3334.96(2,10)FF0H