1、数理统计与随机过程数理统计与随机过程第第九九章章主讲教师:程维虎教授主讲教师:程维虎教授北京工业大学应用数理学院北京工业大学应用数理学院第九章第九章 方差分析及回归分析方差分析及回归分析9.1 单因素试验的方差分析单因素试验的方差分析 在科学试验和生产实践中,影响事物的因素往在科学试验和生产实践中,影响事物的因素往往很多。往很多。例如:例如:在化工生产中,原料成分、原料剂在化工生产中,原料成分、原料剂量、催化剂、反应温度、压力、溶液浓度、反应时量、催化剂、反应温度、压力、溶液浓度、反应时间、机器设备及操作员水平等因素,每个因素的改间、机器设备及操作员水平等因素,每个因素的改变都有可能影响产品的
2、数量和质量。有些因素影响变都有可能影响产品的数量和质量。有些因素影响大些,有些较小。为使生产过程得以稳定,确保优大些,有些较小。为使生产过程得以稳定,确保优质、高产,就必要找出对产品质量有显著影响的那质、高产,就必要找出对产品质量有显著影响的那些因素。为此,需要进行试验及设计。些因素。为此,需要进行试验及设计。方差分析就方差分析就是根据试验的结果进行分析,鉴别各试验因素对试是根据试验的结果进行分析,鉴别各试验因素对试验结果影响大小的统计方法。验结果影响大小的统计方法。9.1.1 单因素试验的方差分析单因素试验的方差分析I.基本概念基本概念 1.试验指标试验指标 在试验中,需要考察的指标。在试验
3、中,需要考察的指标。2.因素因素 影响试验指标的条件。因素又分成影响试验指标的条件。因素又分成可控因素可控因素和和不不可控因素可控因素两类。例如,反应温度、原料剂量、溶液浓两类。例如,反应温度、原料剂量、溶液浓度、反应时间等都是可控因素;而测量误差、气候条度、反应时间等都是可控因素;而测量误差、气候条件等都是不可控因素。件等都是不可控因素。3.水平水平 因素所处的状态。因素所处的状态。如试验中仅有一个因素发生改变,而其他因素如试验中仅有一个因素发生改变,而其他因素(有的话有的话)不发生改变不发生改变,称这样的试验为称这样的试验为单因素试验单因素试验;如试验中有多个因素发生改变,就称试验为如试验
4、中有多个因素发生改变,就称试验为多因素多因素试验试验。特别地,称只有两个因素发生改变,而其他因特别地,称只有两个因素发生改变,而其他因素素(有的话有的话)不发生改变的试验为不发生改变的试验为两因素试验两因素试验或或双因双因素试验素试验。II.举例举例例例1 1:用三台机器生产规格相同的铝合金薄板。测量薄用三台机器生产规格相同的铝合金薄板。测量薄板的厚度板的厚度 (精确到千分之一厘米精确到千分之一厘米)如下表所示。在这里如下表所示。在这里,试验指标是薄板厚度试验指标是薄板厚度;机器为因素机器为因素;三台机器就是因三台机器就是因素的三个水平素的三个水平。如果假定除机器因素外,其他因素都。如果假定除
5、机器因素外,其他因素都相同,则试验为单因素试验。相同,则试验为单因素试验。试验目的是为了考察各台机器生产的铝合金薄板试验目的是为了考察各台机器生产的铝合金薄板的厚度是否有显著差异,即因素的不同水平是否对试的厚度是否有显著差异,即因素的不同水平是否对试验目标有显著不同的影响。验目标有显著不同的影响。例例2 2:随机选取的、用于计算器的四种类型的电路的随机选取的、用于计算器的四种类型的电路的响应时间如下表所示响应时间如下表所示 (单位是毫秒单位是毫秒)。试验指标是电试验指标是电路的响应时间路的响应时间;考虑的因素是电路类型考虑的因素是电路类型;四种电路四种电路就是四个水平就是四个水平。试验目的:考
6、察电路类型对响应时。试验目的:考察电路类型对响应时间有无显著影响。间有无显著影响。例例3 3:一火箭使用四种燃料,三种推进器做射程试验。一火箭使用四种燃料,三种推进器做射程试验。每种燃料与每种推进器的组合下发射火箭两次,射程每种燃料与每种推进器的组合下发射火箭两次,射程试验数据由下表给出。试验数据由下表给出。试验指标:射程试验指标:射程;因素:推进因素:推进器器 (三个水平三个水平)、燃料燃料 (四个水平四个水平);目的:考察推进目的:考察推进器和燃料这两个因素对射程是否有显著影响器和燃料这两个因素对射程是否有显著影响。III.问题讨论问题讨论 本节仅讨论单因素试验问题。例本节仅讨论单因素试验
7、问题。例1中,在因素的中,在因素的每个水平下进行独立试验,其结果是一个随机变量。每个水平下进行独立试验,其结果是一个随机变量。表中的数据看成是来自三个不同总体表中的数据看成是来自三个不同总体(每个水平对应每个水平对应于一个总体于一个总体)的样本值。的样本值。将各个总体的均值依次记为将各个总体的均值依次记为1,2与与3。按题意需检验假设。按题意需检验假设 H0:1=2=3,H1:1,2与与3不全相等。不全相等。若假设每个总体均为正态变量,且方差相等,但参数若假设每个总体均为正态变量,且方差相等,但参数未知。那么,这是一个检验具有相同方差的多个正态未知。那么,这是一个检验具有相同方差的多个正态总体
8、均值是否相等的问题。总体均值是否相等的问题。方差分析法就是解决这类方差分析法就是解决这类问题的一种统计方法。问题的一种统计方法。单因素试验的方差分析 设因素设因素A 有有s 个水平:个水平:A1,A2,As,在水平,在水平Aj(j=1,2,s)下,下,进行进行 nj(nj 2)次独立试验,得次独立试验,得到如下标的结果。到如下标的结果。假定水平假定水平Aj(j=1,2,s)下的样本下的样本 来自具有方差来自具有方差2,均值为,均值为j 的正态总体的正态总体,j和和2未未知,且不同水平知,且不同水平Aj下的样本相互独立。下的样本相互独立。jnjjjX,X,X21方差分析的任务 检验检验 s 个总
9、体个总体 的均值的均值 是否相等,即检验假设是否相等,即检验假设 作出未知参数作出未知参数 的估计。的估计。若记若记 的加权平均为的加权平均为(1.2)不全相等。:ss,HH211210,)(,),()(22221,N,N,Ns,221,s(1.3),nnsjjj11s,21 为总平均。其中,,nnsjj1引入引入 表示总体平均值与表示总体平均值与总平均的差异,称为水平总平均的差异,称为水平Aj j 的效应。此时,的效应。此时,,s,j,jj 21模型模型(1.1)可改写成可改写成.nsjij01)(1.1 )(独立同分布,且各 ijsjjjjijijjij.n,n,i,s,j,N,X1202
10、1210)(1.2 :零。不全为0211210ss,H,H假设假设(1.2)等价于假设等价于假设9.1.2 平方和的分解平方和的分解(1.5)(,sjniijTjXXS112(1.7).s,j,XnXjniijjj.2111(1.6)sjniijjXnX111引入总偏差平方和引入总偏差平方和是数据的总平均。是数据的总平均。ST 反应了全部数据之间的差异。反应了全部数据之间的差异。因此,又称其为总变差。因此,又称其为总变差。其中其中记水平记水平 Aj下的样本均值为下的样本均值为上式的第三项为上式的第三项为.)()()()()(sjnij.j.ijsjnij.sjnij.ijsjnij.j.ijT
11、jjjjXXXXXXXXXXXXS111121121122.)()()(0221111sjnij.jijj.sjnij.ijj.jjXnXXXXXXX则有则有SE 称为误差平方和,称为误差平方和,SA称为效应平方和。称为效应平方和。(1.8)式称式称作总变差平方和分解式,简称平方和分解式。作总变差平方和分解式,简称平方和分解式。(1.10).)()(1.9)(sjjjsjjjsjnijAsjnijijEXnXnXXnXXSXXSjj12212112112.,于是,有于是,有 ST=SE+SA,(1.8)其中其中9.1.3 SE与与SA的统计特性的统计特性(1.11)()(jjnis.isni.
12、iEXXXXS121211.XXjjnnij.ij )(1 知 1,根据基本定理6.4.22112 为导出检验问题为导出检验问题(1.2)的检验统计量,首先来的检验统计量,首先来讨论讨论SE与与SA的特性。先将的特性。先将SE写成写成由于不同总体的样本相互独立,又知由于不同总体的样本相互独立,又知(1.11)式中各加式中各加项也相互独立,根据项也相互独立,根据2分布的可加性,得分布的可加性,得(1.12).即 ,)(222121snEnE/S/Ssjj.其中(1.13)()(sjjEnnsnSE12,进一步,可以证明:进一步,可以证明:(1.14)()(.nsSEsjjjA1221特别地,特别
13、地,H0为真时,有为真时,有(1.15),212sA/S(1.16).)/()/(于是,相互独立。与 且n-sS-sS FSSEAEA19.1.4 假设检验问题的拒绝域假设检验问题的拒绝域 由由(1.14)式,知:当式,知:当H0为真时,为真时,SA/(s-1)是是2的的无偏估计,而当无偏估计,而当H1为真时,为真时,此时此时,012 sjjjn(1.17).2122111nssSEsjjjA所以,当所以,当H0不真时,不真时,(1.16)式的分子式的分子SA/(s-1)的取值的取值较较2有偏大的趋势。故,检验问题的拒绝域应有有偏大的趋势。故,检验问题的拒绝域应有(1.18)/()/(kn-s
14、S-sS FEA1的形式。的形式。(1.19),)()()(sn,sEAFsn/Ss/SF11根据根据(1.16)式,可得到检验问题式,可得到检验问题(1,2)的拒绝域为的拒绝域为其中其中为为给定的显著性水平,给定的显著性水平,Fs-1,n-s()是参数为是参数为(s-1,n-s)的的F分布的上分布的上分位点。分位点。单因素方差分析表如下单因素方差分析表如下:,1,2,sjjniijjTTsjXTj11,记记 在实际中,可按以下简便公式计算在实际中,可按以下简便公式计算ST,SA和和SE。则有则有(1.20).ATEsjsjjjjjAsjnisjniijijTSSSnTnTXnXnSnTXXn
15、XSjj11222211112222,不全相等。:32113210,HH,例例4:在例在例1中就是检验假设中就是检验假设(=0.05)解:解:在这里,在这里,s=3,n1=n2=n3=5,n=15,按按(1.20)式式计算,得到计算,得到 ST=0.00124533,SA=0.00105333,SE=0.000192 及如下方差分析表:及如下方差分析表:判断:因判断:因 F2,12()=3.8932.92,故在水平故在水平0.05下拒绝下拒绝H0,即认为各台机器生产的薄板厚度有显著差异。即认为各台机器生产的薄板厚度有显著差异。9.1.5 未知参数的估计未知参数的估计 由由(1.13)式,知:式
16、,知:是是2的无偏估计;的无偏估计;再由再由(1.1),(1.6)及及(1.7)式,知:式,知:故故 分别为分别为和和j 的无偏估计。的无偏估计。若拒绝若拒绝H0,就意味着,效应,就意味着,效应1,2,s不全不全为零。由于为零。由于j=j-,j=1,2,s,知:知:是是j 的无偏估计。的无偏估计。)/(n-sSE2.,.sjXEnXEXEjniijjjj2111 )()()(jjXX,XXjj相互独立。于是,相互独立。于是,与与且且)/()(,)(2snSXXnnXXDXXEEkjkjkjkjkj,211.)()()()()()(snEkjkjkjkjEkjkjtsnSnnXXnnSXX/21
17、111:的的区区间间估估计计。做做法法如如下下的的均均值值差差和和给给出出两两个个正正态态总总体体当当拒拒绝绝原原假假设设时时,常常需需 ,)()(kjkjkjNN22,由于由于(1.21)/()(.kjEsnkjnnStXX112:的置信区间为的置信区间为的置信系数为的置信系数为于是,于是,1 kj例例5:求例求例4中未知参数中未知参数2,j 与与j 的点估计及均值差的点估计及均值差的置信水平为的置信水平为0.95的置信区间。的置信区间。解:解:经计算经计算.0090030110253026202560242000001603322113322112xxxx xxxxxxsnSE ,)/(由
18、由tn-s(/2)=t12(0.025)=2.1788及及(1.21)式,得式,得 1 2,1 3 与与2 3 的置信水平为的置信水平为0.95的置信区间分别为:的置信区间分别为:.,001200060262025600140026000602620242000800200006025602420,.,.,.例例6:6:在例在例2 2中,四类电路的响应时间的总体均为正中,四类电路的响应时间的总体均为正态分布,且各总体的方差相同,但参数未知。设各态分布,且各总体的方差相同,但参数未知。设各样本相互独立。取检验水平样本相互独立。取检验水平=0.05,=0.05,检验各类电路检验各类电路的响应时间是
19、否有显著差异。的响应时间是否有显著差异。解解:分别以分别以1,2,3,4 记类型记类型i,四种电四种电路的响应时间总体均值。我们需要检验:路的响应时间总体均值。我们需要检验:H0:1=2=3=4,H1:1,2,3,4不全相等不全相等.现在,现在,n=18,s=4,n1=n2=n3=5,n4=3,.,.46395983184471418386899212211222 ATEsjjjAsjniijTSSSnTnTSnTXSj,因为因为F 3,14(0.05)=3.343.76,故在水平,故在水平0.05下拒下拒绝绝H0,即认为各类型电路的响应时间有显著差异。,即认为各类型电路的响应时间有显著差异。
20、将上述数据填入下表:将上述数据填入下表:9.2.1 双因素等重复试验的方差分析双因素等重复试验的方差分析 设两个因素设两个因素A 和和 B 作用于试验指标。作用于试验指标。A有有r 个个水平水平A1,A2,Ar,B有有s个水平个水平B1,B2,Bs。现对现对A,B的各水平组合的各水平组合(Ai,Bj),i=1,2,r,j=1,2,s 都作都作t(t2)次试验次试验(称等重复试验称等重复试验),得如下试验结果:得如下试验结果:9.2 双因素试验的方差分析双因素试验的方差分析并假设并假设:ijk(ij,2),i=1,2,=1,2,r,j=1,2,=1,2,s,k=1,2,1,2,t,各各ijk独立
21、。独立。这里,这里,ij 与与 2 为参数,为参数,未知。未知。于是,模型可写成:于是,模型可写成:引入记号:引入记号:.,2,1,2,1,2,1,1,2,1,1,11111sjrisjrrisrsjjiiriijjsjijirisjij 易见,易见,.0,011sjjrii 称称 为总平均,为总平均,i 为水平为水平Ai 的效应,的效应,j为水平为水平Bj 的效的效应。这样可将应。这样可将ij 表示成表示成)2.2(.,2,1,2,1),(sjrijiijjiij记记此时此时 称称 ij 为水平为水平Ai 和水平和水平Bj 的的交互效应交互效应,这是由,这是由Ai 和和Bj 搭配起来联合起作
22、用而引起的。易见搭配起来联合起作用而引起的。易见.,2,1,0,2,1,011risjsjijriij 这样,这样,(2.1)式可写成式可写成与单因素情况类似,对这些问题的检验方法也是与单因素情况类似,对这些问题的检验方法也是建立在平方和的分解上。先引入以下记号:建立在平方和的分解上。先引入以下记号:ritkijkjsjtkijkitkijkijrisjtkijksjXrtXriXstXsjriXtXXrstX11111111.,2,1,1,2,1,1,2,1,2,1,1,1 再引入总偏差平方和再引入总偏差平方和(称为总变差称为总变差)risjtkijkTXXS1112.)(risjjiijs
23、jjrisjtkriiijijkjiijrisjtkjiijijkrisjtkijkTXXXXtXXrtXXstXXXXXXXXXXXXXXS1121211112221111112)()()()()()()()()(可将可将 ST 写成:写成:即得平方和的分解式:即得平方和的分解式:(2.9),BABAETSSSSS其中其中)10.2(,)(1112 risjtkijijkEXXS 称称SE为为误差平方和误差平方和,SA与与SB分别为因素分别为因素、因素、因素的的效应平方和效应平方和,SAB为为与与交互效应平方和交互效应平方和。riiAXXstS12)11.2(,)()12.2(,)(12 s
24、jjBXXrtS)13.2()(112 .risjjiijBAXXXXtS可以证明:可以证明:ST,SE,SA,SB,SAB 的自由度依次为的自由度依次为 rst-1,-1,rs(t-1),-1),r-1,-1,s-1,(-1,(r-1)(-1)(s-1)-1),且有,且有)17.2(.)1)(1()1)(1()16.2(,11)15.2(,11)14.2(,)1(11221221222 srtsrSEsrtsSErstrSEtrsSErisjijBAsjjBriiAE (2.21):的拒 绝拒绝下,假 设在显显著性水 (2.20):的拒 绝拒绝下,假 设类似地,在显著性水平 (2.19):的
25、拒 绝拒绝得假 设取显显著性水平 (2.18):为真时,可以证明 当 ).()1()1)(1().()1()1().()1()1(.)1()1(0:)1(),1)(1(03)1(,102)1(,101)1(,12101trssrEBABAtrssEBBtrsrEAAtrsrEAArFtrsSsrSFHFtrsSsSFHFtrsSrSFHFtrsSrSFH,上述结果可汇总成下列的方差分析表:上述结果可汇总成下列的方差分析表:记记.,2,1,2,1,2,1,2,1,11111111sjXTriXTsjriXTXTritkijkjsjtkijkitkijkijrisjtkijk (2.22).BAB
26、ATEBArisjijBArijBriiArisjtkijkTSSSSSSSrstTTtSrstTTrtSrstTTstSrstTXS,1,1,1,211221221221112平方和。式来计算上表中的各个我们可以按照下述)22.2(例例1:在上节例在上节例3中,假设符合双因素方差分析模型所中,假设符合双因素方差分析模型所需的条件。试在水平需的条件。试在水平0.05下,检验不同燃料下,检验不同燃料(因素因素A)、不同推进器不同推进器(因素因素B)下射程是否有显著差异?交互作下射程是否有显著差异?交互作用是否显著?用是否显著?解解:现在现在 r=4,s=3,t=2。需检验假设需检验假设H01,H
27、02,H03,(见见(2.6)(2.8)。首先计算。首先计算T,Tij.,Ti.,T.j.,表中括,表中括号内的数是号内的数是Tij.。然后按。然后按(2.22)式计算下列各式:式计算下列各式:,298332638248.1319)4.416.522.58(2222.ST,67500261248.1319)6.3464.3425.2963.334(6122222.SA,98083370248.1319)1.3963.4554.468(812222 .SB,692501768248.1319)1.909.918.110(212222 .SSSBABA.95000.236BABATESSSSS得方
28、差分析表如下:得方差分析表如下:由于由于 F3,12(0.05)=3.49FA,F2,12(0.05)=3.89FB,所以,在水平所以,在水平 =0.05下,拒绝原假设下,拒绝原假设H01与与H02,即,即认为不同燃料或不同推进器下的射程有显著差异。也认为不同燃料或不同推进器下的射程有显著差异。也就是说,燃料和推进器这两个因素对射程的影响都是就是说,燃料和推进器这两个因素对射程的影响都是显著的。显著的。又又,F6,12(0.05)=3.00 FAB。故拒绝。故拒绝H03。值得注意的。值得注意的是是,F6,12(0.001)=8.38 也远远小于也远远小于 FAB=14.9,故交,故交互作用的效
29、应是高度显著的。从表互作用的效应是高度显著的。从表9.10可看出,可看出,A4与与B1或或A3与与B2的搭配都使火箭射程较之其他水平的搭配的搭配都使火箭射程较之其他水平的搭配要远得多。实际中要远得多。实际中,我们选最优的搭配方式来实施。我们选最优的搭配方式来实施。例例2:在某种金属材料生产过程中,对热处理温度在某种金属材料生产过程中,对热处理温度(因素因素B)与时间与时间(因素因素A)各取两个水平,产品强度的测定结果各取两个水平,产品强度的测定结果(相对值相对值)如表如表9.12所示。在同一条件下每个实验重复两所示。在同一条件下每个实验重复两次。设各水平搭配下强度的总体服从正态分布且方差次。设
30、各水平搭配下强度的总体服从正态分布且方差相同。各样本独立。问热处理温度、时间以及这两者相同。各样本独立。问热处理温度、时间以及这两者的交互作用对产品强度是否有显著的影响的交互作用对产品强度是否有显著的影响(取取=0=0.05.05)?解:解:按题意需检验假设按题意需检验假设(2.6)(2.8),作计算如下,作计算如下.6.482.1085452.1162.102.1448424.14551521184.340)1754.165(4162184.340)1724.168(4182.184.340)8.406.380.38(2222222222BABAEBABATSSSS,.S,.S,.SS7 7
31、 ,得方差分析表如表得方差分析表如表9.13.由于由于F1,4(0.05)=7.71,所以认为时间对强度的影响,所以认为时间对强度的影响不显著不显著,而温度的影响显著而温度的影响显著,交互作用的影响也显著。交互作用的影响也显著。9.2.2 双因素无重复试验的方差分析 在以上讨论中,我们考虑了双因素试验中两个在以上讨论中,我们考虑了双因素试验中两个因素间的交互作用。为检验交互作用的效应是否显因素间的交互作用。为检验交互作用的效应是否显著。对两因素的每一组合著。对两因素的每一组合(Ai,Bj)至少要做至少要做2次试验。次试验。这是因为在模型这是因为在模型(2.5)中,若中,若k=1,ij+ij 总
32、以结合在总以结合在一起的形式出现,这样就不能将交互作用与误差分一起的形式出现,这样就不能将交互作用与误差分离出来。如果在处理实际问题时,我们知道不存在离出来。如果在处理实际问题时,我们知道不存在交互作用,或已知交互作用对试验的指标影响很小交互作用,或已知交互作用对试验的指标影响很小,就可以不考虑交互作用。此时,即使就可以不考虑交互作用。此时,即使 k=1,也能对,也能对因素因素A、B的效应进行分析。的效应进行分析。现设对两个因素的每一组合现设对两个因素的每一组合(Ai,Bj)只做一次试只做一次试验,所得结果如下。验,所得结果如下。.,21,21)(2sjriXNXijijij,相互独立各 并设
33、2.23)独立.且各 ,(,ijijijijijNsjriX)0(,21,212或写成或写成 沿用沿用 9.2.1中的记号,注意到现在假设中的记号,注意到现在假设“不存在不存在 交互作用交互作用”。此时,。此时,ij=0 0,i=1,2,r,j=1,2,s。故,由故,由(2.4)式知式知 ,(2.23)式可写成式可写成(2.24),独立各 sjjriiijijijjiijsjriNX112.0021,21),0(,,这就是现在要研究的方差分析模型。这就是现在要研究的方差分析模型。jiij对这个模型,所要检验的假设有如下两个:对这个模型,所要检验的假设有如下两个:(2.26).(2.25)2零零
34、:零零;:不全 为,0不全 为,0211221021112101ssrrHHHH与在与在9.2.1中的讨论相同,得方差分析表。中的讨论相同,得方差分析表。2).(0).(0)1)(1(,1210)1)(1(,12101FSSFHFSSFHsrsEBBssrrEAAr的的拒拒绝绝域域为为:假假设设的的拒拒绝绝域域为为:,得得假假设设取取显显著著水水平平为为表表9.15中的平方和可按下述式子来计算:中的平方和可按下述式子来计算:(2.27),BATEsjjBriiArisjijTSSSSrsTTrSrsTTsSrsTXS122122112211其中其中.,2,1,2,1,1111sjriXTXTX
35、Triijjsjijirisjij,例例3:下面给出了在某下面给出了在某5个不同地点、不同时间空气中的颗粒个不同地点、不同时间空气中的颗粒状物状物(以以mg/m3计计)的含量的数据:的含量的数据:设本题符合模型设本题符合模型(2.24)式中的条件。试在水平式中的条件。试在水平 =0.05=0.05下检验:下检验:1 1).).在不同时间下颗粒状物含量的均值有无显著差异;在不同时间下颗粒状物含量的均值有无显著差异;2).2).在不同地点下在不同地点下颗粒状物含量的均值有无显著差异。颗粒状物含量的均值有无显著差异。解解:按题意需检验假设按题意需检验假设(2.25),(2.26)。,的值已算出载于的
36、值已算出载于上表。现在上表。现在 r=4,s=5。由。由(2.27)得到:得到:iTjT.30.44150.194795.1182753571,50.1947201275)200251289(41,95.1182201275278290376331517535712012753767762222222222222.SSS,.SEBAT)(方差分析表如下:方差分析表如下:由于由于F3,12(0.05)=3.4910.72,,F4,12(0.05)=3.261)有关。对于自变量有关。对于自变量 x1,x2,xp的一的一组确定值组确定值,Y 都有确定的分布。若都有确定的分布。若Y 的数学期望存在的数
37、学期望存在,则它是则它是x1,x2,xp的函数,记为的函数,记为(x1,x2,xp),它是它是Y 关于关于x的回归函数。在这里的回归函数。在这里,仅讨论仅讨论 (x1,x2,xp)是是 x1,x2,xp 的线性函数的情况的线性函数的情况,即多元线性回归模型:即多元线性回归模型:无关的未知参数。无关的未知参数。都是与都是与其中其中ppppxxxbbbNxbxbbY,),0(,210210211 (4.1)设设(4.2),(,),(21111211 nnpnnpyxxxyxxx似似然然法法估估计计参参数数。们们用用最最大大性性回回归归的的情情况况一一样样,我我是是一一个个样样本本。和和一一元元线线
38、达达到到最最小小。时时,当当记记),(4.3).)(),(1011001211010pppniippiipbbbQbbbbbbxbxbbybbbQ (4.4).,2,1,0)(2,0)(2,11101110010 pjxxbxbbybQxbxbbybQbbbQniijippiijniippiip于于零零,得得的的偏偏导导数数,并并令令它它们们等等关关于于分分别别求求化简化简(4.4)式,得式,得(4.5).,11111222110111111121221110111122110 nininininiiipippiipiipipnininininiiiipipiiiininininiiippii
39、yxxbxxbxxbxbyxxxbxxbxbxbyxbxbxbnb(4.5)式称为式称为正则方程组正则方程组。为求解方便,将。为求解方便,将(4.5)式写式写成矩阵方程的形式。为此,引入矩阵:成矩阵方程的形式。为此,引入矩阵:.pnnpnnppbbbByyyYxxxxxxxxxX1021212222111211,111 npnnppnppppnxxxxxxxxxxxxxxxxxXX21222211121132113121111111111则则,niipniiipniipipniiniiniiniipniixxxxxxxxxxn121111112111111.niiipniiiniinnpppp
40、nyxyxyyyyxxxxxxxxYX11112132113121111111于是,于是,(4.5)式可写成式可写成)(4.5 .YXXBX这就是正规方程组的矩阵形式。在这就是正规方程组的矩阵形式。在(4.5)两边左乘两边左乘 (设设 存在存在),得到,得到(4.5)的解的解1)(XX1)(XX(4.6)(),(110 .YXXXbbbBp这就是我们要求的这就是我们要求的()的最大似然估计。的最大似然估计。pbbb,10简简称称回回归归方方程程。元元经经验验线线性性回回归归方方程程,称称为为的的估估计计。方方程程并并将将其其作作为为,记记pxbxbbyxbxbbxxxxbxbbyppppppp
41、 (4.7),(11011021110例例1 1:下面给出了某种产品每件平均单价下面给出了某种产品每件平均单价Y(元元)与批与批量量x(件件)之间的关系的一组数据之间的关系的一组数据散点图如下:散点图如下:(4.8),0(,22210 NxbxbbY来拟合来拟合Y 与与 x 的关系。现在来求回归方程。的关系。现在来求回归方程。我们选取模型我们选取模型).,0()8.4(222110221NxbxbbYxxxx ,式式可可写写成成,则则,令令这是一个二元线性回归模型,这是一个二元线性回归模型,.21018.120.121.124.126.130.140.148.155.165.170.181.1
42、810090164008015625751490070142256513600601250050116004011225351900301625251400201bbbBYX,。,1110101111041918.171600768400017055000076840008484200001095717.11705500001095717.1108572925.41)(XX经计算经计算,2047025002779000401002779000401006404010064012XX.2121000012507.002252236.019826629.200012507.002252236.01
43、9826629.2)(xxyYXXXbbbB回归方程为回归方程为,为为于是,正规方程组的解于是,正规方程组的解 像一元线性回归一样,模型像一元线性回归一样,模型(4.1)往往也是一种假往往也是一种假定。为考察这一假定是否符合实际观察结果,还需定。为考察这一假定是否符合实际观察结果,还需进行以下的假设检验:进行以下的假设检验:是是显显著著的的。,我我们们就就认认为为回回归归效效果果下下拒拒绝绝若若在在水水平平不不全全为为零零:,:01210.0HbHbbbHip 另外,与一元线性回归一样,多元线性回归方程另外,与一元线性回归一样,多元线性回归方程的一个重要应用是确定给定点的一个重要应用是确定给定
44、点(x01,x02,x0p)处对应处对应的的Y的观察值的预测区间。的观察值的预测区间。实际问题中,与实际问题中,与 Y 有关的因素往往很多,如果有关的因素往往很多,如果将它们都取作自变量必然会导致所得到的回归方程将它们都取作自变量必然会导致所得到的回归方程很庞大。实际上,有些自变量对很庞大。实际上,有些自变量对Y 的影响很小,如的影响很小,如果将这些自变量剔除,不但能使回归方程较为简洁果将这些自变量剔除,不但能使回归方程较为简洁,便于应用,且能明确哪些因素便于应用,且能明确哪些因素(即自变量即自变量)的改变对的改变对 Y 有显著影响,从而使人们对事物有进一步的认识。有显著影响,从而使人们对事物
45、有进一步的认识。通常可用逐步回归法达到这一目的。上述关于模型通常可用逐步回归法达到这一目的。上述关于模型的线性假设的检验、观察值的预测区间、逐步回归的线性假设的检验、观察值的预测区间、逐步回归等内容,读者可参阅华东师大出版社出版的等内容,读者可参阅华东师大出版社出版的回归回归分析及其试验设计分析及其试验设计一书。一书。实际问题中,需要考虑的影响实际问题中,需要考虑的影响 Y 的因素较多,的因素较多,即自变量的个数较多。因此,要求解一个多元线性即自变量的个数较多。因此,要求解一个多元线性回归的问题,计算工作量是相当大的,这就需要借回归的问题,计算工作量是相当大的,这就需要借助于计算机来进行计算。一般,在标准程序库中都助于计算机来进行计算。一般,在标准程序库中都有多元线性回归、逐步回归方法的标准程序可供直有多元线性回归、逐步回归方法的标准程序可供直接使用。接使用。