1、1单因素试验的方差分析(一)单因素试验(一)单因素试验 试验指标:在试验中,要考察的指标称为试验指标。 因素:影响试验指标的条件称为因素。 水平:因素所处于的状态称为水平。 单因素试验和多因素试验:试验中只有一个因素在改变称为单因素试验,如果多于一个因素在改变称为多因素试验。 方差分析:根据试验的结果进行分析,鉴别各个因素对试验结果的影响的一种分析方法。 化学生产中,因素有:原料成分、原料剂量、原料成分、原料剂量、催化剂、反应温度、压力、反应时间、机器设催化剂、反应温度、压力、反应时间、机器设备、操作人员水平备、操作人员水平等。 目的:决定各种因素,使生产过程得以稳定。 方法:先进行试验。 试
2、验的分析:利用方差分析来分析试验的结果。 根据影响试验结果的因素的多少分为单因素试验的方差分析和多因素试验的方差分析。两个例子第一个例子 用三台机器来生产相同的铝合金薄板,测量薄板的厚度如下表: 这里指标是薄板的厚度;因素是机器不同,其他的都相同。 问题是:机器这一因素对厚度有无显著影响?第二个例子 随机选取的、用于计算器的四种类型的电路的响应时间,如下表所示(单位是毫秒) 试验的指标是电路的响应时间; 考虑的因素是电路类型; 目的:是考察电路类型对响应时间有无显著影响。机器1机器2 机器30.2360.2380.2480.2450.2430.2570.2530.2550.2540.2610.
3、2580.2640.2590.2670.262类型1类型2类型3类型419 1522201820 4021332716 17151826182219第三个例子 一火箭使用四种燃料,三种推进器做射程试验。每种燃料与美中推进器的组合个发射火箭两次,得射程如下: 试验指标:射程;因素:推进器(三个水平)、燃料(四个水平);目的:考察推进器核燃料这两个因素对射程是否有显著影响。推进器(B)B1B2B3燃料(A)A158.252.656.241.265.360.8A249.142.854.150.551.648.4A360.158.370.973.239.240.7A475.871.558.251.04
4、8.741.4问题的讨论问题的讨论-(单因素试验) 对于例1 在因素的每一个水平下进行独立试验,其结果是一个随机变量; 表中的数据看成是来自三个不同总体的样本值;若记各个总体的均值依次为1,2,3; 则按题意需检验假设H0:1=2=3 , H1: 1,2,3不全相等。 若假设个总体为正态变量,且方差相等,但参数未知。这就变为检验同方差的多个正态总体均值是否相等的问题。而方差分析法就是解决这一问题的一种统计方法。单因素试验的方差分析单因素试验的方差分析 设因素有S个水平,在水平Aj (j=1,2,s)下,进行nj (nj2)次独立试验,结果如下:水平观察结果A1A2AsX11X21X11X21X
5、11X21样本总和样本均值总体均值T.1X.1 1T.2X.2 2 T.sX.s s11nX12nX1snX 假定,各个水平Aj (j=1,2,s)下样本X1j,X2j, 来自具有相同方差2,均值分别为j (j=1,2s)的正态总体, j和2未知且在不同水平Aj下的样本之间相互独立。jnjX),0(),(22NXNXjijjij即有由于Xij - j可以看成是随机误差。记为Xij - j =ij ,则Xij 可以写为Xij = j +ij ij N(0, 2),各ij独立i=1,2,nj , j=1,2,s(1,1)称为单因素方差分析的数学模型。(1,1)方差分析的任务方差分析的任务I.检验s
6、个总体 的均值是否相等,即检验假设II.作出未知参数 的估计若记 的加权平均为再引入 表示总体平均值与总平均的差异,称为水平Aj的效应。这时模型(1.1)可以改写为:不全相等。,ssHH,.,:.:211210),().,(),(2222211sisiiNXNXNX221,.,s(1,2)sjjjnn11s,.,21,.,2, 1,sjjj(1,3)(1,4) 而假设(1.2)等价于假设 我们来导出上述假设检验的检验统计量。sjjjijijijjijnsjniNX12. 0,.,2 , 1,.,2 , 1,), 0(,独立各个不全相等。ssHH,.,:, 0.:211210(1.1)(1.2)
7、(二)平方和的分解二)平方和的分解 引入总偏差平方和(或总变差)与总平均:即 水平Aj下的样本均值为 这时,可以将ST写成: sjniijsjniijTjjXnXXXS111121)(与(1,5)(1,6)jniijjjXnX1.1(1,7) 上式的第三项为sjnijjijsjnijsjnijijsjnijjijTjjjjXXXXXXXXXXXXS11.112.112.112.)(2)()()()(0 ) )(2 )( )(2)(21.1.1.1.11.jjjnijjijsjjnijijsjjsjnijjijXnXXXXXXXXXXX 若记 SE称为误差平方和误差平方和, SA表示Aj水平下的
8、样本均值与数据总平均的差异,叫做效效应平方和,应平方和,他是由水平Aj的效应的差异以及随机误差引起的。sjjjsjjjsjnijAsjnijijEXnXnXXnXXSXXSjj122.12.112.112.)()()((1,8)则得ST=SE+SA ,(1,9)(1,10)(三)(三) SE,SA的统计特性的统计特性1、SE的统计特性 由于 是总体 的nj-1倍,所以由于独立,(1,11)中各式独立,根据 分布的可加性,得jjnisisniiEXXXXS12.121 .1)(.)(jnijijXX12.)(),(2jN) 1()(212.jnijijnXXj(1,11)2)(/) 1(/221
9、22snSnSEsjjE即(1,12) 可以计算 这里2、SA的统计特性,它是s个变量的平方和,且仅有一个线性约束条件:因此的知SA的自由度是s-1。2)()(snSEEsjjnn1)(.XXnjj0)( )(111.1.1.sjniijsjjjsjjjsjjjjXnXXnXnXXnXXnnj(1,13) (由(1,3),(1,6)及Xij的独立性得知 经计算)/,(2nNXsjjjAsjjjsjjjsjjjjsjjjsjjjsjjjAnsSEnnnnnsnnnnXnEXEnXnXnESE122112212222212122.122.) 1()(, 02) 1()()()()(可以得到由于(1
10、,14)(1,15) 可以证明SE,SA的是相互独立的,且的是相互独立的,且H0当为真时当为真时 (四)假设检验问题的拒绝域(四)假设检验问题的拒绝域 由(1,15)式,当H0为真时 所以SA /(s-1)是2的无偏估计,而当当H1为真时, 这时 而由于) 1(/22sSA(1,16)2)1(sSEA012sjjjn212211)1(sjjjAnssSE(1,17)(1,18)2)(snSEE(1,19)所以,SA /(n-s)是2的无偏估计 由于 所以检验问题(1,2)的拒绝域的形式是: 其中k由预先给定的显著性水平确定,由此得此检验问题的拒绝域是: 因此,可以得到单因素方差分析表如下页),
11、 1()(/) 1(/)/() 1/(22snsFsnSsSsnSsSFEAEAksnSsSFEA)/() 1/(), 1()/() 1/(snsFsnSsSFEA(1,20)单因素试验的方差分析表 例4 在例1中就是检验假设 这里s=3,n1=n2=n3=5,n=15,按下式计算得到下页的表方差来源平方和自由度均方F比因素ASAs-1误差SEn-s总和STn-1由于在ST中n个变量 Xij- 之间仅满足一个约束条件,故ST的自由度为n-1 EASSF 1sSSAAsnSSEEX不全相等。,32113210,:HHATEsjjjsjjjAsjnisjniijijTsjniijniijjSSSn
12、TnTXnXnSnTXXnXSXTsjXTjjjj12.2.122.11112.22211.1.,.,2 , 1,则有记(1,21) 判断:因为F (2,12)=3.8932.92,故在水平0.05下拒绝H0,即认为各台机器生产的薄板厚度有显著差异。方差来源方差来源平方和平方和自由度自由度均方均方F比比因素ASA=0.001 053 3320.000 526 6732.92误差SE=0.000 192120.000 016总和ST =0.001 245 3314例例4 4的方差分析表的方差分析表(五)未知参数的估计(1)参数)参数2 , ,j , j的估计的估计由上面的讨论,不管H0是否为真,
13、 是2的无偏估计由于故 分别是,j的无偏估计。若拒绝H0 ,就意味着,效应1,2,s不全为零。由于j=j-, j=1,2,s,可知 是j的无偏估计。(2)两总体)两总体N(j, 2)N(k, 2)均值差均值差j - k = j - k的区间估计的区间估计snSE2sjXEnXEXEjniijjjj.2 , 1,)(1)(,)(1.jjXX.,XXjj. 具体做法是 由于 于是 因此均值差j - k = j - k的置信水平为1-的置信区间是)11()(,)(2.kjkjkjkjnnXXDXXE)()(/1/1)()()11()()(2.sntsnSnnXXnnSXXEkjkjkjkjEkjkj
14、)11()(2.kjEkjnnSsntXX(1,22) 例5 求例4中的未知参数2 ,j , j 的点估计及均值差的置信水平为0.95的置信区间。 解:经计算 由t0.025 (n-s)=t0.025 (12)=2.1788,得 故1 2 , 1 3 , 2 3的置信水平为0.95的置信区间分别为.009. 0,03. 0,11. 0,253. 0,262. 0,256. 0,242. 0,000016. 03 .32 .21 .13 .3 .2 .2 .1 .1 .2xxxxxxxxxxsnSE006. 05210167188. 2)11()(4025. 0kjEnnSsnt 例6 设在第二
15、个例子中,四类电路的响应时间的总体均为正态分布,切割总体的方差相同,但参数未知,并且个样本相互独立。取水平=0.05,检验各类电路的响应时间是否有显著差异。)0,012. 0()006. 0262. 0256. 0()014. 0,026. 0()006. 0262. 0242. 0()008. 0,020. 0()006. 0256. 0242. 0( 解 以1 , 2 , 3 , 4 , 记类型,四种电路的响应时间总体平均值。我们需要检验: H0 :1 = 2 = 3 = 4 , H1 :1 , 2 , 3,4不全相等 由于n=18,s=4,n1 = n2 = n3 =5,n4 =3,46
16、.39598.31818386359)9214194(5144.7141838689922222212.2.1122.2ATEsjjjAsjniijTSSSnTnTSnTXSj 因为F0.05 (3,14)=3.343.76,故在水平0.05下拒绝H0,认为各类型电路的响应时间有显著差异。#方差来源 平方和自由度均方F比因素误差318.98395.46314106.3328253.76总和714.4417一元线性回归一元线性回归本节的内容提纲本节的内容提纲(一)一元线性回归的概念和数学模型(一)一元线性回归的概念和数学模型(二)(二)a、b的估计的估计(三)(三) 2的估计的估计(四)线性假设
17、的显著性检验(四)线性假设的显著性检验(五)系数(五)系数b的置信区间的置信区间(六)回归函数(六)回归函数(x)=a+bx函数值的点估计和置函数值的点估计和置信区间信区间(七)(七)Y的观测值的点预测和预测区间的观测值的点预测和预测区间第三节、一元线性回归第三节、一元线性回归两个变量之间的关系包括:1.确定性关系:能用函数关系表达;2.非确定性关系:就是相关关系。回归分析:研究相关关系的一种数学工具。一、一元线性回归一、一元线性回归回归:设回归:设y是随机变量,若对于是随机变量,若对于x的每一确定值,的每一确定值,y有它的分布。若有它的分布。若y的数学期望存在,且是的数学期望存在,且是x的的
18、函数,记为函数,记为(x),称称(x)为为y关于关于x的回归。的回归。1.预测问题:在给定的置信度下,估计出当x取某一定值时,随机变量y的取值情况;2.控制问题:在给定的置信度下,控制自变量x的取值范围,使y在给定的范围内取值;回归分析的任务回归分析的任务主要是根据试验,估计回归函数,讨论点估计、区间估计、假设检验等问题。设x取值为x1,x2,xn设Y1,Y2,Yn为在x1,x2,xn的观测结果,则称(x1, Y1),(x2, ,Y2),(xn ,Yn )是一个样本。相应的样本值是: (x1, y1),(x2, y2),(xn ,yn )。1.回归函数(x)的估计。在直角坐标系中描出散点图,粗
19、略得出(x) 例1 为研究某一化学反应过程中温度(x,)与产品得率y的影响。得数据如下表: 其散点图如右 从图中可以看出它是一条直线,因此(x) 具有形式(x)=a+bx温度100110120130140150160170180190得率45515461667074788589100120140160180608010040 设Y关于x的回归函数为(x)。利用样本来估计(x)的问题称为求Y关于x的回归问题。 若若(x)是线性函数是线性函数(x)=a+bx,此时的估计问此时的估计问题称为求一元线性回归问题。题称为求一元线性回归问题。 一元线性回归模型:设YN(a+bx, 2 )其中a,b, 2是
20、未知参数,记 = Y-(a+bx),则Y= a+bx + , N(0, 2 ) (1)称上式为一元线性回归模型。称上式为一元线性回归模型。称a+bx为x的线性函数,而 N(0, 2 )是随机误差。二、a、b的估计 取x的n个完全不相同的值x1,x2,xn,作独立试验,得样本 (x1, Y1),(x2, ,Y2),(xn ,Yn ),于是 Y= a+bxi + i , i N(0, 2 );各;各i独立独立 (2) Yi N(a+bxi, 2 ), Y1,Y2,Yn的联合概率密度为 利用最大似然估计法来估计未知参数a、b。令niiiniinibxaybxayL122221)(21exp)21()
21、(21exp21niiibxaybaQ12)(),( 则变为求Q(a,b)的最小值。 令 得方程组: 称这个方程组为正规方程组。0)(20)(211niiiiniiixbxaybQbxayaQniiiniiniiniiniiyxbxaxybxna112111)()()( 正规方程组的系数行列式为 故正规方程组有唯一一组解niininiiiniiniiniixxnxxnxxxn12112212110)()(xbyxnbynaxxnyyxxxxnyxyxnbniiniiniiniiininiiinininiiiii1)()()()(111211122111niiniiynyxnx111,1这里 这
22、时我们把 作为回归函数(x)=ax+b 的估计。称为Y关于x的经验回归函数。 称方程 为经验回归方程,简称回归方程。 也可以把经验回归方程写为 若记xbax)( xbay)(xxbyynininiiiiiniiixyniniiiniiyyniniiiniixxyxnyxyyxxSynyyySxnxxxS1111112212112212)(1)()(1)()(1)( 这时,a,b的估计值是 在例1中,测得温度对产品得率的关系是 为了求回归方程,我们需要计算bxnynaSSbniiniixxxy)1(111温度温度100110120130140150160170180190得率得率45515461
23、667074788589和和xYx 2y 2xy1001101201301401501601701801904551546166707478858910 00012 10014 40016 90019 60022 50025 60028 90032 40036 1002 0252 6012 9163 7214 3564 9005 4766 0847 2257 9214 5005 6106 4807 9309 24010 50011 84012 26015 30016 9101 450673218 50047 225101570 于是得回归直线方程为73935. 248303. 01450101
24、67310148303. 0,39856731450101101570825014501012185002aSSbSSxxxyxyxx于是得xy48303.073935.2根据上表可以计算三、 2的估计根据 Y= a+bx + , N(0, 2 ) (1)即 = Y- ( a + bx); 得到EY ( a+bx)2 = E(2)=D(2)+E()2= 2, 这说明:1.2愈小,用回归函数(x)=ax+b作为Y的近似所导致的均方误差就愈小;用(x)=ax+b研究Y就愈有效;2.因为2是未知的,这就要利用样本来估计2 。 Qe是经验回归函数(x)=ax+b在xi处的函数值 与处的观察值的偏差的平
25、方和。我们来计算Qe为残差平方和称处的残差为,称设:niniiiiieiiiixxixbayyyQxyyxbayyi1122)()(;| iixbax)( xxxyyyniininiiiininiiiiieSbSbSxxbyyxxbyyxxbyyyyQ21221121122)(2)()()(2)()()( 根据: 得Qe的分解式 计算出a,b的估计量是:xxxySSb/xxyyeSbSQxbYxnbYnaxxnYxxxxYyxxbniiniiniiniiiniiniii1)()()()(11121121 若记 残差平方和服从的分布如下: 的数学期望是n-2,由此知 这就得到了2的无偏估计量如下
26、页所示。xYYYeniiixYniiYYSbSQYYxxSYYS, )(,)(112残差平方和为:则) 2(22nQe22nQEe2eQxYx 2y 2xy1001101201301401501601701801904551546166707478858910 00012 10014 40016 90019 60022 50025 60028 90032 40036 1002 0252 6012 9163 7214 3564 9005 4766 0847 2257 9214 5005 6106 4807 9309 24010 50011 84012 26015 30016 910 1 4506
27、73218 50047 225101570 计算下表的和时,要计算三个量: 和和2122xYYYeSbSnnQ2, ba 例3、在上表中求2的无偏估计。 根据上页的表,我们可以得到的无偏估计这就是得222121290. 0823. 7223. 7,48303. 0,39851 .193267310147255)(1nQSbSQbSynySexyyyexyniniiiyy(四)线性假设的显著性检验总结上述的讨论,我们有以下几条:1.Y关于x的回归(x)具有形式:a+bx;2.(x)是否为x的线性函数,要具体问题具体分析;即用专业知识判断,和运用假设检验的方法判断。3.若线性假设Y= a+bx +
28、 , N(0, 2 )成立,则b不为零。因此需要检验假设H0 :b=0,H1 : b0。 可以证明 且可以计算及 在H0为真时,b=0,这时 且有 ,即得H0的拒绝域是),(2xxSbNb)2()2(2222nQne)2()2/()2(/222ntnnSbbxx) 2(|ntSbtxx)2(|2/ntSbtxx0)( bbE几点说明:1.在H0:b=0被拒绝时,认为回归效果是显著的;反之则认为回归效果是不显著的;2.回归效果不显著的原因可能是:1)影响Y取值的,除x和随机误差外,可能还有其他因素;2)E(Y)与x的关系可能不是线性的;3)Y与x可能不存在关系; 例4(续例2)检验回归效果是否显
29、著。=0.05 由上面的讨论,知 故拒绝H0:b=0 ,认为回归效果是显著的。0602.325.46825090. 048303. 0|,3060. 2|0:306. 2)8()2(9 . 0,8250,48303. 002/05. 02/05. 02tSbtbHtntSbxxxx而的拒绝域是得假设查表得 (五)系数系数b的置信区间的置信区间 在回归效果显著时,还要对系数b做区间估计。根据上述讨论,在置信度为1-时,的置信区间是 根据我们的数据,b的置信水平为0.95的置信区间是)2(2/xxSntb50712. 0 ,45894. 0825090. 03060. 248303. 0 (六)回
30、归函数回归函数(x)=a+bx函数值的点估计和函数值的点估计和置信区间置信区间 用经验回归函数 在x0的函数值作为(x0)=a+bx0的点估计。即 相应的估计量 是无偏的。下面求(x0)=a+bx0的区间估计。由于xbaxy)( 000)( xbaxy00 xbaY) 1 , 0()(1)(2000NSxxnbxaYxx即) 2() 2(2222nQne且) 2() 2/() 2()(1)(222000ntnnSxxnbxaYxx则有) 2()(1)(2000ntSxxnbxaYxx 由此可以得到(x0)=a+bx0的置信水平为1-的置信区间为 该置信区间的长度是x0函数,他随 的增加而增加,
31、当 时最短。)(1) 2(202/0 xxSxxnntY)(1)2(202/0 xxSxxnntxba或为|0 xx xx 0(七)Y的观测值的点预测和预测区间的观测值的点预测和预测区间 利用经验回归函数,可以对因变量Y的观测值Y0进行点预测和区间预测。 Y0是在x=x0处的观测结果,他满足Y0= a+bx0 + 0, 0 N(0, 2 )我们利用在x0处的经验回归函数值作为Y0= a+bx0 + 0的点预测。我们用下面的方法进行Y0的区间预测。000)( xbaxy 由于Y0是要做的独立试验的结果,所以他与已经得到的结果Y1,Y2,Yn,相互独立。并由前面的讨论, 是Y1,Y2,Yn的线性组
32、合,所以 是Y1,Y2,Yn的线性组合。由此可以得到 即 在根据前面的讨论,得到b)(00 xxbYY)(11 , 0(2200 xxSxxnNYY) 1 , 0()(112200NSxxnYYxx 即 对于给定的置信水平1-,有) 2() 2/() 2()(11222200ntnnSxxnYYxx) 2()(11200ntSxxnYYxx1) 2()(11|2/200ntSxxnYYPxx 区间即区间 称该区间为Y0的置信水平为1-的预测区间。该区间的长度是x0的函数,他随的 增加而增加。1)(11) 2()(11) 2(202/00202/0 xxxxSxxnntYYSxxnntYP)(1
33、1) 2(202/0 xxSxxnntY)(11) 2( 202/0 xxSxxnntxba|0 xx 例5 续例2,(1)求回归函数(x)在x=125处的值(125)的置信水平为0.95的置信区间,求在x=125处Y的新观测值的置信水平为0.95的预测区间;(2)求在x=x0处Y的新观察值Y0的置信水平为0.95的预测区间。 解 (1)由前面知道可得,3060. 2) 8 (,145, 9 . 0,3985,8250,73935. 2,483. 02/05. 02txSSabxyxx84. 08250)145125(1019 . 0306. 2)(11) 2(,64.57483. 0739.
34、 2|2202/1251250 xxxxSxxnntxYY 得回归函数(x)在x=125处的置信水平为0.95的置信区间为 得回归函数(x)在x=125处的置信水平为0.95的预测区间为 在x=x0处的新观察值Y0的置信水平为0.95的预测区间为84. 0 ,64.5734.2)(11)2(202/xxSxxnnt34. 264.57)(11) 2(|202/0 xxxxSxxnntY 取x0不同的值,得Y的观察值Y0的预测区间为 分别将这些区间的上端点和下端点连接起来,得到两条曲线,L1和L2,而回归直线位于这两条曲线之间。x0Y0的预测区间的预测区间x0Y0的预测区间的预测区间125(57.64 2.34)150(69.72 2.30)130(60.65 2.32)155(72.13 2.31)135(62.47 2.31)160(74.55 2.32)140(64.88 2.30)165(76.96 2.34)145(67.30 2.29)