1、1第九章 方差分析及回归分析 (续)2一般地,对一个单因素试验,假设因子有s个水平,n个对象参与了试验。假定对应于因子第j个水平的组中有 个试验对象,响应变量数据为jn12,1,2,jjjn jXXXjs,。2(0,),1,2,1,2,ijjijijijjXNinjs单因子方差各独立,分析模型122221122111212122212:,:,:,sssssnnn sA NANANXXXXXXXXX 通常假定3012112:.:,.,ssHH 不全相等。检验假设111 ssjjjjjnnnn记总平均, 其中,1,2,.,jjjAjs水平 的效应1 122.0ssnnn此时有12212.0(0,)
2、,1,2,1,2,模型为:各独立, ijjijijijjssXinnjsnn假设等价于012112:0:,ssHH 不全为零。4 012112012112:,:0:,由此,对 不全相等。(或等价地写为不全为零) ssssHHHH(1)()(1,)AESsFSnsWFF sns检验统计量为;在给定水平 时,检验拒绝域为 AS1AASSsAESSESEESSnsTS方差来源平方和自由度均方F比因素As-1误差n-s总和n-1单因素试验方差分析表5 例1 设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下
3、面的记录:(=0.05)药物x治愈所需天数y15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,66这里药物是因子,共有5个水平,这是一个单因子方差分析问题,要检验的假设是“所有药物的效果都没有差别”。 0123451125:,.,HH 解:检验假设不全相等。(1)()(1,)AESsFSnsWFF sns检验统计量为;在给定水平 时,检验拒绝域为 721234513145125,6,30,1047, .30, .31, .37, .16965.42jnsijjisnnnnnnTXTTTTT方差分析表方差来源平方和自由度均方F
4、比因素A36.466749.1167 3.90误差58.5000252.3334总和94.9667290.050(4,25)2.76FH。拒绝,认为疗效有显著差异。8未知参数的估计221;(2)(3).(4).EjjjjjjSXnsXXX()的估计的估计;的估计;的估计。容易证明,以上估计均为相应参数的无偏估计。220(,)(,)()jkjkjkHNNjk当拒绝时,进一步比较和的差异,可以作的区间估计。211(. ),(. )jkjkjkjkE XXD XXnn因为2.()jkEXXSns且与相互独立。2(. )()(. )()() ()(11)(11)jkjkjkjkEjkEjkXXXXSn
5、st nsnnSnn故2()1.()(11)jkjkEjkXXtnsSnn得的水平为的置信区间9213125321(1,2,3,4,5)0.95jjj 例求例中未知参数的点估计,并求,的置信度为的置信区间。222.33345.63337.5,5,4.3333,5.1667,6.16671.8667,0.6333,1.3,0.4666,0.5334EjjSXns解:的估计; 的估计;的估计分布为:;的估计分布为:0.025(25)2.0595,(11)0.8819EjktSnn查表得1312350.95(1.3504,4.983)(0.6837,4.3163)( 3.6497,0.0171),的
6、置信度为的置信区间分别为:,131235说明 与 , 与,与 的差异都显著。103 一元线性回归分析 确定性关系:确定性关系: 当自变量给定一个值时,就确定应变量的值当自变量给定一个值时,就确定应变量的值与之对应。与之对应。 如:在自由落体中,物体下落的高度如:在自由落体中,物体下落的高度h与下与下落时间落时间t之间有函数关系:之间有函数关系: 21h =g t2变量与变量之间的关系 确定性关系相关关系11例1:人的体重y与身高x之间存在着一定的关系。一般来说,身高越高则体重也越重,但高度相同的人,体重不一定完全相同.例3:消费y 和收入x是有关的,一般来说,收入高的人消费也相对比较高。但同样
7、收入的人,消费不会完全相同. 例2:人的脚掌的长度x与身高y两者也有一定联系,通常脚掌长的人身高也较高,但同样脚掌长度的人身高并不完全相同. 相关关系:相关关系: 12这种变量之间既有关联但又不存在确定性数值对应的相互关系,称为相关关系。 相关关系可以归结为两点:相关关系可以归结为两点:一是变量之间存在着关系;一是变量之间存在着关系;二是这种关系又是非确定的,或者说二是这种关系又是非确定的,或者说只存在统计规律性。只存在统计规律性。回归分析回归分析研究相关关系的最基本,应用研究相关关系的最基本,应用最广泛的方法。最广泛的方法。13Y|X|()()Y XYxYFy xFy xxYx由于 是随机变
8、量,对于 的每个确定值, 有相应的分布,记其分布函数为。因此如果掌握了随着 的取值而变化的规律,也就完全掌握了 与 之间的关系了。(一)一元线性回归现在,我们需要研究两变量x 和Y 之间的相关关系。这里, x (自变量)(自变量)通常是可以控制和可以测量的“普普通通” ” 变量变量,Y (响应变量)(响应变量)的值不能根据x 的值完全确定,而遵循一定的分布而取值遵循一定的分布而取值,是随依赖于x 的一个随机变量。14Yx( )( )( )( )然而这样做,实际中往往很难实现。作为一种近似,往往考察 的数学期望(假设存在),其值随 的取值而定,它是 的函数,将其记为,称为。于是将讨论与 相关关系
9、问题转换为讨关于 的回归函数论与 的关系问题了。YE YxxxYxE Yxx当自变量取确定的x时,若随机变量Y 的期望E(Y)存在,其值与x有关,记为 .回归问题的本质是研究 , 以此来反映Y与X之间的关系,而不是研究Y与X之间的直接关系,这一点应严加区别。( )x( )x15在实际问题中,回归函数(x)一般是未知的,需要根据试验数据去估计。121122,.,( ,)1,2,., ,( ,),(,),.,(,).对于 取定一组不完全相同的值设分别在 处对 作独立观察得到样本,对应的样本观察值niiinnxx xxxYx Yinx yxyxy由此来推断(x),这样的问题称为Y 关于x 的回归问题
10、.1617 描述两个定量变量间关系的一个最直观 的方法是绘制两变量的散点图。散点图 包括横轴和纵轴。横轴(x轴)代表一 个变量,纵轴(y轴)代表另一个变量。 图中的点表示两个变量的一对观测值。 散点图图( ,)( )将每对观察值在直角坐标系中描出它相应的点(称为散点图),可以粗略看出的形式。iix yx1819为了解释散点图,首先要看它的整体轮廓。它的轮廓可以反映出两个变量间关系的方向、线性关系和关系的强弱。散点图的最大优点是它没有丢失任何数据信息并简化了数据,并且易于制作和解释。20正相关、负相关关系:正相关、负相关关系:若两个变量的变化趋向相一致,则称两个变量是正相关;若一个变量有向上的趋
11、向,而另一个变量有向下的趋向,则称这两个变量呈负相关。21 用散点图可显示两个定量变量间关系的方向、线性关系以及关系的强弱程度。如果散点图中的点都在一条直线的附近,则称变量间呈强线性关系;若点较为分散的落在一条直线周围,则称变量间呈弱线性关系散点图有助于粗略了解这两个变量之间的关系。若此关系近似是线性关系,则称此问题为一元线性回归问题。2220,YabxN2a, (,其中, 是随机误差,不可观测。回归系数)为三个未知参数。bxy2从而(,)YN abx x( )( )( )( )并关于 的回归函数称为。那么估计的问题称为求一元线性回归问题。E YabxExYabxx231122,( ,),(,
12、),.,(,),对 的一组不全相同的值 得到样本则nnxx Yx Yx Y2,1,2,., ,0,1,2,.,,相互独立,iiiiYabxinNin24一元线性回归要解决的问题:(1) , a b的估计;2(2)的估计;(3)线性假设的显著性检验;(4)b回归系数 的置信区间;(5)( )xabx回归函数的点估计和置信区间;(6)Y的观察值的点预测和区间预测。25(二)求回归函数的估计,即求a,b的估计 现在的问题是:选择一条直线y = a+bx 去拟合n 个样本点。即求a,b, 使得y =a+bx 最接近于所给出的n 个数据对。 (1) a、 b的计算xy2621i,引入:;其中, 为 取
13、时的样本观测值。niiiiQ a byabxyxx,min,a ba bQ a bQ a b求估计,使。112()02()0.,, niiiniiiiQyabxaQyabx xbxy27112111()(*)()().整理得, nniiiinnniiiiiiinax byx axbx y28112211,1记:nnxyxyaXYBbxy则 (*)式可以写成:(X X)B=X Y-1B=(X X) X Y29121()(.,)()得的最小二乘估计为:,niixyinxxiiayxbxxyySbSxxa b112111(),()().nniiiinnniiiiiiinax byx axbx y21
14、22111211()0ninnniiiinniiiiiiinxnxxnxxxx正规方程系数行列式30 在误差为正态分布假定下,最小二乘估计等价于极大似然估计。2212211,exp2niiniL a bya bx 事实上,似然函数21,niiiL a byabx对最大化等价于对最小化,即最小二乘估计。31,.,/的最小二乘估计: xyxxaayxb bSSb( )给定 ,的估计为:经验回归函数。xxabaxxbx()方程: 关于 的(经验)回归方程,其图形称为回归直线。Yyabxyxb xx3222222221( ,);12 a( ,();1()3 Ya(,();4Cova、(, )。xxxx
15、xxxxbN bSxN anSxxbxN abxnSxbS(2) a、 b的评价331,xyxxxxiiibSSSxx Y证明:因为/,( )性质:分别是的无偏估计,从而。a ba bE Yabx11( )( )()xxiixxiiiiE bSxx E YSxxabx211xxiixxiiibSxx xbSxxb aYxb因为,所以( )( )( )E aE YxE b()abxxba34例2 K.Pearson收集了大量父亲身高与儿子身高的资料。其中十对如下:父亲身高x(吋)60626465666768707274儿子身高y(吋)63.665.2 6665.5 66.9 67.1 67.4
16、68.370.1 70求Y关于x的线性回归方程。35267.01,66.8,44794,44842.4,171.6,79.72.经计算得:iiiixxxyiyxxx ySS,35.9768,0.4646故的最小二乘估计: a bab35.97680.4646 .67.01 0.4646(66.8).yxyx回归方程:或写成:121()(.(),)解 :的 最乘 估 计 为,小 二:niix yinx xiiayx bxxyySbSxxab36备注:“回归一词”是英国统计学家F.Galton 在1886 年研究遗传现象时引进的。他和他的学生英国著名统计学K.Pearson 研究了儿子身高y 与父
17、母亲平均身高x 之间的关系。他们收集了1078 对夫妇与儿子(每对夫妇只取一个成年儿子)的身高数据,并用一条直线描述y 与x 之间的关系:人们通常的看法是,双亲的身体高,其子身体也高;父母亲的身高偏矮,儿子的身高也偏矮。但Galton 的研究发现,如果双亲平均身高属高个类(高于1078 对夫妇平均身高),其子比他们更高的概率就比较小,即儿子以较大的概率比双亲个子矮;反过来,如果双亲平均身高属矮个类,儿子则以较大的概率比双亲个子高。所以平均身高偏高或偏矮的夫妇,其子的身高都有“向中心(父母辈的平均身高)回归”的现象。基于这一事实,Galton 把他们所求出的描述儿子身高与双亲身高关系的直线叫做回
18、归直线。虽然“回归”这一现象并没有普遍性,但人们习惯上一直沿用这个术语。 33.730.516yx37(三)误差方差 的估计 误差方差估计的意义: (a)误差方差的大小对模型的好坏有很大的影响。(b)自变量对因变量影响的大小是同误差对因变量的影响相比较的。(c)如果自变量对因变量的影响不能显著的超过误差对因变量的影响,就很难从这样的模型中提炼出有效的、有足够精度的信息。 222注意到() )( )EyabxE 38222(1),(2)22则.( 是的无偏估计(n2)可以证明)eyyxeyebSQnQQS22111,2, ,(),iiinneiiiiieyyinQeyyQ a b定义:残差,残差
19、平方和i误差 的估计39267.01,44941.93,38.529.iyyiyyS计算得:79.72,0.4646.xySb又已知221.491,(2)0.186.eyyxyeQSbSQn所以,的无偏估计例3: 求例2中误差方差的无偏估计。40(四)线性假设的显著性检验采用最小二乘法估计参数a和b,并不需要事先知道Y与x之间一定具有相关关系,即使是平面图上一堆完全杂乱无章的散点,也可以用公式求出回归方程。因此(x)是否为x的线性函数,一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来判断。4101:0,:0,HbHb即要检验假设若原假设被拒绝,说明回归效果是显著的,否则
20、,若接受原假设,说明Y与x不是线性关系,回归方程无意义。 4201:0:0,检验假设HbHb221222221),),()(2),;(2)(3)(2);(4)xxeeEaEbEbN b SQnnbQ一些基本结果( )(a(b与:独立。4322从而可以得到显著性水平为 的检验拒绝域:。xxbWtStn002检当为真即时,取.验为量之统计xxbSHbtt n44回归效果不显著的原因可能有以下几种:(1)影响Y取值的,除了x,还有其他不可忽略的因素;(2)E(Y)与x的关系不是线性关系,而是其他关系;(3)Y与x不存在关系。补:可转化为一元线性回归的例子4520.4646171.60.186.xxb
21、S由例1,例2知:,例4: 检验例2中回归效果是否显著,取=0.05。0:02.306.xxHbbtS因此假设的检验拒绝域为: 20.025282.306.tnt查表得:00.4646171.614.12.306.0.186:0tHb计算得,故拒绝,认为回归效果是显著的。46212xxbbtnS所以 的置信水平为的置信区间为:.(五)回归系数b的置信区间当回归效果显著时,常需要对回归系数b作区间估计。2.2,取之为枢轴量,其中由于xxebbSt nQn0.950.1860.46462.3060.389, 0.541 .171.6例如:例2中 的置信水平为的置信区间为:b47(六)回归函数(x)
22、 =a+bx函数值的点估计和置信区间0000000 x()Y()()(1)点估计当 时,的点;且这一估计量为的无偏估计量。xxabxxabxx0020022()1()12( )区间估计的置信水平为的置信区间为:xxxabxxxYtnnS0000 x()x讨论当 时,对的注:是 时,Y的期望的估计估计()xxxabx48212000222201(,)(2)(2);xxeeYN abxxxSnQnnYQ注意到:且可以证明 与独立。0021021即得,取之为枢轴量。xxYabxt nxxSn002002()1()12xxxabxxxYtnnS所以,的置信水平为的置信区间为:49(七)Y的观察值的点预
23、测和预测区间0000 xxYYxxYY考虑对指定点处因变量 的观察值 的预测问题。由于在处并未进行观察,或暂时无法观察。经验回归函数的重要应用是,可利用它对因变量 的新观察值进行点预测和区间预测。0 x0目的:对于 时,预测对应的应变量Yx500020000,(0,).YxxYYabxN设 是在处对 的观察结果。则000(1).YYabx的点预测为:020021()121.xxYxxYtnnS(2) 的置信水平为的预测区间为:51012,.,nYY YY证明:因 是将要做的独立试验结果,因此,它与已得到的试验结果相互独立。001200,.,nYYb xxY YYYY又是的线性组合,故 与 相互
24、独立。202200001(,),(,).xxxxYN abxYN abxnS202001(0,),xxxxYYNnS所以,220022(2)(2);eeQnnYYQ又且 , ,相互独立。2020021(2)(2) 21xxxxnSYYnnt n于是,5200 xxxx注1,这一预测区间的长度随的增加而增加,当时最短。0020 xx21 1即,YYt nxxnS020021()121.xxYxxYtnnS所以, 的置信水平为的预测区间为:000000002()()xYYabxxabx注 ,在相同的置信水平下,的置信区间要比的预测区间短。这是因为比多了一项 的缘故。53注:在预测时, 一定要落在已
25、有的 的数据范围内部,否则预测常常没有意义。 0 xx54例5,在例1中F.Galton曾断言“儿子身高会受到父亲身高的影响,但身高偏离父代平均水平的父亲,其儿子身高的影响有回归到子代平均水平的趋势。”试问例1这组数据能证实这一论断吗(=0.05)?并给出x=69吋时,y的预测区间。(1)回归到平均水平的趋势,即检验 01:1,:1HbHb2xxbbSt n因为,235.9768,0.4646171.60.18666.8.xxabSx解:由例1,例2知:,0112xxbHbtSt n所以,当为真即时,55 0.05081ttHb =-1.8595,拒绝,认为。10.4646 1171.616.
26、23170.186xxbtS 经计算,12xxbtStn 从而水平 的检验拒绝域:。00026968.03xyabx( )当时,(69)67.674,68.386 .所以,的置信水平为0.95的置信区间为:22(69 66.8)01210171.6()122.3060.1860.356xxxxtnnS2000()12690.9566.974, 69.086 .211.056.xxxxnSxYtn(3)时, 的置信水平为的预测区间为:其中56例6 合金钢的强度y与钢材中碳的含量x有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解y与x之间的关系。其中x:碳含
27、量() y:钢的强度(kg/mm2)数据见下:x0.030.040.050.070.090.100.120.150.170.20y40.539.541.041.543.042.045.047.553.056.0(1)画出散点图;(2)设(x)=a+bx,求a,b的估计;(3)求误差方差的估计,画出残差图;(4)检验回归系数b是否为零(取=0.05);(5)求回归系数b的95置信区间;(6)求在x=0.06点,回归函数的点估计和95置信区间;(7)求在x=0.06点,Y的点预测和95区间预测。 57 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.1956 5
28、4 52 50 48 46 44 42 40 38 (1)合金钢的强度y与钢材中碳的含量x的散点图582449,1.02,0.1338,48.555,0.02976,2.757.(2)计算得:iiiiiiiixxxyiyxxx ySS,35.4506,92.6411得的最小二乘估计: a bab35.450692.6411 .44.992.6411(0.102).yxyx回归方程:或写成:121()(),.()的 最 小 二 乘 估 计,为 :niix yinx xiiayx bxxyySbSxaxb592449,20443,282.9.iiyyiiyyS(3)计算得:2.757,92.641
29、1.xySb又已知2227.4884,(2)3.436.所以,的无偏估计eyyxyeQSbSQn 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.1960 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.1956 54 52 50 48 46 44 42 40 38 合金钢的强度y与钢材中碳的含量x的回归直线图61295267.8629, 117.4193xxbbtnS(5)回归系数 的置信水平的置信区间:.012(4):0,:02xxHbHbbtStn检验假设的显著性水平为 的检验拒绝域:。 0.02592.64110.
30、029768.621782.306,3.436tt经计算拒绝原假设,认为合金钢强度与炭含量的回归效果显著。6200060.0641.0091xyabx( )当时,(0.06)39.303,42.715 .所以,的0.95的置信区间为:22(0.06 0.102)012100.02976()122.3063.4361.706xxxxtnnS2000()120.060.9536.407, 45.611 .214.602.xxxxnSxYtn(7)时, 的置信水平为的预测区间为:其中63(八)可化为一元线性回归的例子 实际中常会遇到很复杂的回归问题,但在某些情况下,通过适当的变量变换,可将其化为一元
31、线性回归来处理。下面是三种常见的可转化为一元线性回归的模型。 22(1), ln(0,),xYeN 其中为未知参数。2,lnlnln,ln,ln,ln,(0,)xYeYxYYabYabxN 将两边取对数令即可转化为一元线性回归模型:。64结果为: 22(2), ln(0,),YxN 其中为未知参数。2,lnlnlnln,ln,ln,ln,ln,(0,)YxYxYYabxxYabxN 将两边取对数令即可转化为一元线性回归模型:。22(3)( ),(0,),Yh xN 其中为未知参数。2( ), ( ),(0,)h xxab h xxYabxN 这里是 的已知函数,令即可转化为一元线性回归模型:。
32、654 多元线性回归 在实际问题中,影响Y(因变量)的因素(自变量)往往不止一个,设有 12,px xxp共 个.pY建立这 个因素与 的依赖关系将具有更广泛的应用价值.1212121212,( ),pppppx xxYE Yx xxx xxx xxx xx设对于自变量的一组确定值,随机变量有它的分布。若存在,则它是的函数,记为()。这里讨论的是()是的线性函数的情况。6612,1,2, .iiipin npxxxyin设进行次独立观测得到样本0112221201.,0,1,2,., .,iiipipinpybb xb xb xNinb bb 即有独立同要求的最小二乘估计。201 122201
33、2,0,pppYbb xb xb xNb b bb 即,多元线性回归模型:其中都是未知参数。6720111niipipiQybb xb x令012 ,.,.pb b bbQ要求使得 达到最小01110011120201,2,., .niipipiniipipijijQybb xb xbQybb xb xxjp 012,.,pQb b bb求 分别关于的偏导数 并令它们等于零。680111112011111111120111111.nnnipipiiiinnnniipiipiiiiiinnnnipipipipipiiiiinbbxbxybxbxbx xx ybxbx xbxx y化简得:称为正规
34、方程。691011121212111,1ppnppnnxbxyxbxyXYBxbxy引入矩阵:,11111211221121111111pnpppnpnpnxxxxxxxX Xxxxxx因为1211121iipiiiiiipiiiipipiipiiixxnxxx xxx xx701111211212111iiiinippnpnipiiyyx yxxxyX Yxxxyx y TTX XBX Y于是正规方程的矩阵形式为,1X XBBX XX Y设可逆,则 的最小二乘估计为:01 1.ppybb xb xp 元回归方程。71例6 某公司在各地区销售一种特殊化妆品。该公司观测了15 个城市在某月内对该
35、化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2,得到数据如下: 表1.1.2 化妆品销售的调查数据 地区i销售(箱)Yi人数(千人)Xi1人均收入(元)Xi2116227424502120180325432233753802413120528385678623476169265378278198300872地区i销售(箱)Yi人数(千人)Xi1人均收入 (元)Xi281923302450911619521371055532560112524304020122323724427131442362660141031572088152123702605化妆品销售的调查数据(续) 7
36、320,N12假设误差服从正态分布试建立Y与X,X之间的线性回归方程。201 122,(0,)Ybb xb xN 选取模型:11622741120180.11031571212370X24503254.20882605Y012bBbb44428709661911419181X Y 1522593626225939410764710736266471071067614X X7413.45260.49600.0092BX XX Y正规方程的解:123.45260.49600.0092 .yxx于是回归方程为:由回归方程可知,若固定人均收入不变,则人数每增加1千人,销售量增加0.496箱;若固定人数不变,收入每增加1元,销售量增加0.0092箱。 多元线性回归也可以像一元线性回归一样,检验模型的回归效果是否显著。所不同的是,在模型的回归效果显著的情况下,还要检验每个自变量对因变量的效应是否显著,不显著就要剔除,通常用逐步回归法可以使回归方程变得简洁、明确、显著。在此基础上可以对给定点处对应的Y进行点预测和区间预测。所有这些都可以通过SAS软件实现。2022-6-21课件结束!