1、在实际工作中,我们会经常碰到一些互相联系、互相制约的变量,它们之间存在着一定的关系。一般来说,变量之间的关系可分为两类:一类是确定性的函数关系,另一类是非确定性的关系,称为相关关系。对于具有相关关系的变量,虽然不能找到它们之间的确定表达式,但是通过大量的观测数据,可以发现它们之间存在一定的统计规律,数理统计中研究变量之间相关关系的一种有效方法就是回归分析。序言01一元线性回归模型反映Y与X之间关系的最重要的数字特征当然是Y的数学期望与X之间的关系。我们称(x)=E(Y)为Y对x的回归函数。回归分析的一个重要内容就是估计(x),然后利用估计结果作预测和控制。为估计(x),通常是指定n各x的值X1
2、,X2,Xn,做n次独立试验,取得Y的相应观察值y1,y2,yn,再由n对数据(x1,y1),(x2,y2),(xn,yn)来估计(x)。一、矩 估 计 法实际中常先用近似作图法描绘(x)的图形将n对观察数据(xi,yi)(i=1,2,n)看成n个点,并把它们描点在坐标平面xOy上,这种图称为散点图;然后在平面上引一条直线或曲线,使它最好地与这些散点的分布相符合。一直线或曲线就近似地描绘了y=(x)的图形。当然,这是很粗糙的描述方法,回归分析为我们提供了研究回归函数y=(x)的精确统计推算方法。例1 某广告公司为了研究某一类产品的广告费x与其销售额Y之间的关系,对多个厂家进行调查,获得如表所示
3、数据。画出散点图如图所示从图中可以看出,随着广告投入费x的增加,销售额Y基本上也呈上升趋势,图中的点大致分布在一条向右上方延伸的直线附近但各点不完全在一条直线上,这是由于Y还受到其他一些随机因素的影响这样,Y可以看成是由两部分叠加而成的,一部分是x的线性函数a+bx,另一部分是随机因素引起的误差,即Yabx厂家123456789广告费x6102140626290100120销售额Y3158124220229190320406380一般地,假设x与Y之间的相关关系可表示为(9-1)其中a,b为未知常数,为随机误差,是人们不可控制的,且N(0,2),2未知,x与Y的这种关系称为一元线性回归模型Y=
4、a+bx称为回归直线,b称为回归系数,此时YN(a+bx,2)对于(x,y)的样本(x1,y1),(x2,y2),(xn,yn),有Yabx211 2(1)iiiinyabxinN,;,相互独立如果由样本得到式(9-1)中a,b的估计值 ,则称 为拟合直线或经验回归直线,它可作为回归直线的估计 a b,yabx一元线性回归主要解决以下问题:(1)利用样本对未知参数a,b,2进行估计;(2)对回归模型作显著性检验;(3)当x=x0时对Y的取值做预测,即对Y做区间估计。已知变量x,Y的n对试验数据(xi+yi)(i=1,2,n),其中xi不全相同,作偏差平方和(9-2)选择参数a,b的估计 ,使得
5、Q(a,b)达到最小,这种方法称为最小二乘法。21()()niiiQ a byabx,a b,二、参数a,b,2的估计为了求Q(a,b)的最小值,分别求Q(a,b)关于a,b的一阶偏导数,并令它们等于零:(9-3)112()02()0niiiniiiiQyabxaQyabx xb ,整理后得方程组:(9-4)式(9-4)称为正规方程组。112111nniiiinnniiiiiiinabxyaxbxx y,由于xi不全相同,正规方程组的系数行列式2122111211()0ninnniiiinniiiiiiinxnxxnxxxx所以式(9-4)有唯一解,解得a,b的估计值为(9-5)(9-6)其中
6、,1111222111()()()nnnniiiiiiiiiinnniiiiiinx yxyxxyybxxnxx aybx1111nniiiixxyynn,于是,所求的经验回归直线方程(图9-2)为(9-7)yabx若把代入式(9-7),则经验回归直线方程为(9-8)式(9-8)表明,经验回归直线总是过散点图的几何中心。()yyb xx aybx()xy,下面我们来求2的估计,为此,记则称为xi处的残差,平方和(9-9)称为残差平方和。(1 2)iiyabxin,22e11()()nniiiiiiQyyyabxiiyy事实上,残差平方和Qe就是把代入到式(9-2)的结果,因此,a beminQ
7、Q我们用(9-10)作为2的估计值。22e11()22niiiQyabxnn由式(9-8),有22e11222111()()()2()()()()nniiiiiinnniiiiiiiQyyyyb xxyybyyxxbxx即得(9-11)222e11()()()nniiiiQyybxx于是(9-12)2222e1111()()()222nniiiibQyyxxnnn定理定理1(1)(2)22121()niiniixaN anxx,221()niibN bxx,定理定理1(3)(4)分别与分别与独立独立2222(2)nn,a b2例2 设例1中的随机变量Y与可控变量x之间的关系符合式(9-2)所述
8、的条件求Y关于x的经验回归直线方程,并计算2的估计值。解 按题意n=9计算可得992119921191511423652028605 238157 488iiiiiiiiiiixxyyx y,x例2 设例1中的随机变量Y与可控变量x之间的关系符合式(9-2)所述的条件求Y关于x的经验回归直线方程,并计算2的估计值。因而由(9-5),(9-6)两式,得111222119 157 488511 2 0283.179 42365511112 028511 3.1745.2799nnniiiiiiinniiiinx yxybnxxaybxx于是得到经验回归直线方程45.273.17yx例2 设例1中的
9、随机变量Y与可控变量x之间的关系符合式(9-2)所述的条件求Y关于x的经验回归直线方程,并计算2的估计值。利用式(9-12),并注意到2222211112222211111()()1()()nnnniiiiiiiinnnniiiiiiiixxxn xxxnyyyn yyynx于是2222112221()()()22111605 2382 0283.17423655117991996.8nniiiibyyxxnn在以上的讨论中,我们假定Y关于x的回归(x)具有形式a+bx,在处理实际问题时,(x)是否为相等线性函数,首先要根据有关专业知识和实践来判断,其次就是根据实际观察得到的数据运用假设检验的
10、方法来判断这就是说,求得的线性回归方程是否有实用价值,一般来说,需要经过假设检验才能确定若线性假设(9-2)符合实际,则b不应为零,因为若b=0,则E(Y)=(x)就不依赖与x了。三、线性回归的显著性检验因此我们需要假设检验(9-10)0100HbHb:,:1t检验检验法法若H0成立,即b=0,由定理1知,2122e22(0 1)()(2)(2)niibNxxQnn,且 与 独立,因而2212212()()(2)(2)2niniiibxxbTxxt nnnb故为显著水平,即得H0的拒绝域为/2(2)P Ttn2/21|()(2)niibTxxtn2相关系数检验法相关系数检验法取检验统计量通常称
11、R为样本相关系数类似于随机变量间的相关系数,R的取值r反映了自变量x与因变量Y之间的线性相关关系。12211()()()()niiinniiiixx YYRxxYY推出:在显著性水平下,当时拒绝H0。|rr当假设H0:b=0被拒绝时,就认为Y与x存在线性关系,从而认为回归效果显著;若接受H0,则认为Y与x的关系不能用一元线性回归模型来描述,即回归效果不显著,此时,可能有如下几种情形:(1)x对Y没有显著影响;(2)x对Y有显著影响,但这种影响不能用线性相关关系来描述;(3)影响Y取值的,除x外,另有其他不可忽略的因素。例3 检验例2中的回归效果是否显著,取=0.05。解 t检验法:由例2,已知
12、2213.17()133511996.8niibxx,x查表得0.0250.025(2)(7)2.364 6tnt假设H0:b=0的拒绝域为21|()2.364 6niibTxx现在3.17|13 3518.22.364 61996.8T 故拒绝H0:b=0,认为回归效果是显著的。例3 检验例2中的回归效果是否显著,取=0.05。相关系数检验法:经计算 0.95r x查表得0.050.666r因0.05rr易见,t检验法、相关系数检验法都拒绝H0,即回归效果显著。故拒绝H0:b=0,认为回归效果是显著的。当经过检验发现回归效果显著时,通过回归模型可对Y的取值进行预测,即当x=x0时,对Y做区间
13、估计。设当x=x0时Y的取值为y0,有可以取经验回归值作为y0的预测值。20000(0)yabxN,四、预 测000()yabxyb xx可以证明从而可得002021(2)()1 1()niiyyTt nxxnxx/2|(2)1P Ttn 所以,给定置信概率1-,y0的置信区间为其中0000()()yxyx,200/221()1()(2)1()niixxxtnnxx可以看出,在x0处y的置信区间长度为。当时,置信区间的长度最短,估计最精确置信区间愈长,估计的精度愈差。02()x0 xx例4 经检验例2中的回归效果显著当x0=80时,求出Y0的预测区间。(=0.05)解 当x0=80时,y0的预
14、测值为0298.98y xy0的95%的预测区间为(186.77 411.99),02可线性化的非线性回归在实际问题中,常常会遇到这样的情形:散点图上的几个样本数据点明显地不在一条直线附近,而在某曲线周围;或者,用线性回归方程描述变量间的关系其计算的结果与样本值误差较大,这表明变量之间不存在线性相关关系,而是一种非线性的相关关系。遇到类似比较复杂的回归问题,在某些情形下我们可以通过适当的变量变换,将它化成一元线性回归问题来处理。序言(1)(9-14)其中,2是与x无关的未知参数,两边取对数令式(9-14)可转化为一元线性回归模型(9-15)2eln(0)xYN,lnlnlnYxlnlnlnYY
15、ab,2(0)YabxN,(2)(9-16)其中,2是与x无关的未知参数,两边取对数令式(9-16)可转化为一元线性回归模型(9-17)2ln(0)YxN,lnlnlnlnYxlnlnlnlnYYabxx,2(0)YabxN,(2)(9-18)其中,2是与x无关的未知参数令式(9-18)可转化为一元线性回归模型(9-19)2()(0)Yh xN,()abh xx,2(0)YabxN,例1 表是1957年美国旧轿车价格的调查资料,今以x表示轿车的使用年数,Y表示相应的平均价格,求Y关于x的回归方程。解 作散点图如图9-3,看起来Y与x呈指数关系x于是采用模型(9-14),即2eln(0)xYN,
16、使用年数x12345678910平均价格Y(美元)2 651 1 943 1 494 1 087765538484290226204经变量变换后就转化为式(9-15)2(0)YabxN,例1 表是1957年美国旧轿车价格的调查资料,今以x表示轿车的使用年数,Y表示相应的平均价格,求Y关于x的回归方程。经计算得x0.297 688.164585ba,x12345678910y=ln y7.882 77.572 07.309 26.991 26.639 9 6.287 9 6.182 1 5.669 95.420 5 5.318 1从而有8.1645850.297 68yx 可求得20.05/21|()32.3693(8)2.306 0niibtxxt即知线性回归效果是高度显著的,代回原变量,得曲线回归方程0.297 68exp()3514.26exyy总结