1、(a)(b)(c)(d)(e)(f)图5-1 相关关系示意图12211()()()()niixyinnxxyyiiiiXX YYlrllXXYY2222111()nnnxxiiiiiilxXXXn X 2222111()nnnyyiiiiiilyYYYn Y111()()nnnxyiiiiiiiiilx yXX YYX YnXY12211()()5620.45620.40.98785690.04557831.64134.1()()niiinniiiiXX YYrXXYY01iiiYbb X10,bbiiXbbY10其中的估计值为总体回归参数1010,bbbb其随机误差形式随机误差形式为iiii
2、ieXbbeYY10YX总体回归方程样本回归方程10,bb2ie21022)()(iiiiiXbbYYYe由于 2ie是10,bb的二次函数,非负且连续可微,要使残差平方和最小即求其极值,分别用2ie对10,bb求偏导数,并令偏导数为020102()0iiieYbb Xb 20112()()0iiiieYbb XXb(5.2.1)(5.2.2)iiiXbnbXbbY1010)(210iiiiXbXbXY(5.2.3)(5.2.4)求解方程组(5.2.3)(5.2.4)iXn公式公式有210)(iiiiXbXnbYX210iiiiXnbXnbXYn 221)(iiiiiiXXnYXYXnb 22
3、)(nXnXnnYXnYXiiiiii22)(XnXYXnYXiii令YYyXXxiiii,221)()(iiiiiixyxXXYYXXbXbYb10斜率系数的离差形式112215620.470.71777831.6niiiniiX YnXYXn X0143.70.717766.20.2089YX 010.20870.7177iiiYXX 可以分解为两个部分YYyii)()(YYYYYYiiii之差与拟合值观测值是残差部分,度量实际其中iiiiYYYYe之差,来自回归部分和观测值均值度量回归拟合值YYYYyiiiiiiyey(5.2.3.1)(5.2.3.2)将公式(5.3.2.1)两边平方后
4、再求和,有)(2)()()(222YYYYYYYYYYiiiiiii)()(2)()()(222YYYYYYYYYYiiiiiiiiiiiiiiiieYXebebYXbbeYYYY1010)()(其中 由线性回归模型的基本假定可知0,0iiiXee0)(YYYYiii因此有222)()()(YYYYYYiiii(5.2.3.3)上式用文字表示即为:TSS(总离差平方和)RSS(残差平方和)ESS(回归平方和)TSS-Total Sum of SquareRSS-Residual Sum of SquareESS-Explained Sum of Square 从等式中可以看出,如果回归平方和E
5、SS在总离差TSS平方和中占的比重越大,残差平方和RSS就越小,那么模型的拟合误差就越好,样本回归方程就越接近总体回归方程22)(YYyTSSii22)(iiiYYeRSS22)(YYyESSii为此提出拟合系数(判定系数)22222221)(1)()(iiiiiiyeYYeYYYYR总离差平方和回归平方和拟合系数具有下面两个性质:0.12R非负性,即动能完全解释因变量的变说明自变量若XRR,1,10.222在线性关系之间完全不拟合,不存和说明若YXR,02根据例5-1和例5-3的相关计算结果,求得回归平方和 22221110.71777831.64034.0046nniiiiyx221214
6、034.00460.97574134.1niiniiyRy是否显著不为零10,bb为此提出假设01:0,:00,1iiHbHbi原假设备择假设在前面已经推导过回归参数服从概率分布),(),(2221122200iiiixXbNbxnXbNb从而可以构造统计量(0,1)()iiibbZNb检验原理 但是由于总体方差和标准差未知,因此只能用其估计量进行代替,此时Z不再服从正态分布,而是服从t分布)2()(ntbsebbtiii0:),2(02ibHntt拒绝原假设若01:0,:0iiHbHb)2()(ntbsebbtiiiI.对总体参数提出假设II.对原假设构造统计量III.给定显著性水平,查自由
7、度为n-2的t分布表,得到临界值)2(2nt0:),2(02ibHntt接受原假设若)2(2nt2(2)tn拒绝域拒绝域接受域 222111122114134.14034.00460.04011027831.622nnniiiiiinniiiieyysenxnx1110.717717.91130.0401tse 10.02517.911382.306tt拒绝原假设,表明居民消费支出和居民可支配收入之间的线性关系显著。对于一元线性回归模型 iiXbbY10 给定样本以外的解释变量的观测值X0,可以得到被解释变量的点预测值0 0,可以此作为其条件均值条件均值E(Y|X=X0)或个别值个别值Y0的一
8、个近似估计。0010Ybb X点预测值 0 0是条件均值是条件均值E(Y|X=X0)无偏估计无偏估计 0 0是个值是个值Y0的一个无偏估计的一个无偏估计在1-的置信度下,总体均值总体均值E(Y|X0)的置信区间为的置信区间为 2002212iXXYtnnx在1-的置信度下,Y0的置信区间的置信区间为 20022121iXXYtnnx例5.2的一元线性回归模型为 2.2.总体均值总体均值95%的预测区间为:010.20870.7177 12085.9153iiYX 1.点预测:223.54582ien总体随机误差项方差估计值22002212066.211185.91532.306 3.54581
9、07831.685.91535.6031iXXYtnnx3.总体个体值个体值95%的置信区间为:20022111iXXYtnnx212066.2185.91532.306 3.5458185.91539.3889107831.6 01122iiikkiiYbb Xb Xb X自变量,自变量,其中,kiXXXY21,偏斜率系数kbbb,21从模型中可以看出,多元线性回归模型实际上也是由两个部分组成1 系统部分或确定部分系统部分或确定部分2 非系统部分或随机部分非系统部分或随机部分01122iikkibb Xb Xb Xi1215 1.20.8iiiYXX例:设有一个二元线性回归模型1211.21
10、.2ibXXY 表明保持不变时,每增加一个单位,将相应减少个单位2120.80.8ibXXY表明在保持不变时,每增加一个单位,将相应增加个单位22201122()()iiiiiikkieYYYbb Xb Xb X201102()0iiikkieYbb Xb Xb 2011112()()0iiikkiieYbb Xb XXb 20112()()0iiikkikikeYbb Xb XXb 2ieeeYXYX 21niieYXYXYXYX2Y YX YY XX XY YX YX X220X YX X X XX Y从而有:1X XX Y20ie要使得最小,要求残差平方和对 的偏导数为1X X如果存在,
11、解得01122iiikkiYnbbXbXbX2101112121iiiiiikikiY XbXbXbX XbX X2202121222iiiiiikikiY XbXbX XbXbX X201122ikikikiikiikkiY XbXbX XbX XbX121nnYYYY1112121222121111kknnnknkXXXXXXXXXX011 1kkbbbb TTX YX X b联立方程表示为:1TTbX XX Y则参数估计值的矩阵表示为:定义下列矩阵:定义下列矩阵:2R222221iiiiyeyyTSSESSR0:),1(02ibHkntt拒绝原假设若0:,0:10iibHbH)1()(k
12、ntbsebbtiii对总体参数提出假设对原假设构造统计量给定显著性水平,查自由度为n-2的t分布表,得到临界值)1(2knt0:),1(02ibHkntt接受原假设若0121:0,:(1,2,)0kiHbbbHb ik不全为提出假设建立方差分析表)1,()1/(/)1/(/22knkFknekyknRSSkESSFii建立F统计量ANOVA(Analysis of Variance)给定显著性水平查F分布表,得临界值)1,(knkF(,1),FF k nk若拒绝原假设,总体回归效果显著)1,(knkF拒绝域拒绝域效果不显著接受原假设,总体回归,1,knkFF日均销售额Y超市经营面积1X超市与
13、居民小区的距离2X30,700,50021iiiXXY114,52150,3056022212iiiXXY2125,1205,370502121iiiiiiXXXYXY经过计算,有56505010305602222YnYyii3150701052150)(2212121XnXxii24310114)(2222222XnXxii205050701037050111YXnYXyx295503101205222YXnYXyx25370102125212121XXnXXxx754585.074975565752524315025)295(242050)(222122212122211iiiiiiiii
14、iixxxxxxxyxxyb078.1374975980500252431502520503150)295()(222122212112122iiiiiiiiiiixxxxxxxyxxyb4121.363)078.13(707576.05022110XbXbYb210777.137546.04121.36XXYi1817.2455650)9566.01()1(222iiyRe0260.3571817.245322nei0112.00260.357497524)()(22212221221iiiiixxxxxbVar4716.10260.35749753150)()(22212221212iii
15、iixxxxxbVar1263.71059.07546.0)()(111bsebbt7805.102131.10777.13)()(222bsebbt查t分布表,得到临界值365.2)7(025.0t10.02520.025()(7),()(7)t btt bt 有两个自变量都通过了参数的显著性检验9566.056502950777.1320507846.0222112iyyxbyxbR9442.0)9566.01(791)1(11122RknnR8183.54041817.2455650222iiieyyRSSTSSESS1545.771817.2458183.540427)1/(/knRSSkESSF74.4)7,2(05.0F给定显著性水平05.0查F分布表,得效果显著;拒绝原假设,总体回归有),7,2(05.0FF 1817.2455650)9566.01()1(222iiyRe