1、2.4 一元线性回归分析的应用:预一元线性回归分析的应用:预 测问题测问题 一、一、0 0是条件均值是条件均值E(Y|X=X0)或个值或个值Y0的的 一个无偏估计一个无偏估计 二、总体条件均值与个值预测值的置信区二、总体条件均值与个值预测值的置信区 间间 对于一元线性回归模型 ii XY 10 给定样本以外的解释变量的观测值X0,可以得到 被解释变量的预测值0 0 ,可以此作为其条件均条件均 值值E(Y|X=X0)或个别值个别值Y0的一个近似估计。 注意:注意: 严格地说,这只是被解释变量的预测值的 估计值,而不是预测值。 原因:(1)参数估计量不确定; (2)随机项的影响 一、一、0 0是条
2、件均值是条件均值E(Y|X=X0)或个值或个值Y0 的一个无偏估计的一个无偏估计 对总体回归函数总体回归函数E(Y|X=X0)=0+1X,X=X0时 E(Y|X=X0)=0+1X0 0100 XY 于是 0101000100 ) () () () (XEXEXEYE 可见,可见,0是条件均值是条件均值E(Y|X=X0)的无偏估计。的无偏估计。 对总体回归模型总体回归模型Y=0+1X+,当X=X0时 0100 XY 于是 0100100100 )()()(XEXXEYE 0101000100 ) () () () (XEXEXEYE 二、总体条件均值与个值预测值的置信二、总体条件均值与个值预测值
3、的置信 区间区间 1、总体均值预测值的置信区间、总体均值预测值的置信区间 由于 0100 XY ),( 2 2 11 i x N ),( 2 2 2 00 i i xn X N 于是 0101000 ) () () (XEXEYE ) () , (2) () ( 1 2 010000 VarXCovXVarYVar 可以证明 22 10 /) , ( i xXCov 因此 2 22 0 2 2 0 2 22 0 2 ) ( iii i x X x XX xn X YVar 2 00 2 22 2 2 2XXXX n XnX x i i )( 2 0 2 2 2 XX n x x i i ) )
4、(1 ( 2 2 02 i x XX n 故 ) )(1 (,( 2 2 02 0100 i x XX n XNY )2( )( 0 0100 nt S XY t Y ) )(1 ( 2 2 02 0 i Y x XX n S其中 于是,在1-的置信度下,总体均值总体均值E(Y|X0)的置信区间为的置信区间为 0 2 0 2 000 )|( YY StYXYEStY 2、总体个值预测值的预测区间、总体个值预测值的预测区间 由 Y0=0+1X0+ 知: ),( 2 0100 XNY 于是 ) )(1 1 (, 0( 2 2 02 00 i x XX n NYY )2( 00 00 nt S YY
5、 t YY 式中 : ) )(1 1 ( 2 2 02 00 i YY x XX n S 从而在1-的置信度下, Y0的置信区间的置信区间为 00 2 0 2 00 0 0 YYYY StYYStY 在上述收入收入-消费支出消费支出例中,得到的样本回归函数为 ii XY777. 0172.103 则在 X0=1000处, 0 = 103.172+0.7771000=673.84 29.3727 7425000 )21501000( 10 1 13402) ( 2 0 YVar 而 05.61) ( 0 YS 因此,总体均值总体均值E(Y|X=1000)的95%的置信区间为: 673.84-2.
6、30661.05 E(Y|X=1000) 673.84+2.30661.05 或 (533.05, 814.62) 同样地,对于Y在X=1000的个体值个体值,其95%的置信区间为: 673.84 - 2.30661.05Yx=1000 673.84 + 2.30661.05 或 (372.03, 975.65) 总体回归函数的置信带(域)置信带(域)(confidence band) 个体的置信带(域)置信带(域) 对于Y的总体均值E(Y|X)与个体值的预测区 间(置信区间): (1)样本容量n越大,预测精度越高,反之 预测精度越低; (2)样本容量一定时,置信带的宽度当在X 均值处最小,其附近进行预测(插值预测) 精度越大;X越远离其均值,置信带越宽, 预测可信度下降。