1、第12章 多元回归分析和曲线回归12.1、多元线性回归模型12.2、离散程度的测定12.3、数据分布的形态12.1 多元线性回归模型12.1.1多元回归模型的基本定义1.模型的数学形式kkXXXY.221102.模型的基本假定假定1:随机误差项的概率分布具有0均值。假定2:随机误差项的概率分布对于自变量的不同表现值而言,具有同方差。假定3:随机误差项 不存在自相关,即 服从正态分布。假定4:与任一解释变量 不相关。假定5:解释变量 之间不存在完全多重共线性。总体回归方程总体回归方程样本回归方程样本回归方程kkkXXXXXXYE.).,|(2211021kkXXXY.2211012.1.2多元线
2、性回归方程的估计2221102)._()(kkiiiXXXYYYQ0)(.(/.0)(.(/0)1)(.(/221101221101221100kkkikkkikkiXXXXYQXXXXYQXXXYQ例12.1在锅炉安装工程中,锅炉的安装所需工时(Y,单位:小时)往往受到锅炉容量(X1,单位:kg/小时)和设计压力(X2,单位:kPa)的影响。如果能够比较准确分析这一关系,则可以帮助锅炉制造商合理安排生产计划,决定雇佣生产工人的规模等等。下面是制造商根据历史搜集的30个锅炉安装相关数据,试建立所需工时和锅炉容量和设计压力的回归方程,并解释个回归系数的意义。解:运用EXCEL中回归分析工具214
3、62.0008.0118.1653XXY12.1.3假定5的进一步解释多重共线性0.22110kkXcXcXcc22110XXY1211200011211022110)()()(XcccXcXXXY121120021111211)()()(XcYcXXXXYYc12.2多元回归模型的假设检验12.2.1拟合优度检验调整的多重判定系数调整的多重判定系数22)(iiiYYeRSS2)(YYESSi2)(YYTSSiTSSRSSTSSESSR1211)1(122knnRRa12.2.2估计标准误差MSRknRSSknYYse11)(212.2.3 F检验第一步,提出原假设和备择假设。H0:1=2=.
4、k (整体对Y没有解释能力)H1:1、2、.、k 不全为0 (整体对Y有解释能力)第二步,构造F统计量。F统计量是将可解释的方差与剩余随机方差作比较,因此也叫做方差分析。)1,()1/(/knkFknRSSkESSF第三步,将F统计量与临界值Fa(k,n-k)作比较,进行决策。若FFa(k,n-k),则拒绝原假设。否则,不能拒绝原假设。12.2.4回归系数显著性检验第一步:构造原假设和备择假设H0:i=0H1:i0第二步:构造t统计量第三步,将t统计量数值和给定的显著性水平下的临界值比较做决策。若|t|ta/2(n-k-1),拒绝原假设。)1(kntstii22XnXssiei12.2.5多重
5、共线性对方程回归估计的影响1、多重共线性的识别方法1:计算自变量之间的简单相关系数。方法2:F检验显著而t检验几乎所有变量不显著。方法3:模型回归的结果,尤其是回归系数的正负号与理论或者常识的的判断不一致。2、多重共线性的处理12.3引进虚拟变量的回归分析和曲线回归12.3.1 虚拟变量模型:加法模型乘法模型3322110)(XXXYE1)()(0)(3221130322110XXXYEXXXYE31322110)(XXXXYE1)()(0)(3221310322110XXXYEXXXYE12.3.2 虚拟变量模型估计锅炉容量(X1)、设计压力(X2)、锅炉类型(X3)和炉筒类型(X4)引入回归模型,结果:4321496.2105362.40227.0008.0286.498XXXXY12.3.3虚拟变量的表示方式只有2个分类,可以用一个0-1虚拟变量表示。如果一个变量有三个或三个以上分类时,就需要多个变量表示。如果一个变量有m个分类,则必须用m-1个0-1变量表示,比如企业所有制性质有四个分类:国有、民营、外商投资、港澳台投资。这是可以用三个0-1变量:12.3.4曲线回归