1、1 回归分析概述回归分析概述2 线性回归模型线性回归模型3 回归方程的统计检验回归方程的统计检验4 多元回归分析中的其他问题多元回归分析中的其他问题5 应用举例应用举例1 线性回归分析概述线性回归分析概述能否找到一个线性组合来说明一组自变量和能否找到一个线性组合来说明一组自变量和因变量的关系因变量的关系.如如果能的话,这种关系的强度果能的话,这种关系的强度有多大,也就是利用自变量的线性组合来预有多大,也就是利用自变量的线性组合来预测因变量的能力有多强测因变量的能力有多强.整体解释能力是否具有统计上的显著性整体解释能力是否具有统计上的显著性在整体解释能力显著的情况下,哪些自变量在整体解释能力显著
2、的情况下,哪些自变量有显著意义有显著意义确定回归方程中的解释变量(自变量)确定回归方程中的解释变量(自变量)和被解释变量(因变量)和被解释变量(因变量)确定回归方程确定回归方程对回归方程进行各种检验对回归方程进行各种检验利用回归方程进行预测利用回归方程进行预测回归分析的一般步骤回归分析的一般步骤一元线性回归模型的数学模型一元线性回归模型的数学模型: 其中其中x为自变量;为自变量;y为因变量;为因变量; 为截距,为截距,即常量;即常量; 为回归系数,表明自变量对因为回归系数,表明自变量对因变量的影响程度。变量的影响程度。2 线性回归模型线性回归模型xy1001 用最小二乘法求解方程中的两个参数,
3、得到用最小二乘法求解方程中的两个参数,得到21)()(xxyyxxiiixby 0多元线性回归模型多元线性回归模型多元线性回归方程:多元线性回归方程: y=0+1x1+2x2+.+kxk 其中其中,1、2、k为偏回归系数。为偏回归系数。 1表示在其他自变量保持不变的情况下,自表示在其他自变量保持不变的情况下,自变量变量x1变动一个单位所引起的因变量变动一个单位所引起的因变量y的平均变动。的平均变动。l 回归方程的拟合优度回归方程的拟合优度回归直线与各观测点的接近程度称为回归方程的拟合优度,回归直线与各观测点的接近程度称为回归方程的拟合优度,即样本观测值聚集在回归线周围的紧密程度即样本观测值聚集
4、在回归线周围的紧密程度 。1)离差平方和的分解:)离差平方和的分解: 建立直线回归方程可知:建立直线回归方程可知:y的观测值的总变动可由的观测值的总变动可由 来反映,称为来反映,称为总变差总变差。引起总变差的原。引起总变差的原因有两个:因有两个:(a)由于由于x的取值不同,使得与的取值不同,使得与x有线性关有线性关系的系的y值不同;值不同;(b)随机因素的影响。随机因素的影响。2)( yy3 线性回归方程的统计检验线性回归方程的统计检验总离差平方和可分解为总离差平方和可分解为222yyyyyy 即:总离差平方和即:总离差平方和(SST)=剩余离差平方和剩余离差平方和(SSE) +回归离差平方和
5、回归离差平方和(SSR) 其中;其中;SSR是由是由x和和y的直线回归关系引起的,可的直线回归关系引起的,可以由回归直线做出解释;以由回归直线做出解释;SSE是除了是除了x对对y的线性影的线性影响之外的随机因素所引起的响之外的随机因素所引起的Y的变动,是回归直线所的变动,是回归直线所不能解释的。不能解释的。可决系数可决系数(判定系数、决定系数判定系数、决定系数) 回归平方和在总离差平方和中所占的比例可以回归平方和在总离差平方和中所占的比例可以作为一个统计指标,用来衡量作为一个统计指标,用来衡量X与与Y 的关系密切程的关系密切程度以及回归直线的代表性好坏,称为可决系数。度以及回归直线的代表性好坏
6、,称为可决系数。对于一元线性回归方程:对于一元线性回归方程:22222211yyyyyyyyRSSTSSESSTSSESSTSSTSSRR 在多元线性回归分析中,调整的判定系数比判在多元线性回归分析中,调整的判定系数比判定系数更能准确的反映回归方程的拟合优度。定系数更能准确的反映回归方程的拟合优度。221/11/1S S ERS S TS S EnpRS S Tn回归方程的显著性检验是要检验被解释变量与所有的回归方程的显著性检验是要检验被解释变量与所有的解释变量之间的线性关系是否显著。解释变量之间的线性关系是否显著。对于一元线性回归方程,检验统计量为:对于一元线性回归方程,检验统计量为:对于多
7、元线性回归方程,检验统计量为:对于多元线性回归方程,检验统计量为:l 回归方程的显著性检验回归方程的显著性检验(F检验检验)),(21)2/() (1/)()2/(1/22nFnyyyynSSESSRF),(1p) 1/() (/)() 1/(/22pnFpnyypyypnSSEpSSRFl 回归系数的显著性检验回归系数的显著性检验(T检验检验)2)()2()(221nyySntxxtiiyi其中,回归系数的显著性检验是要检验回归方程中被解释变回归系数的显著性检验是要检验回归方程中被解释变量与每一个解释变量之间的线性关系是否显著。量与每一个解释变量之间的线性关系是否显著。对于一元线性回归方程,
8、对于一元线性回归方程,检验统计量为:检验统计量为: 对于多元线性回归方程,对于多元线性回归方程,检验统计量为:检验统计量为:1)() 1()(22pnyySpntxxtiiyiijii其中,注:注:多元回归分析中,变量的筛选一般有向前筛选、多元回归分析中,变量的筛选一般有向前筛选、向后筛选、逐步筛选三种基本策略。向后筛选、逐步筛选三种基本策略。 向前向前筛选策略:解释变量不断进入回归方程的过筛选策略:解释变量不断进入回归方程的过程。首先,选择与被解释变量具有最高线性相关程。首先,选择与被解释变量具有最高线性相关系数的变量进入方程,并进行回归方程的各种检系数的变量进入方程,并进行回归方程的各种检
9、验;然后,在剩余的变量中寻找与被解释变量偏验;然后,在剩余的变量中寻找与被解释变量偏相关系数最高且通过检验的变量进入回归方程,相关系数最高且通过检验的变量进入回归方程,并对新建立的回归方程进行各种检验;这个过程并对新建立的回归方程进行各种检验;这个过程一直重复,直到再也没有可进入方程的变量为止。一直重复,直到再也没有可进入方程的变量为止。 向后向后筛选策略:变量不断剔除出回归方程的过程。筛选策略:变量不断剔除出回归方程的过程。首先,所有变量全部引入回归方程,并对回归方首先,所有变量全部引入回归方程,并对回归方程进行各种检验;然后,在回归系数显著性检验程进行各种检验;然后,在回归系数显著性检验不
10、显著的一个或多个变量中,不显著的一个或多个变量中, 剔除剔除t检验值最小的变量,并重新建立回归方程和检验值最小的变量,并重新建立回归方程和进行各种检验;如果新建回归方程中所有变量的进行各种检验;如果新建回归方程中所有变量的回归系数检验都显著,则回归方程建立结束。否回归系数检验都显著,则回归方程建立结束。否则按上述方法再一次剔除最不显著的变量,直到则按上述方法再一次剔除最不显著的变量,直到再也没有可剔除的变量为止。再也没有可剔除的变量为止。 逐步逐步筛选策略:在向前筛选策略的基础上结合向筛选策略:在向前筛选策略的基础上结合向后筛选策略,在每个变量进入方程后再次判断是后筛选策略,在每个变量进入方程
11、后再次判断是否存在应该剔除出方程的变量。因此,逐步筛选否存在应该剔除出方程的变量。因此,逐步筛选策略在引入变量的每一个阶段都提供了再剔除不策略在引入变量的每一个阶段都提供了再剔除不显著变量的机会。显著变量的机会。 为研究体重和体内脂肪比重对腰围的影响,为研究体重和体内脂肪比重对腰围的影响,随机收集了随机收集了20个观测数据。先利用一般线性回归个观测数据。先利用一般线性回归分析方法进行研究。这里,被解释遍变量为腰围,分析方法进行研究。这里,被解释遍变量为腰围,解释变量为体重和脂肪比重。解释变量为体重和脂肪比重。 (“腰围和体重腰围和体重”sav)5.5.应用应用举例举例 这里直接采用逐步策略。这里直接采用逐步策略。实验练习1.先收集到若干粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据,请利用多元线性回归分析,说明谁是影响粮食总产量的主要因素。( “粮食总产量”.sav) 2.在其他条件不变的情况下,某种商品的需求量y与该商品的价格x有关,现得到一组数据。 请拟合需求量对价格的回归直线,并预测价格为15元时的需求量。x10689121110127y607270565557535410