1、SPSSSPSS回归分析回归分析小组成员:小组成员: 李标李标 祝斌祝斌 宋金泽宋金泽 周益丰周益丰 贾汪洋贾汪洋2 2本章内容7.1 回归分析概述回归分析概述7.2 线性回归分析线性回归分析7.3 曲线估计回归分析曲线估计回归分析7.4 罗辑回归分析罗辑回归分析7.5 序数、概率回归分析序数、概率回归分析7.6 非线性、权重估计、两阶最小二乘、非线性、权重估计、两阶最小二乘、 最佳尺度回归分析最佳尺度回归分析 3 3回归分析(regression analysis) 确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。p涉及的自变量的多少一元回归分析多元回归分析p自变量和因变量之间
2、的关系类型,线性回归分析非线性回归分析回归分析4 4回归分析一般步骤:确定回归方程中的解释变量(自变量)和被解释变量(因变量)确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测回归分析5线性回归分析一元线性回归方程反应一个一元线性回归方程反应一个因变量因变量与一个与一个自变量自变量之间的线性之间的线性关系,当直线方程关系,当直线方程Y=a+bx的的a和和b确定时,即为一元回确定时,即为一元回归线性方程。经过相关分析后,在直角坐标系中将大量数据归线性方程。经过相关分析后,在直角坐标系中将大量数据绘制成绘制成散点图散点图,这些点不在一条直线上,但可以从中找到一,这些点不在一条直线上
3、,但可以从中找到一条合适的直线,使各散点到这条直线的纵向距离之和最小,条合适的直线,使各散点到这条直线的纵向距离之和最小,这条直线就是回归直线,这条直线的方程叫作直线回归方程这条直线就是回归直线,这条直线的方程叫作直线回归方程。 注意:一元线性回归方程与函数的直线方程有区别,一元注意:一元线性回归方程与函数的直线方程有区别,一元 线性回归方程中的自变量线性回归方程中的自变量X对应的是因变量对应的是因变量Y的一个取值范的一个取值范围。围。61.一元线性回归分析的基本理论一元线性回归分析的基本理论 把把解释变量解释变量和和被解释变量被解释变量的多个对应样本值组队成坐标数据的多个对应样本值组队成坐标
4、数据对(对(xi,yi),通过观察数据对(),通过观察数据对(xi,yi)的散点图,如果)的散点图,如果发现发现y与与xi之间呈现出显著的线性关系,则应考虑建立之间呈现出显著的线性关系,则应考虑建立y和和xi的一元线性回归模型,其中,的一元线性回归模型,其中,y=a+bx+,y为被解释为被解释变量;变量;a为模型的截距项;为模型的截距项;b为待估计参数;为待估计参数;x为解释变量;为解释变量;为随机误差项。为随机误差项。线性回归分析线性回归分析7对于一元线性模型,一般采用对于一元线性模型,一般采用最小二乘估计法最小二乘估计法来估计相关的参数(如和的无偏来估计相关的参数(如和的无偏估计值和),从
5、而得到样本回归直线,这样把得到的样本回归直线作为总体回估计值和),从而得到样本回归直线,这样把得到的样本回归直线作为总体回归的近似,是一种预测过程。归的近似,是一种预测过程。那要确定得到的样本回归直线是否能作为总体回归的近似,就必须对回归方程那要确定得到的样本回归直线是否能作为总体回归的近似,就必须对回归方程的线性关系进行各种统计检验,包括的线性关系进行各种统计检验,包括拟合优度检验拟合优度检验、回归方程显著性检验回归方程显著性检验、回回归系数的显著性检验(归系数的显著性检验(t检验检验)、)、残差分析残差分析等。等。线性回归分析线性回归分析8u回归方程的回归方程的拟合优度拟合优度检验(相关系
6、数检验)检验(相关系数检验)一元线性回归的拟合优度检验采用一元线性回归的拟合优度检验采用R2统计量,称为判定系数或决定系统计量,称为判定系数或决定系数,数学定义为数,数学定义为其中其中 称为回归平方和(称为回归平方和(SSA) 称为总离差平方和(称为总离差平方和(SST) R2取值在取值在0-1之间,之间, R2越接近于越接近于1,说明回归方程对样本数据点的拟,说明回归方程对样本数据点的拟合优度越高。合优度越高。22121()()niiniiyyRyy21()niiyy21()niiyy线性回归分析线性回归分析99多元线性回归的拟合优度检验采用多元线性回归的拟合优度检验采用 统计量,称为调整的
7、判定系数统计量,称为调整的判定系数或调整的决定系数,数学定义为或调整的决定系数,数学定义为2R式中式中n-p-1、n-1分别是分别是SSE和和SST的自由度。其取值范围和意义与一的自由度。其取值范围和意义与一元回归方程中的元回归方程中的R2是相同的。是相同的。u回归方程的拟合优度检验(相关系数检验)回归方程的拟合优度检验(相关系数检验)2111SSEnpSSTnR 线性回归分析线性回归分析10u回归回归方程方程的显著性检验(的显著性检验(F检验)检验)即平均的即平均的SSA/平均的平均的SSE,F统计量服从(统计量服从(1,n-2)个自由度的)个自由度的F分布。分布。SPSS将会自动计算检验统
8、计量的观测值以及对应的概率将会自动计算检验统计量的观测值以及对应的概率p值,如果值,如果p值小于给定的显著性水平值小于给定的显著性水平,则应拒绝零假设,认为线性关系显著。,则应拒绝零假设,认为线性关系显著。一元线性回归方程显著性检验的零假设是一元线性回归方程显著性检验的零假设是1=0,检验采用,检验采用F统计量,统计量,其数学定义为:其数学定义为:2121()()2niiniiiyyMSAFMSEyyn线性回归分析线性回归分析1111u回归方程的显著性检验(回归方程的显著性检验(F检验)检验)多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零,多元线性回归方程显著性检验的零假设是各个偏
9、回归系数同时为零,检验采用检验采用F统计量,其数学定义为:统计量,其数学定义为:即平均的即平均的SSA/平均的平均的SSE,F统计量服从(统计量服从(p,n-p-1)个自由度的)个自由度的F分布。分布。SPSS将会自动计算检验统计量的观测值以及对应的概率将会自动计算检验统计量的观测值以及对应的概率p值,值,如果如果p值小于给定的显著性水平值小于给定的显著性水平,则应拒绝零假设,认为,则应拒绝零假设,认为y与与x的全的全体的线性关系显著。体的线性关系显著。2121()()1niiniiiyyPMSAFMSEyynP线性回归分析线性回归分析12u回归系数的显著性检验(回归系数的显著性检验(t检验)
10、检验) 一元线性回归方程的回归系数显著性检验的零假设是一元线性回归方程的回归系数显著性检验的零假设是1=0,检验采用,检验采用t统计量,其数学定义为:统计量,其数学定义为:t统计量服从统计量服从n-2个自由度的个自由度的t分布。分布。 SPSS将会自动计算将会自动计算t统计量的观测值统计量的观测值以及对应的概率以及对应的概率p值,如果值,如果p值小于给定的显著性水平值小于给定的显著性水平,则应拒绝零,则应拒绝零假设,认为假设,认为x对对y有显著贡献,线性关系显著。有显著贡献,线性关系显著。121()niitxx线性回归分析线性回归分析1313u回归系数的显著性检验(回归系数的显著性检验(t检验
11、)检验)多元线性回归方程的回归系数显著性检验的零假设是多元线性回归方程的回归系数显著性检验的零假设是i=0,检验采,检验采用用t统计量,其数学定义为:统计量,其数学定义为:ti统计量服从统计量服从n-p-1个自由度的个自由度的t分布。分布。 SPSS将会自动计算将会自动计算ti统计统计量的观测值以及对应的概率量的观测值以及对应的概率p值,如果值,如果p值小于给定的显著性水平值小于给定的显著性水平,则应拒绝零假设,认为则应拒绝零假设,认为xi对对y有显著贡献,应保留在线性方程中。有显著贡献,应保留在线性方程中。21()injiijixxt(i=1,2, ,p)线性回归分析线性回归分析14u残差分
12、析残差分析 所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距,即距,即它是回归模型中它是回归模型中 的估计值。如果回归方程能较好地反映被解释变量的估计值。如果回归方程能较好地反映被解释变量的特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性。的特征和变化规律,那么残差序列中应不包含明显的规律性和趋势性。iiiyyei线性回归分析线性回归分析15u残差分析残差分析均值为均值为0的正态性分析的正态性分析 残差均值为残差均值为0的正态性分析,可以通过绘制残差图进行分析,如果残的正态性分析,可以通过绘制残差图进行分析,如果残
13、差均值为差均值为0,残差图中的点应在纵坐标为,残差图中的点应在纵坐标为0的横线上下随机散落着。正的横线上下随机散落着。正态性可以通过绘制标准化(或学生化)残差的累计概率图来分析态性可以通过绘制标准化(或学生化)残差的累计概率图来分析线性回归分析线性回归分析1616u回归方程的统计检验回归方程的统计检验u残差分析独立性分析 绘制残差序列的序列图以样本期(或时间)为横坐标,残差为纵坐标,如果残差随时间的推移呈规律性变化,则存在一定的正或负相关性。计算残差的自相关系数取值在-1到+1之间,接近于+1表明序列存在正自相关性。 DW(DurbinWatson)检验DW取值在0至4之间,直观判断标准是DW
14、=4,残差序列完全负自相关;DW=2,完全无自相关;DW=0,完全正自相关。线性回归分析线性回归分析1717u回归方程的统计检验回归方程的统计检验u残差分析残差分析异方差分析异方差分析 绘制残差图绘制残差图如果残差的方差随着解释变量值的增加呈增加(或减少)如果残差的方差随着解释变量值的增加呈增加(或减少)的趋势,说明出现了异方差现象。的趋势,说明出现了异方差现象。线性回归分析线性回归分析1818u回归方程的统计检验回归方程的统计检验u残差分析残差分析探测样本中的异常值和强影响点(对于探测样本中的异常值和强影响点(对于y值)值)标准化残差标准化残差ZRE由于残差是服从均值为由于残差是服从均值为0
15、的正态分布,因此可以根据的正态分布,因此可以根据3准准则则进行判断,首先对残差进行标准化进行判断,首先对残差进行标准化 ,绝对值大于,绝对值大于3对应的观察值为异常值。对应的观察值为异常值。学生化残差学生化残差SRE剔除残差剔除残差DRE(或剔除学生化残差(或剔除学生化残差SDRE)上述上述SRE、SDRE的直观判断标准同标准化残差的直观判断标准同标准化残差ZRE。iZREe1919线性回归分析线性回归分析2020多元回归分析中的其他问题多元回归分析中的其他问题u变量筛选问题变量筛选问题向前筛选策略向前筛选策略 解释变量不断进入回归方程的过程,首先选择与被解释变量具有最高线解释变量不断进入回归
16、方程的过程,首先选择与被解释变量具有最高线性相关系数的变量进入方程,并进行各种检验;其次在剩余的变量中挑选性相关系数的变量进入方程,并进行各种检验;其次在剩余的变量中挑选与解释变量偏相关系数最高并通过检验的变量进入回归方程。与解释变量偏相关系数最高并通过检验的变量进入回归方程。向后筛选策略向后筛选策略 变量不断剔除出回归方程的过程,首先所有变量全部引入回归方程并检变量不断剔除出回归方程的过程,首先所有变量全部引入回归方程并检验,然后在回归系数显著性检验不显著的一个或多个变量中,剔除验,然后在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值检验值最小的变量。最小的变量。逐步筛选策略逐步筛
17、选策略 向前筛选与向后筛选策略的综合向前筛选与向后筛选策略的综合线性回归分析线性回归分析2121多元回归分析中的其他问题多元回归分析中的其他问题u变量多重共线性问题变量多重共线性问题容忍度容忍度Tol容忍度值越接近于容忍度值越接近于1,表示多重共线性越弱。,表示多重共线性越弱。SPSS变量多重共线性的要变量多重共线性的要求不很严格,只是在容忍度值太小时给出相应警告信息。求不很严格,只是在容忍度值太小时给出相应警告信息。方差膨胀因子方差膨胀因子VIF膨胀因子是容忍度的倒数,越接近于膨胀因子是容忍度的倒数,越接近于1,表示解释变量间的多重共线性,表示解释变量间的多重共线性越弱。通常如果越弱。通常如
18、果VIFi大于等于大于等于10,说明解释变量,说明解释变量xi与其余解释变量之间与其余解释变量之间有严重的多重共线性。有严重的多重共线性。特征根和方差比特征根和方差比这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其这里的特征根是指相关系数矩阵的特征根。如果最大特征根远远大于其他特征根的值,则说明这些解释变量之间具有相当多的重叠信息。他特征根的值,则说明这些解释变量之间具有相当多的重叠信息。条件指数条件指数ki10 ki 100时,认为多重共线性较强,时,认为多重共线性较强, ki 100时,认为多重共线性时,认为多重共线性很严重很严重21iiTolR miik线性回归分析线性回归
19、分析2222u回归方程的统计检验回归方程的统计检验u残差分析残差分析异方差分析异方差分析 等级相关分析等级相关分析得到残差序列后首先对其取绝对值,然后计算出残差和解得到残差序列后首先对其取绝对值,然后计算出残差和解释变量的秩,最后计算释变量的秩,最后计算Spearman等级相关系数,并进行等级相关系数,并进行等级相关分析。具体过程见相关分析相关章节。等级相关分析。具体过程见相关分析相关章节。线性回归分析线性回归分析23回归分析步骤:回归分析步骤: 第一,分析大量样本变量观测值,确定变量之间的数学关系式第一,分析大量样本变量观测值,确定变量之间的数学关系式回归方回归方程程; 第二,分析其回归方程
20、的第二,分析其回归方程的可信程度可信程度,区分影响显著的和影响不显著的自变,区分影响显著的和影响不显著的自变量;量; 第三,根据已确定的数学关系,预测(第三,根据已确定的数学关系,预测(y)或者控制)或者控制(x)特定变量的取值,特定变量的取值,并给出并给出预测或控制预测或控制的精确度。的精确度。线性回归分析线性回归分析24线性回归的使用条件:线性回归的使用条件:线性趋势线性趋势,即自变量与因变量的关系是线性的。即自变量与因变量的关系是线性的。独立性独立性,因变量因变量Y的取值相互独立。反映在方程中即残差独立。的取值相互独立。反映在方程中即残差独立。正态性正态性,即自变量的任何一个线性组合,即
21、自变量的任何一个线性组合,Y应该服从正态分布。反映应该服从正态分布。反映在方程中即残差在方程中即残差Ei服从正态分布。服从正态分布。方差齐性方差齐性,自变量的任何一个线性组合,自变量的任何一个线性组合,Y的方差相同。的方差相同。一元线性回归分析一元线性回归分析25 2.一元线性回归分析的一元线性回归分析的SPSS操作操作打开【分析】打开【分析】【回归】【回归】【线性】,出现线性【线性】,出现线性回归主对话回归主对话 框,进行框,进行SPSS程序命令操作,程序命令操作,即对各子对话框即对各子对话框进行设置。进行设置。 线性回归分析线性回归分析26(1)变量)变量 因变量因变量 被选入该文本框中的
22、变量为线性回归模型中的被解释被选入该文本框中的变量为线性回归模型中的被解释变量,数值类型为数值型。如果被解释变量为分类变量,则可以用变量,数值类型为数值型。如果被解释变量为分类变量,则可以用二元或者多元二元或者多元Logistic模型等建模分析。模型等建模分析。 自变量自变量 被选入该列表框中的变量为线性模型中的解释变量,被选入该列表框中的变量为线性模型中的解释变量,数值类型一般为数值型。如果解释变量为分类变量或定性变量,可数值类型一般为数值型。如果解释变量为分类变量或定性变量,可以用虚拟变量(哑变量)表示。如果选择多个自变量,可将自变量以用虚拟变量(哑变量)表示。如果选择多个自变量,可将自变
23、量分组成块,通过分组成块,通过“上一张上一张”和和“下一张下一张”按钮对不同的变量子集指按钮对不同的变量子集指定不同的进入方法。定不同的进入方法。线性回归分析线性回归分析27总离差平方和可分解为(2)方法)方法 用于选择线性回归中变量的进入和剔除方法,来建立多个回归模型用于选择线性回归中变量的进入和剔除方法,来建立多个回归模型进入,该方法表示自变量列表中进入,该方法表示自变量列表中所有的变量所有的变量都进入回归模型。都进入回归模型。逐步,该方法是一个动态过程,表示具有逐步,该方法是一个动态过程,表示具有F统计量的统计量的概率最小概率最小的自变量的自变量被选进回归模型;对于已经在回归方程中的变量
24、,被选进回归模型;对于已经在回归方程中的变量,如果它们的如果它们的F统计量的概率变得足够大,则移除这些变量,统计量的概率变得足够大,则移除这些变量,直到不再有自变量符合进入或移除的条件,该方法终止。直到不再有自变量符合进入或移除的条件,该方法终止。删除,该方法表示建立回归模型前设定一定条件,然后根据删除,该方法表示建立回归模型前设定一定条件,然后根据条件删除自变量。条件删除自变量。向后,该方法表示首先将自变量列表中的所有自变量选入到回归模型中,然向后,该方法表示首先将自变量列表中的所有自变量选入到回归模型中,然后按后按顺序移除顺序移除,最先删除与因变量之间的部分,最先删除与因变量之间的部分相关
25、性最小相关性最小的那个变量,移除的那个变量,移除第一个变量后,得到新的方程,又将与因变量之间的部分相关性最小的那个第一个变量后,得到新的方程,又将与因变量之间的部分相关性最小的那个变量删除,直到方程中没有满足消除条件的变量,过程结束。变量删除,直到方程中没有满足消除条件的变量,过程结束。向前,该方法与向前,该方法与“向后向后”恰好相反,是将自变量按顺序选入到回归模型中。恰好相反,是将自变量按顺序选入到回归模型中。首先选入与因变量之间具有首先选入与因变量之间具有最大相关性的最大相关性的、满足选入条件的变量进入回归模、满足选入条件的变量进入回归模型中,然后再考虑下一个变量,直到没有满足条件的变量时
26、,过程结束。型中,然后再考虑下一个变量,直到没有满足条件的变量时,过程结束。线性回归分析线性回归分析28(3)选择变量)选择变量 该文本框主要用于指定分析个案的选择规则,当回归分析中包含由选该文本框主要用于指定分析个案的选择规则,当回归分析中包含由选择规则定义的个案,则需要进行设置。择规则定义的个案,则需要进行设置。线性回归:设置规则子对话框用于选择关系线性回归:设置规则子对话框用于选择关系。对于分类变量,可用的关系有。对于分类变量,可用的关系有“等于等于”和和“不等于不等于”,对于字符串型变量,可以用,对于字符串型变量,可以用“等于等于”关系,在关系,在“值值”文本框中输入按具体文本框中输入
27、按具体数值或字符串选择个案的规则;如在数值或字符串选择个案的规则;如在“值值”中输入中输入“f”,则表示只有那些性别为女性,则表示只有那些性别为女性的个案才能进入分析;对于连续变量,则可的个案才能进入分析;对于连续变量,则可用的关系有用的关系有“等于等于”、“不等于不等于”、“小于小于”、“小于等于小于等于”、“大于大于”以及以及“大于等大于等于于”,如选择,如选择“不等于不等于”,并在,并在“值值”中输中输入入“1”,表示只有那些有无线服务的个案,表示只有那些有无线服务的个案才会包含在回归分析中。才会包含在回归分析中。线性回归分析线性回归分析29(4)个案标签)个案标签 该文本框主要用于指定
28、个案标签的变量。该文本框主要用于指定个案标签的变量。(5)WLS权重权重 该文本框表示加权最小二乘,当判断回归模型的该文本框表示加权最小二乘,当判断回归模型的残差存在异方差时,才选用加权最小二乘方法,指定加权变量。残差存在异方差时,才选用加权最小二乘方法,指定加权变量。线性回归分析线性回归分析30(6)统计量按钮设置)统计量按钮设置回归系数选项组:回归系数选项组: 估计,选择该复选框,可输出回归系数、标准误、标准化系数估计,选择该复选框,可输出回归系数、标准误、标准化系数beta、t值以及值以及t的双尾显著性水平。的双尾显著性水平。置信区间,误差条形图的表征,选择该复选框,可输出每个回归系数置
29、信区间,误差条形图的表征,选择该复选框,可输出每个回归系数或协方差矩阵指定置信度的置信区间,在或协方差矩阵指定置信度的置信区间,在“水平水平”框中输入范围。框中输入范围。 协方差矩阵,选择它,可输出回归系数协方差矩阵,选择它,可输出回归系数 的方差的方差协方差矩阵,其对角线以外协方差矩阵,其对角线以外 的协方差,对角线上为方差,同时还的协方差,对角线上为方差,同时还 显示相关系数矩阵。显示相关系数矩阵。线性回归分析线性回归分析31残差选项组残差选项组 该选项组用于指定对回归残差进行检验的方法。该选项组用于指定对回归残差进行检验的方法。lDurbin-Watson,该复选框表示输出用于检验残差系
30、列自相关的,该复选框表示输出用于检验残差系列自相关的D-W检验统计量。检验统计量。l个案诊断,该复选框表示对个案进行诊断,输出个案,其中个案诊断,该复选框表示对个案进行诊断,输出个案,其中离群值,表示输出满足条件的个案离群值;离群值,表示输出满足条件的个案离群值;标准差,用于指定离群值满足几倍标准差的条件;标准差,用于指定离群值满足几倍标准差的条件;所有个案,指可以输出所有个案的残差。所有个案,指可以输出所有个案的残差。线性回归分析线性回归分析32l模型拟合度模型拟合度 勾选该复选框,则输出显示输入模型的变量和从模型删去的勾选该复选框,则输出显示输入模型的变量和从模型删去的变量,并显示以下拟合
31、优度统计量:复相关系数、变量,并显示以下拟合优度统计量:复相关系数、R2和调整和调整R2、估计的标、估计的标准误以及方差分析表。准误以及方差分析表。lR方变化方变化 勾选该复选框,则输出由于添加或删除自变量而产生的勾选该复选框,则输出由于添加或删除自变量而产生的R2统统计量的更改。如果与某个变量相关联的计量的更改。如果与某个变量相关联的R2变化很大,则意味着该变量是因变变化很大,则意味着该变量是因变量的一个良好的预测变量。量的一个良好的预测变量。l描述性描述性 勾选该复选框,则输出回归分析中的有效个案数、均值以及每个变勾选该复选框,则输出回归分析中的有效个案数、均值以及每个变量的标准差,同时输
32、出具有单尾显著性水平的相关矩阵以及每个相关系数的量的标准差,同时输出具有单尾显著性水平的相关矩阵以及每个相关系数的个案数。个案数。线性回归分析线性回归分析33l部分相关和偏相关性部分相关和偏相关性 该复选框表示输出部分相关和偏相关统计量。其中该复选框表示输出部分相关和偏相关统计量。其中:部分相关,指对于因变量与某个自变量,当已移去模型中的其他自变量对部分相关,指对于因变量与某个自变量,当已移去模型中的其他自变量对该自变量的线性效应之后,因变量与自变量之间的相关性。当变量添加到该自变量的线性效应之后,因变量与自变量之间的相关性。当变量添加到方程时,它与方程时,它与R2的更改有关。的更改有关。偏相
33、关,指的是对于两个变量,在移去由于它们与其他变量之间的相互关偏相关,指的是对于两个变量,在移去由于它们与其他变量之间的相互关联引起的相关之后,这两个变量之间剩余的相关性。对于因变量与某个自联引起的相关之后,这两个变量之间剩余的相关性。对于因变量与某个自变量,当已移去模型中的其他自变量对上述两者的线性效应后,这两者之变量,当已移去模型中的其他自变量对上述两者的线性效应后,这两者之间的相关性。间的相关性。l共线性诊断共线性诊断 输出各变量的容限公差以输出各变量的容限公差以 及共线性诊断表。及共线性诊断表。线性回归分析线性回归分析34(7) 绘制按钮设置绘制按钮设置 “线性回归:图线性回归:图”对话
34、框主要用于帮助验证正态性、线性和方差相等的对话框主要用于帮助验证正态性、线性和方差相等的假设,还可以检测离群值、异常观察值和有影响的个案。假设,还可以检测离群值、异常观察值和有影响的个案。在源变量列表中列出了因在源变量列表中列出了因变量(变量(DEPENDNT)及)及以下的预测变量和残差变以下的预测变量和残差变量:标准化预测值(量:标准化预测值(*ZPRED)、标准化残差)、标准化残差(*ZRESID)、剔除残)、剔除残差(差(*DRESID)、调整)、调整的预测值(的预测值(*ADJPERD)、学生化的残差()、学生化的残差(*SRESID)以及学生化)以及学生化的已删除残差(的已删除残差(
35、*SDRESID)。)。线性回归分析线性回归分析35散点散点1的的1 该选项组可以利用源变量列表中的任意两个来绘制散点图,该选项组可以利用源变量列表中的任意两个来绘制散点图,在在“Y”中选入中选入Y轴的变量,轴的变量,“X”中选入中选入X轴的变量。单击轴的变量。单击“下一张下一张”可可以再绘制下一张图,单击以再绘制下一张图,单击“上一张上一张”可以回到刚刚设定的上一张图进行修可以回到刚刚设定的上一张图进行修改。另外,针对标准化预测值绘制标准化残差,可以检验线性关系和等方改。另外,针对标准化预测值绘制标准化残差,可以检验线性关系和等方差性。差性。标准化残差图标准化残差图 该选项组用于绘制标准化残
36、差图,主要可以指定两种图:该选项组用于绘制标准化残差图,主要可以指定两种图:“直方图直方图”和和“正态概念图正态概念图”,将标准化残差的分布与正态分布进行比较,将标准化残差的分布与正态分布进行比较。产生所有部分图产生所有部分图 该复选框表示该复选框表示当根据其余自变量分别对两个变量进当根据其余自变量分别对两个变量进行回归时,显示每个自变量残差和因行回归时,显示每个自变量残差和因变量残差的散点图。但是要求方程中变量残差的散点图。但是要求方程中必须至少有两个自变量。必须至少有两个自变量。 线性回归分析线性回归分析36(8)保存按钮设置)保存按钮设置“线性回归:保存线性回归:保存”对话框主要用于在活
37、动数据文件中保存预测值、残差对话框主要用于在活动数据文件中保存预测值、残差和其他对于诊断有用的统计量,包括:和其他对于诊断有用的统计量,包括:预测值选项组预测值选项组该选项组用于保存回归模该选项组用于保存回归模型对因变量的预测值。型对因变量的预测值。未标准化,选中该复选框,表示保存回归未标准化,选中该复选框,表示保存回归模型对因变量的预测值。模型对因变量的预测值。标准化,选中该复选框,表示保存标准化标准化,选中该复选框,表示保存标准化后的预测值。后的预测值。调节,选中它,表示保存当某个案从回归调节,选中它,表示保存当某个案从回归系数的计算中排除时个案的预测值。系数的计算中排除时个案的预测值。均
38、值预测值的均值预测值的S.E.,选中它,表示保存预,选中它,表示保存预测值的标准误。测值的标准误。线性回归分析线性回归分析37残差选项组残差选项组 该选项组用于保存回归模型的残差该选项组用于保存回归模型的残差未标准化,选中它,表示保存观察值与模型预测值之间的原始残差。未标准化,选中它,表示保存观察值与模型预测值之间的原始残差。标准化,选中它,表示保存标准化后的标准化,选中它,表示保存标准化后的 残差,即残差,即Pearson残差。残差。学生化,选中它,表示保存学生化的残学生化,选中它,表示保存学生化的残 差,即残差除以其随个案变化的标准差差,即残差除以其随个案变化的标准差 的估计,这取决于每个
39、个案的自变量值的估计,这取决于每个个案的自变量值 与自变量均值之间的距离。与自变量均值之间的距离。删除,选中它,表示保存当某个案从回删除,选中它,表示保存当某个案从回 归系数的计算中排除时该个案的残差,归系数的计算中排除时该个案的残差, 它是因变量的值和调整预测值之间的差。它是因变量的值和调整预测值之间的差。学生化已删除,选中它,表示保存学生学生化已删除,选中它,表示保存学生 化的删除残差,即个案的剔除残差除以化的删除残差,即个案的剔除残差除以 其标准误。其标准误。线性回归分析线性回归分析38距离选项组距离选项组 该选项组用于标识自变量的值具有异常组合的个案以该选项组用于标识自变量的值具有异常
40、组合的个案以及可能对回归模型产生很大影响的个案的测量。及可能对回归模型产生很大影响的个案的测量。Mahalanobis距离,表示自变量中个距离,表示自变量中个 案的值与所有个案的平均值相异程度的案的值与所有个案的平均值相异程度的 测量,大的测量,大的Mahalanobis距离表示个距离表示个 案在一个或多个自变量上具有极值。案在一个或多个自变量上具有极值。Cook距离,选中它,表示保存距离,选中它,表示保存Cook距距 离值,较大的离值,较大的Cook距离表明从回归统计距离表明从回归统计 量的计算中排除个案之后,系数会发生量的计算中排除个案之后,系数会发生 很大变化。很大变化。杠杆值,选择它,
41、表示保存杠杆值,杠杠杆值,选择它,表示保存杠杆值,杠 杆值是度量某个点对回归拟合的影响,杆值是度量某个点对回归拟合的影响, 范围从范围从0到(到(N-1)/N,其中,其中0表示对表示对 回归拟合无影响。回归拟合无影响。线性回归分析线性回归分析39影响统计量选项组影响统计量选项组该选项组用于测度由于排除了特定个案而导致的回该选项组用于测度由于排除了特定个案而导致的回归系数(归系数(DfBeta)和预测值()和预测值(DfFit)的变化。)的变化。DfBeta,即计算,即计算Beta值的差分,表示由于值的差分,表示由于 排除了某个特定个案而导致的回归系数的改变。排除了某个特定个案而导致的回归系数的
42、改变。标准化标准化DfBeta,表示计算,表示计算Beta值的标准化差分。值的标准化差分。DfFit,表示计算拟合值的差分,即由于排除了,表示计算拟合值的差分,即由于排除了 某个特定个案而产生的预测变量的更改。某个特定个案而产生的预测变量的更改。标准化标准化DfFit,表示计算拟合值的标准化差分。,表示计算拟合值的标准化差分。协方差比率,选中它,表示从回归系数计算中排协方差比率,选中它,表示从回归系数计算中排 除特定个案的协方差矩阵的行列式与包含所有个除特定个案的协方差矩阵的行列式与包含所有个 案的协方差矩阵的行列式的比率,如果比率接近案的协方差矩阵的行列式的比率,如果比率接近 1,则说明被排
43、除的个案不能显著改变协方差矩,则说明被排除的个案不能显著改变协方差矩 阵。阵。线性回归分析线性回归分析40预测区间选项组预测区间选项组 该选项组用于设置均值和个别预测区间该选项组用于设置均值和个别预测区间 的上界和下界。的上界和下界。线性回归分析线性回归分析41“线性回归:选项线性回归:选项”对话框主要用于对步进方法标准和缺失值进行设置对话框主要用于对步进方法标准和缺失值进行设置,各选项含义如下:,各选项含义如下:“步进方法标准步进方法标准”选项组选项组 该选项组在已指定向前、该选项组在已指定向前、 向后或逐步式变量选择法的情况下适用。变量可以向后或逐步式变量选择法的情况下适用。变量可以 进入
44、到模型中,或者从模型中移除,这取决于进入到模型中,或者从模型中移除,这取决于F值值 的显著性概率或者的显著性概率或者F值本身。值本身。 使用使用F的概率,表示如果变量的的概率,表示如果变量的F值的显著性水平小值的显著性水平小 于于“进入进入”值,则将该变量选入到模型中,如果该显值,则将该变量选入到模型中,如果该显 著性水平大于著性水平大于“删除删除”值,则将该变量从模型中移除。值,则将该变量从模型中移除。 其中其中“进入进入”值必须小于值必须小于“删除删除”值,且两者均必须为值,且两者均必须为 正数。正数。 使用使用F值,表示如果变量的值,表示如果变量的F值大于值大于“进入进入”值,则该变量输
45、入模型,值,则该变量输入模型,如果如果F值小于值小于“删除删除”值,则该变量从模型中移除。值,则该变量从模型中移除。“进入进入”值必须大值必须大于于“删除删除” 值,且两者均必须为正数。要将更多的变量选入到模型中值,且两者均必须为正数。要将更多的变量选入到模型中,请降低,请降低“进入进入” 值。要将更多的变量从模型中移除,请增大值。要将更多的变量从模型中移除,请增大“删除删除”值。值。 线性回归分析线性回归分析42“在等式中包含常数在等式中包含常数”复选框复选框 该复选框表示回归模型中包含常数项。取该复选框表示回归模型中包含常数项。取消选择此选项可强制使回归模型通过原点,但是某些通过原点的回归
46、结果消选择此选项可强制使回归模型通过原点,但是某些通过原点的回归结果无法与包含常数的回归结果相比较。如:不能以通常的方式解释无法与包含常数的回归结果相比较。如:不能以通常的方式解释R2。“缺失值缺失值”选项组选项组该选项组用于对回归中缺失值的设定,有该选项组用于对回归中缺失值的设定,有3个可选个可选项。项。按列表排除个案,选中该选项,表示只有所有变量均取有效值的个案才包按列表排除个案,选中该选项,表示只有所有变量均取有效值的个案才包含在分析中。含在分析中。按对排除个案,选择该选项,表示使用正被按对排除个案,选择该选项,表示使用正被 相关的变量对具有完整数据的个案来计算回相关的变量对具有完整数据
47、的个案来计算回 归分析所基于的相关系数。归分析所基于的相关系数。使用均值替换,选择该选项,表示用变量的使用均值替换,选择该选项,表示用变量的 均值来替换缺失值。均值来替换缺失值。线性回归分析线性回归分析43实例操作实例操作橡皮的韧性和拉伸倍数是否存在显著的线性关系橡皮的韧性和拉伸倍数是否存在显著的线性关系线性回归分析线性回归分析4444线性回归分析线性回归分析4545线性回归分析线性回归分析4646方程中包含的自变量列表方程中包含的自变量列表 同时同时显示进入方法。如本例中方程中的显示进入方法。如本例中方程中的自变量为自变量为x,方法为,方法为Enter。模型拟合概述模型拟合概述 列出了模型的
48、列出了模型的R、R2 、调整、调整R2 及估计标准误。及估计标准误。R2 值越大所反映的两变量的共变量比值越大所反映的两变量的共变量比率越高,模型与数据的拟合程度越率越高,模型与数据的拟合程度越好。好。本例所用数据拟合结果显示:所考察的自变量和因变量之间的相关本例所用数据拟合结果显示:所考察的自变量和因变量之间的相关系数为系数为0.985,拟合线性回归的确定性系数为,拟合线性回归的确定性系数为0.971,经调整后,经调整后的确定性系数为的确定性系数为0.968,标准误的估计为,标准误的估计为0.09931。线性回归分析线性回归分析4747方差分析表方差分析表 列出了变异源、自由度、均方、列出了
49、变异源、自由度、均方、F值及对值及对F的显著性检验。的显著性检验。本例中回归方程显著性检验结果表明:回归平方和为本例中回归方程显著性检验结果表明:回归平方和为2.658,残差,残差平方和为平方和为0.079,总平方和为,总平方和为2.736,对应的,对应的F统计量的值为统计量的值为269.456,显著性水平小于,显著性水平小于0.05,可以认为所建立的回归方程有,可以认为所建立的回归方程有效。效。线性回归分析线性回归分析4848回归系数表回归系数表 列出了常数及非标准化回归系数的值及标准化的回归系列出了常数及非标准化回归系数的值及标准化的回归系数,同时对其进行显著性检验。数,同时对其进行显著性
50、检验。本例中非标准化的回归系数本例中非标准化的回归系数B的估计值为的估计值为0.890,标准误为,标准误为0.053,标准化的回归系数为标准化的回归系数为0.985,回归系数显著性检验,回归系数显著性检验t统计量的值为统计量的值为16.415,对应显著性水平,对应显著性水平Sig.=0.0000.05,可以认,可以认为所建立的回归方程无效。为所建立的回归方程无效。线性回归分析线性回归分析56564.回归系数表回归系数表 列出了常数及回归系数的值及标准化的值,同时列出了常数及回归系数的值及标准化的值,同时对其进行显著性检验。对其进行显著性检验。回归系数分析中,回归系数分析中,Sig.0.05,建