1、用变量的观测数据拟合所关注的变量和影响其变化的变量之间的线性关系式检验影响变量的显著程度比较影响变量的作用大小用一个或多个变量的变化解释和预测另一个变量的变化一元线性回归,针对一个影响变量(自变量)的回归分析多元线性回归,针对多个影响变量(自变量)的回归分析因变量:定距变量自变量:定类、定序变量或定距变量,对于分类变量需要转换成虚拟变量一元线性回归YABX多元线性回归YB0B1X1B2X2 BnXn 实例实例1 对受访者的性别和月收入进行一元线性回归分析 当自变量是分类变量时,需要将原变量转换成虚拟变量,所有虚拟变量都是“1”和“0”取值的二分变量。(当原变量是二分类变量时,我们只需要设定一个
2、“1”、“0”取值的虚拟变量,并且把取值为“0”的那个类别作为参照项)注意注意步骤1:点击“Recode”,弹出对话框注注意意通常选择Recode into Different Variable步骤2:将性别拖入中间空白框步骤3:在Name栏中填写虚拟变量名步骤4:点击“Change”按钮步骤5:点击“Old and New Values”按钮步骤6:将原变量的“1”设为新变量的“1”步骤7:将原变量的“2”设为新变量的“0”步骤8:点击“Continue”,回到主对话框步骤8:点击“OK”,生成新的虚拟性别变量 在设置完虚拟变量后,我们才能正式开始回归分析。注意注意步骤9:点击“Regres
3、sion”中的“Linear”,弹出对话框步骤10:选择因变量“月收入”和自变量“性别”点击“OK”,结果一:确定系数表表格中的R、R Square和Adjusted R Square都是用于表示模型的解释能力通常选择Adjusted R Square作为我们的结论依据,调整后的R平方越大,说明性别和收入的线性关系越强,即性别对收入的解释力越强表中调整后的R平方0.033,表示性别能够解释收入3.3的变化结果二:方差分析表结果二是对回归方程进行显著度检验的方差分析,即判断总体回归系数中至少有一个不等于0表中显著度(Sig)0.001,表明性别与收入之间具有显著的线性关系。结果三:回归系数表与结
4、果一中的确定系数不同,回归系数是回归方程中x的斜率,表示x每变化一个单位,y的平均变化。从表中B135.406,可以发现男性比女性的平均月收入多135.406元(由于在设定虚拟变量时,将女性取值为“0”,因此这里以女性为参照项)。由此我们可以得到回归方程:y396.656135.406X表中的t检验是针对回归系数的显著度检验,而结果二中的方差分析是对整个回归方程的检验,在一元回归分析中,这两种检验结果是等同的。而在多元回归分析中,则有可能是不同的。整体方程的显著并不意味着每个回归系数都显著,但每个系数的显著一定意味着整体方程是显著的。从表中显著度0.001,可以发现性别对收入的影响是非常显著的
5、。实例实例2 将受访者的性别、教育程度(四分类的教育程度)和年龄作为自变量,通过多元线性回归,分析其对月收入的影响。由于例题中的教育变量是个四分类的定序变量,因此我们需要设置三个“1”、“0”取值的虚拟教育变量:edu1、edu2和edu3,分别用来表示“小学”、“初中”和“高中”,将“大专及以上”教育类别作为参照项,其余三个类别分别与其进行比较。注意注意步骤1:点击“Recode”,弹出对话框步骤2:将四分类的教育变量拖入中间空白框步骤3:在Name栏中填写第一个虚拟变量edu1步骤4:在Label栏中填写变量名标签小学步骤5:点击“Change”按钮步骤6:点击“Old and New V
6、alues”按钮步骤7:将原变量中表示小学的“1”设为新变量的“1”步骤8:将原变量的其余取值都设为“0”步骤9:点击“Continue”,回到主对话框步骤10:点击“OK”,生成表示小学的虚拟变量edu1步骤11:重新点击“Recode”,弹出对话框步骤12:将四分类的教育变量拖入中间空白框步骤13:在Name栏中填写第二个虚拟变量edu2步骤14:在Label栏中填写变量名标签初中步骤15:点击“Change”按钮步骤16:点击“Old and New Values”按钮步骤17:将原变量中代表初中的“2”设为新变量的“1”步骤18:将原变量的其余取值都设为“0”步骤19:点击“Conti
7、nue”,回到主对话框步骤20:点击“OK”,生成表示初中的虚拟变量edu2步骤21:重新点击“Recode”,弹出对话框步骤22:将四分类的教育变量拖入中间空白框步骤23:在Name栏中填写第二个虚拟变量edu3步骤24:在Label栏中填写变量名标签高中步骤25:点击“Change”按钮步骤26:点击“Old and New Values”按钮步骤27:将原变量中代表高中的“3”设为新变量的“1”步骤28:将原变量的其余取值都设为“0”步骤29:点击“Continue”,回到主对话框步骤30:点击“OK”,生成表示高中的虚拟变量edu3步骤31:点击“Regression”中的“Linea
8、r”,弹出对话框步骤32:选择因变量“月收入”步骤32:选择自变量“虚拟性别”,“edu1”,“edu2”,“edu3”和年龄点击“OK”,结果一:确定系数表表中调整后的R平方0.044,表示整个方程能够解释收入变化的4.4。与例1中的确定系数相比,提高了1.1个百分点。结果二:方差分析表表中显著度(Sig)小学(0.117)初中(0.103)高中(0.082)年龄(0.061)Sig栏中每个回归系数的显著度水平,表明各自所对应的那个自变量与因变量之间是否存在显著的线性相关关系 从结果看,所有回归系数的显著度(即P值)都小于0.05,由此,我们可以认为性别、教育和年龄都会影响受访者的月收入。利用spss自带的1991的美国GSS数据,进行以下分析:用一元线性回归分析种族对职业声望的影响 用一元线性回归分析教育对职业声望的影响 用多元线性回归分析种族、性别、年龄和教育对职业声望的影响