1、多元回归多元回归1.回归模型的拟合度简单回归从散点图开始有助我们对变量间的关系有从散点图开始有助我们对变量间的关系有一个形象化的了解。一个形象化的了解。如何对变量间的关系进行更准确的描述?如何对变量间的关系进行更准确的描述?线性回归线性回归画出回归线画出回归线哪条直线是最优拟合?哪条直线是最优拟合?回归线回归线0 02 24 46 68 81 10 00 01 12 23 34 45 56 6M Me ea an n C Co om mm mo on na al li it ti ie es sM M e e a a n n A A l l i i g g n n a a b b l l e
2、e D D i i f f f f e e r r e e n n c c e e s s拟合的程度怎样?残差残差0 02 24 46 68 810100 01 12 23 34 45 56 6Mean CommonalitiesMean CommonalitiesMean Alignable DifferencesMean Alignable Differences从点到线的离差可代表拟合的程度(残差)(残差)Residuals作回归线作回归线使离差的平方和为最小 离差=y 观测值-y 预测值叫做 Least-squares regression回归方程y=a+bxIGRAPH/VIEWNA
3、ME=Scatterplot/X1=VAR(salbegin)TYPE=SCALE/Y=VAR(salary)TYPE=SCALE/COORDINATE=VERTICAL /FITLINE METHOD=REGRESSION LINEAR LINE=TOTALy好的模型0 02 24 46 68 810100 02 24 46 68 81010Mean SimilarityMean SimilarityMean CommonalitiesMean Commonalities残差很小R2=0.89一般的模型0 02 24 46 68 810100 01 12 23 34 45 56 6Mean
4、SimilarityMean SimilarityMean Alignable DifferencesMean Alignable DifferencesR2=0.35残差较大差的模型0 02 24 46 68 810100 01 12 23 34 45 56 6Mean SimilarityMean SimilarityMean Nonalignable DifferencesMean Nonalignable DifferencesR2=0.002这里的直线基本不能描述数据2.2.多元回归的方法(多元回归的方法(methodmethod)多元回归的方法(多元回归的方法(methodmeth
5、od)方法间的区别在于如何处理相关的自变量方法间的区别在于如何处理相关的自变量重叠部分的方差,即用何原则确定变量进重叠部分的方差,即用何原则确定变量进入方程的次序入方程的次序标准回归或同时回归:标准回归或同时回归:Enter逐步回归:逐步回归:Stepwise层次回归:层次回归:hierarchical 重叠部分的处理黑色部分归谁?标准回归标准回归亦称同时回归(亦称同时回归(simultaneous)重叠部分对重叠部分对R2有贡献,但不分配到任何有贡献,但不分配到任何一个自变量中一个自变量中与其他自变量重叠区域大的自变量的相与其他自变量重叠区域大的自变量的相对重要性可能被忽视对重要性可能被忽视
6、逐步回归:逐步回归:StepwiseStepwise在分析的每一阶段,与因变量有最大偏相关的在分析的每一阶段,与因变量有最大偏相关的自变量被加在模型上。自变量被加在模型上。变式变式ForwardBackwardremove拟合度最优,用于探索性回归拟合度最优,用于探索性回归最好最好 n 20 IV慎推广,须交互验证慎推广,须交互验证 层次回归:层次回归:hierarchical hierarchical 研究者根据理论假设确定次序,定研究者根据理论假设确定次序,定义义block因果顺序在前的,先进入方程因果顺序在前的,先进入方程欲考察的重要变量或者放在前,或欲考察的重要变量或者放在前,或放在最
7、后放在最后应选择应选择 statistics R square change3.3.多元回归的数据要求多元回归的数据要求多元回归的数据要求多元回归的数据要求 (1 1)因变量应为等距因变量应为等距/等比型变量。等比型变量。在实际操作中,如果有足在实际操作中,如果有足够的水平,顺序型变量也可。如果因变量够的水平,顺序型变量也可。如果因变量 是命名型,则须是命名型,则须用判别分析或用判别分析或 logistic regression。自变量应为等距自变量应为等距/等比型变量。在实际操作中,顺序型变量等比型变量。在实际操作中,顺序型变量也可。命名型若为也可。命名型若为 2水平水平(dichotomi
8、es)可直接用。可直接用。命名型命名型若为多水平,若为多水平,可先转换可先转换为为 dummy variables。因变量与自变量的关系应为线性。如果变量间关系是曲线因变量与自变量的关系应为线性。如果变量间关系是曲线的的,但具单调性但具单调性 (递增或递减递增或递减),可通过可通过转换达成线性转换达成线性。如果如果是是 U 型线型线,需特殊转换处理。需特殊转换处理。尽管自变量间彼此可以有相关尽管自变量间彼此可以有相关,其相关不可接近完全线性。其相关不可接近完全线性。否则称为否则称为 multicollinearity。多元回归的数据要求多元回归的数据要求 (2 2)被试数目与自变量数目的比率为
9、被试数目与自变量数目的比率为10:1 (根据不同情况在根据不同情况在20:1至至5:1 的范围中的范围中);被试被试数目数目 100没有没有 非常值非常值(Outliers)没有没有 Multicollinearity多元回归的统计前提多元回归的统计前提3个前提:个前提:1.因变量残差正态分布因变量残差正态分布2.残差与残差与 预测值呈线性关系预测值呈线性关系3.在因变量预测值的所有水平上,残差的方在因变量预测值的所有水平上,残差的方差相等差相等散点图:纵轴为因变量的预测值散点图:纵轴为因变量的预测值(ZPRED),横轴为残差(),横轴为残差(ZRESID)残差图残差图告诉我们回归线在不同变量
10、水平的拟合程度0 02 24 46 68 81 10 0-2 2-1 10 01 12 23 3S Si im mi il la ar ri it ty yR R e e s s i i d d u u a a l l残差图提供的重要信息残差的系统分布提示有未被解释的系统性方差0自变量增大时,残差增大。0变量间的关系不是线性的Multicollinearity Statistics.Collinearity diagnostics任何两个自变量间的相关在任何两个自变量间的相关在.70以上,以上,Collinearity 就会出现。就会出现。Tolerance 75%很好很好;50-75%不错不
11、错;25-50%一般一般;25%不够不够 2.所有自变量总共与因变量有无显著关联所有自变量总共与因变量有无显著关联?-F 虚无假设是虚无假设是 所有自变量与因变量均无关联。所有自变量与因变量均无关联。.3.当其他自变量保持恒定时,每一自变量与因变量当其他自变量保持恒定时,每一自变量与因变量有什么样的关系有什么样的关系?-B 回归系数回归系数。4.哪个自变量对因变量的影响最大?哪个自变量对因变量的影响最大?-beta 标准化回归系数(标准化回归系数(beta weights)回归分析前,将因变回归分析前,将因变量和自变量都转换成量和自变量都转换成Z分数。分数。5.将所有自变量考虑在内后,每一自变
12、量与因变量将所有自变量考虑在内后,每一自变量与因变量关系是否显著关系是否显著?-t 值报告回归分析的结果用同时多元回归的方法对数据进行了分析,性别,年龄,种族,教育年限作为预测变量。回归模型的拟合度满意(R2adj=50.1%),模型的总效应(F4,466=159.2,p 0.0005)。当其他变量保持恒定时,教育年限与薪水有正相关,beta=.56,其效应是显著的(t466=15.59,p 0.0005)。男员工的薪水高于女员工,beta=(-).26,其效应是显著的(t466=7.51,p 0.0005)。非少数民族员工的薪水高于少数民族员工,beta=.12,其效应是显著的(t466=3
13、.75,p 0.0005)。年龄对薪水的影响不显著描述统计在前描述统计在前.推论统计在后。先报告实际情况,后报告推论统计在后。先报告实际情况,后报告显著性检验:显著性检验:R2adj 在在F 考验前,考验前,beta 在在t 检验前检验前 F 和和 t 值值 的自由度必须报告。的自由度必须报告。增益R R2 2的意义:研究举例的意义:研究举例 一位研究者欲说明预测管理人员的绩效,除能力倾向,学历,经验外,人格还起额外的作用。他作层次回归来解决这个问题第一层:能力倾向,学历,经验-R2=51%第二层:人格-R2 change=6%6.一个探索性路径分析的研究实例一个探索性路径分析的研究实例根据研究结果,大学生精神症状与自尊,社会支持和年级有关,而自尊水平可由社会支持和年级预测。计算社会支持和年级对大学生精神症状的效应,自尊水平作为一个中介变量回归分析的结果回归分析的结果