1、作业2 gss 93 subset.sav中,集中分析jazz,blue,grassblue三个因变量,race,agecate4两个自变量。根据对数据的分析结果:判断下列命题对错,并以统计结果加以说明 对jazz,blue,grassblue三种音乐类型的喜好态度的协方差矩阵不同 对jazz,blue,grassblue三种音乐类型的喜好态度在6个单位格内部方差近似 简答问题 从事后分析(post hoc)的结果,你如何报告对各个年龄段的人jazz,blue,grassblue三种音乐类型的喜好态度的差别 解释Tukey range test 在因变量Blues上的结果 为控制教育水平(ed
2、u)对不同音乐类型的喜好态度的影响,可采用什么样的统计处理?写出SPSS统计命令并分析解释每一步结果探索性因素分析探索性因素分析 (Exploratory Factor Analysis)(Exploratory Factor Analysis)因素分析:目的与功能因素分析:目的与功能功能n进行效度的验证。探讨潜在特质的因素结构与存在的形式,建立量表的因素效度(factorial validity)。n用来协助测验编制,进行项目分析,检验试题的优劣好坏。同时可以针对每一个题目的独特性进行精密的测量,比较题目的重要性。Little Jiffy Method PCA 特征值 1 的规则抽取 直交旋
3、转 因素负载只显示.40的,整齐结构 1.因素的抽取 2.因素个数的确定 3.PCA结构矩阵所包含的信息 4.因素的命名 5.因素转轴 6.因素分析的统计假定 7.主成分分析和因素分析 8.探索性因素分析和验证性因素分析1.因素的抽取(factor extraction)主成份分析法(principle component analysis)以线性方程式将所有变项加以合并,计算所有变项共同解释的变异量,该线性组合称为主要成份。第一次线性组合建立后,计算出的第一个主成份估计,可以解释全体变异量的最大一部份。其所解释的变异量即属第一个主成份所有,分离后所剩余的变异量,经第二个的方程式的线性合并,再
4、抽离出第二个主成份,依此类推,所剩余的共同变异越来越小,每一成份的解释量依次递减,直到无法抽取共同变异量为止。主成份分析法适用状况于单纯为简化大量变项为较少数的成份时,以及作为因素分析的预备工作。主轴因素法(principal axis factors)分析变项间的共同变异量而非全体变异量。将相关矩阵中的对角线,由原来的1.0改用共同性(communalities)来取代。目的在抽出一系列互相独立的因素。第一个因素解释最多的原来变项间共同变异量;第二个因素解释除去第一个因素解释后,剩余共同变异量的最大变异;其余因素依序解释剩余的变异量中最大部分。直到所有的共同变异被分割完毕为止。最小平方法(l
5、east squares method)利用最小差距原理,针对特定个数的因素,计算出一个因素型态矩阵(factor pattern matrix)后,使原始相关矩阵与新的因素负荷量矩阵系数相减平方后数值最小,称为未加权最小平方法(unweighted least squares method),表示所抽离的因素与原始相关模式最接近。最大似然法最大似然法(maximum-likelihood methodmaximum-likelihood method)相关系数经变项的残差(uniqueness)加权后,利用参数估计(paratemer estimation)原理,估计出最可能出现的相关矩阵的
6、方法。主成分分析(PCA)与 主因素分析(PFA)的适用条件 目的方面:PCA用于分类;PFA用于探讨结构 PCA 解释一组变量的总方差(独特方差+共同方差)可用于对一组变量进行分类 是最常用的因素分析选择。PFA 解释一组变量的共同方差(独特方差被设定为0)可用于确定一组变量的维度 如量表中的一组题目 特别是用于检验一个 因素 能否解释一组变量的共同方差 缺点是有时会得到负的特征值,是无意义的.因素分析中的共同方差,独特方差和误差方差2.因素个数的确定 因素个数的确定是探索性因素分析中的一个非常重要的决定,因为一旦因素个数确定模型的拟合度也就确定了,不随以后因素的旋转而改变。Kaiser 法
7、n特征值代某一因素可解释的总变异量,特征值越大,代表该因素的解释力越强。n特征值以1为标准。低于1的特征值,代表该因素的变异数少于单一一个变项的变异数1,无法以因素的形式存在。n常常导致抽取因素过多碎石图(scree test)法n其方法是将每一个因素,依其特征值排列,特征值逐渐递减n当因素的特征值逐渐接近,没有变化之时,代表特殊的因素已无法被抽离出来n当特征值急遽增加之时,即代表有重要因素出现,也就是特征值曲线变陡之时,即是决定因素个数之时。碎石图 543210#PCs 12345最大似然法的模型拟合度 由因素个数从多到少考察最大似然法的模型拟合度 当拟合度由不显著变为显著时,此时的因素数目
8、即合适的因素抽取个数因素所能解释方差的百分比 所有因素所能解释方差的累计百分比应超过40%。Browne 提出了以下的程序1.考虑研究者在理论中是否事先假设了因素个数2.考虑一些简单方法如Kaiser 法,Scree Test 所提供的信息3.考虑由最大似然法所产生的模型拟合度的信息4.根据以上三方面的信息将可能的因素个数压缩到一个比较小的范围内5.根据4 分别抽取不同个数的因素比较旋转后因素负荷的可解释性以作出最终决定这是一个相对比较全面的程序。研究者可以批判性地采用总之因素个数的确定并不存在着唯一 正确 客观的答案3.PCA结构矩阵所包含的信息因素载荷因素载荷(factor loading
9、factor loading)变量(行)与因素(列)间的相关系数 因素载荷的平方是因素解释变量的方差百分比 将所有属于这一因素的变量载荷的平方(列)求和,然后除以变量的数目,就得到变量解释方差的百分比 因素 载荷是诠释不同因素意义的基础因素载荷因素载荷(factor loadingfactor loading)每一变量与主成分的相关 .32 marginal;.45 fair(most use .30 rule)VariablesPC1PC2Sadness.70.20Depression.70.15Anger.40.50Excitement -.20 -.60 PCA结构矩阵所包含的信息 结构
10、系数的平方是 VAF(variance accounted for).将列的VAF加和,就是因素的特征值eigenvalues()e.g.,1=1.18;2=1.04 将其除以因素的个数(e.g.,4)VAF1=.30,VAF2=.26 这个因素分析所解释的方差百分比-就 VAF加和:.30+.26=.56 or 56%VariablesPC1PC2Sadness.49.20Depression.49.23Anger.16.25Excitement .04 .36特征值特征值 (eigenvalueeigenvalue)给定因素的特征值度量了被此因素所解释的所有变量的方差 因素的特征值可以用所
11、有变量因素载荷的平方和来计算 特征值的比率是该因素相对于该变量解释重要性的比率 如果一个因素的特征值低,即意味着它对于变量方差解释的贡献很小,可以被忽略o注意未旋转时的特征值和旋转后的特征值不同,尽管特征值的总和会相同。应报告旋转后的特征值共通性(h)一个变量被成分所解释的方差部分.将行的VAF加和,就是变量的特征值 hsadness=.69,hdepression=.72,hanger .41,hexcitement=.40 VariablesPC1PC2Sadness.49.20Depression.49.23Anger.16.25Excitement .04 .36共通性(共通性(com
12、munalitycommunality)被某个因素解释的变量的方差部分 一个变量如果将其它变量作为预测源(predictors),其多重相关系数的平方 旋转不会使共通性改变 可以解释为外在指标(变量能够体现因素)的信度。4.因素的命名 考察每个因素,注意那些因素载荷最高的变量(markers)考察因素载荷看最初的解释是否得到因素载荷的证实 标记变量(Marker)仅与一个因素有高相关 清晰地反映一个因素的本质特征 一个因素应一开始就得到标记变量的明确界定,则围绕该因素增加其他的观测变量才有意义5.因素转轴(factor rotation)转轴的目的:将所抽取的因素,经过数学转换,使因素或成份具
13、有清楚的区隔,能够反映出特定的意义,称为转轴。目的是在理清因素与因素之间的关系,以确立因素间最简单的结构。转轴的进行:系使用三角函数的概念,将因素 之 间 的 相 对 关 系,以 转 轴 矩 阵(transformation matrix)所计算出的因素负荷矩阵的参数,将原来的共变结构所抽离出来的项目系数进行数学转换,形成新的转轴后因素负荷矩阵(经正交转轴)或结构矩阵(经斜交转轴),使结果更易解释。进一步的协助研究者进行因素的命名。多重载荷 我们的目标是简单结构 几个有较大载荷的变量(.45)载荷正负均可 一个变量应只在一个成分上有大的载荷n如果某一项目在两个或多个因素上都有大于0.30的载荷
14、,且 两个载荷之间相差不足0.2,称为多重载荷(multi-vocal items,cross-loadings)n多重载荷的项目应考虑删除,使其尽可能地少 EFA的解释当得不到简单结构时 下面是一个变量-因素的初始相关 VariablesF1 F2Sadness(V1).70.50Depression(V2).60.60Anger(V3).60-.50Excitement(V4).70-.60变量-因素的初始结构 F1F2V1V2V3V4转轴后的因素结构 F1F2V1V2V3V4F1 F2 因素转轴 比较初始矩阵和旋转后矩阵(pattern matrix)Variables F1 F2V1.
15、70.50V2.60.60V3.60-.50V4 .70-.60Variables F1 F2V1.70-.10V2.60 .10V3.20 .50V4 .10 .60UnrotatedRotated正交旋转(orthogonal rotation)F1F2V1V2V3V4F1 F2 斜交旋转(oblique rotation)F1F2V1V2V3V4F1 F2 斜交转轴的优点斜交转轴的优点因素分析模型并没有规定因素之间必须独立1.心理学研究中很多概念或范畴(construct)之间是相关的硬性将它们限制成相互独立的因素不见得符合事实2.正交旋转人为地设置了多余的限制导致了旋转后的因素负荷矩阵
16、的简单性 清晰性 易解释性以及整个模型的拟合度都要比相同条件下斜交旋转的结果要差lFabrigar 及其同事在最近的一篇文章中用具体的数据清楚地显示了这一点最后斜交旋转比正交旋转能提供更多的信息即因素之间的相关矩阵这一信息很可能与研究者的理论是密切相关的3.如果因素之间相关较高的话 还意味着可能存在着高阶因素因此还可以进行更高阶的因素分析这一点正交旋转是办不到的用SPSS作因素分析的技巧 Missing values Exclude cases listwise Coefficient displayed format Sort by size 默认迭代(iterations)次数 25-常需
17、改为更大 将因素分数存为变量(Save Factor Scores as Variables)不少研究者认为每一观察变量只能有一个大的因素负荷,同一行的其它负荷必须为0。这种理解的错误在于1.因素分析模型完全允许一个观察变量受多个因素影响2.Thurstone 的定义只不过指出对于旋转后的因素负荷矩阵中一个观察变量受多个因素影响的情况不能多次出现与这一误解密切相关不少研究者在报告旋转后的因素负荷矩阵时往往只报告绝对值大的负荷,如大于0.40 的负荷。同时若同一行出现两个负荷较大的负荷往往只报告绝对值较大的那个负荷。这种做法形成了因素负荷矩阵开天窗,未报告全部数据的现象这种看上去似乎清晰简单的天
18、窗结构,有可能对读此报告的其他研究者产生误导,应当加以避免。最好的做法是将因素负荷矩阵的全部数据加以报告问卷信度 问卷信度是因素分析中的一个重要指标,是共同度的上限。若信度不高,共同度就不会高,其后果是参数因素负荷的标准误较大,即稳定性较差。换言之,对于同一人群中不同样本进行因素分析,得到的因素负荷相差较大。一般都大于0.7。近70%的国内近期研究*,因素分析没有报告信度对这些研究我们无从了解其因素负荷的稳定性。正确运用探索性因素分析需要注意的事项 1.在问卷设计阶段对于理论中假设的每一个因素都应确保有足够的项目来充分描述它2.在问卷测试阶段应对项目慎加取舍保证最终的问卷有较高的信度3.在确定
19、抽取因素个数时应根据多渠道信息作合理的决定而不是依赖某一机械的貌似客观的方法4.在因素旋转时无特殊理由应采取斜交旋转5.在报告结果时必须报告样本大小和相关矩阵并同时报告特征根共同度以及完整的旋转后的因素负荷矩阵以方便其它研究者评判6.注意结果的可推广性和交互验证7.注意不同群体中的因素结构可能不同6.因素分析的统计假定 样本 样本规模直接影响因素分析参数因素负荷的稳定性。虽然原则上样本越大,因素负荷越稳定,但是样本越大,所消耗的资源也就越多。研究者通常希望既能获得足够的样本以满足因素分析的要求,又能节约有限的资源。目前比较流行的评估样本的指标有3 个:1.绝对样本规模200 为最低要求2.样本
20、数与项目数之比一般要求大于5-10 3.项目数与因子数之比要求大于4因素分析的条件 因素分析的变量都必须是连续变量,符合线性关系的假设。顺序与类别变量不得使用因素分析简化结构。抽样的过程必须具有随机性,并具有一定的规模。如果研究的群体据有相当的同构型(如学生样本),样本数目不多,不得使用因素分析简化结构。变量之间需具有一定程度的相关,一群相关太高或太低的变项,皆会造成执行因素分析的困难。太低的相关难以抽取一组稳定的因素,不适于进行因素分析。相关太高的变项,多重共线性(multicollinearity)明显,有区辨效度不足的疑虑,所获得的因素结构价值不高。可透过球形检定与KMO检定来检验上述问
21、题。反映像矩阵 显示偏相关的大小 矩阵中若有多对系数偏高,则应放弃使用因素分析。Bartlettstestofsphericity(球形考验)一般相关矩阵中的相关系数必须显著的高于0。某一群题目两两之间有高相关,显示可能存有一个因素,多个群落代表多个因素。群落代表多个因素。如果相关系数都偏低且接近,则因素的抽取越不容易,Bartletts test of sphericity(球形考验)即可用来检验是否这些相关系数不同且大于0,显著的球形考验表示相关系数足以作为因素分析抽取因素之用。KMO 统计量 KMO:Keiser-Meyer-Olkin Measure of sample adaquac
22、y 比较观测变量之间的简单相关系数和偏相关系数的大小 说明多元共线性的问题 KMO较小时,表明变量不适合作因素分析 0.9以上:非常好 0.8以上:好 0.7:一般 0.6:差 0.5以下:不能接受因素分析的统计假定 与 多元回归同样的前提:线性关系 等距数据 没有太高的多元共线性 多元正态性 spurious correlation会导致错误的推断 GIGO,(Garbage in,Garbage out).因素分析统计前提中的问题 无选择性偏差/适当的设定 因素分析的相关矩阵中未包括无关变量以及包括了有关变量会显著地影响因素的解决。正交假设(Orthogonality)(只用于 PFA 而
23、非 PCA)独特因素应当彼此不相关,或与共同因素不相关.中等至中高的变量内部相关 低内部相关会导致结果中主成分的数目与原 变量相差无几,达不到因素分析数据缩减的目的。而过高的内部相关又会产生多元共线性问题。KMO 统计量发现过高的内部相关,其中一些变量可以合并或去掉 PCA与EFA 二者的共性 都是数据简化的技术 都涉及抽取的过程 都解释变量和因素的关系 都计算因素分数 二者的差别 EFA 假定观测变量的背后有潜在变量(因素)EFA 具有多种形式的估计方法和抽取方法 EFA 是基于”因果”的世界观,认为潜在变量”造成”了观测变量.EFA只解释那部分共同方差,而PCA是解释共同方差和独特方差两部
24、分 探索性因素分析(EFA)的局限 用于研究的初始阶段,帮助产生假设 解决的解释没有参照,可能是主观的 旋转的可能性无穷多 在验证假设时,确证性因素分析(Confirmatory Factor Analysis)更可靠探索性因素分析探索性因素分析 (EFA)(EFA)与验证性因素分析与验证性因素分析 (CFA)(CFA)理论 EFA:无事先建立的理论为指导 CFA:以事先建立的理论为指导 对因素数目和变量与因素关系的假定 EFA试图揭示一组数目较多变量潜在结构,故对因素数目无任何假定,它假定任何变量都可能与任何因素相关 CFA的最低要求是:事先假设模型中因素的数目,哪个变量会在哪个因素上有载荷 一个好的研究往往不单纯用EFA,而是以EFA开始,以CFA结束。