1、多元统计分析中国人民大学:何晓群苏州大学:马学俊基于R语言多元统计分析中国人民大学:何晓群基于R 语言因子分析因子分析学习目标:学习目标:1.理解因子分析方法的思想;2.了解因子分析的基本理论;3.掌握求解因子的方法步骤;4.分辨因子分析与主成分分析的异同;5.能够用R软件进行因子分析,并正确理 解系统输出结果。06因子分析学习目标:0 66.1因子分析的基本理论因子分析 因子分析因子分析(factor analysis)(factor analysis)模型是主成分分析的推广。它也模型是主成分分析的推广。它也是利用降维的思想是利用降维的思想,从研究原始变量相关矩阵内部的依赖关系出从研究原始变
2、量相关矩阵内部的依赖关系出发发,把一些具有错综复杂关系的变量归结为少数几个综合因子的把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法一种多变量统计分析方法 相比主成分分析相比主成分分析,因子分析更倾向于描述原始变量之间的相关因子分析更倾向于描述原始变量之间的相关关系关系,因此因此,因子分析的出发点是原始变量的相关矩阵。因子分析的出发点是原始变量的相关矩阵。6.1 因子分析的基本理论因子分析因子分析(f a c t o r a6.1.1 因子分析的基本思想因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,不同组的变量间的相关性则较低。每组
3、变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。6.1 因子分析的基本理论 对于所研究的某一具体问题对于所研究的某一具体问题,原始变量可以分解成两部分之和的形式原始变量可以分解成两部分之和的形式,一部分是少数几个不一部分是少数几个不可测的所谓公共因子的线性函数可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。抓住这些主要因另一部分是与公共因子无关的特殊因子。抓住这些主要因子就可以帮助我们对复杂的经济问题进行分析和解释。子就可以帮助我们对复杂的经济问题进行分析和解释。因子分析不仅可以用来研究变量之间的相关关系因子分析不仅可以用来研究变量之间的相关
4、关系,而且可以用来研究样品之间的相关关系而且可以用来研究样品之间的相关关系,通常将前者称为通常将前者称为R R型因子分析型因子分析,后者称为后者称为Q Q型因子分析。型因子分析。6.1.1 因子分析的基本思想因子分析的基本思想是根据相关性6.1 因子分析的基本理论6.1.2 因子分析的基本理论及模型 u1.1.查尔斯查尔斯斯皮尔曼提出因子分析时用到的例子斯皮尔曼提出因子分析时用到的例子6.1 因子分析的基本理论6.1.2 因子分析的基本理论及模6.1 因子分析的基本理论6.1.2 因子分析的基本理论及模型u1.1.查尔斯查尔斯斯皮尔曼提出因子分析时用到的例子斯皮尔曼提出因子分析时用到的例子6.
5、1 因子分析的基本理论6.1.2 因子分析的基本理论及模u1.1.查尔斯查尔斯斯皮尔曼提出因子分析时用到的例子斯皮尔曼提出因子分析时用到的例子6.1 因子分析的基本理论6.1.2 因子分析的基本理论及模型1.查尔斯 斯皮尔曼提出因子分析时用到的例子6.1 因子分析u2.2.一般因子分析模型一般因子分析模型6.1 因子分析的基本理论6.1.2 因子分析的基本理论及模型2.一般因子分析模型6.1 因子分析的基本理论6.1.2 因u2.2.一般因子分析模型一般因子分析模型6.1 因子分析的基本理论6.1.2 因子分析的基本理论及模型因子模型2.一般因子分析模型6.1 因子分析的基本理论6.1.2 因
6、6.1 因子分析的基本理论6.1.2 因子分析的基本理论及模型载荷矩阵载荷矩阵A的统计意义以及公共因子与原始变量之间的关系如下的统计意义以及公共因子与原始变量之间的关系如下6.1 因子分析的基本理论6.1.2 因子分析的基本理论及模6.1 因子分析的基本理论6.1.2 因子分析的基本理论及模型载荷矩阵载荷矩阵A的统计意义以及公共因子与原始变量之间的关系如下的统计意义以及公共因子与原始变量之间的关系如下6.1 因子分析的基本理论6.1.2 因子分析的基本理论及模6.2 因子载荷的求解求解步骤step1:step1:确定因子载荷确定因子载荷矩阵:主成分法、主轴因子法、最小二乘矩阵:主成分法、主轴因
7、子法、最小二乘法、极大似然法、法、极大似然法、因子提取法等因子提取法等step2:step2:因子旋转因子旋转step3:step3:计算因子得分计算因子得分6.2 因子载荷的求解求解步骤s t e p 1:确定因子载荷矩阵:6.2.1 主成分法6.2 因子载荷的求解主主成成分分法法6.2.1 主成分法6.2 因子载荷的求解 主成分法6.2.1 主成分法6.2 因子载荷的求解主主成成分分法法6.2.1 主成分法6.2 因子载荷的求解 主成分法6.2.2 主轴因子法6.2 因子载荷的求解主轴分析法求解方法如下:主轴分析法求解方法如下:6.2.2 主轴因子法6.2 因子载荷的求解 主轴分析法求解6
8、.2.3 极大似然法6.2 因子载荷的求解极极大大似似然然法法6.2.3 极大似然法6.2 因子载荷的求解极大似然法 6.2.4 因子旋转6.2 因子载荷的求解u 原因:不管用何种方法确定初始因子载荷矩阵原因:不管用何种方法确定初始因子载荷矩阵A,A,它们都不是唯一的。我们得到的它们都不是唯一的。我们得到的初始因子解各主因子的典型代表变量不是很突出初始因子解各主因子的典型代表变量不是很突出,容易使因子的意义含糊不清容易使因子的意义含糊不清,不不便于对实际问题进行分析。出于这种考虑便于对实际问题进行分析。出于这种考虑,可以对初始公共因子进行线性组合可以对初始公共因子进行线性组合,即即进行因子旋转
9、进行因子旋转,以期找到意义更为明确、实际意义更明显的公共因子以期找到意义更为明确、实际意义更明显的公共因子。u 方法:因子旋转分为正交旋转与斜交旋转。方法:因子旋转分为正交旋转与斜交旋转。正交旋转由初始载荷矩阵正交旋转由初始载荷矩阵A A右乘一正交阵得到斜交旋转则放弃了因子之间彼此独右乘一正交阵得到斜交旋转则放弃了因子之间彼此独立这个限制立这个限制,因而可能达到更为简洁的形式因而可能达到更为简洁的形式,其实际意义也更容易解释其实际意义也更容易解释。6.2.4 因子旋转6.2 因子载荷的求解原因:不管用何种方6.2.5 因子得分6.2 因子载荷的求解6.2.5 因子得分6.2 因子载荷的求解 6
10、.2.6 主成分分析与因子分析的区别6.2 因子载荷的求解区别区别因子分析因子分析主成分分析主成分分析目的目的因子分析目的就是要从数据中探查能对变量因子分析目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子以及公共起解释作用的公共因子和特殊因子以及公共因子和特殊因子的组合系数。因子和特殊因子的组合系数。主成分分析则简单一些主成分分析则简单一些,它只是从空间生成的它只是从空间生成的角度寻找能解释诸多变量绝大部分变异的几角度寻找能解释诸多变量绝大部分变异的几组彼此不相关的新变量组彼此不相关的新变量(主成分主成分)。自自/因变量因变量变量表示成各因子的线性组合变量表示成各因子的线性组合主成
11、分表示成各变量的线性组合。主成分表示成各变量的线性组合。前提假设前提假设需要一些假设需要一些假设不需要有一些专门假设不需要有一些专门假设方法方法提取主因子的方法不仅有主成分法提取主因子的方法不仅有主成分法,还有极还有极大似然法等大似然法等主成分只能用主成分法提取主成分只能用主成分法提取个数个数在因子分析中在因子分析中,因子个数需要分析者指定因子个数需要分析者指定,随随指定的因子数量不同而结果不同。指定的因子数量不同而结果不同。在主成分分析中在主成分分析中,主成分的数量是一定的主成分的数量是一定的,一一般有几个变量就有几个主成分。般有几个变量就有几个主成分。解释解释和主成分分析相比和主成分分析相
12、比,因子分析可以使用旋转技因子分析可以使用旋转技术帮助解释因子术帮助解释因子,因此在解释方面更加有优势因此在解释方面更加有优势如果想把现有的变量变成少数几个新的变量如果想把现有的变量变成少数几个新的变量来进行后续分析来进行后续分析,则可以使用主成分分析则可以使用主成分分析6.2.6 主成分分析与因子分析的区别6.2 因子载荷的求解6.3 因子分析的步骤与逻辑框图6.3.1 因子分析的步骤(1)(1)根据研究问题选取原始变量。根据研究问题选取原始变量。(2)(2)对原始变量进行标准化并求其相关阵对原始变量进行标准化并求其相关阵,分析变量之间的相关性。分析变量之间的相关性。(3)(3)求解初始公共
13、因子及因子载荷矩阵。求解初始公共因子及因子载荷矩阵。(4)(4)因子旋转。因子旋转。(5)(5)计算因子得分。计算因子得分。(6)(6)根据因子得分做进一步分析根据因子得分做进一步分析。进行因子分析应包括如下几步进行因子分析应包括如下几步:6.3 因子分析的步骤与逻辑框图6.3.1 因子分析的步骤(6.3 因子分析的步骤与逻辑框图6.3.2 因子分析的逻辑框图6.3 因子分析的步骤与逻辑框图6.3.2 因子分析的逻辑框6.4 因子分析的上机实现 【例例6-16-1】为了与主成分分析进行比较为了与主成分分析进行比较,此处仍沿用例此处仍沿用例5-35-3的数据的数据(见表见表5-4),5-4),对
14、衡量水泥企对衡量水泥企业经济效益的业经济效益的7 7项指标建立因子分析模型。项指标建立因子分析模型。Step1Step1:读入数据:读入数据,选择因子个数。选择因子个数。1.ex5.3 dat53 rownames(dat53)dat53 p library(psych)7.#建立模型8.fit61 lam#方差解释11.cumlam VE colnames(VE)round(VE,3)15.特征值 比例累计比例16.1 5.163 0.738 0.73817.2 1.209 0.173 0.91018.3 0.342 0.049 0.95919.4 0.195 0.028 0.98720.5
15、 0.049 0.007 0.99421.6 0.034 0.005 0.99922.7 0.008 0.001 1.000u Step1Step1:读入数据:读入数据,选择因子个数。选择因子个数。6.4 因子分析的上机实现1 0.#方差解释1 1.c u6.4 因子分析的上机实现1.#因子载荷2.load rownames(load)round(load,3)5.,1,26.X1 0.925 0.0487.X2 0.931-0.1708.X3 0.957-0.1969.X4 0.909-0.29610.X5 0.969 0.07711.X6 0.856 0.39512.X7 0.167 0.
16、943u Step2Step2:计算因子载荷和因子得分。因子载荷阵是用标准化的主成分:计算因子载荷和因子得分。因子载荷阵是用标准化的主成分(公共因子公共因子)近似表示近似表示标准化原始变量的系数矩阵。标准化原始变量的系数矩阵。6.4 因子分析的上机实现1.#因子载荷2.l o a d6.4 因子分析的上机实现13.#因子得分14.varci varci_mat score_mat rownames(score_mat)round(score_mat,3)19.,1 ,220.X1 0.179 0.04021.X2 0.180-0.14122.X3 0.185-0.16223.X4 0.176-
17、0.24524.X5 0.188 0.06425.X6 0.166 0.32726.X7 0.032 0.780u Step2Step2:计算因子载荷和因子得分。由主成分法求解公共因子时:计算因子载荷和因子得分。由主成分法求解公共因子时,因子得分系数与因子载因子得分系数与因子载荷之间存在密切联系。荷之间存在密切联系。6.4 因子分析的上机实现1 3.#因子得分1 4.v a6.4 因子分析的上机实现1.#协方差2.sigm round(sigm,3)4.X1 X2 X3 X4 X5 X6 X75.X1 1.000 0.763 0.852 0.795 0.902 0.821 0.1576.X2
18、0.763 1.000 0.923 0.897 0.881 0.715 0.0257.X3 0.852 0.923 1.000 0.981 0.875 0.694 0.0258.X4 0.795 0.897 0.981 1.000 0.810 0.582-0.0519.X5 0.902 0.881 0.875 0.810 1.000 0.903 0.18810.X6 0.821 0.715 0.694 0.582 0.903 1.000 0.42811.X7 0.157 0.025 0.025-0.051 0.188 0.428 1.000u 实际上实际上,在进行因子分析前在进行因子分析前,我
19、们往往先要了解变量之间的相关性我们往往先要了解变量之间的相关性,以判断是否适合对数据以判断是否适合对数据做因子分析。做因子分析。6.4 因子分析的上机实现1.#协方差2.s i g m#检验 13.psych:KMO(dat53)14.Kaiser-Meyer-Olkin factor adequacy15.Call:psych:KMO(r=dat53)16.Overall MSA=0.7817.MSAfor each item=18.X1 X2 X3 X4 X5 X6 X719.0.88 0.88 0.77 0.73 0.82 0.70 0.3820.ocov.test(x=dat53,Si
20、gma0=diag(p)21.$m2kog 22.1 37723.$p.value24.1 0u KMOKMO检验用于检查变量间的相关性和偏相关性检验用于检查变量间的相关性和偏相关性,KMO,KMO统计量的取值在统计量的取值在0101之间。之间。KMOKMO统计量统计量的取值越接近的取值越接近1,1,表明变量间的相关性越强表明变量间的相关性越强,偏相关性越弱偏相关性越弱,因子分析的效果越好。实际分因子分析的效果越好。实际分析中析中,当当KMOKMO统计量在统计量在0.70.7以上时以上时,认为做因子分析的效果比较好认为做因子分析的效果比较好;当当KMOKMO统计量在统计量在0.50.5以下以下
21、时时,不适合做因子分析不适合做因子分析,应考虑重新选取变量或者采用其他分析方法。如果变量间相互独应考虑重新选取变量或者采用其他分析方法。如果变量间相互独立立,则无法从中提取公因子则无法从中提取公因子,也就无法应用因子分析法。也就无法应用因子分析法。BartlettBartlett球形检验的原假设是相球形检验的原假设是相关阵为单位阵。如果拒绝原假设关阵为单位阵。如果拒绝原假设,则说明各变量间具有相关性则说明各变量间具有相关性,因子分析有效因子分析有效;如果不拒绝如果不拒绝原假设原假设,则说明变量间相互独立则说明变量间相互独立,不适合做因子分析。不适合做因子分析。6.4 因子分析的上机实现1 2.
22、#检验 1 3.p s y6.4 因子分析的上机实现1.fit61_var#因子载荷3.load_var rownames(load)round(load_var,3)6.,1,27.1,0.899 0.2248.2,0.946 0.0109.3,0.977-0.01010.4,0.949-0.11811.5,0.936 0.26112.6,0.765 0.55113.7,-0.016 0.95814.#旋转矩阵15.fit61_var$rot.mat 16.,1,217.1,0.982 0.19118.2,-0.191 0.982u 另外另外,得到初始载荷矩阵与公共因子后得到初始载荷矩阵与公
23、共因子后,为了解释方便为了解释方便,往往需要对因子进行旋转。我们首往往需要对因子进行旋转。我们首先进行方差最大正交旋转。先进行方差最大正交旋转。6.4 因子分析的上机实现1.f i t 6 1 _ v a r#因子得分20.xx xy_var score_mat_var rownames(score_mat_var)round(score_mat_var,digits=3)25.RC1 RC226.X1 0.168 0.07327.X2 0.204-0.10428.X3 0.213-0.12429.X4 0.219-0.20730.X5 0.172 0.09931.X6 0.100 0.353
24、32.X7-0.117 0.772u 由输出结果可以看到由输出结果可以看到,旋转后公共因子解释原始数据的能力没有提高旋转后公共因子解释原始数据的能力没有提高,但因子载荷矩阵及但因子载荷矩阵及因子得分系数矩阵都发生了变化因子得分系数矩阵都发生了变化,因子载荷矩阵中的元素更倾向于因子载荷矩阵中的元素更倾向于0 0或或1 1。6.4 因子分析的上机实现1 9.#因子得分2 0.x6.4 因子分析的上机实现1.fit61_pro#Pattern Matrix 3.load_pro round(load_pro,3)5.,1 ,26.1,0.890 0.1117.2,0.971-0.1158.3,1.0
25、06-0.1409.4,0.993-0.24710.5,0.923 0.14411.6,0.703 0.46612.7,-0.161 0.98913.#Structure Matrix14.fit61_pro$Structure15.RC1 RC216.X1 0.920 0.351917.X2 0.940 0.1477u 有时为了使公共因子的实际意义更容易解释有时为了使公共因子的实际意义更容易解释,往往需要放弃公共因子之间互不相关的约束往往需要放弃公共因子之间互不相关的约束而进行斜交旋转而进行斜交旋转,最常用的斜交旋转方法为最常用的斜交旋转方法为PromaxPromax方法。方法。6.4 因子
26、分析的上机实现1.f i t 6 1 _ p r o score_mat_pro load_pro%*%cor(score_mat_pro)25.RC1 RC226.1,0.920 0.351927.2,0.940 0.147728.3,0.968 0.132329.4,0.926 0.021722.X7 0.107 0.9451u Pattern MatrixPattern Matrix即因子载荷矩阵即因子载荷矩阵,Structure Matrix,Structure Matrix为公共因子与标准化原始变量的相为公共因子与标准化原始变量的相关阵。上面给出的三个矩阵存在如下关系关阵。上面给出的
27、三个矩阵存在如下关系:Structure Matrix=Pattern Structure Matrix=Pattern MatrixMatrixCorrelationCorrelation Matrix Matrix(接上文代码如下)(接上文代码如下)6.4 因子分析的上机实现1 8.X 3 0.9 6 8 0.1 3 26.4 因子分析的上机实现1.summary(score_mat_pro)2.RC1 RC23.Min.:-1.522 Min.:-2.0474.1st Qu.:-0.653 1st Qu.:-0.6455.Median:-0.031 Median:-0.1496.Mean
28、 :0.000 Mean :0.0007.3rd Qu.:0.774 3rd Qu.:0.5268.Max.:2.026 Max.:2.3149.apply(score_mat_pro,2,sd)10.RC1 RC211.1 112.plot(fit61_pro$scores,pch=+,xlab=第一因子,ylab=第二因子)13.abline(h=0,lty=2)14.abline(v=0,lty=2)15.text(fit61_pro$scores,ex5.3,1,adj=-0.05)u 下面我们对因子得分值进行分析。两个变量的标准差均为下面我们对因子得分值进行分析。两个变量的标准差均为
29、1,1,变量均值为变量均值为0 0。得到各样品的。得到各样品的因子得分后因子得分后,可以对样本进行分析可以对样本进行分析,如用因子得分值代替原始数据进行归类分析或者回归如用因子得分值代替原始数据进行归类分析或者回归分析等。同时分析等。同时,还可以在一张二维图上画出各数据点还可以在一张二维图上画出各数据点,描述各样本点之间的相关关系。描述各样本点之间的相关关系。6.4 因子分析的上机实现1.s u m m a r y(s c o r e6.4 因子分析的上机实现u 图形中添加辅助线图形中添加辅助线,调整坐标轴刻度调整坐标轴刻度,则可得到散点图则可得到散点图6.4 因子分析的上机实现图形中添加辅助
30、线,调整坐标轴刻度,6.4 因子分析的上机实现6.4 因子分析的上机实现 6.4 因子分析的上机实现1.ex6.2 dat62 rownames(dat62)dat62 library(psych)6.#检验7.psych:KMO(dat62)8.Kaiser-Meyer-Olkin factor adequacy9.Call:psych:KMO(r=dat62)10.Overall MSA=0.6611.MSAfor each item=12.X1 X2 X3 X4 X5 X6 X7 X813.0.66 0.59 0.67 0.69 0.80 0.79 0.47 0.5114.p e x 6
31、.2 ocov.test(x=dat62,Sigma0=diag(p)17.$m2kog18.1 21119.$p.value20.1 0u Step1Step1:KMOKMO统计量的值等于统计量的值等于0.66,0.66,说明勉强适合进行因子分析说明勉强适合进行因子分析,Bartlett,Bartlett检验的结果显示检验的结果显示,在在0.010.01的显著性水平下的显著性水平下,拒绝协方差阵为单位阵的原假设拒绝协方差阵为单位阵的原假设,适合做因子分析。适合做因子分析。6.4 因子分析的上机实现1 5.#B a r t l e t t 检验1 6.6.4 因子分析的上机实现1.#建模2.f
32、it62_var lam62#方差解释5.cumlam62 VE62 colnames(VE62)round(VE62,3)9.特征值 比例 累计比例10.1 3.950 0.494 0.49411.2 1.739 0.217 0.71112.3 1.041 0.130 0.84113.4 0.538 0.067 0.90914.5 0.422 0.053 0.96115.6 0.189 0.024 0.98516.7 0.087 0.011 0.99617.8 0.033 0.004 1.000u Step2Step2:选择因子个数。选择因子个数。6.4 因子分析的上机实现1.#建模2.f
33、i t 6 2 _ v6.4 因子分析的上机实现18.#碎石图19.plot(lam62,type=o,xlab=因子序号,ylab=特征值)u Step2Step2:由方差解释表和碎石图可看出由方差解释表和碎石图可看出,前三个特征根较大前三个特征根较大,其余五个特征根较小其余五个特征根较小,而且前而且前三个公共因子的总方差贡献率为三个公共因子的总方差贡献率为84.1%,84.1%,基本提取了样本所包含的信息基本提取了样本所包含的信息,因此选择三个公共因此选择三个公共因子是合适的。我们也可以根据碎石图的变化趋势选择四个公共因子。因子是合适的。我们也可以根据碎石图的变化趋势选择四个公共因子。6.
34、4 因子分析的上机实现1 8.#碎石图1 9.p l o t6.4 因子分析的上机实现1.#因子载荷2.load62 rownames(load62)round(load62,3)5.,1 ,2 ,36.X1 0.829 0.058 0.5097.X2 0.558 0.109 0.6878.X3 0.859-0.174 0.0539.X4 0.810-0.369-0.01110.X5 0.928 0.048 0.23611.X6 0.046-0.096 0.90012.X7 0.062 0.892-0.12113.X8-0.297 0.878 0.09814.F123_62#因子载荷2.l o
35、 a6.4 因子分析的上机实现15.#因子得分16.xx62 xy62 score62_mat rownames(score62_mat)print(score62_mat,digits=2)21.RC1 RC2 RC322.X1 0.205 0.0912 0.17923.X2 0.055 0.0773 0.38724.X3 0.309-0.0099-0.17025.X4 0.284-0.1281-0.19326.X5 0.315 0.1176-0.06227.X6-0.229-0.1208 0.70428.X7 0.159 0.5530-0.18029.X8-0.044 0.4861 0.0
36、88u Step3Step3:计算因子载荷和因子得分。计算因子载荷和因子得分。6.4 因子分析的上机实现1 5.#因子得分1 6.x x6.4 因子分析的上机实现【例例6-3】区域公用事业的发展是地区综合发展的重要组成部分区域公用事业的发展是地区综合发展的重要组成部分,是促进社会发展的重要因是促进社会发展的重要因素。因此素。因此,分析评价全国分析评价全国31个省、直辖市、自治区在城市公共交通、市政、设施等各方面的建个省、直辖市、自治区在城市公共交通、市政、设施等各方面的建设设,把握各地区公用事业的整体发展水平具有重要意义。下面应用因子分析模型把握各地区公用事业的整体发展水平具有重要意义。下面应
37、用因子分析模型,选取反映城市选取反映城市公用事业建设的公用事业建设的12个指标作为原始变量个指标作为原始变量,对全国各地区公用事业的整体发展水平做分析评价。对全国各地区公用事业的整体发展水平做分析评价。这这12个指标分别为个指标分别为X1:城区面积城区面积(平方公里平方公里);X2:建成区面积建成区面积(平方公里平方公里);X3:人均公园绿地面积人均公园绿地面积(平方米平方米);X4:城市建设用地面积城市建设用地面积(平方公里平方公里);X5:年末实有道路长度年末实有道路长度(公里公里);X6:年末实有道路面积年末实有道路面积(万平方米万平方米);X7:城市排水管道长度城市排水管道长度(公里公
38、里);X8:城市道路照明灯城市道路照明灯(千盏千盏);X9:年末公共交通车辆运营年末公共交通车辆运营数数(辆辆);X10:运营线路总长度运营线路总长度(公里公里);X11:每万人拥有公共交通车辆每万人拥有公共交通车辆(标台标台);X12:出租汽车数量出租汽车数量(辆辆)。原始数据来源于。原始数据来源于2017年年中国统计年鉴中国统计年鉴。步骤如下:步骤如下:Step1Step1:读入数据:读入数据,进行进行KMOKMO检验和检验和BartlettBartlett检验。检验。Step2Step2:选择因子个数:选择因子个数Step3Step3:计算因子载荷和因子得分:计算因子载荷和因子得分6.4
39、 因子分析的上机实现【例6-3】区域公用事业的发展是6.4 因子分析的上机实现1.ex6.3 dat63 rownames(dat63)dat63#检验6.library(psych)7.psych:KMO(dat63)8.Kaiser-Meyer-Olkin factor adequacy9.Call:psych:KMO(r=dat63)10.Overall MSA=0.8411.MSAfor each item=12.X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X1213.0.96 0.89 0.59 0.80 0.86 0.81 0.89 0.81 0.81 0
40、.920.520.7814.p ocov.test(x=dat63,Sigma0=diag(p)16.$m2kog 17.1 80818.$p.value19.1 0u Step1Step1:读入数据读入数据,进行进行KMOKMO检验和检验和BartlettBartlett检验。结果显示该例的数据非常适合做因子分析。检验。结果显示该例的数据非常适合做因子分析。6.4 因子分析的上机实现1.e x 6.3#方差解释2.fit63_var lam63#方差解释5.cumlam63 VE63 colnames(VE63)round(VE63,3)9.特征值 比例 累计比例10.1 8.980 0.7
41、48 0.74811.2 1.049 0.087 0.83612.3 0.866 0.072 0.90813.4 0.551 0.046 0.95414.5 0.215 0.018 0.97215.6 0.155 0.013 0.98516.7 0.075 0.006 0.99117.8 0.056 0.005 0.99618.9 0.032 0.003 0.99819.10 0.011 0.001 0.99920.11 0.006 0.000 1.00021.12 0.004 0.000 1.000u Step2Step2:选择因子个数选择因子个数6.4 因子分析的上机实现1.#方差解释6.
42、4 因子分析的上机实现u Step2Step2:选择因子个数,方差解释表和碎石图显示选择因子个数,方差解释表和碎石图显示,前三个公共因子总的方差贡献率为前三个公共因子总的方差贡献率为90.8%,90.8%,基本提取了样本所包含的信息基本提取了样本所包含的信息;随着公共因子个数大于随着公共因子个数大于3,3,碎石图中曲线的变化趋势明显趋于平碎石图中曲线的变化趋势明显趋于平稳稳,因此确定选择三个公共因子。因此确定选择三个公共因子。22.#碎石图23.plot(lam63,type=o,xlab=因子序号,ylab=特征值)6.4 因子分析的上机实现S t e p 2:选择因子个数,方差解释6.4
43、因子分析的上机实现u Step3Step3:因子载荷和因子得分。因子载荷和因子得分。1.#因子载荷2.load63 rownames(load63)round(load63,3)5.,1,2,36.X1 0.743 0.500 0.2397.X2 0.948 0.210 0.1538.X3 0.204 0.096 0.9729.X4 0.957 0.240 0.08310.X5 0.952 0.178 0.16811.X6 0.951 0.150 0.19612.X7 0.930 0.217 0.11313.X8 0.933 0.093 0.13514.X9 0.876 0.413 0.097
44、15.X10 0.889 0.248 0.17616.X11 0.093 0.922 0.07017.X12 0.541 0.592 0.0596.4 因子分析的上机实现S t e p 3:因子载荷和因子得分。16.4 因子分析的上机实现u Step3Step3:因子载荷和因子得分。因子载荷和因子得分。18.#各地区公共因子得分19.round(fit63_var$scores,3)20.RC1 RC2 RC321.北京-1.203 3.851 0.924 22.天津-0.651 1.192-0.926 23.河北 0.057 0.389 0.301 24.山西-0.214-0.878-0.347 25.内蒙古-0.524-0.613 2.443 26.辽宁 0.556 0.962-0.856 27.吉林-0.261-0.178 0.075 28.#图6-529.plot(fit63_var$scores,pch=o,xlab=第一因子,ylab=第二因子)30.abline(h=1,lty=1)31.abline(v=0,lty=1)32.text(fit63_var$scores,ex6.3,1,adj=-0.05)6.4 因子分析的上机实现S t e p 3:因子载荷和因子得分。16.4 因子分析的上机实现6.4 因子分析的上机实现