1、应用统计学应用统计学Applied StatisticsApplied Statistics8-1*应用应用统计统计应应 用用 统统 计计 学学 Applied StatisticsApplied Statistics应用统计学应用统计学Applied StatisticsApplied Statistics8-2*应用统计学应用统计学Applied StatisticsApplied Statistics8-3*应用统计学应用统计学Applied StatisticsApplied Statistics8-4*n在研究实际问题时,往往需要收集多个变量。但这在研究实际问题时,往往需要收集多个变
2、量。但这样会使多个变量间存在较强的相关关系,即这些变样会使多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复,直接利用它们进行分析量间存在较多的信息重复,直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差。而引起较大的误差。n为能够充分利用数据,通常希望用较少的新变量代为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,同时要求这些新变量尽可能替原来较多的旧变量,同时要求这些新变量尽可能反映原变量的信息。反映原变量的信息。n主成分分析和因子分子正是解决这类问题的有效方主成分分析和因子分子正是解决这类
3、问题的有效方法。它们能够提取信息,使变量简化降维,从而使法。它们能够提取信息,使变量简化降维,从而使问题更加简单直观。问题更加简单直观。应用统计学应用统计学Applied StatisticsApplied Statistics8-5*8.1 主成分分析主成分分析 8.1.1 主成分分析的基本思想是什么?主成分分析的基本思想是什么?8.1.2 如何选择主成分?如何选择主成分?8.1.3 怎样解释主成分?怎样解释主成分?第第 8 章章 用少数变量代表多个变量用少数变量代表多个变量应用统计学应用统计学Applied StatisticsApplied Statistics8-6*应用统计学应用统计
4、学Applied StatisticsApplied Statistics8-7*n主成分的概念由Karl Pearson在1901年提出n考察多个变量间相关性的一种多元统计方法n研究如何通过少数几个主成分来解释多个变量间的内部结构。即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。n主成分分析的目的:数据的压缩;数据的解释l它常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。应用统计学应用统计学Applied StatisticsApplied Statistics8-8*【例例8.1】表8-1是北京市某高中是北京市某高中50
5、名学生的六门课程测试成绩数据名学生的六门课程测试成绩数据 n 乍一看,很难从这六门课程的测试得分来评价这50名学生的成绩优劣,也很难分析这些学生的成绩分布特征。要解决这样的问题,自然希望能把这一数据中包含的六个变量概括成一两个综合变量。那么这一做法是否可行呢?提炼出来的少数变量能够代表原数据的多少信息?如何解释它们呢?我们首先来了解一下主成分分析的基本思想。n 对于例8.1中的数据,每一个学生的观测值都包含了六个变量,所以表示在坐标系中每一个观测值就是六维空间中的一个点,每一维就代表一个变量。把六个变量概括成一两个综合变量,实质上就是一个降维的过程。应用统计学应用统计学Applied Stat
6、isticsApplied Statistics8-9*n对于存在线性相关的两个变量,直接进行分析可能由于多重共线性而无法得出正确结论。n如何对这两个变量所携带的信息(在统计上信息往往是指数据的变异)进行浓缩处理?n分别用横轴和纵轴表示两个变量,每个观测值就是二维坐标系中的一个点,所有的数据点大致散布成一个椭圆形,那么这个椭圆有一个长轴和一个短轴,我们称之为主轴,主轴之间是相互垂直的。x y x y n显然,短轴方向上,数据点之间的差异较小;长轴方向上,数据变化则较大。如果原坐标系中的横轴和纵轴能够分别与椭圆的长短轴平行,那么相对来说,长轴所代表的变量就描述了数据的主要变化,短轴所代表的变量则
7、描述了数据的次要变化。应用统计学应用统计学Applied StatisticsApplied Statistics8-10*n现在沿椭圆的长轴设定一个新的坐标系,则新产生的两个变量和原始变量之间存在明显的数学换算关系。n但这两个变量彼此不相关,且信息量的分布显然不同。长轴变量携带了大部分数据变异的信息,而短轴变量只携带了一小部分变异信息。椭圆的长轴和短轴相差越大时,说明长轴方向所代表的变量包含原始信息越多,那么用这个新变量来代替原始的两个变量(即忽略包含少数信息的短轴变量)也就越合理,从而二维数据就可以降低为一维数据。n但现实数据往往并不满足这样的条件,这就需要把原始数据构成的坐标系进行旋转,
8、产生一个新的坐标系,使得新坐标系的横轴和纵轴与椭圆的长短轴平行,实质上也就是把原数据中的两个变量变换成两个新的变量。应用统计学应用统计学Applied StatisticsApplied Statistics8-11*n主成分分析的基本思想就是把原始数据构成的椭圆的主轴找出来,再用代表绝大部分信息的那个轴(也就是长轴)作为代替原始变量的新变量。多维变量降维过程类似。只要把原始数据散布的高维椭球的各个主轴找出来,选择最长的几个轴作为新变量,主成分分析就基本完成了。n作为椭圆(或椭球)的主轴,它们之间是相互垂直的,在代数上,这些新变量是原始变量的线性组合,叫作主成分主成分(principal co
9、mponent)。n原始数据中有几个变量,它们构成的椭球就有几个主轴,也就意味着最终可以找到几个主成分。应用统计学应用统计学Applied StatisticsApplied Statistics8-12*n降维的目的,是选择越少的主成分来代表原先的变量效果越好。n根据主成分分析的思想,选择的标准则是要求被选中的主成分所对应的主轴的长度之和能够占所有主轴长度总和的大部分。至于占到多少才足够具有代表性,并没有一个硬性的说法。l在实际中,如果数据中包含的变量之间相关性很差,降维也就很难实现,因为不相关的变量显然无法找到一个很好的共同的代表。所以具体选几个主成分,要视实际情况而定。l有些文献建议,所
10、选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一个大体的说法,具体选几个,要看实际情况而定。应用统计学应用统计学Applied StatisticsApplied Statistics8-13*n数学上的处理是将p个指标作线性组合,作为新的综合指标。n如果第一个线性组合,即第一个综合指标记为F1。自然希望F1中更多地反映原来指标的信息。l这里的“信息”是用F1的方差Var(F1)来表示。Var(F1)越大,表示F1包含的信息越多。n在所有的线性组合中,所选的第1个主成分应该是方差最大的。n如果第1个主成分不足以代表原来p个指标的信息,再考虑选择第2个线性组合,即第2个主成分F2
11、。依此类推,可以选出第3个,第4个,第p个主成分。这些主成分间互不相关,且方差递减。应用统计学应用统计学Applied StatisticsApplied Statistics8-14*n 对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响。n 根据标准化后的数据矩阵求出协方差矩阵n 求出协方差矩阵的特征根和特征向量n 确定主成分,并对各主成分所包含的信息给予适当的解释。应用统计学应用统计学Applied StatisticsApplied Statistics8-15*应用统计学应用统计学Applied StatisticsApplied Statistics8-16*应用统计学应用
12、统计学Applied StatisticsApplied Statistics8-17*解:解:例8.1中的数据主成分分析的SPSS输出结果如下表解释的总方差解释的总方差成份初始特征值提取平方和载入合计方差的%累积%合计方差的%累积%13.72962.14662.1463.72962.14662.14621.20620.09682.2421.20620.09682.2423.4036.72488.9664.3255.41494.3805.2043.39597.7756.1342.225100.000提取方法:主成份分析。应用统计学应用统计学Applied StatisticsApplied S
13、tatistics8-18*n表中的“初始特征根”对应的就是关于主成分的信息。n“初始特征根”下面的第一列“合计”即原始数据构成的高维椭球的六个主轴的长度,数学上又称之为特征值。特征值。l特征根可以看作是主成分影响力度的指标,代表引入该主成分后可以解释平均原始变量的信息。l如果特征根小于1,说明该主成分的解释力度还不如直接引入一个原始变量的平均解释力度大。因此可以用特征根大于1作为纳入标准。n第二列“方差的%”则是每个主轴长度占所有主轴长度总和(也就是所有特征值的总和,又叫总方差)的百分比。表明该主成分的方差占全部总方差的比重(也称为主成分的方差贡献率)。n第三列“方差%”分别对应的就是由大到
14、小排列的前若干个主轴长度之和占所有主轴长度总和的累积百分比(累计贡献率)。应用统计学应用统计学Applied StatisticsApplied Statistics8-19*n最长的主轴(即第一主成分)长度为3.729,它占六个主轴长度总和的62.164%;第二长的主轴(即第二主成分)长度为1.206,占所有主轴长度总和的20.096%。二者的长度之和累积起来则占到了所有主轴长度总和的82.242%。n后面四个主轴的长度在所有主轴长度总和中所占的比例相对较小,从而对代表原先六个变量的贡献越来越少。n因此在这里我们采用SPSS输出结果中所建议的(表中最右侧三列),对例8.1的数据选择头两个主成
15、分。应用统计学应用统计学Applied StatisticsApplied Statistics8-20*nSPSS还提供了一个更为直观的图形工具来帮助选择 主 成 分,即 碎 石 图(Scree Plot)n从碎石图中可以直观的看到例8.1中六个主轴长度变化的趋势。实践中,通常结合具体情况,选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,在该例中选择前两个主成分即可。应用统计学应用统计学Applied StatisticsApplied Statistics8-21*应用统计学应用统计学Applied StatisticsApplied Statistics8-22*n寻找主成
16、分的过程实质上就是寻找椭球主轴的过程,而这些主轴所代表的新变量在代数上是原始变量的线性组合(坐标旋转)。SPSS同样可以自动输出关于这些组合的计算结果。下表即例8.1的主成分载荷矩阵。成份矩阵成份矩阵a成份12数学-.778.430物理-.580.682化学-.784.318语文.893.312历史.826.406英语.833.438提取方法:主成份。a.已提取了 2 个成份。应用统计学应用统计学Applied StatisticsApplied Statistics8-23*n输出结果“成分矩阵”中的每一列分别给出了所选择的每一个主成分作为原始变量线性组合的系数。n如果我们分别用 表示原始数
17、据中的六门课程成绩,而用 表示六个主成分,那么根据表中给出的结果,我们选择的头两个主成分与原先六个变量的关系如下:123456,xxxxxx123456,y yyyyy6543211833.0826.0893.0784.058.0778.0 xxxxxxy6543212438.0406.0312.0318.0682.043.0 xxxxxxy应用统计学应用统计学Applied StatisticsApplied Statistics8-24*n主成分对应原始变量的每一个系数实质上就是主成分与原先每一个变量之间的线性相关系数,称为主成分载荷(Loading)。n理论上而言,相关系数(绝对值)越大
18、,说明主成分与该变量之间的线性相关关系越强,从而主成分对该变量的代表性也就越大。n例8.1中提取的第一主成分与原先六个变量之间的相关系数都较大(与“物理”的相关系数相对偏低),说明它可以充分的解释原先的所有变量。而第二主成分只与原始数据中的“物理”有较大的相关关系,与其他变量的相关系数均较小,这可能是由于“物理”这门课程与其他课程性质上较大的区别所导致的。应用统计学应用统计学Applied StatisticsApplied Statistics8-25*n对于提取两个主成分的情形,SPSS还提供了一张二维图来直观显示它们对原始变量的解释情况n图中把原先的每一个变量与提取的两个主成分之间的相关
19、系数分别作为坐标系中两个方向的坐标值,这样每一个变量对应的主成分载荷就对应坐标系中的一个点,因此人们把这种图形称为载荷图(Loading Plot)应用统计学应用统计学Applied StatisticsApplied Statistics8-26*n实际中,主成分分析的一个重要应用则在于利用主成分与原始变量之间的线性关系,可以根据每一个观测对象各个变量的原始取值,计算出其所对应的各个主成分的值。n这样便可以按照少数几个主成分的数值,简单明了的分析研究对象的状况,从而解决对包含多个复杂变量的数据进行排序、评价等问题。n比如例8.1,我们就可以把每个学生的六门课程测试成绩的数据转换成两个主成分的
20、值,然后再按照它们的大小对各个学生的成绩进行比较。应用统计学应用统计学Applied StatisticsApplied Statistics8-27*应用统计学应用统计学Applied StatisticsApplied Statistics8-28*应用统计学应用统计学Applied StatisticsApplied Statistics8-29*应用统计学应用统计学Applied StatisticsApplied Statistics8-30*8.2 因子分析因子分析 8.2.1 什么是因子分析?什么是因子分析?8.2.2 怎样解释因子分析结果?怎样解释因子分析结果?8.2.3 几点
21、说明几点说明应用统计学应用统计学Applied StatisticsApplied Statistics8-31*应用统计学应用统计学Applied StatisticsApplied Statistics8-32*n因子分析和主成分分析有很多相似之处,它们的目的是一致的,都是要将具有一定关联的多个变量进行高度概括,寻找合适的少数变量来代表原先的所有变量。尤其在计算机上实现时,两种方法所要耗费的时间并没有太大差异,除了可能有一两个选项不同之外,它们的输出结果所包含的内容十分类似。因此,人们往往对二者不加区分。n实质上,主成分分析可以看作是因子分析的一个特例,因子分析是主成分分析的推广和发展,二
22、者最直观的区别就在于变量和主成分/因子个数的一致性上。n主成分分析的基本思想是要寻找高维椭球的所有主轴,因此,原始数据包含了多少个变量,就有多少个主成分,人们对于主成分的选择是依据最终的分析结果来确定的。而因子分析则需要事先确定要找几个成分,也就是所谓的因子(Factor),因子个数从一开始可能就远少于原始变量的个数。应用统计学应用统计学Applied StatisticsApplied Statistics8-33*n因子分析是由Charles Spearman在1904年提出的,他被公认为因子分析之父。n因子分析在某种程度上可以被看成是主成分分析的推广和扩展。n因子分析对问题的研究更深入,
23、它是将具有错综复杂关系的变量综合为少数的几个因子,以再现原始变量与因子之间的相互关系,探讨多个能够直接测量、并具有一定相关性的实测指标是如何受少数几个独立因子所支配的,同时根据不同因子还可以对变量进行分类。n因子分析是多元统计中处理降维的一种统计方法。应用统计学应用统计学Applied StatisticsApplied Statistics8-34*n原始变量和因子个数的不一致,使得不仅在数学模型上,而且在实际求解过程中,因子分析和主成分分析都有着一定的区别,计算上因子分析更为复杂。n因子分析可能存在的一个优点是:在对主成分和原始变量之间的关系进行描述时,如果主成分的直观意义比较模糊不易解释
24、,主成分分析没有更好的改进方法;因子分析则额外提供了“因子旋转(factor rotation)”这样一个步骤,可以使分析结果尽可能达到易于解释且更为合理的目的。应用统计学应用统计学Applied StatisticsApplied Statistics8-35*应用统计学应用统计学Applied StatisticsApplied Statistics8-36*应用统计学应用统计学Applied StatisticsApplied Statistics8-37*nPrincipal components(主成分法主成分法):这是默认选项(多数情况下不用更改)。通过主成分分析的思想提取公因子,
25、它假设变量是因子的线性组合。nUnweight Least Square(不加权最小平方法不加权最小平方法):该方法使实际的相关矩阵和再生的相关矩阵之差的平方和达到最小。nGeneralized Least Square(加权最小平方法加权最小平方法):用变量值进行加权,该方法也是使实际的相关矩阵和再生的相关矩阵之差的平方和达到最小。nMaximum Likelihood(最大似然法最大似然法):该方法不要求数据服从正态分布,在样本量较大时使用较好。nPrincipal Axis Factoring(主轴因子法主轴因子法):该方法从原始变量的相关性出发,使得变量间的相关程度尽可能地被公因子解释
26、。应用统计学应用统计学Applied StatisticsApplied Statistics8-38*nSPSS提供5种旋转方法,其中最常用的是Varimax(方差最大正交旋转)和Promax。nVarimax(方差最大正交旋转方差最大正交旋转):这是最常用的旋转方法。使各因子保持正交状态,但尽量使各因子的方差达到最大,即相对的载荷平方和达到最大,从而方便对因子的解释。nQuartimax(四次方最大正交旋转四次方最大正交旋转):该方法倾向于减少和每个变量有关的因子数,从而简化对原变量的解释。nEquamax(平方最大正交旋转平方最大正交旋转):该方法介于方差最大正交旋转和四次方最大正交旋转
27、之间。nDirect Oblimin(斜交旋转斜交旋转):该方法需要事先指定一个因子映像的自相关范围。nPromax:该方法在方差最大正交旋转的基础上进行斜交旋转应用统计学应用统计学Applied StatisticsApplied Statistics8-39*n例8.1数据的因子分析。在SPSS中,因子分析与主成分分析类似,也可以根据各个特征值的大小来选择因子,也可以绘制直观的碎石图来帮助判断,标准也是类似的。不同的是,因子分析可以通过“因子旋转”这一步骤得到下表的旋转后的因子载荷矩阵。因子载荷矩阵。旋转成份矩阵旋转成份矩阵a 成份12 数学-.341.821 物理-.028.895 化学
28、-.415.737 语文.893-.312 历史.899-.196 英语.924-.176 提取方法:主成份。旋转法:具有 Kaiser 标准化的正交旋转法。a.旋转在 3 次迭代后收敛。应用统计学应用统计学Applied StatisticsApplied Statistics8-40*n在上表的输出结果中,每一个数值同样代表了所选择的因子和原先的每一个变量之间的相关系数,因此称之为因子载荷(factor loading)。n这个表也就描述了原先的六个变量与两个因子的关系,但有所不同的是,具体的关系表达式改变了。仍以 表示原始数据中的六门课程成绩,而用 表示两个因子,根据上面的输出结果,因子
29、和这些原始变量之间的关系为:123456,x x x x x x12,ff211821.0341.0ffx212895.0028.0ffx213737.0415.0ffx214312.0893.0ffx215196.0899.0ffx216176.0924.0ffx应用统计学应用统计学Applied StatisticsApplied Statistics8-41*n这里因子写在了方程的右边,而原始变量写在了方程的左边,与主成分分析中主成分载荷矩阵给出的表达式恰好相反。但两种分析方法下得到的系数均是各个成分(因子)与各个原始变量之间的线性相关系数,所以系数的绝对值大小都说明了成分(因子)对原始
30、变量的解释程度。n因子分析得到的两个因子的旋转后因子载荷表现出了较为明显的特征。第一个因子和“语文”、“历史”、“英语”三门课程成绩相关关系最强,且均为正值,与其他三门课程成绩的关系较弱;第二个因子则恰好相反,它与“数学”、“物理”、“化学”三门课程成绩的相关关系最强,也均为正值。n相对于前面的主成分分析,这样的结果似乎能够使人们更容易结合实际,对两个因子的直观意义进行合理说明,即可以给第一个因子取名为“文科因子”,第二个因子取名为“理科因子”。应用统计学应用统计学Applied StatisticsApplied Statistics8-42*n该矩阵给出了每个因子作为所有原始变量线性组合的
31、系数。根据这些系数便可以计算每个学生对应的第一个因子和第二个因子的取值,我们把它们称为因子得分因子得分(factor score)。有了因子得分,我们就可以对每个学生分别按照“文科因子”水平和“理科因子”水平进行评价和排序。成份得分系数矩阵成份得分系数矩阵 成份 12数学.059.409 物理.231.539 化学.000.337 语文.349.054 历史.383.126 英语.401.145 提取方法:主成份。旋转法:具有 Kaiser 标准化的正交旋转法。构成得分。应用统计学应用统计学Applied StatisticsApplied Statistics8-43*n样本量要足够大。一般
32、而言,要求样本量至少是原始变量总数的5倍以上。如果要得到比较理想的结果,则应该在10倍以上。此外,样本总量也应足够大,理论要求应该在100以上。n各原始变量间应该具有相关性。如果变量独立,则无法提取公共因子,因子分析也就没有意义了。n因子分析中各公因子应该具有实际意义。应用统计学应用统计学Applied StatisticsApplied Statistics8-44*应用统计学应用统计学Applied StatisticsApplied Statistics8-45*n作为多元分析中处理降维的两种统计方法,无论是主成分分析还是因子分析,我们已经知道,只有当原始数据中的变量之间具有较强的相关关
33、系时,降维的效果才会明显,试图用少数几个变量代表多个变量的操作才是可行的。n对于主成分和因子的选择标准也应基于定量分析的结果,结合具体情况予以确定。而选出的主成分或因子虽然都可以表示成原始变量的线性组合,并且人们总是希望能够根据它们之间的关系特征对主成分或因子进行命名,但结果并不会总是那么清晰。n即使得到了满意的主成分或因子,在运用它们对实际问题进行评价、排序等分析时,仍然要保持高度谨慎。应用统计学应用统计学Applied StatisticsApplied Statistics8-46*应用统计学应用统计学Applied StatisticsApplied Statistics8-47*应用统计学应用统计学Applied StatisticsApplied Statistics8-48*应用统计学应用统计学Applied StatisticsApplied Statistics8-49谢谢大家!谢谢大家!