1、成分与聚类分析成分与聚类分析实用生物统计分析(九)实用生物统计分析(九)安徽大学生命科学学院主成分分析主成分分析( (Principal Component Analysis, PCA) )目的:目的:研究变量之间的关系结构;将多个实测变量转研究变量之间的关系结构;将多个实测变量转变为少数几个彼此相对独立的综合指标变为少数几个彼此相对独立的综合指标 当考察的影响变量众多,且相互存在关联,直接删除变当考察的影响变量众多,且相互存在关联,直接删除变量会损失有用信息,简单保留又产生量会损失有用信息,简单保留又产生“共线性共线性”问题而问题而分析困难。这时,可选择将相关变量组成综合指标,综分析困难。这
2、时,可选择将相关变量组成综合指标,综合指标间相对独立,从而达到降维合指标间相对独立,从而达到降维( (deduction of dimensions) )的目的。的目的。123456ABPCAPCA分析实例分析实例对某类植物的5个种群样本进行形态学特征统计,包括9个特征因素,分别为花梗长度(x1),花茎长度(x2),筒长(x3),裂片数(x4),最长雄蕊长度(x5),最短雄蕊长度(x6),花柱长(x7),每花序花数(x8),雄蕊数(x9),测量数据记录如下注意:对于观察的5个种群,裂片数(X4)不具备变异性(均为5),因此不能纳入成分分析PCAPCA分析实例分析实例PCA分析的第一步是将所有变
3、量进行标准化(z)变换N(0,1)标准化变换在标准化变换在SPSS中可以自动中可以自动实现实现PCAPCA分析实例分析实例相关系数矩阵相关系数矩阵结果显示:某些变量间确实存在明显的内在关联结果显示:某些变量间确实存在明显的内在关联PCAPCA分析实例分析实例PCAPCA分析实例分析实例选择提取方法选择提取方法常用提取标准常用提取标准(Kaiser criterion):Eigen-value (特征根特征根) 1;也可以预设抽取的综合指标的数量。也可以预设抽取的综合指标的数量。勾选勾选“Scree plot”以显示以显示“碎石图碎石图”PCAPCA分析实例分析实例提取出来的因子提取出来的因子按
4、照按照Eigen-value 1的标准,抽取出来的标准,抽取出来3个综合指标,分别能解释个综合指标,分别能解释59.6%、31.5%、17.1%的总体变异度,累积的总体变异度,累积98.2%,其他指标的作,其他指标的作用微乎其微。用微乎其微。(生物相关应用中一般要求解释度生物相关应用中一般要求解释度75%)注:所有因子的总特征根注:所有因子的总特征根=8,即原始变量数。如果某提取成分特征,即原始变量数。如果某提取成分特征根小于根小于1,即意味着其解释的变量小于原始变量,就失去提取的价,即意味着其解释的变量小于原始变量,就失去提取的价值了,故将其筛除值了,故将其筛除PCAPCA分析实例分析实例“
5、碎石图碎石图”率先抽取出来的率先抽取出来的3个综合因子个综合因子(PC1、PC2、PC3)形成的坡度形成的坡度明显陡峭,而后续指标形成的坡度十分平缓。明显陡峭,而后续指标形成的坡度十分平缓。PC1PC2PC3Eigen-value = 1PCAPCA分析实例分析实例“成分矩阵成分矩阵”成分矩阵反映了各个原始因素与不同成分的相关程度成分矩阵反映了各个原始因素与不同成分的相关程度。相关系数绝对。相关系数绝对值越大,说明该原始变量与这个提取因子关系越密切。如值越大,说明该原始变量与这个提取因子关系越密切。如“花茎花茎长长”(x2)就与因子就与因子1关系最密切;而有些变量在关系最密切;而有些变量在3个
6、因子上的负荷相差不个因子上的负荷相差不大(如大(如“花梗长花梗长”x1)PCAPCA分析实例分析实例因子因子系数系数矩阵矩阵以回归方程的形式来定义提取得到的因子:以回归方程的形式来定义提取得到的因子:PC=f1*zX1+f2*zX2+f3*zX3+f5*zX5+f6*zX6+f7*zX7+f8*zX8+f9*zX9PCAPCA分析实例分析实例因子因子系数系数矩阵矩阵PC1=0.121zX1+0.191zX2+0.091zX3+0.189zX5+0.190zX6+0.108zX7-0.203zX8+0.159zX9PC2=0.312zX1- 0.226zX2-0.482zX3+0.125zX5-
7、0.162zX6+0.105zX7+0.074zX8+0.377zX9PC3=0.435zX1+0.096zX2+0.218zX3+0.250zX5-0.194zX6-0.603zX7+0.139zX8-0.049zX9主成分分析主成分分析因子旋转:因子旋转:在上述例子中,在上述例子中,PC1PC1,PC2PC2,PC3PC3分别分别解释了解释了59.6%59.6%、31.5%31.5%、17.1%17.1%的总体的总体变异度,分配并不均匀;变异度,分配并不均匀;x1x1在在3 3个因个因子中负荷过于接近,而无法确定其子中负荷过于接近,而无法确定其归属归属这些是常规的正交这些是常规的正交PCA
8、PCA方法的不足,方法的不足,可以通过因子旋转进行改善可以通过因子旋转进行改善PCAPCA分析实例分析实例PCAPCA分析实例分析实例PCAPCA分析实例分析实例?PCAPCA分析实例分析实例PC1PC2PC3以旋转后为准:-成分1主要包含花茎长(x2)、筒长(x3)、最短雄蕊长(x6)、每花序花朵数(x8);-成分2主要包括花梗长(x1)、最长雄蕊长(x5)、雄蕊数(x9);-成分3主要包括花柱长(x7)聚类分析聚类分析Cluster Analysis:1234512345聚类分析聚类分析Hierarchical Cluster Analysis (系统聚类系统聚类):聚类分析实例聚类分析实例聚类分析实例聚类分析实例聚类分析实例聚类分析实例聚类分析实例聚类分析实例