1、1实用统计方法实用统计方法第第八八章章 主分量主分量(主成分主成分)分分析析2第八章第八章 主分量主分量(主成分主成分)分分析析多变量分析多变量分析(Multivariate Analysis)是处理是处理多变量多变量(多指标多指标)的统计问题。的统计问题。多变量之间常存在相关性,人们希望用较多变量之间常存在相关性,人们希望用较少不相关的变量来代替原来较多的变量。少不相关的变量来代替原来较多的变量。主分量就是要从原变量的各种线性组合中主分量就是要从原变量的各种线性组合中找出能集中反映原变量信息的综合变量。找出能集中反映原变量信息的综合变量。3第八章第八章 主分量主分量(主成分主成分)分分析析
2、主分量分析是将多个指标化为少数几个综合指标主分量分析是将多个指标化为少数几个综合指标的一种统计分析方法的一种统计分析方法.在实际问题中,研究多指标的问题是经常遇到的在实际问题中,研究多指标的问题是经常遇到的问题问题.由于变量个数太多由于变量个数太多,并且彼此之间存在着一定并且彼此之间存在着一定的相关性的相关性,势必增加分析问题的复杂性势必增加分析问题的复杂性.主分量分析就是设法把原来的多个指标重新组合主分量分析就是设法把原来的多个指标重新组合成较少几个新的互不相关的综合变量来代替原来的成较少几个新的互不相关的综合变量来代替原来的变量变量;而且这几个综合变量又能够尽可能多地反映原而且这几个综合变
3、量又能够尽可能多地反映原来变量的信息来变量的信息.利用这种降维的思想,产生了主分量分析、因利用这种降维的思想,产生了主分量分析、因子分析、典型相关分析等统计方法子分析、典型相关分析等统计方法.4第八章第八章 8.1 8.1 总体的主分量总体的主分量什么是主分量什么是主分量 设设X=(=(X1,Xp)是是p维随机向量维随机向量,均值向量均值向量E(E(X)=)=,协差阵,协差阵D(D(X)=.)=.考虑它的线性变换考虑它的线性变换:易见易见:(8.2)(8.1)5第八章第八章 8.1 8.1 总体的主分量总体的主分量什么是主分量什么是主分量 假如我们希望用假如我们希望用Z1 1来代替原来的来代替
4、原来的p个变量个变量X1,Xp,这就要求这就要求Z1 1尽可能多地反映原来尽可能多地反映原来p个个变量的信息变量的信息,这里所说的这里所说的“信息信息”用什么来表用什么来表达呢达呢?最经典的方法是用最经典的方法是用Z1 1的方差来表达的方差来表达.Var(Var(Z1 1)越大越大,表示表示Z1 1包含的信息越多包含的信息越多.由由(8.2)(8.2)式看出式看出,对对a1 1必须有某种限制必须有某种限制.否则可使否则可使Var(Var(Z1 1).).常用的限制是常用的限制是:a1 1a1 1=1.=1.若存在满足以上约束的若存在满足以上约束的a1 1,使使Var(Var(Z1 1)达最大达
5、最大,Z1 1就称为第一主分量就称为第一主分量(或主成分或主成分).).6第八章第八章 8.1 8.1 总体的主分量总体的主分量什么是主分量什么是主分量 如果第一主分量不足以代表原来如果第一主分量不足以代表原来p个变量的个变量的绝大部分信息绝大部分信息.考虑考虑X X的第二个线性组合的第二个线性组合Z2 2.为了为了有效地代表原变量的信息有效地代表原变量的信息,Z1 1已体现已体现(反映反映)的信的信息不希望在息不希望在Z2 2中出现中出现,用统计语言来讲用统计语言来讲,就是要就是要求求 Cov(Cov(Z2 2,Z1 1)=)=a2 2a1 1=0.(8.3)=0.(8.3)于是求于是求Z2
6、 2,就是在约束就是在约束a2 2 a2 2=1=1和和(8.3)(8.3)下下,求求a2 2 使使Var(Var(Z2 2)达最大达最大,所求之所求之Z2 2称为第二主分量称为第二主分量,类类似地可求得第三主分量似地可求得第三主分量,第四主分量第四主分量,.,.,第第p主主分量分量 .7第八章第八章 8.1 8.1 总体的主分量总体的主分量什么是主分量什么是主分量 换言之换言之,若原数据有若原数据有p个变量,则恰好可个变量,则恰好可得到得到p个主分量个主分量:1.每个主成分都是原变量的线性组合每个主成分都是原变量的线性组合;2.不同主成分间互相正交(互不相关)不同主成分间互相正交(互不相关)
7、;3.主成分以其方差减少次序排列主成分以其方差减少次序排列:第一主成分具有最大方差第一主成分具有最大方差,第二主成分是与第一主成分正交的原变第二主成分是与第一主成分正交的原变量的线性组合中具有最大方差者量的线性组合中具有最大方差者,其余主成分都有类似的性质其余主成分都有类似的性质.8第八章第八章 8.1 8.1 总体的主分量总体的主分量什么是主分量什么是主分量 或者说或者说,原变量包含有一定的信息原变量包含有一定的信息,且全体主成分包含与原变量相同的信息且全体主成分包含与原变量相同的信息.方差反映了变量取值的离散程度,方差方差反映了变量取值的离散程度,方差大小表示了变量包含信息的多少大小表示了
8、变量包含信息的多少.第一主成分包含了尽可能多的信息第一主成分包含了尽可能多的信息 不同的主成分包含的信息互不重复不同的主成分包含的信息互不重复 第二主成分包含除第一主成分外剩余第二主成分包含除第一主成分外剩余信息中尽可能多的信息信息中尽可能多的信息 其余主成分都有类似的性质其余主成分都有类似的性质9第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的定义主分量的定义 定义定义8.18.1 设设X=(=(X1,Xp)为为p维随机向维随机向量量.称称Zi=aiX为为X的第的第i主分量主分量(i=1,2,=1,2,p),),如果如果:aiai=1(=1(i=1,2,=1,2,p););当当
9、i 1 1时时aiaj=0(=0(j=1,=1,i-1);-1);Var(Var(Zi)=Max Var()=Max Var(X X).).=1,=1,aj=0(=0(j=1,=1,i-1)-1)10第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的几何意义主分量的几何意义 从代数学观点看主分量就是从代数学观点看主分量就是p个变量的一些个变量的一些特殊的线性组合特殊的线性组合,而从几何上看这些线性组合正而从几何上看这些线性组合正是把是把X1,Xp构成的坐标系旋转产生的新坐标构成的坐标系旋转产生的新坐标系系,新坐标轴使之通过样本变差最大的方向新坐标轴使之通过样本变差最大的方向(或或者
10、说具有最大的样本方差者说具有最大的样本方差).设有设有n个观测个观测,每个观测有每个观测有p个变量个变量X1,Xp,它们的综合指标它们的综合指标(主分量主分量)记为记为Z1 1,Zp.当当p=2时原变量为时原变量为X1,X2.设设(X1,X2)服从二元服从二元正态分布正态分布,则样品点则样品点X(i)=(xi1,xi2)(i=1,2,n)的的散布图散布图(见下面图形见下面图形)在一个椭园内分布着在一个椭园内分布着.11第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的几何意义主分量的几何意义 Z1Z212第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的几何意义主分量的
11、几何意义 对于二元正态随机向量对于二元正态随机向量,n个点散布在一个椭个点散布在一个椭园内园内(当当X1,X2相关性越强相关性越强,这个椭园就越扁这个椭园就越扁).若若取椭园的长轴为坐标轴取椭园的长轴为坐标轴Z1,椭园的短轴为椭园的短轴为Z2,这这相当于在平面上作一个坐标变换相当于在平面上作一个坐标变换,即按逆时针方即按逆时针方向旋转一个角度向旋转一个角度a a,根据旋转变换公式新老坐标根据旋转变换公式新老坐标之间有关系之间有关系:Z1=Cosa a X X1 1+SinSina a X X2 2 Z2=-Sina a X X1 1+CosCosa a X X2 2Z1 Z2 是原变量是原变量
12、X1 1和和X2 2 的特殊线性组合的特殊线性组合.13第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的几何意义主分量的几何意义 从图上可以看出二维平面上从图上可以看出二维平面上n个点的波动个点的波动(用二个变量的方差和表示用二个变量的方差和表示)大部分可以归结为大部分可以归结为在在Z1方向的波动方向的波动,而在而在Z2 方向上的波动很小方向上的波动很小,可可以忽略以忽略.这样一来这样一来,二二 维问题可以降为一维了维问题可以降为一维了,只只取第一取第一 个综合变量个综合变量Z1即可即可,而而Z1是椭园的长轴是椭园的长轴.一般情况一般情况,p个变量组成个变量组成p维空间维空间,n
13、个样品点就个样品点就是是p维空间的维空间的n个点个点.对于对于p元正态分布变量来说元正态分布变量来说,找主成分的问题就是找找主成分的问题就是找p维空间中椭球的主轴维空间中椭球的主轴问题问题.14第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的计算主分量的计算 主成分计算一般是从原变量的协方差或主成分计算一般是从原变量的协方差或相关矩阵出发进行计算,包含以下内容:相关矩阵出发进行计算,包含以下内容:1.各主成分的构成各主成分的构成;2.各主成分的方差及其在总方差中所占的各主成分的方差及其在总方差中所占的比例比例(贡献率贡献率);3.每个观测在主成分变量下的得分值每个观测在主成分变量
14、下的得分值;4.各主成分与原变量的相关各主成分与原变量的相关.15第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的求法主分量的求法 设设p维随机向量维随机向量X X的均值的均值E(E(X)=0,)=0,协差阵协差阵D(D(X)=0.)=0.由定义由定义8.1,8.1,求第一主分量求第一主分量Z1 1=a1 1X的问题就是求的问题就是求a1 1=(=(a1111,a2121,ap1 1),),使得使得在在a1 1a1 1=1=1下下,Var(,Var(Z1 1)达最大达最大.这是条件极值问这是条件极值问题题,用拉格朗日乘数法用拉格朗日乘数法.令令 (a1 1)=Var()=Var(
15、a1 1X)-()-(a1 1a1 1-1)-1)=a1 1a1 1-(-(a1 1a1 1-1),-1),由由(8.4)16第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的求法主分量的求法 因因a1 10,0,故故|-I|=0,|=0,求解求解(8.4),(8.4),其实就是其实就是求求的特征值和特征向量问题的特征值和特征向量问题.设设=1是是的最的最大特征值大特征值,则相应的单位特征向量则相应的单位特征向量a1 1即为所求即为所求.一般地一般地,求求X的第的第i主分量就是求主分量就是求的第的第i大特征大特征值对应的单位特征向量值对应的单位特征向量.定理定理8.18.1 设设X
16、=(=(X1,Xp)是是p维随机向量维随机向量,且且D(D(X)=,)=,的特征值的特征值1 12 2p p,a1 1,a2 2,ap为相应的单位正交特征向量为相应的单位正交特征向量,则则X X的的第第i主分量为主分量为 Zi=aiX(X(i=1,2,=1,2,p).).17第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的性质主分量的性质 主分量主分量Zi就是以就是以的单位特征向量的单位特征向量ai为系数的为系数的线性组合线性组合,它们互不相关它们互不相关,且方差且方差var(Zi)=i.记记=(=(ij),=diag(),=diag(1 1,2 2,p p),),其中其中1 1
17、2 2p p为为的特征值的特征值,a1 1,a2 2,ap是相应的标准化特征向量是相应的标准化特征向量.主分量主分量Z=(=(Z1 1,Zp),),其中其中 Zi=aiX (i=1,2,=1,2,p)总体主分量有如下性质总体主分量有如下性质:18第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的性质主分量的性质 (1)(1)D(D(Z)=,)=,即即p个主分量的方差为:个主分量的方差为:Var(Var(Zi)=)=i,且它们是互不相关且它们是互不相关 (2)(2)通常称通常称 为系统总方差为系统总方差,该性质说明系该性质说明系统总方差可分解为不相关的主分量的方差统总方差可分解为不相
18、关的主分量的方差和和,且存在且存在19第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的性质主分量的性质 即即p个原变量所提供的总信息个原变量所提供的总信息(总方差总方差)的绝大部分只须用前的绝大部分只须用前m个主分量来代替个主分量来代替 这说明这说明若前几个主分量集中了大部分若前几个主分量集中了大部分信息,则后几个主成分的方差都很小,包信息,则后几个主成分的方差都很小,包含的信息也很少含的信息也很少.在实用时就可用前面较少的几个主分量在实用时就可用前面较少的几个主分量来代替原变量描述数据的变化来代替原变量描述数据的变化.20第八章第八章 8.1 8.1 总体的主分量总体的主分量主
19、分量的性质主分量的性质 (3)(3)主分量主分量Zk与原始变量与原始变量Xi的相关系数的相关系数并把主分量并把主分量Zk与原始变量与原始变量Xi的相关系数称为因子负荷的相关系数称为因子负荷量量(或因子载荷量或因子载荷量).).利用因子载荷量利用因子载荷量,可对指标分类可对指标分类.如果把主分量与原始变量的相关系数列成表如果把主分量与原始变量的相关系数列成表8.18.1的形的形式,则由相关系数的公式,还可得出性质式,则由相关系数的公式,还可得出性质(4)(4)和和(5).(5).21第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的性质主分量的性质 因因Xi也可表成也可表成Z1 1,
20、Zp的线性组合的线性组合,且且 Z1 1,Zp相互独立,由回归分析的知识相互独立,由回归分析的知识,Xi 与与 Z1 1,Zp的全相关系数的平方和的全相关系数的平方和等于等于1 1,即表,即表8.18.1中每一行的平方和均为中每一行的平方和均为1.1.22第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的性质主分量的性质 因因Zk可表成可表成X1 1,Xp的线性组合的线性组合,但但X1 1,Xp 一般有相关性,由一般有相关性,由Zk与与Xi的相关系数的公式,的相关系数的公式,可得出表可得出表8.18.1中中Zk对应的每一列关于各变量方差对应的每一列关于各变量方差的加权平方和为的加权
21、平方和为k(即即Var(Var(Zk)=)=k).).主分量分析的目的是为了减少变量的个数主分量分析的目的是为了减少变量的个数,故在故在实际应用中一般不用实际应用中一般不用p个主分量个主分量,而选用而选用m(mp)个主个主分量分量.m取多大取多大,这是一个很实际的问题这是一个很实际的问题.为此为此,我们引我们引进贡献率的概念进贡献率的概念.23第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的性质主分量的性质 定义定义8.28.2 称称k/1+.+m+p 为主分量为主分量Zk的贡献率的贡献率;又称又称 1+2+.+m/1+2+.+m+p 为为 主分量主分量Z1 1,Zm(mp)的累
22、计贡献率的累计贡献率.通常取通常取m,使累计贡献率达到使累计贡献率达到70%70%80%80%以上以上,累计贡献率的大小表达累计贡献率的大小表达m个主分量提了个主分量提了X1 1,Xp的多少信息的多少信息,但它没有表达某个变量被但它没有表达某个变量被提取了多少信息提取了多少信息,为此又引入另一个概念为此又引入另一个概念.24第八章第八章 8.1 8.1 总体的主分量总体的主分量主分量的性质主分量的性质 定义定义8.38.3 前前m个主分量个主分量Z1 1,Zm 对原变对原变量量Xi的贡献率的贡献率i(m)是是Xi与与Z1 1,Zm m 的相关关系的相关关系数的平方数的平方,它等于它等于例例8.
23、1.18.1.1(其中其中p=3,=3,m=1=1或或m=2)=2)25第八章第八章 8.1 8.1 总体的主分量总体的主分量 标准化变量的主分量及性质标准化变量的主分量及性质 在实际问题中在实际问题中,不同的变量往往有不同的量不同的变量往往有不同的量纲纲,而通过而通过来求主分量首先优先照顾方差来求主分量首先优先照顾方差(ii)大的变量大的变量,有时会造成很不合理的结果有时会造成很不合理的结果,为了消为了消除由于量纲的不同可能带来的一些不合理的影除由于量纲的不同可能带来的一些不合理的影响响,常采用将变量标准化的方法常采用将变量标准化的方法,即令即令26第八章第八章 8.1 8.1 总体的主分量
24、总体的主分量标准化变量的主分量及性质标准化变量的主分量及性质 标准化后的随机向量标准化后的随机向量X*=(=(X1 1*,X2 2*,Xp p*)的协的协差阵差阵*就是原随机向量就是原随机向量X X的相关阵的相关阵R.从相关阵从相关阵R出发出发来求主分量来求主分量,记为记为Z*=(Z=(Z1 1*,Z,Zp p*),),则则Z*与与Z Z具有相具有相似的性质似的性质.把主分量把主分量Z Zk k*(k=1,=1,p)对变量对变量Xi i*的因子负荷量的因子负荷量ki=(Z(Zk k*,Xi i*)列成表列成表8.2(8.2(略去上标略去上标*).).27第八章第八章 8.2 8.2 样本的主分
25、量样本的主分量 在实际问题中在实际问题中,一般协差阵一般协差阵未知未知,需要需要通过样本来估计通过样本来估计.设设X(t)=(=(xt1,xtp)()(t=1,=1,n)为来自总体为来自总体X的样本的样本,记样本资料阵记样本资料阵x11,x12,x1px21,x22,x2p.xn1,xn2,xnpX=记样本离差阵为记样本离差阵为S,样本相关阵为样本相关阵为R,并用并用S/(n-1)作为作为的估计或用的估计或用R作为总体相关阵的估计作为总体相关阵的估计.28第八章第八章 8.2 8.2 样本的主分量样本的主分量 样本主分量及其性质样本主分量及其性质 假定假定X=0,=0,并且每个变量的观测数据都
26、已标准并且每个变量的观测数据都已标准化化,这时样本协差阵就是样本相关阵这时样本协差阵就是样本相关阵R,且且 R=XX/(/(n-1)-1)仍记仍记R阵的阵的p个主分量为个主分量为Z1 1,Zp,1 12 2 p 为为R的特征根的特征根,a1 1,a2 2,ap为相应的为相应的标准化特征向量标准化特征向量.显然显然Zi=ai iX(X(i=1,=1,p).).将将第第t个样品个样品X(t)=(=(xt1,xtp)的值代入的值代入Z Zi得样得样品的第品的第i个主分量得分个主分量得分zti(i=1,=1,p).).记记Z(t)=(zt1,zt2,ztp)()(t=1,=1,n)29第八章第八章 8
27、.2 8.2 样本的主分量样本的主分量 样本主分量及其性质样本主分量及其性质 表表8.3 8.3 原始数据和样本主分量得分原始数据和样本主分量得分令令30第八章第八章 8.2 8.2 样本的主分量样本的主分量样本主分量及其性质样本主分量及其性质 样本主分量具有如下性质样本主分量具有如下性质:上式说明当上式说明当ij 时,第时,第i个主分量得分向量个主分量得分向量zi与第与第j个个主分量得分主分量得分zj是相互正交的是相互正交的.称称k/p为样本主分量为样本主分量Zk的贡献率的贡献率;又称又称 1 1+m/p为样本主分量为样本主分量Z1,Zm(mp)的累计贡献率的累计贡献率.31第八章第八章 8
28、.2 8.2 样本的主分量样本的主分量样本主分量及其性质样本主分量及其性质 (3)(3)样本主分量具有使残差平方和最小的优良性样本主分量具有使残差平方和最小的优良性 如果我们只取前如果我们只取前m个主分量个主分量(mp),),并考虑用并考虑用前前m 个主分量个主分量Z1,Zm的线性组合表示的线性组合表示Xj的回的回归方程归方程:Xj=bj1Z1+bjmZm (j=1,=1,p),),则当则当bjk=ajk(k=1,=1,m)时,可使回归的残差平方时,可使回归的残差平方和达最小值和达最小值.而且回归方程的决定系数而且回归方程的决定系数R2 2(j)=j(m).我们把我们把j(m)称为称为m个主分
29、量对原变量个主分量对原变量Xj j的的贡献率贡献率,j(m)的大小反映了的大小反映了m个主分量能够反映个主分量能够反映Xj的变差的比例的变差的比例.32第八章第八章 8.2 8.2 样本的主分量样本的主分量主分量的个数及解释主分量的个数及解释 主分量分析的目的之一是主分量分析的目的之一是简化数据结构简化数据结构,用用尽可能少的主分量尽可能少的主分量Z1,Zm(mp)代替原来代替原来的的p个变量个变量,这样就把这样就把p个变量的个变量的n次观测数据简次观测数据简化为化为m个主分量的得分数据个主分量的得分数据.在这里要求:在这里要求:m个主分量所反映的信息与原来个主分量所反映的信息与原来p个变量个
30、变量提供的信息差不多提供的信息差不多 m个主分量又能对资料所具有的意义进个主分量又能对资料所具有的意义进行解释行解释.33第八章第八章 8.2 8.2 样本的主分量样本的主分量主分量个数的确定主分量个数的确定 主分量的个数主分量的个数m如何选取是实际工作者关心如何选取是实际工作者关心的问题的问题.关于主分量的个数如何确定关于主分量的个数如何确定,常用的标常用的标准有两个:准有两个:(1)(1)按累计贡献率达到一定程度按累计贡献率达到一定程度(如如70%70%或或80%80%以上以上)来确定来确定m;(2)先计算先计算S或或R的的p个特征根的均值个特征根的均值,取大取大于于的特征根个数的特征根个
31、数m.当当p20 20 时时,大量实践表明大量实践表明,第一个标准容易取太多第一个标准容易取太多的主分量的主分量,而第二个标准容易取太少的主分量而第二个标准容易取太少的主分量,故最故最好将两者给合起来应用好将两者给合起来应用,同时要考虑同时要考虑m个主分量对个主分量对Xi的贡献率的贡献率i(m).34第八章第八章 8.3 8.3 主分量分析的应用主分量分析的应用应用例子应用例子8.3.18.3.1 例例8.3.18.3.1 学生身体各指标的主分量分析学生身体各指标的主分量分析随机抽取随机抽取3030名某年级中学生,测量其身高名某年级中学生,测量其身高(X1)(X1)、体重体重(X2)(X2)、
32、胸围、胸围(X3)(X3)和坐高和坐高(X4)(X4),数据见以下,数据见以下SASSAS程序的数据行程序的数据行.试用编程和菜单系统试用编程和菜单系统“分析员分析员应用应用”对中学生身体指标数据做主分量分析对中学生身体指标数据做主分量分析.解解 (1)(1)以下以下SASSAS程序首先生成包括程序首先生成包括3030名学生名学生身体指标数据的身体指标数据的SASSAS数据集数据集D831(D831(其中变量其中变量NUMBERNUMBER记录识别学生的序号记录识别学生的序号),然后调用,然后调用PRINCOMPPRINCOMP过程过程进行主分量分析进行主分量分析.35第八章第八章 8.3 8
33、.3 主分量分析的应用主分量分析的应用例例8.3.18.3.1的的sassas程序程序 Data d831;input number x1-x4 ;cards;1 148 41 72 78 2 139 34 71 763 160 49 77 86 4 149 36 67 79.27 144 36 68 76 28 141 30 67 7629 139 32 68 73 30 148 38 70 78;proc princomp data=d831 prefix=z out=o831;var x1-x4;run;该选项规定该选项规定主分量的前主分量的前缀名字为缀名字为z生成包含主生成包含主分量得
34、分的分量得分的输出数据集输出数据集36第八章第八章 8.3 8.3 主分量分析的应用主分量分析的应用例例8.3.18.3.1的的sassas程序程序 proc plot data=o831;plot z2*z1$number=*;run;proc sort data=o831;by z1;run;proc print data=o831;var number z1 z2 x1-x4;run;绘制主分量得分的散点绘制主分量得分的散点图图.作图符号为作图符号为*,并在每并在每散点旁边加上序号散点旁边加上序号,以便以便识别各个观测识别各个观测.把输出集把输出集o831按第一主分量按第一主分量z1的得
35、分值从小的得分值从小 到大排序到大排序输出排序后的数据集输出排序后的数据集o83137第八章第八章 8.3 8.3 主分量分析的应用主分量分析的应用例例8.3.18.3.1的输出结果的输出结果 输出输出8.3.1 8.3.1 学生身体指标数据的描述统计量和相关阵学生身体指标数据的描述统计量和相关阵38第八章第八章 8.3 8.3 主分量分析的应用主分量分析的应用例例8.3.18.3.1的输出结果的输出结果 输出输出8.3.2 8.3.2 相关阵的特征值和特征向量相关阵的特征值和特征向量39第八章第八章 8.3 8.3 主分量分析的应用主分量分析的应用例例8.3.18.3.1的结果分析的结果分析
36、 PRINCOMPPRINCOMP过程由相关阵出发进行主分量分析过程由相关阵出发进行主分量分析.由输出由输出8.3.28.3.2中相关阵的特征值可以看出,第中相关阵的特征值可以看出,第一主分量的贡献率已高达一主分量的贡献率已高达88.53%88.53%;且前二个主;且前二个主分量的累计贡献率已达分量的累计贡献率已达96.36%.96.36%.因此只须用两因此只须用两个主分量就能很好地概括这组数据个主分量就能很好地概括这组数据.另由第三另由第三和四个特征值近似为和四个特征值近似为0 0,可以得出这,可以得出这4 4个标准化个标准化后的身体指标变量后的身体指标变量(Xi*,i=1,2,3,4)=1
37、,2,3,4)有近似的线有近似的线性关系性关系(即所谓共线性即所谓共线性),),如如 0.505747 0.505747 X1 1*-0.690844-0.690844 X2 2*+0.461488+0.461488 X3 3*-0.232343-0.232343 X4 4*c(c(常数常数).).40第八章第八章 8.3 8.3 主分量分析的应用主分量分析的应用例例8.3.18.3.1的结果分析的结果分析 由最大的两个特征值对应的特征向量可以写由最大的两个特征值对应的特征向量可以写出第一和第二主分量出第一和第二主分量:Z1 1=0.496966=0.496966 X1 1*+0.514571
38、+0.514571 X2 2*+0.480901 +0.480901 X3 3*+0.506928+0.506928 X4 4*Z2 2=-0.543213=-0.543213 X1 1*+0.210246+0.210246 X2 2*+0.724621+0.724621 X3 3*-0.368294-0.368294 X4 4*第一和第二主分量都是标准化后变量第一和第二主分量都是标准化后变量Xi*(i=1,2,3,4)=1,2,3,4)的线性组合,且组合系数就是特征的线性组合,且组合系数就是特征向量的分量向量的分量.41第八章第八章 8.3 8.3 主分量分析的应用主分量分析的应用例例8.3
39、.18.3.1的结果分析的结果分析 利用特征向量各分量的值可以对各主分量进行利用特征向量各分量的值可以对各主分量进行解释解释.第一大特征值对应的第一个特征向量的各第一大特征值对应的第一个特征向量的各个分量值均在个分量值均在0.50.5附近附近,且都是正值且都是正值,它反映学生它反映学生身材的魁梧程度身材的魁梧程度.身体高大的学生身体高大的学生,他的他的4 4个部位个部位的尺寸都比较大的尺寸都比较大;而身体矮小的学生而身体矮小的学生,他的他的4 4个部个部位的尺寸都比较小位的尺寸都比较小.因此我们称第一主分量为大因此我们称第一主分量为大小因子小因子.第二大特征值对应的特征向量中第一第二大特征值对
40、应的特征向量中第一(即即身高身高X1X1的系数的系数)和第四个分量和第四个分量(即坐高即坐高X4X4的系数的系数)为负值为负值,而第二而第二(即体重即体重X2X2的系数的系数)和第三个分量和第三个分量(即胸围即胸围X3X3的系数的系数)为正值为正值,它反映学生的胖瘦情况它反映学生的胖瘦情况,故称第二主分量为胖瘦因子故称第二主分量为胖瘦因子.42第八章第八章 8.3 8.3 主分量分析的应用主分量分析的应用例例8.3.18.3.1的输出结果的输出结果 输出输出8.3.3 8.3.3 第二主分量得分对第一主分量得分的散布图第二主分量得分对第一主分量得分的散布图43第八章第八章 8.3 8.3 主分
41、量分析的应用主分量分析的应用例例8.3.18.3.1的结果分析的结果分析 输出输出8.3.38.3.3是是PLOTPLOT过程产生的输出图形,从过程产生的输出图形,从图中可以直观地看出,按学生的身体指标尺寸图中可以直观地看出,按学生的身体指标尺寸,这,这3030名学生大约应分成三组名学生大约应分成三组(以第一主分量得以第一主分量得分值为分值为-1-1和和2 2为分界点为分界点).).每一组包括哪几名学生由每个散点旁边的序每一组包括哪几名学生由每个散点旁边的序号可以得知号可以得知.更详细的信息可从更详细的信息可从PRINTPRINT过程产生过程产生的输出的输出8.3.48.3.4数据列表中得到数
42、据列表中得到.44第八章第八章 8.3 8.3 主分量分析的应用主分量分析的应用例例8.3.18.3.1的输出结果的输出结果 输出输出8.3.4 8.3.4 按第一主分量得分排序后的主分量得分和原始数据按第一主分量得分排序后的主分量得分和原始数据45第八章第八章 8.3 8.3 主分量分析的应用主分量分析的应用例例8.3.18.3.1的结果分析的结果分析 输出输出8.3.48.3.4是把是把3030个观测按第一主分量从个观测按第一主分量从小到大重新排序后的输出结果小到大重新排序后的输出结果.从这里可以从这里可以得到分为三组时各组学生的更多的信息如得到分为三组时各组学生的更多的信息如下下:G G
43、1 1=11,15,29,10,28,6,24,14,2,27,18=11,15,29,10,28,6,24,14,2,27,18G G2 2=4,30,22,1,16,26,23,21,8,9,7,17=4,30,22,1,16,26,23,21,8,9,7,17G G3 3=20,13,19,12,5,3,25=20,13,19,12,5,3,25 若考虑用若考虑用Z1 1,Z2 2进行聚类进行聚类,这就量主分量这就量主分量聚类方法聚类方法.46第八章第八章8.3 8.3 主分量分析的应用主分量分析的应用应用例子应用例子8.3.28.3.2 例例8.3.28.3.2 经济分析数据的主分量回
44、归经济分析数据的主分量回归 考察进口总额考察进口总额Y Y与三个自变量:国内总产值与三个自变量:国内总产值X1X1,存,存储量储量X2,X2,总消费量总消费量X3(X3(单位均为十亿法郎单位均为十亿法郎)有关有关.现收集现收集了了19491949年至年至19591959年共年共1111年的数据年的数据(见第四章表见第四章表4.4).4.4).对对表表4.44.4的数据试用主分量回归分析方法求进口总额与的数据试用主分量回归分析方法求进口总额与总产值、存储量和总消费量的定量关系式总产值、存储量和总消费量的定量关系式.解解 在第四章例在第四章例4.5.34.5.3中介绍如何调用中介绍如何调用REGR
45、EG过程来完过程来完成成Y Y与与X1X1、X2X2、X3X3的主分量回归的主分量回归.下面首先调用下面首先调用PRINCOMPPRINCOMP过程对过程对3 3个自变量做主分量个自变量做主分量分析分析.然后进行主成分回归然后进行主成分回归.SAS.SAS程序如下程序如下(设表设表4.44.4生生成的成的SASSAS数据集名为数据集名为D832)D832):47第八章第八章8.3 8.3 主分量分析的应用主分量分析的应用例例8.3.28.3.2的的sassas程序程序 proc standard data=d832 out=do832 mean=0 std=1;var x1-x3 y;run;
46、proc princomp data=do832 prefix=z out=o832;var x1 x2 x3;run;proc print data=o832;var z1 z2 y;run;该过程把各变量的该过程把各变量的观测数据标准化观测数据标准化主分量名主分量名字的前缀字的前缀规定为规定为z用标准化后的数用标准化后的数据作主分量分析据作主分量分析输出数据输出数据集包含主集包含主分量得分分量得分48第八章第八章8.3 8.3 主分量分析的应用主分量分析的应用例例8.3.28.3.2的输出结果的输出结果 49第八章第八章8.3 8.3 主分量分析的应用主分量分析的应用例例8.3.28.3.
47、2的结果分析的结果分析 由输出结果可知相关阵的三个特征为由输出结果可知相关阵的三个特征为1 1=1.999,=1.999,2 2=0.998,=0.998,3 3=0.003.=0.003.前二个主分量前二个主分量的累计贡献率在的累计贡献率在99%99%以上以上.取两个主分量取两个主分量(用用Xi*表示表示Xi的标准化变量的标准化变量):Z1 1=0.7063=0.7063 X1*+0.0435+0.0435 X2*+0.7065+0.7065 X3*Z2 2=-0.0357=-0.0357 X1*+0.9990+0.9990 X2*-0.0258-0.0258 X3*主分量分析的结果还给出主
48、分量分析的结果还给出X1*、X2*和和X3*的一的一个多重共线性关系:个多重共线性关系:Z3 3=0.7070=0.7070 X1*+0.0070 +0.0070 X2*-0.7072 -0.7072 X3*C C 50第八章第八章8.3 8.3 主分量分析的应用主分量分析的应用主分量回归及输出结果主分量回归及输出结果 用主分量得分数据完成主分量回归用主分量得分数据完成主分量回归:proc reg data=o832;model y=z1 z2;run;回归过程得到的标准化回归方程为回归过程得到的标准化回归方程为(Y*表示表示Y Y的标准化变量的标准化变量)Y*=0.68998=0.68998
49、 Z1 1+0.1913+0.1913 Z2 2 =0.4804 =0.4804 X1*+0.2211+0.2211 X2*+0.4825+0.4825 X3*用原始变量可表示为用原始变量可表示为 Y=-9.130+0.0727Y=-9.130+0.0727X1+0.6091+0.6091X2+0.1062+0.1062 X3 51第八章第八章8.4 8.4 PRINCOMPPRINCOMP过程与应用例子过程与应用例子 PRINCOMPPRINCOMP过程的功能过程的功能:完成主分量分析完成主分量分析:计算相关阵或协差阵的计算相关阵或协差阵的特征值和特征向量特征值和特征向量,当特征值按从大到小
50、次序当特征值按从大到小次序排列时排列时,由相应特征向量可得出第一主分量、由相应特征向量可得出第一主分量、第二主分量等等第二主分量等等.用少数几个主分量代替原始用少数几个主分量代替原始变量变量,并计算主分量得分并计算主分量得分.由得分数据作主分量由得分数据作主分量得分的散布图得分的散布图,进一步地还可用于主分量回归进一步地还可用于主分量回归和聚类分析和聚类分析.主分量的个数用户可以自己确定;主分主分量的个数用户可以自己确定;主分量的名字用户可自己规定;主分量得分是否标量的名字用户可自己规定;主分量得分是否标准化也可以由用户根椐实际需要来确定准化也可以由用户根椐实际需要来确定.52第八章第八章8.