1、概率模型概率模型主成分分析 主成分分析的基本原理 主成分分析的计算步骤 主成分分析方法应用实例 9汇报什么?汇报什么?假定你是一个公司的财务经理,掌握了公司的所假定你是一个公司的财务经理,掌握了公司的所有数据,比如有数据,比如固定资产、流动资金、每一笔借贷固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和、产值、利润、折旧、职工人数、职工的分工和教育程度等等教育程度等等。如果让你向上面介绍公司状况,你能够把这些指如果让你向上面介绍公司状况,你能够把这些指标和数字都标和数字都原封不动地摆出去
2、吗原封不动地摆出去吗?当然不能。当然不能。你必须要把各个方面作出高度概括,你必须要把各个方面作出高度概括,用一两个指用一两个指标简单明了地把情况说清楚。标简单明了地把情况说清楚。10主成分分析主成分分析 每个人都会遇到有每个人都会遇到有很多变量很多变量的数据。的数据。比如全国或各个地区的带有许多经济和社会变量比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数的数据;各个学校的研究、教学等各种变量的数据等等。据等等。这些数据的共同特点是变量很多,在如此多的变这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它量之中,有很多是相关的
3、。人们希望能够找出它们的们的少数少数“代表代表”来对它们进行描述。来对它们进行描述。本章就介绍一种种把变量维数降低以便于描述、本章就介绍一种种把变量维数降低以便于描述、理解和分析的方法:理解和分析的方法:主成分分析主成分分析(principal principal component analysiscomponent analysis)。)。在很多情形,特征之间是有一定的相关关系的,在很多情形,特征之间是有一定的相关关系的,当两个特征之间有一定相关关系时,可以解释当两个特征之间有一定相关关系时,可以解释为这两个变量反映样本的信息有一定的重叠。为这两个变量反映样本的信息有一定的重叠。主成分分析
4、是对于原先提出的所有特征,建立主成分分析是对于原先提出的所有特征,建立尽可能少的新特征,使得这些新变量是两两不尽可能少的新特征,使得这些新变量是两两不相关的,而且这些新变量在反映研究对象的信相关的,而且这些新变量在反映研究对象的信息方面尽可能保持原有的信息。息方面尽可能保持原有的信息。主成分分析的基本思想主成分分析的基本思想12椭球的长短轴椭球的长短轴 当坐标轴和椭圆的长短轴平行,那么代表长轴当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭
5、圆的长短轴平行。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。一维),降维就完成了。椭圆(球)的长短轴相差得越大,降维也越有椭圆(球)的长短轴相差得越大,降维也越有道理。道理。13-4-2024-4-202414主轴和主成分主轴和主成分 对于多维变量的情况和二维类似,也对于多维变量的
6、情况和二维类似,也有高维的椭球,只不过无法直观地看有高维的椭球,只不过无法直观地看见罢了。见罢了。首先把高维椭球的主轴找出来,再用首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基作为新变量;这样,主成分分析就基本完成了。本完成了。注意,和二维情况类似,高维椭球的注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫的新变量是原先变量的线性组合,叫做主成分做主成分(principal component)。15主成分之选取主成分之选取 正如二维
7、椭圆有两个主轴,三维椭球正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有有三个主轴一样,有几个变量,就有几个主成分。几个主成分。选择越少的主成分,降维就越好。什选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之所选的主轴总长度占所有主轴长度之和的和的大约大约85%即可,其实,即可,其实,这只是一这只是一个大体的说法个大体的说法;具体选几个,要看实;具体选几个,要看实际情况而定
8、。际情况而定。一、主成分分析的基本原理 假定有n个样本,每个样本共有p个特征,构成一个np阶的数据矩阵npnnppxxxxxxxxxX212222111211(3.5.1)当当p较大时,在较大时,在p维空间中考察问题比较麻烦。维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。同时它们之间
9、又是彼此独立的。定义:记x1,x2,xP为原变量指标,z1,z2,zm(mp)为新变量指标pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111.(3.5.2)系数lij的确定原则:zi与zj(ij;i,j=1,2,m)不相关;z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,xP的所有线性组合中方差最大者;zm是与z1,z2,zm1都不相关的x1,x2,xP,的所有线性组合中方差最大者。则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xP的第1,第2,第m主成分。从以上的分析可以看出,主成分分析的实质就
10、是确定原来变量xj(j=1,2,p)在诸主成分zi(i=1,2,m)上的荷载 lij(i=1,2,m;j=1,2,p)。从数学上可以证明,它们分别是相关矩从数学上可以证明,它们分别是相关矩阵阵m个较大的特征值所对应的特征向量。个较大的特征值所对应的特征向量。二、主成分分析的计算步骤(一)计算相关系数矩阵一)计算相关系数矩阵 rij(i,j=1,2,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为pppppprrrrrrrrrR212222111211(3.5.3)nknkjkjikinkjkjikiijxxxxxxxxr11221)()()((3.5.4)(二)计算特征值与特征向
11、量(二)计算特征值与特征向量 解特征方程,求出特征值,并使其按大小顺序排列 ;0RI021p 分别求出对应于特征值的特征向量 ,要求=1,即,其中表示向量 的第j个分量。i),2,1(pieiie112pjijeijeie 计算主成分贡献率及累计贡献率 贡献率),2,1(1pipkki累计贡献率),2,1(11pipkkikk 一般取累计贡献率达85%95%的特征值所对应的第1、第2、第m(mp)个主成分。m,21 计算主成分载荷 ),2,1,(),(pjiexzplijijiij(3.5.5)三、主成分分析方法应用实例 下面,我们根据表给出的数据,对某农业生态经济系统做主成分分析。某农业生态
12、经济系统各区域单元的有关数据 步骤如下:(1)将表3.5.1中的数据作标准差标准化处理,然后将它们代入公式(3.5.4)计算相关系数矩阵(表3.5.2)。x1x2x3x4x5x6x7x8x9x11-0.327-0.714-0.3360.3090.4080.790.1560.744x2-0.331-0.0350.6440.420.2550.009-0.0780.094x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924x4-0.340.6440.0710.3830.069-0.05-0.0310.073x50.3090.42-0.740.38310.734
13、0.6720.0980.747x60.4080.255-0.7550.0690.73410.6580.2220.707x70.790.009-0.93-0.0460.6720.6581-0.030.89x80.156-0.078-0.109-0.0310.0980.222-0.0310.29x90.7440.094-0.9240.0730.7470.7070.890.291表3.5.2相关系数矩阵 (2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(表3.5.3)。由表3.5.3可知,第1,第2,第3主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第1、第2、
14、第3主成分z1,z2,z3即可。表3.5.3特征值及主成分贡献率 (3)对于特征值=4.661 0,=2.089 0,=1.0430分别求出其特征向量e1,e2,e3,再用公式(3.5.5)计算各变量x1,x2,x9在主成分z1,z2,z3上的载荷(表3.5.4)。表3.5.4 主成分载荷 (1)第1主成分z1与x1,x5,x6,x7,x9呈现出较强的正相关,与x3呈现出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第1主成分z1是生态经济结构的代表。(2)第2主成分z2与x2,x4,x5呈现出较强的正相关,与x1呈现出较强的负相关,其中,除了x1为人口总数外,x2,x4
15、,x5都反映了人均占有资源量的情况,因此可以认为第2主成分z2代表了人均资源量。分析:分析:显然,用3个主成分z1、z2、z3代替原来9个变量(x1,x2,x9)描述农业生态经济系统,可以使问题更进一步简化、明了。(3)第3主成分z3与x8呈现出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第3主成分在一定程度上代表了农业经济结构。(4)另外,表3.5.4中最后一列(占方差的百分数),在一定程度上反映了3个主成分z1、z2、z3包含原变量(x1,x2,x9)的信息量多少。基本思想基本思想 根据已知类别的样本所提供的信息,总结出分类的规根据已知类别的样本所提供的信息,总结出分类的规律性,建立判别公式和判别准则,判别新的样本点所属律性,建立判别公式和判别准则,判别新的样本点所属类型,是判别个体所属群体的一种统计方法类型,是判别个体所属群体的一种统计方法 图图4.1