1、多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析第六章第六章 主成分分析主成分分析 1 主成分分析主成分分析 2 主成分分析的应用主成分分析的应用多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析1 主成分分析主成分分析 一、前言一、前言 二、总体主成分二、总体主成分 三、样本主成分三、样本主成分多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析一、前言一、前言主成分分析是研究如何通过原来变量的少数几个主成分分析是研究如何通过原来变量的少数几个线性组合来解释随机向量的方差协方差结构。线性组合来解释随机向量的方差协方差结构。具体
2、地说,它的目的具体地说,它的目的(1)化简数据;(化简数据;(2)揭示变量间的关系。)揭示变量间的关系。往往存在这样的情况,样本的往往存在这样的情况,样本的p个指标的大部分差异能够个指标的大部分差异能够由它们的由它们的k个(比个(比p小很多)主成分(小很多)主成分(p个指标的线性组合)来个指标的线性组合)来概括。如果所考虑的问题是这种情形,那么包含在这概括。如果所考虑的问题是这种情形,那么包含在这k个主成个主成分中的信息与原来分中的信息与原来p个指标几乎一样多,可以用这个指标几乎一样多,可以用这k个主成分代个主成分代替原替原p个指标。这样由个指标。这样由p个指标的个指标的n次观测组成的数据就被
3、化简次观测组成的数据就被化简为为k个主成分的个主成分的n次观测数据。次观测数据。主成分分析的另一种作用是揭示变量间的一些关系,而这主成分分析的另一种作用是揭示变量间的一些关系,而这些关系往往是用别的方法或具体专业知识所难以预料的。些关系往往是用别的方法或具体专业知识所难以预料的。转向异同多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析 主成分分析本身往往并不是目的,而是达主成分分析本身往往并不是目的,而是达到目的的一种手段,因此它多用于大型研究到目的的一种手段,因此它多用于大型研究项目的某个中间环节中,如回归分析的回归项目的某个中间环节中,如回归分析的回归系数的主成分估
4、计、下一章将介绍的因子分系数的主成分估计、下一章将介绍的因子分析。析。多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析二、总体的主成分到最大。的方差在一定条件下达使今求维随机向量,为设yxayxpxppij,.)()cov(达到最大。使求aaaaaaaxaVar,)(个特征值。的为这里nAxxAxxnx2110,max.max10,10kxkjxxxAxxj的特征向量。的属于为取最大值时,的特征值,则为设11021,maxaaaaaap多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析).,2,1.)(),(),(212121piixxydiagi
5、ippijppp主成分(的第为定义若,使即有正交阵的特征值,为设定义定义多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析jijixxxyyijijjijijiji,0,)cov(),cov(),cov()1互不相关。;而的方差是主成分第piiyyyyi,21;差的方的线性组合中具有最大不相关的与为在所有主成分;第;差性组合中具有最大的方的线不相关的为在所有与;第二主成分的方差的线性组合中具有最大为在所有第一主成分iiixyyyyixyyxy12121211,多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析。上的在为称的相关系数主成分与原指标第负荷
6、jixyiyxxjij,)2ijjjijjijijieexxeyx),cov(),cov().(),(),(2121ijppdiagiiijjiijijjxyij/,负荷阵1ypy2y1x2xpx11111/11122/111/pp22121/22222/222/ppppp/11ppp/22ppppp/多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析),1(,)312pipjijjii所以因为。主成分的个为前,的个主成分为第称累计贡献率贡献率iyjpjjijpjjj111 如果存在一个如果存在一个k,使前,使前k个主成分的累计贡献率接近个主成分的累计贡献率接近1(如(如
7、不小于不小于80),我们就可以用前),我们就可以用前k个主成分代替个主成分代替p个原指标。个原指标。好。个原指标的情形是否良个主成分代替,它们反映了用前个原指标的个原指标,第个主成分代替。称它们为用前个原指标就将损失方差这样,第pkipkpiikjijjiipkjijj剩余方差剩余方差),1(1212多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析三、样本主成分ppijnnsxxxxnSxxxxx)()(11)(cov(,121的样本,为来自协差阵的主成分:设虑基于样本是未知的,我们可以考通常分布的协差阵为样本主成分。则称的有序特征值。为其中,(使设有正交阵xcyxcy
8、xcySlllldiagDSCCccCppppp,),),(2211111多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析。个主成分的为前,的个主成分为第称累计贡献率贡献率illlyjllpjjijpjjj111 当前当前k个主成分的累计贡献率足够大(如不小于个主成分的累计贡献率足够大(如不小于80),则),则我们可以取前我们可以取前k个主成分代替个主成分代替p个原指标。个原指标。标方差的逼近的情况。来度量用主成分对原指:我们仍用样本剩余方差kjpjjppkjjjkjjjclsclscls121222212111,多元统多元统多元统多元统多元统多元统计分析计分析计分析计
9、分析计分析计分析2 主成分分析的应用一、降维是主成分分析的一个很重要的应用。一、降维是主成分分析的一个很重要的应用。例例:研究纽约股票市场上五种股票的回升率:研究纽约股票市场上五种股票的回升率(本周五市场收(本周五市场收盘价上周五市场收盘价)盘价上周五市场收盘价)/(上周五市场收盘价)(上周五市场收盘价),从从1975年年1月到月到1976年年12月,对这五种股票作了月,对这五种股票作了100组独立观测。这五种组独立观测。这五种股票分别是化工公司股票分别是化工公司1(x1),化工公司),化工公司2(x2),化工公司),化工公司3(x3),石油公司),石油公司1(x4)和石油公司)和石油公司2(
10、x5)。)。.)0037.0,0063.0,0057.0,0048.0,0054.0(Rx相关阵为计算得样本均值 转入MATLAB(PRIANA)多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析0.3850 0.3824 0.4352 0.5820 0.4212 0.1756-0.4720-0.5408-0.5257 0.4215 0.4000-0.6624 0.3351-0.2604-0.4702 0.6762 0.2065-0.1782-0.5093-0.4571 0.4513-0.3866-0.6117 0.2403-0.4636 0.3429 0.45150.5
11、3970.80922.8567特征向量分别为。,的特征值分别为R多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析主成分分析结果主成分分析结果0.931420.090301.000000.068580.841120.107940.733180.161840.571340.57134x5x4x3x2x1样本主成分累计贡献率贡献率特征值2.85670.80920.53970.45150.34290.46360.45710.4702 0.4215 0.42120.24030.5093 0.2604 0.5257-0.5820-0.61170.1782-0.3351-0.5408
12、-0.43520.66240.4720-0.38240.3866-0.2065-0.4513-0.67620.4000-0.1756-0.3850多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析 前两个主成分的累计贡献率已达前两个主成分的累计贡献率已达73,用前两个主成分来代替用前两个主成分来代替5个原指标。个原指标。543212543211582.0526.0260.0509.0240.0421.0421.0470.0457.0464.0 xxxxxyxxxxxy 在这里,我们仍用在这里,我们仍用x1,x5表示标准化了的原指标。第一主表示标准化了的原指标。第一主成分大
13、约等于五种股票周回升率之和的一个常数倍,不妨称之成分大约等于五种股票周回升率之和的一个常数倍,不妨称之为为股票市场主成分股票市场主成分;第二主成分代表化学股票和石油股票的一;第二主成分代表化学股票和石油股票的一个对照,称之为个对照,称之为工业主成分工业主成分。这说明,这些股票周回升率的大部分差异来自市场活动和这说明,这些股票周回升率的大部分差异来自市场活动和与之不相关的工业活动。关于股票价格的这个结论与与之不相关的工业活动。关于股票价格的这个结论与King1的的结论是相同的。结论是相同的。1King.B.:Market and Industry Factors in Stock Price Behavior。Journal of Business,39,(1966)139190.多元统多元统多元统多元统多元统多元统计分析计分析计分析计分析计分析计分析三、作为因子分析的初始解三、作为因子分析的初始解请看下一章。请看下一章。本章习题本章习题主成分分析的目的是什么?主成分分析的目的是什么?怎样做主成分分析?怎样做主成分分析?二、线性回归系数的主成分估计二、线性回归系数的主成分估计
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。