浙江大学数学建模主成分分析经典课件.ppt

上传人(卖家):晟晟文业 文档编号:4314352 上传时间:2022-11-28 格式:PPT 页数:29 大小:242KB
下载 相关 举报
浙江大学数学建模主成分分析经典课件.ppt_第1页
第1页 / 共29页
浙江大学数学建模主成分分析经典课件.ppt_第2页
第2页 / 共29页
浙江大学数学建模主成分分析经典课件.ppt_第3页
第3页 / 共29页
浙江大学数学建模主成分分析经典课件.ppt_第4页
第4页 / 共29页
浙江大学数学建模主成分分析经典课件.ppt_第5页
第5页 / 共29页
点击查看更多>>
资源描述

1、1本章教学目标:本章教学目标:l掌握主成分分析的基本概念、基本原理及其分析应用的基本步骤;l掌握使用软件进行主成分分析;l能应用主成分分析方法解决实际问题 主成分分析主成分分析2 本章主要内容本章主要内容:10.1 主成分分析的概念10.2 主成分计算10.3 样本主成分10.4 主成分的选取10.5 案例分析10.6 上机实现本章内容重点:本章内容重点:主成分分析的概念;主成分的选取;上机实现 3在实证数据分析研究中,人们为了尽可能完整地搜集信息,对于每个样本往往要观测它的很多项指标,少者四、五项,多则几十项,这些指标之间通常不是通常不是相互独立而是相关的相互独立而是相关的。因此,从统计分析

2、或推断的角度来说,人们总是希望能把大量的原始指标组合成较少的几个综合指标把大量的原始指标组合成较少的几个综合指标,从而使分析简化。案例案例:一个人的身材需要用好多项指标才能完整地描述,诸如身高、臂长、腿长、肩宽、胸围、腰围、臀围等,但人们购买衣服时一般只用长度和肥瘦长度和肥瘦两个指标就够了,这里长度和肥瘦就是描述人体形状的多项指标组合而成的两个综合指标两个综合指标。10.1 主成分的概念主成分的概念4假设观测指标共有p个,分别用x1,x2,xp,表示,将这些指标综合为一个指标的方法显然有很多,但最简单的方法是将这些指标用线性组合的方法将它们组合起来。因此,可设定其综合指标的形式为这些指标的线性

3、组合,即我们希望构造少数几个这样的综合指标,并且这几个综合指标之间是不相关的。其中反映原始观测指标的变动程度最大的综合指标最重要,我们称其为原始观测指标的第一主成分;而反映原始观测指标变动程度次大的综合指标,称为原始观测指标的第二主成分;反映原始观测指标变动程度第三大的综合指标,称为第三主成分;,T1 12 2p py a x axaxa x510.2 主成分计算主成分计算 设p个指标(随机变量)是p维随机变量,其协方差矩阵为式中,协方差 当 求 的最大值。实际上,这就是求的 的值 111212122212.COV().ppppppppX ()()ijiijjEEXEXXXT(1)(1)1aa

4、T(1)()aXCO V(1)T(1)(1)T(1)0maxaaaaa 6根据线性代数的理论,我们知道这就是矩阵 的最大特征根 ,并且 就是相应的特征向量。就为随机向量X X的第一主成分。X X的第二主成分不应该再重复反映第一主成分已经反映的内容,所以求第二主成分时,除了有类似于第一主成分的约束条件外,还必须加上第二主成分与第一主成分不相关这一条件,即 要使 也就是要使 即第二主成分的特征向量必须于第一主成分的特征向量正交。1(1)aT(1)aX(2)T(1)T(2)(1)(,)0aX aXaaCOV(2)T(1)T(,)0aX aXCOV(2)(1)0aa7事实上,由于协方差矩阵为非负定矩阵

5、,故有p个非负特征根,从而可求出p个特征向量 将每一个特征向量作为一个主成分的系数向量,就可得出p个主成分。若记p个主成分组成的主成分向量为 特征向量 组成的矩阵为A,即 则可写成主成分向量的表达形式为:(1)(2)(),paaaT12(,)pY YYY(1)(2)(),paaa(1)(2)()(,)pAaaaTYA X8我们有即 不相关 各自的方差为总的方差是 我们从 中,选出对方差贡献最大的部分指标,就达到了主成分分析的目的。1T0()()0pYAX ACOVCOV1,pYY1,ptri1,pYY9案例案例10.110.1 假设市场上肉类、鸡蛋、水果3种商品价格的月份资料的协方差矩阵为:试

6、求这3种价格的主成分。解:根据上述协方差矩阵,可写出其特征多项式为令此特征多项式为0,则得特征方程,解此特征方程,从而得的特征值为 2222542452222254(1)(10)245I12310,110得这些特征根分别代入特征方程,然后求解就可得到相应的各个特征向量,将这些特征向量单位化,就得到相应于上述3个特征根的3个单位特征向量分别为:于是,3种商品价格的3个主成分分别为 T(1)T(2)T(3)122333220222222366aaa(1)T1123(2)T223(3)T312312233322222222366XXXXXXXXYaXYaXYaX11在解决实际问题时,总体的协方差和相

7、关阵往往都是未知的,需要通过样本来进行估计。设样本数据矩阵为则样本协方差矩阵为样本相关矩阵记为 10.3 样本主成分样本主成分1112121222T1,212.(,).ppnnnnpxxxxxxx xxxxxXT11()()()1niiijixxxxsnS*T*1()1ijrnRXX12由主成分分析的基本思想和计算过程可以看出,主成分分析是把p个随机变量的总方差tr()分解为p个不相关的随机变量的方差之和。各个主成分的方差即相应的特征根表明了该主成分的方差,方差的值越大,表明主成分综合原始变量的能力越强。累计贡献率:在研究实际问题时,一般要求累计贡献率不小于85。10.4 主成分的选取主成分的

8、选取11miimpii13虽然主成分的贡献率这一指标给出了选取主成分的一个准则,但是累计贡献率只是表达了前m个主成分提取了的多少信息,它并没有表达某个变量被提取了多少信息,因此仅仅使用累计贡献率这一准则,并不能保证每个变量都被提取了足够的信息。因此,有时还往往需要另一个辅助的准则。由于 ,所以显然 是第j个主成分所能说明的第i个原始变量的方差,即第j个主成分从第i个原始变量中所提取的信息。(1)(2)()12piiiipXa Ya Ya Y222(1)(2)()12()piiiipiiDaaa X14原始变量 的信息提取率 定义为:我们选取主成分时,不仅要使前m个主成分的累计贡献率达到一定的程

9、度,而且还要使每个原始变量的信息提取率也达到一定的程度。iX2()1mjjijiiia15案例:案例:假设某商场运动鞋、凉鞋、皮鞋3种消费量的协方差矩阵为试求各主成分,并对各主成分的贡献率及各个原始观测变量的信息提取率进行讨论。【解】由上述协方差矩阵,写出其特征多项式为120250002120250002I 16令此特征多项式为0,得特征方程。求解特征方程,得三个特征根分别为将各个特征根代入特征方程,求解相应的齐次线性方程,得到各个特征向量,经过单位化处理,就得到相应的三个单位化特征向量分别为1233 2 25.83,2.00,3 2 20.17 (1)(2)(3)0.3830.924000

10、10.9240.3830aaa17如果我们只取一个主成分,则累计贡献率为 效果似乎已经很理想。但是,如果我们进一步计算每个变量的信息提取率,则1315.830.7287572.875%5.832.000.17ii2222(1)111112(1)212222(1)313335.83(0.383)/0.85515.83(0.924)/0.99655.830/02aaa 18需再取第2个主成分,此时累计贡献率为各个变量的信息提取率分别为 12315.832.0097.875%8ii22222()1111122()22221222()333315.83(0.383)2.00 0/0.85515.83(

11、0.924)2.00 0/0.96655.83 02 1/1.0002jjjjjjjjjaaa 19在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有这样6项:身高、坐高、胸围、手臂长、肋围和腰围。所得相关矩阵如表10.1所示。10.5 案例分析案例分析 X1 X2 X3 X4 X5 X6 X1 1.00 X2 0.79 1.00 X3 0.36 0.31 1.00 X4 0.76 0.55 0.35 1.00 X5 0.25 0.17 0.64 0.16 1.00 X5 0.51 0.35 0.58 0.38 0.63 1.00 20前三个主成分分别为*1123

12、4560.4690.4040.3940.4080.3370.427XXXXXXY*21234560.3650.3970.3970.3650.5690.308XXXXXX Y*31234560.0920.6130.2790.7050.1640.119XXXXXXY表10.2 R的前三个特征值、特征向量以及贡献率 特 征 向 量 指 标(1)a(2)a(3)a*1X 身高 0.469-0.365 0.092*2X 坐高 0.404-0.397 0.613*3X 胸围 0.394 0.397-0.279*4X 手臂长 0.408-0.365-0.705*5X 肋围 0.337 0.569 0.164

13、*6X 腰围 0.427 0.308 0.119 特征值 3.287 1.406 0.459 贡献率 0.548 0.234 0.077 累计贡献率 0.548 0.782 0.859 21SPSS软件FACTOR模块提供了主成分分析的功能。下面,我们以SPSS软件包自带的数据Employee data为例,介绍主成分分析的上机实现方法,在SPSS软件的安装目录下可以找到该数据集。数据Employee data 为 Midwestern 银行在19691971年之间雇员情况的数据,共包括474条观测及以下10个变量:Id(观测号)、Gender(性别)、Bdate(出生日期)、Educ(受教育

14、程度)、Jobcat(工作种类)、Salary(目前年薪)、Salbegin(开始受聘时年薪)、Jobtime(受雇时间(月)、Prevexp(受雇以前的工作时间(月)、Minority(是否少数民族)。下面我们用主成分分析方法处理该数据,以期用少量的变量来描述该地区居民的雇用情况。10.6主成分分析的上机实现主成分分析的上机实现22进入SPSS软件,打开数据集Employee data后,依次执行AnalyzeData ReductionFactor命令,系统弹出选择变量和分析内容的主窗口,如图10.1所示。23依次选中变量Educ,Salary,Salbegin,Jobtime,Preve

15、xp并单击向右的箭头按钮,这5个变量变进入了图1中variable窗口。单击右侧的OK按钮,即可得到输出结果1。24Communalities1.000.7541.000.8961.000.9161.000.9991.000.968Educational Level(years)Current SalaryBeginning SalaryMonths since HirePrevious Experience(months)InitialExtractionExtraction Method:Principal Component Analysis.Communalties给出了从每个原始变量

16、提取的信息,比如从Current Salary中提取的信息为89.6.25Total Variance Explained2.47749.54149.5412.47749.54149.5411.05221.04670.5871.05221.04670.5871.00320.07090.6561.00320.07090.656.3657.29997.955.1022.045100.000Component12345Total%of VarianceCumulative%Total%of VarianceCumulative%Initial EigenvaluesExtraction Sums o

17、f Squared LoadingsExtraction Method:Principal Component Analysis.从上面表格中可以看出前三个主成分集中原始变量信息的90.66。第一主成份的方差为2.477,第二主成份的方差为1.052。26Component Matrixa.846-.194-.014.940.104.029.917.264-.077.068-.052.996-.178.965.069Educational Level(years)Current SalaryBeginning SalaryMonths since HirePrevious Experience

18、(months)123ComponentExtraction Method:Principal Component Analysis.3 components extracted.a.Component Matrix 表中给出了标准化原始变量用3个主成份的线性表示的近似表达式。例如:令F1,F2,F3分别表示标准化的主成分,那么,标准化的 Current Salary=0.94F1+0.104F20.029F327由SPSS软件默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式,要得到这个结果,就需要对Factor Analysis模块中的设置做一些调整,方法如下:进入Facto

19、r Analysis对话框并选择好变量之后,单击对话框下部的Scores按钮进入Factor Scores对话框,如图10.3所示。28Component Score Coefficient Matrix.342-.184-.014.380.099.028.370.250-.077.027-.050.992-.072.917.069Educational Level(years)Current SalaryBeginning SalaryMonths since HirePrevious Experience(months)123ComponentExtraction Method:Princ

20、ipal Component Analysis.该距阵给出了用原是变量表示出成分的系数信息,例如:标准化第一成分标准化第一成分F1=0.342标准化的标准化的X10.38标准化的标准化的X2+0.37标准化的标准化的X30.027标准化的标准化的X4-0.072标准标准化的化的X5。29 输出结果2给出了用原始变量表示主成分的系数信息,因为系统默认是从相关矩阵出发进行分析,所以,上面表格中的系数是将原始变量标准化后表示主成分的系数。这样求得的每个主成分的方差等于1,而不是原始变量相关矩阵的各个特征根了。此例中第一主成分的方差为2.477,要得出标准化的变量的第一主成分,只需将SPSS软件给出的系数前面乘以主成分方差的平方根即可。关系式如下:*1123*450.3422.4770.3802.4470.3702.447 0.027 2.4470.0722.447XXXXXY

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(浙江大学数学建模主成分分析经典课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|