第16章主成分分析.pptx-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

第16章主成分分析.pptx

1、第十六章主成分分析主成分分析主成分分析（principal component analysis, PCA）是一种常用的无监督学习方法这一方法利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据，线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数，所以主成分分析属于降维方法。主成分分析主要用于发现数据中的基本结构，即数据中变量之间的关系。基本想法主成分分析中，首先对给定数据进行规范化，使得数据每一变量的平均值为 0，方差为1。之后对数据进行正交变换，原来由线性相关变量表示的数据，通过正交变换变成由若干个线性无关的新变量表示的

2、数据。新变量是可能的正交变换中变量的方差的和（信息保存）最大的，方差表示在新变量上信息的大小。可以用主分成近似地表示原始数据，发现数据的基本结构也可以把数据由少数主成分表示，对数据降维基本想法数据集合中的样本由实数空间（正交坐标系）中的点表示，空间的一个坐标轴表示一个变量，规范化处理后得到的数据分布在原点附近。对原坐标系中的数据进行主成分分析等价于进行坐标系旋转变换，将数据投影到新坐标系的坐标轴上新坐标系的第一坐标轴、第二坐标轴等分别表示第一主成分、第二主成分等数据在每一轴上的坐标值的平方表示相应变量的方差这个坐标系是在所有可能的新的坐标系中，坐标轴上的方差的和最大

3、的例数据由线性相关的两个变量x1和x2表示主成分分析对数据进行正交变换，对原坐标系进行旋转变换，并将数据在新坐标系表示例主成分分析选择方差最大的方向（第一主成分）作为新坐标系的第一坐标轴，即y1轴之后选择与第一坐标轴正交，且方差次之的方向（第二主成分）作为新坐标系的第二坐标轴，即y2轴例在新坐标系里，数据中的变量y1和y2是线性无关的，当知道其中一个变量y1的取值时，对另一个变量y2的预测是完全随机的，反之亦然如果主成分分析只取第一主成分，即新坐标系的 y1轴，那么等价于将数据投影在椭圆长轴上，用这个主轴表示数据，将二维空间的数据压缩到一维空间中

4、。例假设有两个变量x1和x2，三个样本点A、B、C，样本分布在由x1和 x2轴组成的坐标系中对坐标系进行旋转变换，得到新的坐标轴y1，表示新的变量y1 样本点A、B、C在y1轴上投影，得到y1轴的坐标值A、B、 C 例坐标值的平方和OA2 + OB2 + OC2表示样本在变量y1上的方差和主成分分析旨在选取正交变换中方差最大的变量，作为第一主成分，也就是旋转变换中坐标值的平方和最大的轴 OA2 + OB2 + OC2最大等价于样本点到 y1轴的距离的平方和AA2 + BB2 + CC2最小主成分分析在旋转变换中选取离样本点的距离平方和最小的轴，作为第一主成分。第二主成分

5、等的选取，在保证与已选坐标轴正交的条件下，类似地进行主成分分析在数据总体（population)上进行的主成分分析称为总体主成分分析在有限样本上进行的主成分分析称为样本主成分分析总体主成分分析是样本主成分分析的基础定义和导出假设是m维随机变量，其均值向量是协方差矩阵是考虑由m维随机变量x到m维随机变量的线性变换其中定义和导出由随机变量性质可知定义和导出定义和导出定义中的条件（1）表明线性变换是正交变换，是其一组标准正交基条件（2）（3）给出了一个求主成分的方法：第一步，在x的所有线性变换中，在条件下，求方差最大的，得到x的第一主成分定义和导出

6、第二步，在与不相关的x的所有线性变换中，在条件下，求方差最大的，得到x的第二主成分第k步，在与不相关的x的所有线性变换中，在条件下，求方差最大的，得到x的第k主成分主要性质主要性质证明：采用拉格朗日乘子法求出主成分首先求x的第一主成分，，即求系数向量。由定义16.1知，第一主成分的是在条件下，x的所有线性变换中使方差达到最大的求第一主成分就是求解约束最优化问题：主要性质定义拉格朗日函数其中是拉格朗日乘子。将拉格朗日函数对求导，并令其为0，得因此，是的特征值，是对应的单位特征向量。于是，目标函数假设是的最大特征值对应的单位特征

7、向量，显然与是最优化问题的解所以，构成第一主成分，其方差等于协方差矩阵的最大特征值主要性质接着求x的第二主成分。第二主成分的是在，且与不相关的条件下，x的所有线性变换中使方差达到最大的求第二主成分需要求解约束最优化问题注意到以及主要性质定义拉格朗日函数其中是拉格朗日乘子。对求导，并令其为0，得将方程左乘以有此式前两项为0，且，导出，因此式(16.10)成为由此，是的特征值，是对应的单位特征向量。于是，目标函数 16.10 主要性质假设是的第二大特征值对应的单位特征向量，显然与是以上最优化问题的解于是构成第二主成分，

8、其方差等于协方差矩阵的第二大特征值一般地，x的第k主成分是，并且，这里是的第k个特征值并且是对应的单位特征向量。主要性质按照上述方法求得第一、第二、直到第m主成分，其系数向量分别是的第一个、第二个、直到第m个单位特征向量，分别是对应的特征值。第k主成分的方差等于的第k个特征值，主要性质主要性质以上证明中，是第k个特征值，是对应的特征向量，即用矩阵表示为这里是对角矩阵，其第k个对角元素是因为A是正交矩阵，即 ATA=AAT=I，由得总体主成分的性质（1）总体主成分y的协方差矩阵是对角矩阵（2）总体主成分y的方差之和等于随机变量x的方差之和

9、，即其中是随机变量的方差，即协方差矩阵的对角元素。事实上，利用及矩阵的迹(trace)的性质，可知总体主成分的性质（3）第k个主成分与变量的相关系数称为因子负荷量（factor loading)，它表示第k个主成分与变量的相关关系。计算公式是因为其中ei为基本单位向量，其第i个分量为1，其余为0。再由协方差的性质得到式 (16.20) 16.20 总体主成分的性质（4）第k个主成分与m个变量的因子负荷量满足由式(16.20)有总体主成分的性质（5）m个主成分与第i个变量的因子负荷量满足由于互不相关故又因可以表为的线性组合，所以与的

10、相关系数的平方为1，即故得式(16.22) 16.22 主成分的个数主成分分析的主要目的是降维，所以一般选择k (k m）个主成分（线性无关变量）来代替m个原有变量（线性相关变量），使问题得以简化，并能保留原有变量的大部分信息。主成分的个数证明：令是B的第k列，由于正交矩阵A的列构成m维空间的基，所以可以由A的列表示，即等价地其中C是 m x q 矩阵，其第j行第k列元素为Cjk 主成分的个数首先其中是C的第j行。因此主成分的个数其次，由及A的正交性知由于A是正交的，B的列是正交的，所以即C的列也是正交的。于是这样，矩阵C可以认为是某个m阶正交矩阵D的前

11、q列主成分的个数正交矩阵D的行也正交，所以满足其中是D的第j行。由于矩阵D的行包括矩阵C的行的前q个元素，所以即因为，能找到使得时，最大主成分的个数而当时，有满足所以，当时，达到最大值定理16.2表明，当x的线性变换y在，其协方差矩阵的迹取得最大值这就是说，当取A的前q列取x的前q个主成分时，能够最大限度地保留原有变量方差的信息。主成分的个数当舍弃A的后p列，即舍弃变量x的后p个主成分时，原有变量的方差的信息损失最少。主成分的个数主成分的个数通常取k使得累计方差贡献率达到规定的百分比以上累计方差贡献率反映了主成分保留信息的比例，但它

12、不能反映对某个原有变量xi保留信息的比例通常利用k个主成分对原有变量xi的贡献率主成分的个数规范化变量的总体主成分在实际问题中，不同变量可能有不同的量纲，直接求主成分有时会产生不合理的结果。为了消除这个影响，常常对各个随机变量实施规范化，使其均值为0，方差为1. 规范化变量的总体主成分设为m维随机变量，xi为第i个随机变量，令其中，分别是随机变量xi的均值和方差，这时就是 xi的规范化随机变量规范化随机变量的协方差矩阵就是相关矩阵R 规范化变量的总体主成分规范化随机变量的总体主成分有以下性质：（1）规范化变量主成分的协方差矩阵是（2）协方差矩阵的特征值之

13、和为m 规范化变量的总体主成分（3）规范化随机变量与主成分的相关系数（因子负荷量）为其中为矩阵R对应于特征值的单位特征向量（4）所有规范化随机变量与主成分的相关系数的平方和等于（5）规范化随机变量与所有主成分的相关系数的平方和等于1 样本主成分分析总体主成分分析，是定义在样本总体上的。在实际问题中，需要在观测数据上进行主成分分析，这就是样本主成分分析。样本主成分也和总体主成分具有相同的性质。样本主成分的定义和性质假设对m维随机变量进行n次独立观测表示观测样本表示第j个观测样本表示第j个观测样本的第i个变量，j=1,2, ,n 观测数据用样本矩阵X

14、表示，记作样本主成分的定义和性质给定样本矩阵X，可以估计样本均值，以及样本协方差。样本均值向量为样本协方差矩阵S为其中，为第i个变量的样本均值样本主成分的定义和性质样本相关矩阵R为定义m维向量到m维向量的线性变换其中样本主成分的定义和性质考虑的任意一个线性变换其中yi是m维向量y的第i个变量，相应于容量为n的样本， yi的样本均值为其中是随机向量x的样本均值样本主成分的定义和性质 yi的样本方差为对任意两个线性变换，相应于容量为n的样本 yi, yk的样本协方差为样本主成分的定义和性质样本主成分与总体主成分具有同样的性质总体主成分的定理

15、16.2及定理16.3对样本主成分依然成立样本主成分的定义和性质在使用样本主成分时，一般假设样本数据是规范化的，即对样本矩阵作如下变换：其中 16.48 样本主成分的定义和性质为了方便，以下将规范化变量每仍记作 , 规范化的样本矩阵仍记作X。这时，样本协方差矩阵S就是样本相关矩阵R 样本协方差矩阵S是总体协方差矩阵的无偏估计样本相关矩阵R是总体相关矩阵的无偏估计 S的特征值和特征向量是的特征值和特征向量的极大似然估计。相关矩阵的特征值分解算法给定样本矩阵X，利用数据的样本协方差矩阵或者样本相关矩阵的特征值分解进行主成分分析。具体步骤如下：（1）对观测数据按式(16

16、.48)进行规范化处理，得到规范化数据矩阵，仍以X表示相关矩阵的特征值分解算法（2）依据规范化数据矩阵，计算样本相关矩阵R 其中相关矩阵的特征值分解算法（3）求样本相关矩阵R的k个特征值和对应的k个单位特征向量求解R的特征方程得R的m个特征值求方差贡献率达到预定值的主成分个数k 求前k个特征值对应的单位特征向量相关矩阵的特征值分解算法（4）求k个样本主成分以k个单位特征向量为系数进行线性变换，求出k个样本主成分（5）计算k个主成分 yj 与原变量 xi 的相关系数，以及k 个主成分对原变量 xi 的贡献率vi。相关矩阵的特征值分解算法（6）计算n个样本的k个主

17、成分值将规范化样本数据代入k个主成分式得到n个样本的主成分值第j个样本的第i主成分值是例假设有n个学生参加四门课程的考试，将学生们的考试成绩看作随机变量的取值，对考试成绩数据进行标准化处理，得到样本相关矩阵R 试对数据进行主成分分析例设变量分别表示语文、外语、数学、物理的成绩。对样本相关矩阵进行特征值分解，得到相关矩阵的特征值，并按大小排序，这些特征值就是各主成分的方差贡献率。假设要求主成分的累计方差贡献率大于75%, 那么只需取前两个主成分即可，即k=2，因为例求出对应于特征值的单位特征向量由可得第一主成分y1、第二主成分y2 例接下来由特征

18、值和单位特征向量求出第一、第二主成分的因子负荷量，以及第一、第二主成分对变量 xi 的贡献率例第一主成分 y1 对应的因子负荷量均为正数，表明各门课程成绩提高都可使 y1 提高也就是说，第一主成分 y1 反映了学生的整体成绩因子负荷量的数值相近，且的数值最大，这表明物理成绩在整体成绩中占最重要位置例第二主成分 y2 对应的因子负荷量有正有负正的是语文和外语，负的是数学和物理表明文科成绩提高都可使 y2 提高，理科成绩提高都可使 y2 降低也就是说，第二主成分 y2 反映了学生的文科成绩与理科成绩的关系。例将原变量 x1, x2, x3, x4 （语文、

19、外语、数学、物理）和主成分 y1, y2 （整体成绩、文科对理科成绩）的因子负荷量在平面坐标系中表示。 4个原变量聚成了两类因子负荷量相近的语文、外语为一类，数学、物理为一类，前者反映文科课程成绩，后者反映理科课程成绩。数据矩阵的奇异值分解算法假设有k个主成分，给定样本矩阵x，利用数据矩阵奇异值分解进行主成分分析对于 m x n 实矩阵A，假设其秩为r，0kr，则可以将矩阵A进行截断奇异值分解数据矩阵的奇异值分解算法定义一个新的 n x m 矩阵X X的每一列均值为0，得即XTX等于X的协方差矩阵SX 数据矩阵的奇异值分解算法主成分分析归结于求协方差矩阵SX的特征值和对应的单位特征向量问题转化为求矩阵 XTX 的特征值和对应的单位特征向量假设 X 的截断奇异值分解为，那么V的列向量就是的单位特征向量因此，V的列向量就是X的主成分于是，求X主成分可以通过求X的奇异值分解来实现。主要成分分析算法

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

第16章 主成分分析.pptx