1、维度规约 主成分分析(PCA)v在模式识别中,一个常见的问题就是特征选择或特征提取,在理论上我们要选择与原始数据空间具有相同的维数。然而,我们希望设计一种变换使得数据集由维数较少的“有效”特征来表示。主成分分析v主成分分析(或称主分量分析,principal component analysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。v在PCA中,我们感兴趣的是找到一个从原d维输入空间到新的k维空间的具有最小信息损失的映射vX在方向w上的投影为xwzT 主成分分析(PCA)v一、主成分的定义及导出v二、主成分的性质v三、从相关阵出发求
2、主成分一、主成分的定义及导出v设 为一个 维随机向量, v主成分是这样的 ,样本投影到 上之后被广泛散布,使得样本之间的差别变得最明显,即最大化方差。v设 希望在约束条件 下寻求向量 ,使 最大化Tnxxxx),(21n)(xCov1w1w11w1wxwzT11111)var(wwzT写成拉格朗日问题现在关于 求导并令其等于0,得到如果 是 的特征向量, 是对应的特征值,则上式是成立的) 1 () 1(max11111wwwwTTw1w1111022wwww1wv同时我们还得到v为了使方差最大,选择具有最大特征值的特征向量 ,因此,第一个主成分 是输入样本的协方差阵的具有最大特征值对应的特征向
3、量 1111wwwwTT1wv第二个主成分 也应该最大化方差,具有单位长度,并且与 正交v对于第二个主成分,我们有v关于w2求导并令其为0,我们有2w1w)2()0() 1(max1222222wwwwwwTTTw022122wwwv上式两边乘以v其中v可知 ,并且可得Tw1022112121wwwwwwTTT,00121112122112212121wwwwwwwwwwwwwwwwTTTTTTTT是标量,且022ww,v这表明w2应该是 的特征向量,具有第二大特征值v类似的,我们可以证明其它维被具有递减的特征值的特征向量给出,2v我们来看另一种推导:v 如果我们建立一个矩阵C,其第i列是 的
4、规范化的特征向量,则 ,并且ICCTTTnnnTTnTnTCDCccccCcccCcccCC1112121),(),(是矩阵WxWzT,v其中, 是对象矩阵,其对角线元素是特征值v ,这称为 的谱分解v由于C是正交的,并且 ,我们在 的左右两边乘以 和 ,得到v我们知道如果 ,则 ,我们希望它等于一个对角矩阵,于是,可以令Dn21,ICCCCTTTCCDCCTxWzTWWzT)cov(CW v在实践中,即使所有的特征值都大于0,我们知道,某些特征值对方差的影响很小,并且可以丢失,因此,我们考虑例如贡献90%以上方差的前k个主要成分,当 降序排列时,由前k个主要成分贡献的方差比例为ink2121
5、v实践中,如果维是高度相关的,则只有很少一部分特征向量具有较大的特征值,k远比n小,并且可能得到很大的维度归约v总方差中属于主成分 的比例为 称为主成分 的贡献率。v第一主成分 的贡献率最大,表明它解释原始变量 的能力最强,而 的解释能力依次递减。v主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有 主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。 izizkjji11znxxx,21kzzz21,v前 个主成分的贡献率之和 称为主成分 的累计贡献率,它表明 解释 的能力。v通常取较小的 k ,使得累计贡献达到一个较高的百分比(如8090)。此时, 可用来代替 ,
6、从而达到降维的目的,而信息的损失却不多。knjjkii11k21,kzzz,21nxxx21,kzzz,21nxxx21,主成分分析的应用v在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平,其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释。v主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。v如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平,也就是说,此时的累计贡献率通常较易得到满足。v主成分分析的困难之处主要在于要能够给出主成分的较好解释,所提取
7、的主成分中如有一个主成分解释不了,整个主成分分析也就失败了。支持向量机(补充讲义)v上节课,我们讨论了SVM的分类,这里简略地讨论如何将SVM推广到回归上v我们还是使用线性模型:v bxwxfT)(v对于回归,我们使用差的平方作为误差:v对于支持向量机的回归,我们使用2)()(,(iiiixfyxfye敏感损失函数-否则如果)()(0)(,(iiiiiixfyxfyxfyev这意味着我们容忍高达 的误差,并且超出的误差具有线性而不是平方影响。这种误差函数更能抵制噪声,因而更加鲁棒v类似的,我们引入松弛变量来处理超过 的偏差v其中C是一个训练误差和惩罚项 之间的权衡)(21min12miiiCwiy2wv受限于iiiTiiTiybxwbxwy)()(v和我们做分类的方法一样,建立拉格朗日函数,然后取它的对偶问题(这里也可以使用核函数),与分类一样,我们也会得到一些支持向量,而回归线将用它们表示.