1、第4章 大数据特征提取第4章 大数据特征提取4.1 特征提取的概念特征提取的概念4.2 特征提取的分类特征提取的分类4.3 特征选择与特征提取方法的比较特征选择与特征提取方法的比较4.4-线性特征提取线性特征提取第4章 大数据特征提取4.1 特征提取的概念特征提取的概念特征提取是指采用线性映射或者非线性映射,把样本所在的高维特征空间映射到相应 的低维特征空间。一方面,通过对高维数据的特征提取,可以得到一个效果更好、更易处理 的低维数据。另一方面,利用特征提取,容易得到可视化的低维数据空间,从而发现数据集 的空间结构。第4章 大数据特征提取特征提取的数学描述如下:给定一个高维特征空间X=Xi|i
2、=1,2,n,XiRD,样本Xi是一个d 维向量,总 共 有 n 个 样 本,特 征 提 取 是 寻 找 X 的 低 维 特 征 空 间 Y=Yi|i=1,2,n,YiRd (dD ),过程如下:第4章 大数据特征提取如果是线性特征提取,映射函数f 的具体形式如下:其中,V=V1,V2,Vd Dd 是一个变换矩阵。如果是非线性特征提取,则不存在这样一个变换矩阵。第4章 大数据特征提取4.2 特征提取的分类特征提取的分类按照不同的标准,降维算法可分为不同的种类。(1)根据所作的映射F 是否线性,降维算法相应地分为线性算法和非线性算法。主成 分分 析、线 性 判 别 分 析、独立主成分分析、最大边
3、缘准 则等为经典的线性降维算法;核方法、等距 映射、局部线性嵌入和拉普拉斯特征值映射等为典型的非线性降维算法。第4章 大数据特征提取(2)根据是否将数据集的局部几何结构纳入考虑,降维算法又可分为局部降维算法与 非局部降维算法。如 PCA 和 LDA 等是典型性的全局型降维算法;而诸如 LLE和 LE一些 流行学习算法以及其对应的线性化算法、局部保持投影(LocalityPreservingProjections,LPP)和近邻保持嵌入(NeighborhoodPreservingEmbedding,NPE)等为局部降维算法。第4章 大数据特征提取(3)根据降维过程是否利用监督信息或其他形式的标
4、号,降维算法可分为监督型算法和无监督型算法。如 PCA、LPP和 LLE等为无监督型约简算法,而 LDA 和最大间隔准则 等为有监督型约简算法。第4章 大数据特征提取(4)根据所作的映射F 是否依赖于样本数据集,可分为数据依赖型约简算法与数据独 立型约简算法。到目前为止,众多降维算法中使用的映射F 均需从数据集X 中学习获得,如 PCA 的投影方向与数据集的分布有关;而另外新出现的降维算法,如随机投影等所做的 映射与数据集的性质并无本质联系,所以称其为数据独立型降维算法。第4章 大数据特征提取4.3 特征选择与特征提取方法的比较特征选择与特征提取方法的比较特征选择和特征提取各有各的优势。原始特
5、征空间中,特征具有语义意义,经过特征 选择后,特征仍具有语义意义,而经过特征提取后,就很难再给特征赋予语义意义。但是,传统的特征选择方法根据某种评分来对特征进行排序,然后求出特征子集,忽略了特征之 间的联系,因此很难得到最优的特征子集,而特征提取更多地考虑特征之间的联系。另外,通过对高维数据空间进行特征提取,更容易得到可视化的低维数据空间,从而发现数据集 的空间结构。第4章 大数据特征提取特征选择和特征提取又是相互联系的,比如,数据方差是无监督的,它用于特征选择 得到方差评分,也用于特征提取得到 PCA。Fisher准则是监督的,它用于特征选择得到拉 普拉斯评分,也用于特征提取得到 LDA。第
6、4章 大数据特征提取在模式识别系统的设计过程中,可以只进行特征选择,也可以只进行特征提取,还可 以两者都进行。通常情况下维数约简的步骤如下:首先,进行特征选择,去除不重要的、不 相关的、干扰性甚至破坏性的特征,这些特征不需要参与特征提取,甚至不需要获取,这样 可以降低系统的开销;然后,进行特征提取,得到维数降低的特征空间;最后,用特征选择 和特征提取得到的特征来设计分类器。第4章 大数据特征提取4.4-线性特征提取线性特征提取4.4.1 线性特征提取的思想线性特征提取的思想 1.线性特征提取思想线性特征提取思想 线性特征提取方法,即子空间学习方法。线性特征提取方 法实现简单,计算效率高,有严格
7、的数学背景,能够从高维数据空间发现嵌入其中的线性 子空间的几何结构。但是,它是基于这样一个假设:嵌入高维数据空间的子空间是线性的,或者一定程度上近似线性的。如果所处理的高维数据空间满足假设条件,线性特征提取就 能够发现真实的线性结构,得到准确的低维表示。第4章 大数据特征提取2.经典线性特征提取方法经典线性特征提取方法 目前,比较经典有效的线性特征提取方法有:主成分分析、线性判别分析、独立主成分 分析和最大边缘准则。第4章 大数据特征提取4.4.2 主成分分析主成分分析 1.主成分分析原理及方法主成分分析原理及方法 主成分分析(PCA)的目标是寻找能够代表原始数据结构的最优线性投影方向,即协方
8、 差最大的投影轴,实现过程如下:第4章 大数据特征提取给定均值为零的数据集X=X1,X2,Xn RDn,样本Xi是一个D 维向量,总共有 n 个样本。在 PCA 中,假设通过线 性 映 射Yi=VTXi 可 以 得 到 对 应 于 高 维 向 量XiRD(i=1,2,n)的低维向量Yi RD(i=1,2,n ),则 PCA 的目标函数如下:式中,为数据集的协方差矩阵;V 是 PCA 寻找的线性投影方向。第4章 大数据特征提取1)主成分分析法的概念 主成分分析也称主分量分析,是揭示大样本、多变量数据或样本之间内在关系的一种 方法,旨在利用降维的思想,把多指标(特征)转化为少数几个综合指标,降低观
9、测空间的 维数,以获取最主要的信息。第4章 大数据特征提取在统计学中,主成分分析是一种简化数据集的技术。它是一个线性变换。这个变换把 数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第 一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用来 减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要的方面。但是,这也 不是绝对的,要视具体应用而定。第4章 大数据特征提取2)主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响
10、因素(特征)。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。对同一个体进行多项观察时必定涉及多个随机变量,它们之间都存在着相关性,一时 难以综合。这时就需要借助主成分分析来概括诸多信息的主要方面。第4章 大数据特征提取任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如 果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这 一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻 求综合指标。第4章 大数据特征提取3)主成分的几何解释 从几何角度来看,主成分分析是将由原变量X=X1,X2,XD T构成的坐标进行
11、 旋转,选 择 具 有 最 大 方 差 的 几 个 变 量 构 成 新 的 坐 标 系 统,新 的 坐 标 Y=Y1,Y2,Yd T,dD 提供了对原变量的协方差结构的最优逼近。假设随机向量X 的 协方差矩阵为,有特征值 特征向量对(1,e1),(2,e2),(D,eD),其中1 2D 0。第4章 大数据特征提取考虑线性组合第4章 大数据特征提取由随机向量变换的性质,易得第4章 大数据特征提取随机变量Y1,Y2,Yd 分别被称作X=X1,X2,XD T 的第一主成分,第二主 成分,第d 主成分,如果它们满足:(1)Yi与Yj(ij)不相关;(2)在X 所有线性组合中,Y1具有最大方差;在X 所
12、有线性组合中,Y2具有最大方差 且与Y1不相关,;在X 所有线性组合中,Yi具有最大方差且与Y1,Y2,Yi-1不相关。第4章 大数据特征提取为了不使随机变量Yi的方差无限大,限定aiTai=1,i=1,2,D。由以上条件,求第 一主成分转化为以下问题:使用拉格朗日乘子法易得:a1=e1时上述问题有最大值,且最大值为,最大特征值 1,即第4章 大数据特征提取类似的方法求第i个主成分可以得到由特征值 特征向量定义,任意ei,ej(ij)彼此正交,因此可见 X 的主成分即以协方差 的正交特征向量为系数的线性组合,第i个主成分的系 数是对应于第i个协方差特征根i的特征向量,其方差为i。第4章 大数据
13、特征提取利用d 个主成分可以代替D 个相关变量进行数据分析,d 个主成分要能够概括原变量 所提供信息的大部分,为说明各主成分Yi概括原变量信息的大小,定义某主成分Yi的方差 贡献率为第4章 大数据特征提取4)主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随 机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差矩阵变 换成对角形矩阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布 最开的d 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度将其转 换成低维变量系统,再通过构造适当的价值函数,
14、进一步把低维系统转化成一维系统。第4章 大数据特征提取5)主成分的性质 主成分C1,C2,Cd 具有如下几个性质。(1)主成分间互不相关,即对任意i和j,Ci和Cj的相关系数:(2)组合系数(a11,a12,a1d)构成的向量为单位向量。(3)各主成分的方差是依次递减的,即var(C1 )var(C2 ),var(Cd)。第4章 大数据特征提取(4)总方差不增不减,即这一性质说明,主成分是原变量的线性组合,是对原变量信息的一种改组,主成分不增加 总信息量,也不减少总信息量。(5)主成分和原变量的相关系数corr(Ci,xj )=aij。第4章 大数据特征提取(6)令X1,X2,Xd 的相关矩阵
15、为R,(a11,a12,a1d )则是相关矩阵R 的第i个 特征向量(eigenvector)。而且,特征值Ii就是第i个主成分的方差,即其中,Ii为相关矩阵R 的第i个特征值(eigenvalue)第4章 大数据特征提取6)主成分数目的选取 前已指出,设有d 个随机变量,便有d 个主成分。由于总方差不增不减,C1、C2等前 几个综合变量的方差较大,而Cd、Cd-1等后几个综合变量的方差较小,严格说来,只有前几 个综合变量才称得上主(要)成分,后几个综合变量实为次(要)成分。实践中总是保留前几 个,忽略后几个。第4章 大数据特征提取7)主成分分析的主要作用 概括起来说,主成分分析主要有以下几个
16、方面的作用。(1)主成分分析能降低所研究的数据空间的维数,即用研究d 维的Y 空间代替D 维的 X 空间(dD,构成样本阵,对样本元进行如下标准化 变换:第4章 大数据特征提取(2)对标准化阵Z 求相关系数矩阵:第4章 大数据特征提取第4章 大数据特征提取(4)将标准化后的指标变量转换为主成分:U1称为第一个主成分,U2称为第二个主成分,Ui称为第i个主成分。(5)对d 个主成分进行综合评价。对d 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。第4章 大数据特征提取2.主成分分析改进方法主成分分析改进方法1)概率主成分分析 概率主成分分析方法不但能 完成降维的工作,而且还
17、提供了数据分布的一种概率模型。PCA 是一种常用的降维方法,它在数据降维的同时还保留了其内在的变化,对不同的数据,PCA 可以根据其局部空间特 性,用不同的基向量来表示。近来,针对PCA 只能用全局线型来表示数据,Tipping等提出 了 PPCA,并通过期望最大化(EM)算法来训练 PCA 的概率模型。第4章 大数据特征提取第4章 大数据特征提取第4章 大数据特征提取一般来说,对于目标检测问题,根据 MAP(Maximumapriority)原则,似然函数可直接 用作一种“度量”目标在特征向量x 处显著性的一种函数。为简化计算及约束取值范围,按 照上式定义如下的显著性函数:这里S(x)为定义
18、的显著性函数。从式(4-19)式(4-22)容易看出:S(x)(0,1)。令z=WT(x-u),则式(4-22)变为第4章 大数据特征提取2)EM PCA 算法 主成分分析(PCA)是一种非常有用的统计学方法,在人脸识别和图像压缩方面有着广 泛的运用,但是 PCA 本身存在着一些不足之处,如在数据的维数很高或者数据量很大的时 候,寻找主成分比较困难;PCA 不能有效地处理丢失的数据;目前 PCA 还没有一个有效 的方法来计算它的参数等。实际上,在大数据特征提取过程中,训练的样本量一般都很 大,而且样本的维数一般也比较高,而这种情况正不利于 PCA 性能的发挥。第4章 大数据特征提取假设X=x1
19、,x2,xn (其中xi=(xi1,xi2,xiD)T RD 是一个样本,i=1,2,n)是一个Dn 的矩阵,D 是每个数据的维数,n 是数据量,iter是EM 运算法则的 循环次数,d 是要保留的主成分的个数,将C 初始化为一个Dd 的矩阵,在本实验中通 过rand函数产生,首先利用式(4-24)得到样本均值 mean1:再循环执行式(4-25)和式(4-26)iter次,得到矩阵C。第4章 大数据特征提取第4章 大数据特征提取 假定x 是一个n 维样本,则由 EM-PCA 产生的新的向量y 为第4章 大数据特征提取3)其他发展方向 近年来有学者使用基于人脸对称性的特征提取方法进行人脸识别。
20、杨琼等人在引入镜 像样本、应用镜像对称性的基础上,结合 K L展开与奇偶分解原理提出对称主分量分析 算法。对于奇偶对称 KL特征分量,根据它们各自的能量进行排序选择,选择能量较大(亦即方差较大)的分量作为特征值。根 据特征值挑选出来的本征向量只表示熵的意义下是最优的,它没有类别信息。第4章 大数据特征提取杨 健 提 出 二 维 主 成 分 分 析。其基本思想是利用图像矩阵直接构造图像散布矩阵,并在此基础上进行鉴别分 析。2DPCA 相对于 PCA 有以下两个优点:计算散布矩阵更容易更准确,计算相应本征向 量的速度更快。第4章 大数据特征提取4.4.3 线性判别分析线性判别分析 1.线性判别分析
21、原理及方法线性判别分析原理及方法 1)LDA 原理及方法 线性判别分析(LDA)(或称为 Fisher线性判别)的目标是寻找能把原始数据包含的各 类数据分开的最优线性投影方向,即可以把类间散度和类内散度的比值最大化的投影轴,实现过程如下:第4章 大数据特征提取假设训练数据集 X=X1,X2,XC,其中Xi,i=1,2,C 是第i类数据集,其中包含的数据个数为ni,样本x1,x2,xn RD,我们一般用矩阵的离散度来描述样 本的分布,于是,得到 Fisher准则:可以用图4-1表示 LDA 目标函数的物理意义。第4章 大数据特征提取图4-1 LDA 示意图第4章 大数据特征提取第4章 大数据特征
22、提取2)LDA 存在问题(1)LDA 中存在秩限制问题。下面考查类间离散度矩阵Sb的秩,由前面定义有:所以类间离散度矩阵Sb的秩第4章 大数据特征提取(2)LDA 中存在的奇异性问题。当样本总数大于样本维数时,类内离散度矩阵Sw 通常非奇异;否则Sw 是奇异的,此种 情况称为小样本问题,在Sw 奇异的情况下,已有的解决办法可以参考文献。第4章 大数据特征提取2.线性判别分析改进方法线性判别分析改进方法 对线性判别分析的改进算法展开的分析和研究,分为两类:基于类内散度矩阵Sw 零空 间和基于全散度矩阵St列空间的降维方法,探究了改进降维算法之间的等价关系,并且其 最优解形式相同,最后总结和比较了
23、扩展的LDA 的方法的优缺点,并对降维发展的方向进 行了展望。第4章 大数据特征提取1)基于Sw 零空间的降维算法 本节介绍基于Sw 零空间研究的降维算法:零空间 LDA(NLDA),chen等人曾经验 证了Sw 包含了重要的判别信息。第4章 大数据特征提取NLDA 的基空间是Sw 零空间,在零空间内确定出线性变换矩阵G,使在Sw 零空间上类 间散度最大,其基本思想是在Sw 零空间中,大量的鉴别信息存在于使Sb 投影非零的方向。于是,奇异问题被有效地解决,因此,NLDA 的最优变换满足:第4章 大数据特征提取第4章 大数据特征提取另一方面,如果yN(Sw)N(Sb),有第4章 大数据特征提取其
24、步骤如下:第4章 大数据特征提取第4章 大数据特征提取2)基于St列空间的降维算法 本节介绍基于St列空间的降维算法:不相关 LDA(ULDA)、正交 LDA(OLDA)和直接 LDA(DLDA),并对以上降维算法进行了详细的阐述。(1)不相关 LDA(ULDA)。LDA(ULDA)寻找关于St正交的最优鉴别矢量,其变换后的特征是线性无关的,能够 去除多余的特征描述,满足G=argmaxtrace(GTStG)-1GTSbG)。第4章 大数据特征提取第4章 大数据特征提取第4章 大数据特征提取(2)正交 LDA(OLDA)。OLDA 基空间是St的列空间,在列空间中确定线性变换矩阵G,使在St
25、的列空间上类 间数据相距较远,找出相互正交的最优鉴 别 矢 量 是 OLDA 与 ULDA 的 最 大 不 同 之 处,满足:其中,前2步与 ULDA 相同,令WM=U1t1M=QR,则G=Q 即为 OLDA 的最优解。第4章 大数据特征提取第4章 大数据特征提取(3)直接 LDA(DLDA)。直接 LDA(DLDA)是将离散矩阵一起对角化,可以有效地克服奇异问题,不同版本 DLDA 是由于对角化顺序的不同而不同。DLDAST 采用广义 Fisher准则,DLDAST 首先对角化St,选择St的列空间作为基空间,求出St列空间,它是由非零特征值对应得来 的,接下来将Sw 投影到此基空间,并特征
26、分解基空间中的类内散度矩阵,鉴别矢量G 即为 最小特征值所对应的矩阵。第4章 大数据特征提取实现步骤如下:(1)确定St的列空间:对Ht进行奇异值分解,令Ht=U1t1VT,其中t1 Rtt 和U1 Rmt(t=rank(Ht)为矩阵Ht 的秩)为非零奇异值组成的对角矩阵和相应特征矢量构成的 矩阵,均为将序排列的对角矩阵。令Z=U1-1t1,则有第4章 大数据特征提取(2)将Sw 投影到由Z 的列组成的子空间,将其对角化;经特征值分解,有ZT Sw Z=Y2wYT 取Y 中较小特征值对应的列,为了降维后的数据准确性,通常情况下取t个特征矢 量构成的矩阵Y1及相应对角矩阵w1。第4章 大数据特征
27、提取(3)矩阵G=U1-1t1 Y1-1w1 即为 DLDAST 的最优解。则其最优变换满足:而 DLDA SB则是在步骤1中Sb取代St,其余步骤一样,则最优变换矩G=B-1b1 Y1-1w1,由于更多鉴别信息存在于零空间中,从而此方法不能获得最佳的鉴别矢量。第4章 大数据特征提取第4章 大数据特征提取4.4.4-独立成分分析独立成分分析 1.独立成分分析原理及方法独立成分分析原理及方法独立成分分析(ICA)是近年来出现的一种强有力的数据分析工具。ICA 从出现到现在虽然时间不长,然而无论从理论上还是应用上,它正受到越来 越多的关注,成为国内外研究的一个热点。ICA 是一种用来从多变量(多维
28、)统计数据里找到隐含的因素或成分的方法,被认为是 主成分分析的一种扩展。第4章 大数据特征提取1)ICA 原理 为了给ICA 下一个严格的定义,这里需要使用一个隐藏的统计变量模型式(4-44)中的统计模型称为独立成分分析,或者ICA 模型,它表示被观察到的数据是如何 由独立成分混合而产生的。独第4章 大数据特征提取ICA 的出发点非常简单,如图4-2所示。它假设成分是统计独立的,而且还必须假设 独立成分是非高斯分布的。统计独立的概念将在下面给出定义,为了简单起见,假设未知 的混合阵为方阵。如果能计算出A 的逆W,这样独立成分可由下式得到式(4-44)中的ICA 模型存在如下的两个不确定性因素:
29、(1)不能确定独立成分的方差;(2)不能确定独立成分的顺序。第4章 大数据特征提取图4-2 基本的ICA 模型第4章 大数据特征提取为了描述方便,以固定某个时刻或者某种观测样本为例,去除样本标号t,将独立成分 分析模型记为而其中的各个混合信号也可以由下式表示第4章 大数据特征提取这就是ICA 生成模型,此模型描述了观测样本如何通过独立成分S(IndependentCompo-nent,IC)混合生成。通常独立成分S 不是可以直接观测到的成分,是一种潜在的成分,而 混合矩阵A 作为独立成分的混合系数也是未知。唯一已知的变量就是X,ICA 生成模型就 解决了在已知观测X 和假设其中含有多个尽可能相
30、互独立成分的条件下求出混合矩阵A 和独立成分矩阵S。第4章 大数据特征提取2)ICA 的约束条件 上面的ICA 生成模型要使得各个成分和混合矩阵能够被估计,一般需要作一定的约束 假设。(1)假定各个独立成分是统计独立的。假设独立成分具有统计独立是ICA 成立的前提条件。但其实只要拥有这个前提条件,对于ICA 生成模型就已经可以解决问题了,这也是ICA 生成模型可以为许多领域得以应 用的一个强有力的因素。第4章 大数据特征提取常规意义上讲,两个成分独立,即两个成分之间不包含对方的信息,从一方不可获知另外一方的任何信息。而从学术上讲,独立可以通过数学定义给出,在概率统计中,统计独 立性通过概率密度
31、给出定义,当满足时,x、y 变量独立,即两个独立随机变量x 和y 的联合密度可以分解为两个随机变量的边 缘概率密度之积。第4章 大数据特征提取(2)独立成分具有非高斯分布。由于高斯分布的高阶累积量为零,而对于ICA 模型,高阶信息才是研究的重点,所以 若观测样本为高斯分布,那么ICA 模型是失效的,因为无法从观测样本中分离出独立的高 斯成分,估计出的成分可能是高斯成分的某些线性组合,即无法从其中分离出两个独立的 高斯分量。当然观测样本中允许有一个高斯成分存在,而且有且仅有一个,这样ICA 模型 可以将其估计出来,因为这个唯一的高斯成分和其他非高斯成分不会有线性组合。第4章 大数据特征提取3)求
32、解ICA 生成模型的一般步骤(1)观测变量的中心化。这里的中心 化 是 指 将 观 测 数 据 去 均 值,使 其 均 值 为 零,这 样 做 可 以 简 化 理 论 和 算 法,通过对观测变量中心化的实现,也就是对初始 X 进行去均值处理:第4章 大数据特征提取(2)白化。为了更清楚的解析白化,需要先解析三个概念:独立性,不相关性,白化。独立性对于两个随机变量来说具有以下性质即对随机变量x1、x2它们的任何函数的乘积的期望等于各自函数期望的乘积时,则可 以认为这两个变量相互独立。第4章 大数据特征提取不相关性对于两个随机变量来说具有以下性质即当两个随机变量x1,x2的协方差cov(x1,x2
33、 )为零时,则这两个变量为不相关,由于 在本节中对观测样本都去均值,所以不相关更加简单,只需要cov(x1,x2)=Ex1,x2=0 即可。可以看到当两个变量相互独立时,一定满足不相关,但反过来不一定成立。第4章 大数据特征提取白化要满足两个条件,对于一个均值为零的随机向量X=x1,x2,xnT,白化过 是指该向量的各个分量都具有同一单位方差且互不相关,也就是要满足即随机变量x 的协方差矩阵为单位矩阵,也就是各分量间满足第4章 大数据特征提取而每个分量自身满足所以白化要比不相关条件更强一些,要求在不相关的基础上具有单位方差。第4章 大数据特征提取对一个变量要白化指的是对观测向量 X 通过与矩阵
34、 Whiten 线性相乘,即按照下式 处理:得到新的向量Z 满足不相关和单位方差的白化条件,就称对 X 进行了白化,Z 是白的,Whiten 就称为X 的白化矩阵。第4章 大数据特征提取白化方程主要有两种:(1)特征值分解(EigenvalueDecomposition,EVD)白化。通过对观测数据X=x1,x2,xn T的协方差矩阵进行特征值分解:式中,U 为特征值向量的正交矩阵,每列代表一个特征向量;为对应的特征值对角矩阵。从而对X 的白化过程可以通过求白化矩阵Whiten 由下式实现:通过该白化矩阵前乘观测数据即可将观测数据白化。第4章 大数据特征提取(2)主成分分析(Principal
35、ComponentAnalysis,PCA)白化。类似 于 特 征 值 分 解 白 化,主 成 分 分 析 白 化 过 程 也 是 利 用 对 观 测 数 据 X=x1,x2,xn T的协方差矩阵Cx 进行特征值分解:第4章 大数据特征提取但是,与特征值分解白化不同之处是在ICA 中,通常在 PCA 处理步骤中要引入降维处理,体现在特征值和特征向量的选取上,通过对特征值进行降序排列,从n 个特征值中取前m 个最大的特征值及其对应的特征向量作为白化矩阵,这就是主成分分析中主分量的体现,即令:第4章 大数据特征提取白化矩阵Whiten 为可以验证通过这个白化矩阵白化过的Z 具有单位方差互不相关,即
36、会满足此外可以发现,白化矩阵并不唯一,任何正交矩阵乘以白化矩阵依然不会改变白化性质。第4章 大数据特征提取(3)ICA 算法。将白化过的观测数据Z和白化矩阵Whiten 送入ICA 算法处理,得到正交矩阵B。这里 可以选择多种ICA 算法,如极大化非高斯性的ICA 估计算法,极大似然估计的ICA 算法,极小化互信息的ICA 估计算法,基于张量的ICA 估计算法,基于非线性去相关和非线性 PCA 的ICA 估计算法等。第4章 大数据特征提取(4)正交化。对白化过的观测数据Z 进行正交化,正交化会将白化数据Z 中各个不相关的分量转化 为各分量间相互独立,对白化数据正交化采用如下方式:这样S=(s1
37、,s2,sm )T为分解出来的各个独立分量。对上面的式子进行变形可以得到:第4章 大数据特征提取第4章 大数据特征提取2.独立成分分析改进方法独立成分分析改进方法 有一个经典的等式可以用来描述独立成分分析方法:ICA 方法方法=目标函数目标函数+优化算法优化算法 ICA 方法的统计性质,比如鲁棒性、一致性等取决于目标函数的选择,而算法的性质,比如算法的收敛速度、稳定性等则取决于优化算法。只有二者结合才可以得到快速又具有 鲁棒性强的ICA 生成模型分解方法。当然,同一种优化算法可以服务于多种不同的ICA 目 标函数,比如快速不动点算法就可以用于优化多种ICA 目标函数。第4章 大数据特征提取1)
38、独立成分分析算法的目标函数 独立成分分析算法的主要目标函数有极大化非高斯性、极小化互信息、最大似然估计 等。主要的优化算法有非线性去相关法、梯度下降算法、非线性 PCA 算法、FastICA 算法。(1)极大化非高斯性目标函数。度量非高斯性的相关概念有熵、KL 散度、负熵。第4章 大数据特征提取 熵用来衡量信息量大小,熵是指在信号当中包含的平均信息量。对于离散随机变量 取x=xi所能获取的信息量会根据其后验概率的升高而增加,不过它会根据其先验概率的 增加而减少。对x=xi随机变量获得的信息量Ii:第4章 大数据特征提取在不考虑噪声和干扰时,后验概率为1,先验概率为Pi。对于离散信号 M 个不同
39、取值 的N 次输出所得总信息量为I:所以每次输出随机变量获得的平均信息量 H 为H 称为熵。第4章 大数据特征提取 KL散度。Kullback-leibler散度也称为 KL熵,它是两个概率密度函数想似度的衡 量。假设随机变量x 有两种概率密度函数p(x)、q(x),那么这两者间的 KL散度为由于总是存在第4章 大数据特征提取所以任何随机变量x 的KL 散度总大于等于零:散度在高斯分布中有特殊的性质,在协方差矩阵相等的概率密度函数中,高斯分布的 熵值最大。假设pg(x)为高斯分布,p(x)为其他分布,且假设二者的协方差矩阵相等,则 此时的随机变量的 KL散度为第4章 大数据特征提取由于高斯分布
40、具有特殊性质,当随机变量的其他任何联合概率密度函数和高斯分布密 度函数具有同样的协方差矩阵时,具有如下的熵性质:所以此时随机变量的散度满足从而具有即在协方差矩阵相等的概率分布中,高斯分布的熵值最大。第4章 大数据特征提取 负熵。在散度中讨论过具有相同协方差矩阵的普通分布和高斯分布中,高斯分布的 熵最大,所以把具有任意概率密度函数p(x)和与之具有同样协方差矩阵的高斯分布之间 的 KL散度作为这种任意分布的非高斯性程度的度量8,越远离高斯分布,就越非高斯化,这种非高斯性的度量就称为负熵。定义为第4章 大数据特征提取也就是由此随机变量概率密度分布的负熵就为与之具有同样协方差矩阵的高斯分布的信息量
41、的差。负熵永远大于等于零,负熵越大非高斯性就越强,负熵为零则为高斯分布。第4章 大数据特征提取(2)基于负熵的极大非高斯性作为ICA 目标函数。采用极大非高斯性作为各种ICA 应用的目标函数,而且采用负熵作为极大非高斯性的 度量,所以采用负熵作为ICA 目标函数时,极大化负熵就是目标函数,即:由于直接用该式来计算负熵需要大量的原始数据,而很多情况下并无先验知识,求解 不方便,所以可采用一种非线性的非多项式函数来逼近概率密度函数。第4章 大数据特征提取第4章 大数据特征提取第4章 大数据特征提取第4章 大数据特征提取可以将非线性函数展开成高阶统计量表达式,比如tanh 通过泰勒级数展开为正是通过
42、负熵的近似表示中引入了这些非线性函数,而这些非线性函数隐含了高阶统 计量,从而独立成分分析通过非线性直接或间接方式使用了高阶统计量,获取了比主成分分析可以获取的更高阶的信息量。第4章 大数据特征提取2)FastICA 优化算法(1)固定点算法。固定点算法(fixed-pointalgorithm)也叫固定点迭代算法或不动点算法。为了描述该算 法,结合一个常见的代数例子来说明。第4章 大数据特征提取第4章 大数据特征提取图4-3 迭代收敛说明图第4章 大数据特征提取对于上述问题也可以采用牛顿迭代算法,对于牛顿迭代法有与上例类似的过程,也具 有xm+1=g(xm)的迭代框架,如图4-4所示,采用切
43、线逼近的方式,步步更替迭代直到收 敛于a 值:从而产生迭代式第4章 大数据特征提取图4-4-牛顿迭代说明图第4章 大数据特征提取先选定一点B 作为x 取值,过点(x,f(x)作f(x)的切线,由切线和y=0的交点C 作为 下一个迭代x 值点,一次递推,直到收敛得到正确的解。第4章 大数据特征提取从以上两种迭代过程可以看到,对于一个问题,迭代式g(x)的选择可以有多种,有些 选择得到的迭代过程慢,有些选择得到的过程快,甚至不会收敛。对于牛顿迭代算法当y=f(x)函数满足一定条件,如选择的初始点很接近a,并且在a 点f(x)的导数存在,则一定 能够收敛。所以固定点算法可以总结为选定初始点,采用某种
44、合适的迭代过程,多次更新替代原 取值点,逐步达到收敛于某固定点。第4章 大数据特征提取(2)基于负熵的ICA 快速不动点算法。对于基于极大非高斯性以负熵为判据的目标函数确定后,需要对目标函数进行优化,以获得好的鲁棒性和快的运行速度,可采用ICA 不动点算法(FastICA 算法),通过基于负 熵的目标函数和不动点算法相结合,可以快速分解ICA 生成模型,得到好的分解效果,由 于该算法采用牛顿迭代过程,所以收敛效果好,收敛速度有保证,并且迭代过程不需要调 节步长等设置的参数,使用简单方便。第4章 大数据特征提取由上面所述,基于负熵的目标函数求导有当稳态时 bi=0,可以得到固定点迭代的两步算法:
45、第4章 大数据特征提取式(4-99)是进行归一化运算,从而式(4-97)的系数 可以去掉,没有影响。由于上面 的两步算式在实践中发现其收敛性不是很好,进而采用牛顿迭代算法进行改进得到优化 的固定点算式:第4章 大数据特征提取对于提取单个独立分量,基于负熵的 FastICA 算法步骤如下:第4章 大数据特征提取在解决实际问题中,往往需要提取多个独立成分,将ICA 模型完全分解,按理可以通 过多次重复上述提取单个分量步骤来获取多个分量,但是为了防止多次提取同一个已经提 取过的独立分量,可以选择在算法中添加正交化处理,将提取过的分量去除,通过下式来 达到式中,尖括号内为内积。第4章 大数据特征提取第
46、4章 大数据特征提取3)快速独立成分分析两种模型 独立成分分析模型有两类,同样基于负熵的快速独立成分分析模型也有两类,分别为 FastICAI和 FastICAII,两种模型的区别在于 FastICAI处理的样本矩阵按行排列,FastICAII处理的样本矩阵按列排列,其他求解步骤一致,在处理多层ICA 模型扩展算法中都 是采用第二种模型。第4章 大数据特征提取第4章 大数据特征提取第4章 大数据特征提取第4章 大数据特征提取(2)快速独立成分分析模型2(FastICAII)。FastICAII算法的求解步骤如下:第4章 大数据特征提取第4章 大数据特征提取第4章 大数据特征提取4)ICA 模型
47、存在的不确定性 ICA 模型虽然可以完成观测变量X 的分解,但是存在不确定性,表现在无法确定潜在 独立成分的次序,由于独立成分S 和混合矩阵A 都未知,当更改S 和A 内部数据的顺序 时,会使估计出的独立成分顺序发生更改,如对于模型如果变更为第4章 大数据特征提取4.4.5 最大间距准则最大间距准则1.最大间距准则原理及方法最大间距准则原理及方法 最大间距准则法(MaximizingMarginCriterion,MMC)是一种监督的线性方法,它的目标是样本可分效果最佳。MMC有效地解决了类内散度矩阵Sw 奇异的问题,而且不用 求逆矩阵,降低运算的复杂度 MMC以最大化(Sb-Sw)为目标克服
48、了小样本问题的产生。第4章 大数据特征提取第4章 大数据特征提取研究方法基于最大间距准则特征选择算法,最大间距选择算法对于克服Sw 奇异值问题 取得了很好的效果,该算法主要考虑样本间的中心距离,如图4-5(a)所示,但是对于图 4-5(b)所示样本的分布情形,边缘样本点相距很小,但属于不同的样本类,在分类过程中 可能会被归为一类,从而导致分类错误,边缘样本交叉,不利于样本的分类,因此在分类过 程中若考虑到边缘样本点在分类中的作用,则可克服样本边缘交叉带来的分类误差。第4章 大数据特征提取图4-5 样本分布图第4章 大数据特征提取MMCscore特征选择算法 假设有C 类样本,每类样本为 D 维
49、,共有n 个样本,X=x1,x2,xn,传统的 样本的类内散度矩阵、类间散度矩阵、总体散度矩阵公式如下:第4章 大数据特征提取第4章 大数据特征提取MMCscore特征选择算法是求平均类间边缘的特征选择方法,在分类识别方面优于 PCA 算法,并与 LDA 算法有近似的分类效果,有效地克服了小样本导致Sw 奇异的问题,有较高的稳定性和可靠性。第4章 大数据特征提取2.最大间距准则改进方法最大间距准则改进方法 1)统计不相关的加权最大间距准则(1)加权最大间距准则。针对 MMC的类间散度矩阵过分地强调类间距离大的类别,而忽视类间距离小的类别 的问题,对类间散度矩阵和类内散度矩阵进行加权,重新定义如
50、下:第4章 大数据特征提取权函数w(d)是关于d 的单调递减函数,可以给相距较近的可能重叠的类较大的权值以拉开类中心,而给远离总体类中心的类别较小的权值以接近总体类中心。根据径向基函 数(RBF)的性质,设计权函数。式中,是调节函数单调递减速度的一个参数。第4章 大数据特征提取考虑到类间散度矩阵和类内散度矩阵在不同的样本分布情况下对散度差准则函数的影 响,使用以下含有双参数的公式作为鉴别准则:式中,平衡系数10,20,其作用是调节类间散度和类内散度在不同类别分布情况下 对特征抽取的影响能力。第4章 大数据特征提取第4章 大数据特征提取(3)算法流程。基于统计不相关性的加权最大间距准则(UWM