1、第2章 大数据的维数约简第2章 大数据的维数约简2.1 大数据维数约简的目的大数据维数约简的目的2.2 维数约简的有关定义及分类维数约简的有关定义及分类第2章 大数据的维数约简2.1 大数据维数约简的目的大数据维数约简的目的随着计算机技术的飞速发展和传感器技术的普遍应用,人们收集的数据正以指数形式 飞速增长,而相应的数据处理能力却没有得到相应地提高。如何有效利用这些海量数据中 的信息来增强人们获取知识的能力,从而进一步加快生产力的发展,是目前及以后相当长 时期内,全球科学与技术专家所面临的共同问题之一。第2章 大数据的维数约简随着数据获取技术的不断提高,高维数据不断涌现,(如高分辨率图像、基因
2、 微阵列和网络文本等)。高维数据不仅会显著的增加存储和计算代价,更为严重的是导致“维数灾难”(CurseofDimensionality)问题。一方面,为了保证分类器获得良好的性能,需要的训练样本数成指数增长;另一方面,当样本数小于样本的特征数时,将会导致典型 的小样本(SmallSampleSize,SSS)问题和过拟合(Overfitting)现象,从而最终影响分类器 的泛化能力。第2章 大数据的维数约简维数约简的目的就是筛选出那些对任务和应用来说最相关的特征,去掉不相关特征和 冗余特征。随着大规模数据集以及高维数据处理技术的发展,单纯依靠特征选择(Feature Selection)获取
3、子集,或者单纯依靠特征提取(FeatureExtraction)对特征空间进行变换,得 到的效果已经远远不能达到应用的需求标准。并且有的时候,特征提取和选择并不是完全 分开使用的,先将原始特征空间映射到低维的特征子空间中,再在子空间中进行特征选择 来进一步降低维数。当然,也可以先利用特征选择去掉那些对分类器基本无效的特征,然 后再在特征子集上利用特征提取来进行变换处理。第2章 大数据的维数约简2.2 维数约简的有关定义及分类维数约简的有关定义及分类2.2.1 维数约简的有关定义维数约简的有关定义 1.特征特征 所谓特征,即是事物可供识别的特殊征象或标志,代表其本身固有的属性。第2章 大数据的维
4、数约简一般来说,样本之间的差异可能是有几个关键的特征引起的,如果能找出导致这 些区别的关键特征,那么对下一步建立样本分离模型就起到了关键的作用。而这,正是模 式识别的一项关键任务。一般情况下,模式识别系统是一个包含由特征所描述样本集的数 学模型,样本之间的联系与差异很大程度上取决于样本所包含的特征。通常,样本之间的 联系是已知的,而他们的差异却是未知,而这种差异,正是由每个样本异于其他样本的几 个关键特征所描述的。为此,找出其关键特征,就可以更好地建立样本分离模型。这样,不 仅可以减少建立模型的训练时间,提高分类器的精度,保证样本分类的准确性,还能更有 效的提高特征提取的鲁棒性和适应性。第2章
5、 大数据的维数约简2.特征分类特征分类 变量和属性都是数据的一方面,它通常是离散数据、连续数据或布尔型数据等,在特 征分类中通常包括:(1)相关特征。这些特征对于分类结果有很大影响并且是不可以被其余特征所替代的;(2)无关特征。这些特征对分类结果没影响,对于类的每个实例来讲,它的值是随机产 生的;第2章 大数据的维数约简(3)冗余特征。对分类结果没有影响或与其他特征之间存在关联特征选择(或称属性选 择),关键是如何在选择一些有用的输入的同时去除冗余的或互不相关的特征,最优的特征 子集应该是去除冗余信息后特征空间的维数最低,却包含重要的关键性度量信息。第2章 大数据的维数约简3.特征选择特征选择
6、 特征选择是从原始特征集中选择使某种评估标准(如分类)最优的特征子集。其目的是 根据一些准则选出最小的特征子集,使得任务如分类、回归等达到与特征选择前近似甚至 更好的效果。第2章 大数据的维数约简4.特征提取特征提取 特征提取是指对原有的特征空间进行某种形式的变换,以得到新的特征。根据变换方 式的不同,特征提取方法分为线性和非线性,其中线性方法包括主成分分析和线性鉴别分 析,后者又称 Fisher鉴别分析。第2章 大数据的维数约简5.特征选择与特征提取的区别与联系特征选择与特征提取的区别与联系 特征选择和特征提取都是从原特征集合中挑选子集的方法,两者都是很普遍的降维方 法,存在着从高维模式下求
7、取低维特征的共同特性。广义上来说,特征选择技术是在原始特征集作简单地线性变换,是最简单的一种组合,可视为特征提取技术的特殊情况。第2章 大数据的维数约简特征选择与特征提取是模式识别与大数据分析挖掘领域中的两项最重要的数据降维方 法。随着模式识别与大数据分析挖掘研究的深入,研究的对象越来越复杂,对象的特征维 数越来越高。大量高维数据的特征空间中含有许多冗余特征以及噪声特征,这些特征一方 面可能降低分类或聚类的精度,另一方面会大大增加学习及训练的时间及空间复杂度。因 此,在进行特征选择时,越来越多的研究者开始考虑结合特征提取找到具有较好可分性的 特征子空间,使用较少的测量变量代替原始数据集作为特征
8、选择的输入,得到相对尽可能 精确的决策,进行目标分类和识别。第2章 大数据的维数约简特征选择是指直接从全部原始特征中选择最相关的特征子集以降低样本维度。相对于 特征提取,特征选择方法在揭示因果关系方面更具有优势。例如,在生物信息学领域,上千 万种基因状态决定了分子是显型或是隐型,其中起重要作用的基因往往只有有限几个,在 这种场合下使用特征变换显然无法说明特征与类别的关系。特征选择技术自从上世纪七十 年代以来就是统计模式识别、大数据分析挖掘、机器学习领域的研究热点,在文本分类、基 因微阵列分析、图像检索等方向都有着广泛应用。第2章 大数据的维数约简特征提取是基于线性方法的特征提取还是基于非线性方
9、法的特征提取,其结果都可以 看做是关于全部原始特征的函数。第2章 大数据的维数约简2.2.2 维数约简分类维数约简分类 一般地,维数约简可以分为特征选择和特征提取。除了从特征选择和特征抽取的角度 对维数约简进行分类,还可以从其他的角度进行分类,比如,从所处理数据的性质的角度 进行分类,可以分为线性方法和非线性方法;从是否考虑监督信息的角度进行分类,可以 分为监督方法、无监督方法、半监督方法;从几何结构保持的角度,可以分为全局方法、局 部方法和混合方法。第2章 大数据的维数约简高维数据的出现,对模式识别现有的理论和方法提出了新的挑战。针对高维数据的维 数约简成为模式识别及相关领域的研究热点和难点,它将数据的特征空间由高维约简 到低维,不仅提高了分析处理的准确率,而且减轻了计算负担。