1、第1章 高维大数据第1章 高维大数据1.1-大数据介绍大数据介绍1.2 大数据分析挖掘技术大数据分析挖掘技术1.3 大数据高维特征处理大数据高维特征处理第1章 高维大数据1.1-大数据介绍大数据介绍1.1.1-大数据产生的背景大数据产生的背景半个世纪以来,随着计算机技术融入社会生活,信息爆炸已经积累到了开始引发变革的程度。不仅世界充斥着比以往更多的信息,而且信息增长速度也在加快。进入21世纪后,数据信息更迎来了大发展的时代,移动互联、社交网络、电子商务等极大地拓展了互联网的边界和应用范围,各种数据迅速膨胀并变大。第1章 高维大数据1.1.2 大数据的重要性大数据的重要性 随着移动互联网、物联网
2、、社交网络等技术和应用的兴起。学术界和工业界都对大数 据赋予大量的关注并展开了深刻的讨论。Nature于2008年第一次推出 BigData专刊4。Science在2011年2月推出专刊DealingwithData,主要围绕着科学研究中大数据的 问题展开讨论,说明了大数据对于科学研究的重要性。第1章 高维大数据计划在科学研究、环境、生物医学等领域利用大数据技术 进行突破。奥巴马政府的这一计划使大数据上升到国家战略。Gartner在一年一度的技术成熟度曲线(见图11)报告中指出,大数据已进入膨胀期,并将在未来25年进入发展高峰 期。由此可见,大数据是未来信息技术的重要发展方向之一。第1章 高维
3、大数据图1-1-技术成熟度曲线第1章 高维大数据1.1.3 大数据的定义和特征大数据的定义和特征麦肯锡说:“大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存 储、管理和分析的能力。这是一个被故意设计成主观性的定义,并且是一个关于多大的数 据集才能被认为是大数据的可变定义,即:并不定义大于一个特定 TB数字的数据集才叫 大数据。因为随着技术的不断发展,符合大数据标准的数据集容量也会增长,并且其定义 随不同的行业也有变化,这依赖于在一个特定行业通常使用何种软件和数据集有多大。因 此,大数据在今天不同行业中的范围可以从数十太(TB)字节到数拍(PB)字节。”第1章 高维大数据IBM 说
4、:“可以用3个特征相结合来定义大数据:数量(Volume)、种类(Variety)和速 度(Velocity),或者就是简单的3V 或 V3,即庞大容量、种类丰富和极快速度生成及处理的 数据。”如图1-2所示。第1章 高维大数据图1-2 按数量、种类和速度来定义大数据第1章 高维大数据数据量:如今存储的数据数量正在急剧增长,使我们深陷在数据之中。我们存储所有 事物:环境数据、财务数据、医疗数据、监控数据等。有关数据量已从太字节(TB)级别转 向拍字节(PB)级别,并且不可避免地会转向 ZB级别。现在经常听到一些企业使用存储集群来保存数拍字节(PB)的数据。可供企业使用的数据量不断增长,而可处理
5、、理解和分析 的数据比例却不断下降。第1章 高维大数据数据的多样性:与大数据现象有关的数据量为尝试处理它的数据中心带来了新的挑 战:数据多样的种类。随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变 得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括 单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据 等原始、半结构化和非结构化数据。第1章 高维大数据数据的处理速度:就像我们收集和存储的数据量及种类发生了变化一样,生成和需要 处理数据的速度也在变化。速度的概念不能限定为与数据存储相关的增长速率,应动态地 将此定义应用到数据数
6、据流动的速度。有效处理大数据需要在数据变化的过程中对它 的数量和种类进行分析,而不只是在它静止后进行分析。第1章 高维大数据IDC指出:“大数据是一个貌似不知道从哪里冒出来的大的动力。但是实际上,大数据 并不是新生事物。然而,它确实正在走入主流,并得到重大关注,这是有原因的。廉价的存 储、传感器和数据采集技术的快速发展,通过云和虚拟化存储设施增加的信息链路,以及 创新软件和分析工具,正在驱动着大数据。大数据不是一个事物,而是一个跨多个信息 技术领域的动力和活动。大数据技术描述了新一代的技术和架构,其被设计用于:通过使 用高速(Velocity)的采集、发现或分析,从超大容量(Volume)的多
7、样(Variety)数据中经济 地提取其价值(Value)。”第1章 高维大数据IDC的定义除了揭示了大数据传统的3V 基本特征,即 Volume、Variety、Velocity,还增添了一个新特征:Value。第1章 高维大数据一个大数据实现的主要价值可以基于下面三个评价准则中的一个或多个进行评判:它提供了更有用的信息吗?它改进了信息的精确性吗?它改进了响应的及时性吗?第1章 高维大数据Gartner说:“实际上,大数据或者说极限信息(ExtremeInformation)具有12个维 度。”图1-3展示了极限信息管理的3个层次和12个象限。第1章 高维大数据图1-3 Gartner极限信
8、息管理的3个层次和12个象限第1章 高维大数据图1-3中的最下面一层“量化指标”指的是大数据的基本特征,即大数据量、多样性和 高速,这也就是传统的3V 的概念。另外还加上了复杂性,包括空间维、时间维等多种数据 复杂性。大数据解决方案应首先考虑以这些问题为出发点。然而,解决这4个方面的问题 只是大数据解决方案的基础,用以支撑起大数据平台,在这之上还有很多问题需要解决。第1章 高维大数据第二层“访问权限管理和控制”有很多关于访问权限的问题。数据的敏感性是一个很基 础的问题,但到现在为止,基于现有的技术和管理手段,还没有对数据的敏感性进行分析 的优秀解决方案。共享协议:数据将会以什么形式、什么格式和
9、时间点,通过什么样的接口实现这些共 享和数据的交换,这是大数据的重点问题之一。数据交换的所有方式都是以标准的协议来 支持的,因为在大数据的时代,数据的来源本身是多样性的,数据的格式甚至是无法管理 的,还有很多的数据是来自于企业的外部,来自于互联网的提供商。第1章 高维大数据热点数据:在大数据时代,数据的管理与传统的方式有了非常明显的差别。传统的数 据管理会把单独的时间点作为一个热点数据,但是在大数据时代,热点数据有可能是并行 的多个。这些热点数据本身之间实际上是有可能有联系的。最上面一层“质量管理”在传统的数据管理里是非常重要的一个方面。这里面提到的有 效性、有效期限,都有明确的技术工具来解决
10、。但到现在为止,在这些方面,还是非常地依 赖于传统的数据仓库的工具,没有专门针对大数据的工具和技术能够解决这些问题。所以 产生的结果是,现在产生的大数据的应用,一方面受制于用户接受的程度本身,另外一方 面也受制于技术。第1章 高维大数据EMC指出:“大数据并不是一个准确的术语,相反,它是对各种数据(其中大多数是非 结构化的)永不休止的积聚的一种表征。它用以描述那些呈指数级增长,并且因太大、太原 始或非结构化程度太高而无法使用关系数据库方法进行分析的数据集。不论是数 TB的数 据量还是数 PB的数据量,数据的精确数量不如最终结果及数据如何使用来得重要。”第1章 高维大数据EMC的大数据定义更强调
11、大数据中的价值,特别是商业价值。大数据之所以流行,其 主要的原因就是它能够给企业的核心业务带来直接的价值。具体的讲,大数据能够帮助企 业做到以下3点:发现新的收入增长点;优化和完善现有的收入或利润空间;获得超过其竞争对手的竞争优势。上述定义中已经提到大数据有多种特征,其中最具代表性的是3个 V。除了上述业内 主流的以大数据3V 特征为基础的定义,还有使用3S或者3I描述大数据特征的定义。第1章 高维大数据3S分别是Size(大小)、Speed(速度)和 Structure(结构)。实际上,这个维度的特征与 3V 是异曲同工的,除了用词的不同,并没有太大的差别。大数据的3I指的是:(1)Ill-
12、defined(定义不明确的):多个主流的大数据定义都强调了数据的规模需要超过 传统方法的处理能力。(2)Intimidatin 大数据的过程充满了g各(令种人挑生战畏。的):从管理大数据到使用正确的工具获取它的价值,利用第1章 高维大数据(3)Immediate(即时的):数据的价值会随着时间快速衰减。因此为了保证大数据的可 控性,需要通过减少数据收集到获得数据使用之间的时间,使得大数据成为真正的即时大 数据。这意味着能尽快地分析数据对获得竞争优势是至关重要的。总而言之,大数据是个动态的定义,不同行业根据其应用的不同有着不同的理解,其 衡量标准也在随着技术的进步而改变。第1章 高维大数据1.
13、1.4 大数据的构成大数据的构成 大数据既是数据量的一个激增(从最开始的 ERP/CRM 数据,逐步扩大到增加互联网数据,再到物联网的传感器等相关信息数据),同时也是数据复杂性的提升。大数据可以说 是量积累到一定程度后形成的规模化质变。大数据包含了“海量数据”的含义,在内容上超越了海量数据,简而言之,大数据是“海 量数据”和复杂类型的数据。大数据包括交易和交互数据集在内的所有数据集,其规模或复 杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。第1章 高维大数据大数据由三类主要数据汇聚组成:(1)海量交易数据:在从 ERP 应用程序到数据仓库应用程序的在线交易处理(OL
14、TP)与分析系统中,传统的关系数据以及非结构化和半结构化信息仍在继续增长。(2)海量交互数据:这一新生力量由源于 Facebook、Twitter、LinkedIn及其他来源的 社交媒体数据构成。第1章 高维大数据(3)海量数据处理:利用多种轻型数据库来接收发自客户端的数据,并将其导入到一 个集中的大型分布式数据库或者分布式存储集群,然后利用分布式数据库对存储于其内的 集中的海量数据进行普通的查询和分类汇总等,以此满足用户对大多数常见数据的分析需 求,同时对基于前面的查询数据进行数据挖掘,能满足高级别的数据分析需求。第1章 高维大数据1.1.5 大数据的机遇和挑战大数据的机遇和挑战 1.大数据
15、的机遇大数据的机遇 在很多应用领域,数据正以史无前例的规模汇集,与以往基于猜测或模型进行决策不 同,如今,人们大多是根据数据本身进行决策。大数据分析现在几乎遍及着社会生活的方 方面面,包括移动服务、零售业、制造业、金融服务、生命科学和物质科学等。第1章 高维大数据大数据在给科学研究带来变革的同时,也为教育带来了变革。另外,通过连续监测、提前预防和个性化医疗,信息技术及大数据在降低医疗成本的 同时可以提高医疗质量。第1章 高维大数据大数据还可以为很多商业提供如下服务:(1)精准广告投放。(2)医疗卫生体系更加精密。(3)个性化教育可能真正实现。第1章 高维大数据2.大数据的挑战大数据的挑战面对大
16、数据的汹涌来袭,传统的数据处理方式应对起来显得越来越困难,我们在很多 时候就像面对一个金矿,却没有有效的工具和手段,只能望“数据”兴叹。传统分析技术面 对大数据的困惑主要有:(1)由于分析手段限制,不能充分利用所有数据;(2)受限于分析能力而无法获取复杂问题的答案;(3)因为时限要求而不得不采用某项简单的建模技术;(4)因为没有足够时间运算,只好对模型精度进行妥协。第1章 高维大数据1)对技术架构的挑战 对现有数据库管理技术的挑战。传统的数据库部署不能处理数个大字节(TB)级别的数 据,也不能很好地支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管 理能力。2)对实时性的技术挑战
17、一般而言,像数据仓库系统、商业智能应用,对处理时间的要求并不高。因此这类应用 往往运行一两天获得结果依然是可行的。第1章 高维大数据3)对数据存储及软硬件的挑战 人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,现有的技术改进不大,而数据丢失的可能性却不断增加。第1章 高维大数据4)对分析技术的挑战 传统意义上的数据分析主要针对结构化数据展开,并已经形成了一整套行之有效的分 析体系。通过数据库来存储结构化数据,用数据挖掘的聚类、关联分析等技术梳理、分析、提炼、获取进一步层面的知识,这一系列的方法在处理一般结构化数据时极为高效,但在 处理大数据的过程中,由于非结构化数据、半结构化数据量的极大
18、增长,给传统的分析技 术带来了巨大的冲击和挑战,主要体现在以下几个方面:第1章 高维大数据(1)数据处理的实时性。(2)动态变化环境中索引的设计。(3)先验知识的缺乏。而在面对大数据分析时,一方面是半结构化和非结 构化数据的存在,这些数据很难以类似结构化数据的方式构建出其内部的正式关系;另一 方面很多数据以流的形式源源不断地到来,这些需要实时处理的数据很难有足够的时间去 建立先验知识。而无先验知识的数据更需要发现知识。第1章 高维大数据3.应对大数据挑战应对大数据挑战 针对技术领域的挑战,科技工作者取得了很多研究成果。现有面向大数据的研究主要 针对存储、处理、分析、可视化等某一方面的关键技术。
19、在大数据存储方面,已有研究主要 集中在各类 NoSQL和分布式文件系统。随着互联网和云计算的不断发展,各种类型的应 用层出不穷,对数据库技术提出了更多要求,主要体现在以下方面:(1)高并发读写需求。(2)海量数据的高效存储和访问需求。(3)高可扩展性和高可用性需求。第1章 高维大数据1.1.6 大数据应用的发展方向大数据应用的发展方向美国政府在2012年3月29日宣布投资两亿美元拉动大数据相关产业发展,将“大数据 战略”上升为国家意志。美国奥巴马政府在白宫网站发布大数据研究和发展倡议,提出“通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工 程领域的创新步伐,强化美
20、国国土安全,转变教育和学习模式”;中国工程院院士邬贺铨指 出:智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和 有效,随着智慧城市的建设,社会将步入“大数据”时代。第1章 高维大数据政府方面,大数据引起了政府职能变革,重视应用大数据技术,盘活各地云计算中心 资产,把原来大规模投资产业园、物联网产业园从政绩工程改造成智慧工程;在安防领域,应用大数据技术,提高应急处置能力和安全防范能力;在民生领域,应用大数据技术,提升 服务能力和运作效率以及个性化的服务,比如医疗、卫生、教育等部门;解决在金融、电信 等领域中数据分析的问题,原先受困于存储能力和计算能力的限制,只局限在交易
21、类型数 据的统计分析上,在预测与数据分析的领域将开启更加广阔的应用。第1章 高维大数据1.2 大数据分析挖掘技术大数据分析挖掘技术大数据分析挖掘技术包括:改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大 数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖 掘技术。第1章 高维大数据1.可视化分析可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,他们二者对于大数据分 析最基本的要求就是可视化分析(AnalyticVisualizations),因为可视化分析能够直观地呈 现
22、大数据的特点,同时能够非常容易地被读者所接受,就如同看图说话一样简单明了。第1章 高维大数据2.数据挖掘算法数据挖掘算法 大数据分析的理论核心就是数据挖掘算法(DataMiningAlgorithms),各种数据挖掘算 法基于不同的数据类型和格式才能更加科学地呈现出数据本身具备的特点,也正是因为这 些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出 公认的价值。另外一个方面也是因为有这些数据挖掘算法才能更快速地处理大数据,如果 一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。第1章 高维大数据3.预测性分析预测性分析 大数据分析最重要的应用领域之一
23、就是预测性分析(PredictiveAnalyticCapabilities),从大数据中挖掘出特点,通过科学地建立模型,之后便可以通过模型带入新的数据,从而 预测未来的数据。4.语义引擎语义引擎 非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统地去分析、提炼数据。语义引擎(SemanticEngines)需要设计到有足够的人工智能以足以从数据中主 动地提取信息。第1章 高维大数据5.数据质量和数据管理数据质量和数据管理 大数据分析离不开数据质量和数据管理(DataQualityandMasterDataManagement)。高质量的数据和有效的数据管理,无论是在学术研究还是
24、在商业应用领域,都能够保证分 析结果的真实和有价值。第1章 高维大数据1.3 大数据高维特征处理大数据高维特征处理1.3.1-大数据分析挖掘过程大数据分析挖掘过程 大数据分析挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据 中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。大 数据分析挖掘涉及的技术方法很多,有多种分类法。第1章 高维大数据根据挖掘任务可分为分类或预测模型 发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和 趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据 库、文本数据源、多媒
25、体数据库、异质数据库、遗产数据库以及环球网 Web;根据挖掘方法 分,可粗分为机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分 为归纳学习方法(决策树、规则归纳等)、基于范例的学习、遗传算法等。第1章 高维大数据分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别 等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神 经网络方法中,可细分为前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或 OLAP方法,另外还有面向属性的归 纳方法。大数据分析挖掘包括数据预处
26、理、数据建模以及知识评价等处理过程,如图 1-4所示。第1章 高维大数据图1-4 大数据分析挖掘过程第1章 高维大数据从图1-4可以看出,大数据分析挖掘实际上是数据“模型”的发现过程。其中数据有多 种存储形式,可以集中存储于数据库中,可以分布存储于“云端”,也可以以数据流的形式 存储;数据预处理的主要功能是消除数据噪声,提高大数据分析挖掘的质量。第1章 高维大数据常用的数据 预处理的方法包括数据清理、数据集成、数据降维等;数据建模主要利用统计方法、机器学 习等方法提取数据的模式,数据建模方法可以归纳为两种形式:一是对数据进行间接的近 似的汇总形式,二是从数据中抽取最突出的特征利用聚类来汇总的形
27、式;模型评价是利用 预先设定的评价函数进行模型的测试,对所建立的数据模型给出相当的评价。第1章 高维大数据大数据分析挖掘技术通过对数据的建模,挖掘出人们事先未知的、但又是潜在有用的 信息,因此,其理论研究的具有非常重要的意义。第1章 高维大数据大数据分析挖掘是一个动态的、强势快速扩展的领域,很多学者致力于研究大数据分 析挖掘方法。大数据分析挖掘的主要研究内容包括:(1)处理数据的不确定性、噪声。实际的数据通常具有高维、噪声、不确定性等特点。必要的数据清理、数据降维、不确定性的推理需要与大数据分析挖掘过程集成。第1章 高维大数据(2)挖掘新的知识类型。根据数据的特征和数据分析任务对数据进行聚类、
28、分类、回归、关联分析、离群点检测等分析。由于应用的多样性,可以使用不同的大数据分析挖掘方 法分析数据。(3)挖掘多维数据的知识。多维数据可以从不同抽象层的多维属性组合挖掘不同的模 式。此外,利用机器学习、统计学等其他学科的知识提高大数据分析挖掘的能力,大数据 分析挖掘模式的评估,大数据分析挖掘结果的表示和可视化也是重要的研究内容。第1章 高维大数据随着数据维数的增加,很多低维空间的概念不复存在,而高维数据通常存在冗余,其 本质的维数往往远远小于原始数据的维数,因此高维数据的分析可以通过数据降维减少相 关性的维度,然后利用低维空间的数据分析方法进行处理。第1章 高维大数据1.3.2 大数据的维数
29、大数据的维数 越来越多的海量高维度数据出现在人们的生活中,而在这些海量高维度数据中蕴含许 多无比重要的信息。数据的特征属性(即维度)在一定范围内,数据的分类效率会随着特征 属性的增长呈指数形式增长,但当数据的维度过高时,其中往往包含了过多无关项、冗余 项、干扰项等,分类的效率反而会随着维数的增长而下降。如图1-5所示,当特征属性 的数目达到一定数量时,就会产生“维数灾难”,不能达到我们最初预想的结果,这就是“数据爆炸”。因此,如何从海量高维度数据中剔除无关项、降低数据维数、提高分类效率便成了处理数据的关键。第1章 高维大数据图1-5 维数与分类器性能第1章 高维大数据高维数据使得分类算法中训练
30、和测试变得困难,不相关和冗余特征减缓了学习过程,混淆了学习算法,消耗了更多的资源,同时面临着使分类过拟合的风险,许多研究也证 明冗余和无关特征对于机器学习算法预测的负面影响。目前研究团队仍致力于大数据分析 挖掘、机器学习算法的数据预处理、分类、聚类、关联规则和虚拟化。第1章 高维大数据维数约简作为模式分类的预处理部分,发挥着重要的作用。首先通过维数约简,去除 不相关的和冗余的特征,滤除不必要的干扰,使模式语言更加精炼,又使分类器的学习算 法更具效率,达到更高的预测精度;其次通过维数约简,使用最少数目的特征来描述输入 模式,使输入的特征空间维度被最大程度地降低,避免了发生“维数灾难”,同时降低了分 类模型学习算法的空间复杂度,从而提高了训练速度,减少了学习时间;最后由于选取最 显著相关的选定数目的输入特征,不但极大地降低了提供给分类模型的训练样本的个数,提高了学习算法的准确率,也避免了发生“峰化”现象,使分类模型的预测更有效,而且在 满足样本数量存储量的需求的同时,也减少了存储数据的成本。