1、机器学习与大数据技术作者:牟少敏教授第四章大数据处理技术p大数据简介p大数据处理框架p大数据面临的挑战p大数据技术创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介1.概念Wiki百科:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。IDC(国际数据公司)报告:大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值。目前大数据的研究热点主要包括:大数据基础理论、大数据存储与分析技术、大数据与云计算、大数据存储管理和查询技术、Hadoop性能优化和功能增强、商业智能分析、自然语言处理
2、和大数据可视化计算等。创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介2.特点大数据的“大”并不仅仅在于数据量大,同时数据的收集、存储、管理以及共享等任务赋予大数据的“大”更多的含义。学术界已经总结了大数据的许多特点,包括数据量大、多样性、价值密度低、高速度等,一般用4V来概括。p 数据量大(Volume)p 多样性(Variety)p 价值密度低(Value)p 高速度(Velocity)创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介数据量大有两个含义:一是全球的数据量的增长惊人;二是指数据体量大,从TB级别跃升到PB级别。根据IDC的统计,2011
3、年全球数据总量大约为1.8ZB,到2020年将可能达到35ZB,年均增长率超过40%。计算机存储单位的换算关系如下:1KB=1024B;1MB=1024KB;1GB=1024MB;1TB=1024GB;1PB=1024TB;1EB=1024PB;1ZB=1024EB;1YB=1024ZB;1BB=1024YB;1NB=1024BB;1DB=1024NB通过上面的换算关系我们可以看出,全球产生的数据量是非常惊人的。但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量。分析、挖掘和实时处理如此大规模的数据需要智能的算法、强大的数据处理平台和新的数据处理技术的支持。p 数据量大
4、(Volume)创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介大数据的数据类型繁多,非结构化数据越来越多,有很多不同的类型,如:网络日志、声音、文本、地理位置信息、图像和视频等。这些多类型的数据对数据的存储和处理能力提出了更高要求。目前,非结构化数据占数据总增长量的80-90%,比结构化数据增长快10倍到50倍。p 多样性(Variety)创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介价值密度低意味着数据的价值与数据总量的大小成反比关系,即数据量虽然很大,但有价值的数据和知识可能较少。以公安视频监控系统为例,常年24小时不间断视频监控过程中,可能有用
5、的数据仅仅只有几分钟。如何通过强大的机器算法更迅速地挖掘数据的价值,成为目前大数据背景下亟待解决的难题。p 价值密度低(Value)创新与贡献研究意义选题背景第四章4.1.1 简介 4.1 大数据简介这里的速度不仅指与数据存储相关的增长速率,也包括数据流动的速度。数据产生和更新的频率高,也是大数据的一个重要特征。在数据量非常庞大的情况下,需要对数据进行快速、实时的处理,处理速度应满足实际应用的需要。p 高速度(Velocity)创新与贡献研究意义选题背景第四章4.1.2 大数据类型 4.1 大数据简介p 结构化数据能够用统一的结构表示的数据称之为结构化数据,如数字、符号等,可以用二维表结构表示
6、。创新与贡献研究意义选题背景第四章4.1.2 大数据类型 4.1 大数据简介p 非结构化数据p 半结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据。一个非结构化数据由基本属性、语义特征、底层特征以及原始数据四个部分构成,且四部分数据之间存在各种联系。目前,非结构化数据的种类繁多,例如:新浪微博、Facebook等消息文本数据;优酷、爱奇艺或腾讯视频等用户生成的视频数据;电话监控语音数据、基因组序列数据、气象监测数据和交通视频监控数据等。针对不同的非结构数据,其收集方式是不一样的。半结构化数据是介于结构化数据和非结构化数据之间的数据,例如HTML文档就属于半
7、结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。创新与贡献研究意义选题背景第四章4.1.3 大数据应用 4.1 大数据简介p 企业大数据应用大数据应用是利用大数据分析结果为用户提供辅助决策,发掘潜在价值的过程。p 物联网大数据应用 创新与贡献研究意义选题背景第四章4.1.3 大数据应用 4.1 大数据简介目前,大数据主要应用于企业内部,商业智能是大数据技术的典型应用。企业内部应用大数据技术,可以在多个方面提升企业的生产效率和竞争力。在市场方面,利用大数据关联分析,可以更准确地了解消费者的使用行为,挖掘新的商业模式;在销售规划方面,通过大量数据的比较,可以优化商品价格;在
8、运营方面,可以提高企业运营效率和满意度,优化劳动力投入,避免产能过剩,降低人员成本;在供应链方面,利用大数据技术进行库存优化和物流优化等工作,可以缓和供需之间的矛盾、控制预算开支。p 企业大数据应用创新与贡献研究意义选题背景第四章4.1.3 大数据应用 4.1 大数据简介物联网不仅是数据的重要来源,还是大数据应用的主要市场。在物联网中,现实世界中的每个物体都可以是数据的生产者和消费者,由于物体种类繁多,物联网的应用也层出不穷。各种物流企业正在积极使用大数据技术开发新型物联网系统。例如,快递公司为了跟踪公司车辆的位置和预防引擎故障,在其货车上装有传感器、无线适配器和GPS系统,这些设备可以优化货
9、车行车线路。p 物联网大数据应用创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术 4.2 大数据技术大数据的获取是大数据分析和处理的前提,大数据获取的数据可分为两大类:静态非实时数据和动态实时数据。各种历史数据,如历年的病虫害数据属于静态数据,这些数据大都是由纸质或电子表格组成。实时数据一般是通过多种的传感器或软件实时获取的,由存储设备存储。例如:通过温度、湿度等传感器采集到的温度、湿度实时数据。创新与贡献研究意义选题背景第四章1.数据获取技术4.2 大数据技术狭义上的数据获取是指利用一种装置,将来自各种数据源的数据自动收集到一个装置中。广义上的数据获取是指获取信息的过程,分为
10、数据采集、数据传输和数据预处理三部分。数据采集是指从特定数据生产环境获得原始数据的技术。随着互联网、电子商务、社交网络等互联网新兴技术的普及和应用,图像、视频、日志等网络数据呈现爆炸性增长。p 传感器p 日志文件p 系统日志采集p Web 爬虫创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术传感器是一种能将感受到的声音、温度、压力、电流、振动和距离等类型的信息,按一定规律转换为电信号或其他形式的信息输出的装置,常用于获取各种信息,特点是数字化、多功能化、系统化、智能化和网络化。p 传感器(与下一页传感器内容重复)4.2 大数据技术创新与贡献研究意义选题背景第二章4.2.1 数据
11、获取与预处理技术p 日志文件日志是广泛使用的数据采集方法,由数据源系统产生,以特殊的文件格式记录系统的活动,例如WEB服务器通常要在访问日志文件中记录网站用户的点击、键盘输入、访问行为以及其它属性等。和物理传感器相比,日志文件可以看作是“软件传感器”。4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。p 系统日志采集4.2 大数据技术创新与
12、贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术爬虫是指为搜索引擎下载并存储网页的程序,是搜索引擎和Web缓存等的主要数据采集方式。Web爬虫数据采集过程由选择策略、重访策略、礼貌策略以及并行策略决定。选择策略决定哪个网页将被访问;重访策略决定何时检查网页是否更新;礼貌策略防止过度访问网站;并行策略则用于协调分布的爬虫程序。爬虫的基本步骤是,顺序地访问初始队列中的一组URLs,并为所有URLs分配一个优先级;从队列中获得具有一定优先级的URL,下载该网页,随后解析网页中包含的所有URLs并添加这些新的URLs到队列中;不断重复上述步骤,直到爬虫程序停止为止。传统的Web爬虫应用已较为
13、成熟,随着更丰富更先进的Web应用的出现,一些新的爬虫机制已被用于爬取互联网应用的数据。p Web 爬虫4.2 大数据技术创新与贡献研究意义选题背景第四章2.数据预处理技术现实世界直接获取的数据由于受数据采集设备异常、录入数据错误、数据传输异常、数据转换不一致及部分技术受限等众多因素的影响,数据中普遍存在的缺陷主要表现在以下3个方面:1)不完整性,缺少有价值的属性或者有价值的属性有缺损;2)噪声,数据中包含错误信息,或者存在着部分偏离期望值的孤立点;3)不一致性,数据的不一致性主要体现在数据结构的不一致性、标号的不一致性和数据值的不一致性。从需求的角度来看,一些数据分析工具和技术对数据质量有着
14、严格的要求,如果没有高质量的数据作为基础,数据分析挖掘结果往往差强人意,合理的决策更无从谈起。因此,通过数据预处理来提高数据的质量是大数据处理技术的重要环节。4.2 大数据技术创新与贡献研究意义选题背景第四章2.数据预处理技术为了得到高质量的数据,数据预处理之前需要制定和明确统一的数据质量标准,在数据预处理的过程需要做到以下4个基本要求:1)检测并除去数据中所有明显的错误和噪声;2)尽可能地减小人工干预和用户的编程工作量,并且容易扩展到其它数据源;3)与数据转化相结合;4)要有相应的描述语言来指定数据转化和数据清洗操作,所有这些操作应该在一个统一的框架下完成。4.2 大数据技术创新与贡献研究意
15、义选题背景第四章1.数据获取技术数据预处理是指在进行主要的分析处理以前,对数据进行的一些处理。p 数据清洗p 数据集成p 数据变换p 数据规约处理方式:4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术数据清洗是指在数据集中发现不准确、不完整的数据,然后对这些数据进行修正或删除,消除数据不一致的问题,提高数据质量。数据清洗能够提高数据分析的准确性,是数据预处理中非常重要的一步。但是数据清洗需要复杂的关系模型,这会给系统带来额外的计算开销,因此需要在数据清洗模型的复杂性和分析结果的准确性之间进行平衡。p 数据清洗4.2 大数据技术创新与贡献研究意义选题背景第四章4
16、.2.1 数据获取与预处理技术数据集成是在逻辑上和物理上把来自不同数据源的数据合并成一致的数据存储的过程,核心任务是将互相关联的分布式异构数据源集成到一起,减少结果数据集中冗余和不一致问题,提高挖掘过程的准确性和速度。数据集成按照处理对象的不同可分为基本数据的集成,多级视图的集成,模式的集成以及多粒度数据的集成。常见的数据集成方法有联邦数据库,中间件集成方法和数据仓库方法三种。下面重点介绍数据仓库方法。数据仓库方法是一种基于数据复制的方法,基本思想是将多个不同数据源的数据复制到数据仓库中,方便用户访问。数据仓库通过以下3个步骤来完成数据集成:1)提取:连接源系统并选择和收集必要的数据用于随后的
17、分析处理;2)变换:通过一系列的规则将提取的数据转换为标准格式;3)装载:将提取并变换后的数据导入目标存储基础设施。p 数据集成4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术数据变换是指将数据从一种表现方式转化到另一种表现方式的过程,基本思想是找到数据的特征表示,对数据进行平滑处理、合计处理、泛化处理及规则化一系列操作,达到减少有效变量的数目或找到数据的不变式。平滑处理是对数据中的噪声进行处理,主要的方法有回归方法、聚类方法和Bin方法;合计处理是对数据进行合计或总结操作,如对每个月的总收入进行合计处理,常用于对数据进行多细度的分析或构造数据立方体中;数据泛
18、化处理是指用更高层次或更抽象的概念代替低层次或数据层的数据对象,如可将年龄这一属性抽象成为少年、青年、中年和老年等;规则化是指将有关属性数据按照一定的比例映射到特定小范围之中。p 数据变换4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术数据规约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。数据规约主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性和记录。目前常用的数据规约的方法有:特征规约、样本规约和特征值规约。特征规约是从原有的特征中删除不重要或不相关的特征,或者通过特征重组来减少特征的个数。样本规约就是从数据集中选出一个有代表性的子集
19、,子集大小的确定要考虑计算成本、存储要求、估计量的精度以及其它一些与算法和数据特性有关的因素。特征值规约是特征值离散化技术,是将连续型特征的值离散化,使之成为少量的区间,每个区间映射到一个离散符号,特征值规约的好处在于简化了数据描述,并易于理解数据和最终的挖掘结果。由此可见,完成数据规约的必要前提是熟悉数据本身的内容和理解数据挖掘需求。p 数据规约4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.1 数据获取与预处理技术通过大数据预处理后,良好或高质量的数据应当符合以下几条标准:p 数据规约(1)完整性:尽可能富含属性名和属性值的明确含义以及统一多数据源的属性编码。(2)规范性:数据应
20、按照统一格式存储。(3)一致性:数据值在信息含义上是没有矛盾的。(4)准确性:数据信息是准确的,数据时效性在需求范围内,不存在可忽略的字段和记录。(5)关联性:不存在数据缺失、索引缺失和关联缺失。(6)唯一性:不存在重复数据和重复属性。4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.2 存储与管理技术数据存储技术解决的是大规模数据的持久存储和管理问题。随着数字图书馆、多媒体传输、电子商务等应用的不断发展,数据向PB量级急速增加,对存储容量提出了巨大的要求;同时,由于数据的多样化、对重要数据保护以及地理上的分散性等对数据的有效管理提出了更高的要求。因此,存储产品已不再是附属于服务器的辅
21、助设备,而成为互联网中最主要的花费所在。轻型数据库无法满足对结构化、半结构化和非结构化海量数据的存储与管理,以及对复杂的数据挖掘和分析操作,通常使用分布式文件系统、NoSQL数据库和云数据库等解决上述问题。4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.2 存储与管理技术p 分布式系统p NoSQL 数据库p 云数据库4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.2 存储与管理技术分布式系统包含多个自主的处理单元,通过计算机网络互连来协作完成分配的任务,采用分而治之的策略,能够更好的处理大规模数据分析问题。p 分布式系统1)分布式文件系统存储管理需要多种技术的协同工作,其
22、中文件系统为其提供最底层存储能力的支持。常见的分布式文件系统有HDFS、GFS、GridFS、Ceph、mogileFS、Lustre、TFS和FastDFS等。其中HDFS是一个高度容错性系统,适用于批量处理,能够提供高吞吐量的的数据访问。4.2 大数据技术2)分布式键值系统分布式键值系统用于存储关系简单的半结构化数据。典型的分布式键值系统有,Amazon Dynamo。获得广泛应用和关注的对象存储技术也可以视为键值系统,但其存储和管理的是对象而不是数据块。创新与贡献研究意义选题背景第四章4.2.2 存储与管理技术传统的关系数据库已经无法满足Web2.0的需求,主要原因是:1)无法满足海量数
23、据的管理需求;2)无法满足数据高并发的需求;3)高可扩展性和高可用性的功能太低。NoSQL数据库可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力等,典型的NoSQL数据库包含键位数据库、列族数据库、文档数据库、图形数据库。p NoSQL 数据库4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.2 存储与管理技术云数据库是基于云计算技术发展的一种共享基础架构的方法,是部署和虚拟化在云计算环境中的数据库。云数据库的特征包括:高可用性、易用性、动态可扩展性、低使用代价、高性能、免维护和安全性等。目前常用的云数据库产品有Microsoft SQL
24、Azure、Google Cloud SQL以及阿里云等。从数据模型的角度来说,云数据库并非一种全新的数据库技术,而只是以服务的方式提供数据库功能。云数据库所采用的数据模型可以是关系数据库所使用的关系模型,如微软的SQLAzure云数据库;也可以是NoSQL数据库所使用的非关系模型。p 云数据库4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 分析与挖掘技术大数据分析与挖掘技术是指对类型多样、增长迅速的海量数据进行交叉处理和分析,实现数据的深度融合,并从中找出帮助决策的隐藏模式、未知的相关关系以及其他有价值信息的过程,是大数据理念与方法的核心。传统的分析与挖掘技术方法以结构化数据和
25、关系型数据库为主,常见的分析与挖掘方法包括机器学习、数据挖掘和统计分析等。随着大数据的发展,出现了一些新的数据分析与挖掘技术方法与研究对象,如对半结构化与非结构化数据的分析。当前数据分析与挖掘技术的研究热点主要有文本数据分析、结构化数据分析、Web数据分析、多媒体数据分析、图文转换技术和地理信息技术等方面。目前常用的大数据处理框架有流式数据分析、批处理分析、交互式数据分析和图数据分析。4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 分析与挖掘技术在流式数据分析中,数据以流的方式到达内存,直接进行数据的实时计算,无需实现存储。因此,流式数据分析中的数据具有实时性、突发性、易失性和无
26、序性等特点。常见的流式数据分析系统包括:Storm、Puma、S4和Kafka。流式处理下的评测指标有数据传输保障度、吞吐量、流控、处理延迟、容错能力以及编程的复杂性等。p 流式数据分析4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 分析与挖掘技术在批处理分析方法中,数据首先被存储,然后对存储的静态数据进行集中处理。因此,批处理中的数据具有数据精度高、数据量大和价值密度低的特点。常见的批处理分析框架是MapReduce。从输入、存储、处理、应用等多个角度对流式数据分析和批处理分析进行比较,详见表4-1。p 批处理分析4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 分
27、析与挖掘技术p 批处理分析4.2 大数据技术 流式数据分析批处理分析输入数据流数据块存储不存储或者存储在空闲的内存中存储在众多常见的数据容器中处理单线程或者少数进行处理多道并发处理应用场景网络数据挖掘,传感器网络,交通运输监视几乎被广泛应用到各种场景硬件环境典型的单限量内存多道设计的GPUs或者存储器时间复杂度秒甚至是微秒级别需要较长的处理时间处理数据大小未定义且未知的已经定义大小的表4-1 流式数据分析与批处理分析创新与贡献研究意义选题背景第四章4.2.3 分析与挖掘技术流式数据分析和批处理分析分别用于不同的大数据场景,流式数据分析常用于对数据的实时性要求较为严格,但对数据的精确度要求不高的
28、场景,如广告精准推荐、智能交通、商业智能等;批处理分析常用于对数据的实时性要求不高,但对数据的准确性和全面性要求较高的场景,如Web访问日志分析、文档聚类、反向索引构建等。p 批处理分析4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.4 可视化技术数据可视化是将大数据经过分析、挖掘等手段得到的结果以可见或者可读形式展示出来,使人们直观的获取相关信息。对于传统的结构化数据,可以采用数据值显示、数据表显示、各种统计图等形式来表示数据,而大数据通常处理的是非结构化数据,种类繁多且复杂多变,数据表、繁杂的数据表和关系图表达不直观,因此传统的数据可视化方法难以直接表现大数据分析结果。怎样通过大
29、数据可视化技术准确、清晰地向用户传递有效信息成为研究热点。4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.4 可视化技术4.2 大数据技术p 简介p 可视化遵循的条件p 多维数据可视化方法p 可视化平台与工具p 存在的问题创新与贡献研究意义选题背景第四章4.2.3 可视化技术大数据可视化技术是指利用计算机图形学以及图像处理等技术,将数据转换为图形或图像形式显示到屏幕上,同时增强数据分析结果的呈现效果,并进行交互处理的理论、方法和技术。大数据可视化技术涉及计算机视觉、计算机辅助设计、计算机图形学等多个领域,是一项研究数据处理、数据表示、决策分析等问题的综合技术,进而达到方便用户以更加直
30、观的方式观察理解大规模数据,发现数据中隐藏的规律和潜在价值的目的。p 简介4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 可视化技术1)科学可视化科学可视化就是利用计算机把符号转变成图形图像来进行展示,易于人们理解数据中的内在联系。科学可视化应用的领域有:计算机图形学、计算机视觉、图像处理、计算机辅助几何设计,信号处理等领域。科学可视化的研究和应用促进了计算机某些领域的发展。2)信息可视化信息可视化是使用计算机支持的、交互的、可视化的形式对抽象数据进行表示,以至于增强认知能力。与传统的科学可视化和计算机图形学不同的是,信息可视化更加注重于通过图形的可视化呈现出数据中所隐含的信息和
31、规律。p 简介4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 可视化技术3)数据可视化数据可视化是指借助图形化的手段,如折线图、饼图、散点图、柱形图、网络图、地图及矩阵图等,将数据库中的数据及它们之间的关系进行直观地表达,获得数据的内在信息,实现信息的有效传达与沟通。当前大数据可视化技术所处理的的数据一般分为以下几类:一维数据、二维数据、三维数据、高维数据、时间序列数据、层次数据和网络数据等。其中,高维数据、时间序列数据、层次数据和网络数据是当前大数据可视化技术的研究热点。p 简介4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 可视化技术为了有效地表达信息的真实分布
32、,以更加直观的方式传达出关键的信息,大数据可视化技术应该遵循以下4个条件:1)直观性:将数据直观、形象的表达出来;2)关联性:将数据之间的关联性突出地呈现出来;3)交互性:方便用户控制数据,实现用户与数据之间的交互;4)艺术性:在真实地呈现数据的同时,保证其具有艺术性,更加符合审美规则。p 可视化遵循的条件4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 可视化技术可视化平台与工具为数据的展示提供可视化的方法和不同的数据展示形式。不同的可视化平台与工具对于数据可视化有着不同的作用,提供的解决方案也不尽相同。目前可视化平台与工具种类繁多,比较常用的有Tableau、RAW、D3.js
33、和R语言等。p 可视化平台与工具4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 可视化技术1)TableauTableau是一款常用于企业的大数据可视化软件,不仅可以轻松的创建图像、图表以及地图等,还可以在线生成可视化的报告,并且实现交互地、可视化的分析和仪表盘分析应用。2)RAWRAW是一款开源的数据可视化软件,可以集数据的载入、复制、粘贴、拖拽、删除于一体,并且允许用户定制视图和层次。RAW是基于非常流行的D3.js库开发,支持很多图表类型,例如泡泡图、映射图和环图等。此外,RAW可以很容易地对可视化结果进行导出。3)D3.jsD3.js是运行在JavaScript上的一种开
34、源可视化工具,可以使用SVG、HTML和CSS技术生动地展示数据,使用数据驱动的方式创建漂亮的网页,D3.js严格遵循Web标准,可以轻松兼容主流浏览器并避免对特定框架的依赖,并且可以实时交互。p 可视化平台与工具4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 可视化技术多维数据可视化的过程是利用可视化技术把多维数据从多维数据空间转换到低维数据空间,并进行展示,用户从展示中发现数据中隐藏的某些规律。目前,多维数据可视化方法在国内外有着广泛的研究,常用的经典多维数据可视化方法有:平行坐标系法、散点图和散点图矩阵法、Radviz法等。此外,较为新颖的展示方法有气泡图、热力图和地图等。
35、p 多维数据可视化方法4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 可视化技术1)平行坐标系平行坐标系是经典的多维数据可视化方法。如图4-1所示,平行坐标中平行的竖直轴线代表维度,多维数据的数值刻画在竖直轴线上,并用折线把轴上数据项对应的坐标点进行连接,从而在二维空间里面展示多维数据。平行坐标系的优点是简洁、快速的展示多维数据,可观察数据的相关性,并且使数据的变化趋势更有效的显示出来。目前,平行坐标系法广泛运用于可视化、数据挖掘和决策支持等领域。4.2 大数据技术图4.1 平行坐标系创新与贡献研究意义选题背景第四章4.2.3 可视化技术2)散点图和散点图矩阵散点图和散点图矩阵也
36、是常用的多维数据可视化方法之一。如图4-2所示,散点图是通过二维坐标系中的一组点来展示2个变量之间的关系,将数据集中的每一行映射成二维和三维坐标系中的图形实体,常用于对两个或者更多字段的变量展示相关性。散点图纵坐标是“结果”字段,最上方是最大值,横坐标是变量字段,字段值从左往右依次增大。散点图的优点是快速发现成对变量之间的关系。散点图矩阵(如图4-3)是多维数据中的各个维度组合形成的有规律排列的散点图集合。散点图矩阵中连续的散点图可以对海量数据进行展示。4.2 大数据技术图4.2 散点图图4.3 散点图矩阵创新与贡献研究意义选题背景第四章4.2.3 可视化技术3)RadvizRadviz方法是
37、使用圆形的坐标系对数据可视化。如图4-4所示,圆形中的n条半径表示n维空间,数据集中的对象在坐标系中用一个点表示,点的位置由弹簧模型计算得到。4.2 大数据技术图4-4 Radviz图 创新与贡献研究意义选题背景第四章4.2.3 可视化技术4)气泡图气泡图作为散点图的一种变体,是比较新颖的多维数据可视化方法。虽然从视觉的角度看它没有条形图表达的精准,但是可以在有限的空间内展示大量的信息。如图4-5所示的是4维的数据,数据的属性分别是飓风的经度、纬度、强度和风力等级,图中气泡颜色代表了飓风的强度,位置代表了所在的经纬度,气泡大小代表了风力大小。4.2 大数据技术图4-5 气泡图创新与贡献研究意义
38、选题背景第四章4.2.3 可视化技术5)地图利用地图对数据进行可视化,在地图上显示数据的属性信息,如下图所示,颜色的不同代表了该地区属性信息的不同,通过地图可以看出数据属性信息的分布情况。4.2 大数据技术创新与贡献研究意义选题背景第四章4.2.3 可视化技术6)热图热图也称热力图,以特殊高亮的方式显示访客热衷的区域。目前常见的热图有三种:基于鼠标点击位置的热图、基于鼠标移动轨迹的热图和基于内容点击的热图。三种热图试用的外观、原理和场景也各不相同。下图展示的是2014年全世界GDP增速预期热力图,颜色越深代表预期增速越快。4.2 大数据技术创新与贡献研究意义选题背景第二章4.2.3 可视化技术
39、1)视觉噪声。数据集中的大部分数据之间存在极强的相关性,因此无法将其分开单独展示。2)信息丢失。为了减少视觉噪声,一般采取减少可视数据集的方法,但这样会造成信息的丢失。3)高性能要求。静态可视化由于其可视化速度较慢,对性能的要求不高,但动态可视化对性能的要求会比较高。4)高速的图像变换。在高速的图像变换下,尽管用户能够观察数据,但不能对数据的强度变化及时做出反应。p 存在的问题4.2 大数据技术创新与贡献研究意义选题背景第四章4.3.1 简介4.3 大数据处理框架处理框架是大数据系统的基本组件,负责对系统中的数据进行计算。大数据时代一书中指出了大数据时代处理数据理念的三大转变,即要全体不要抽样
40、,要效率不要绝对精确,要相关不要因果。海量数据的处理对于当前存在的技术来说是一种极大的挑战。目前,人们对大数据的处理形式主要是对静态数据的批量处理以及对在线数据的实时处理,在线数据的实时处理又分为对流式数据的处理和实时交互计算两种。与数据处理方式相对应,大数据处理框架一般分为批处理框架、流计算框架和交互式框架三种类型。创新与贡献研究意义选题背景第四章4.3.1 简介4.3 大数据处理框架p 批处理框架p 流处理框架p 交互式框架创新与贡献研究意义选题背景第四章4.3.1 简介4.3 大数据处理框架p 批处理框架批处理框架主要对大容量静态数据进行处理,并在计算过程完成后返回结果。利用批量数据挖掘
41、出合适的模式,得出具体的含义,制定明智的决策,最终做出有效的应对措施,实现业务目标是大数据批处理的首要任务。大数据的批处理框架适用于先存储后计算、实时性要求不高、但数据的准确性和全面性要求较高的场景,不适合对时效性要求较高的场合。批处理框架在物联网、云计算、互联网等领域具有广泛的应用,可以解决这些领域的诸多决策问题,例如电子商务网站的推荐系统、金融服务领域的欺诈检测和能源领域的石油探测等。Hadoop是典型的大数据批处理框架。由HDFS负责静态数据的存储,并通过MapReduce将计算逻辑分配到各数据节点进行数据处理。Hadoop顺应了现代主流IT公司的一致需求,得到了快速发展,形成了Hado
42、op生态圈。创新与贡献研究意义选题背景第四章4.3.1 简介4.3 大数据处理框架p 流处理框架流式数据是一个无穷的数据序列,序列中的每一个元素来源各异,格式复杂,序列往往包含时序特性,或者有其他的有序标签。流处理框架会对进入系统的数据进行实时计算,对通过系统传输的每个数据项执行操作,而无需针对整个数据集执行操作,这种处理非常适合某些类型的工作负载。目前流处理框架已经在业界得到广泛的应用,主要应用于数据采集和金融银行业,典型的有的Storm、Scribe、Flume和Nutch等。创新与贡献研究意义选题背景第四章4.3.1 简介4.3 大数据处理框架p 交互式框架批处理框架和流处理框架都是采用
43、的非交互方式,交互式框架与这两类框架相比,更加灵活、直观、便于控制,支持类似SQL的语言进行数据处理,能够为数据分析人员提供便利。使用这种框架,存储在系统中的数据文件能够被及时处理修改,同时处理结果可以立刻被使用。交互式数据处理系统的典型代表系统是Berkeley的Spark系统和Google的Dremel系统。创新与贡献研究意义选题背景第四章4.3.2 Hadoop4.3 大数据处理框架Hadoop是Apache基金会用java开发的分布式系统基础架构,实现了在计算机集群中对海量数据的分布式存储与计算,其涉及到了大数据收集、大数据存储、大数据处理、大数据分析和大数据应用等多个方面。其中,HD
44、FS和MapReduce是Hadoop的两大核心部分,两者分别解决了大数据存储和处理的难题。创新与贡献研究意义选题背景第四章4.3.2 Hadoop4.3 大数据处理框架p HDFSp MapReducep Pigp ZooKeeperp Sqoopp Mahout创新与贡献研究意义选题背景第四章4.3.2 Hadoop4.3 大数据处理框架HDFS(Hadoop Distributed File System)是Hadoop下的分布式文件系统,以流式数据访问模式来存储超大文件,运行于硬件集群上,是管理网络中跨多台计算机存储的文件系统。HDFS上的文件被划分为尺寸相同的多个分块,作为独立的存储
45、单元,称为数据块,其默认大小是64MB,一个文件的大小可以大于网络中任意一个磁盘的容量。系统中所有的数据块不需要存储在同一个磁盘中,因此它们可以利用集群上的任意一个磁盘进行存储,简化了存储系统的开发与设计。同时,将存储子系统的控制单元设置为块,又简化了存储管理系统,用一个单独的系统就可以管理这些块的元数据。数据块的设计理念使得HDFS拥有良好的系统扩展性、高容错性以及数据的灵活存储能力,因此适用于海量数据的可靠性存储和数据归档等场景。p HDFS创新与贡献研究意义选题背景第四章4.3.2 Hadoop4.3 大数据处理框架1)NamenodeHDFS的守护进程,用来管理文件系统的命名空间,负责
46、记录文件是如何分割成数据块的,以及这些数据块分别被存储到哪些数据节点上。Namenode的主要功能是对内存及I/O进行集中管理。2)Datanode文件系统的工作节点,根据需要对数据块存进行存储和检索,并且定期向Namenode发送他们所存储的块的列表。3)Secondary Namenode辅助后台程序,与Namenode进行通信,以便定期保存HDFS元数据的快照。p HDFS创新与贡献研究意义选题背景第四章4.3.2 Hadoop4.3 大数据处理框架Hadoop可以通过MapReduce这一并行处理技术来提高数据的处理速度,其设计初衷是通过大量廉价服务器实现大数据并行处理,其突出优势是具
47、有高扩展性和可用性,特别适用于海量的结构化、半结构化及非结构化数据的混合处理。MapReduce是一套软件框架,包括Map(映射)和Reduce(化简)两个阶段,实现了数据查询、数据分解以及数据分析的并行化,将目标任务分配到不同的处理节点上,从而完成海量数据的并行处理。MapReduce的工作原理是先分后合的数据处理方式。首先,Map把海量数据分割成了若干部分,分配给多台处理器并行处理;然后,Reduce把各台处理器处理后的结果进行汇总操作,以得到最终处理结果。p MapReduce创新与贡献研究意义选题背景第四章4.3.2 Hadoop4.3 大数据处理框架举例:采用MapReduce来统计
48、不同几何形状的数量,它会先把任务分配到两个节点,由两个节点分别并行统计,然后再把它们的结果汇总,得到最终的处理结果,如图4-8所示。MapReduce适合进行数据分析、日志分析、商业智能分析、客户营销等业务,并具有非常明显的效果。例如:利用MapReduce技术进行实时分析,某公司的信用计算时间从33小时缩短到8秒,基因分析时间从数天缩短到20分钟。p MapReduce创新与贡献研究意义选题背景第四章4.3.2 Hadoop4.3 大数据处理框架p MapReduce创新与贡献研究意义选题背景第四章4.3.2 Hadoop4.3 大数据处理框架Pig是Hadoop的一个扩展,简化了Hadoo
49、p的编程,提供了一个高级数据处理语言Pig Latin,并且保持了Hadoop可靠与易于扩展的特征。p Pigp ZooKeeperZooKeeper是用于构建大型分布式应用的一种协作式服务。它实现了许多在大型分布式应用中常见的服务,如配置管理、命名、同步和组服务等。创新与贡献研究意义选题背景第四章4.3.2 Hadoop4.3 大数据处理框架Sqoop实现了关系数据库和Hadoop之间的数据传递。通过Sqoop可以把关系数据库中的数据导入到HDFS,也可以把HDFS中的数据导入到关系数据库里。p Sqoopp SqoopMahout是针对Hadoop设计的机器学习算法包,实现了支持向量机、朴
50、素贝叶斯分类、k-means聚类和协同过滤等机器学习算法。创新与贡献研究意义选题背景第四章4.3.3 Spark4.3 大数据处理框架Spark是UC Berkeley AMP lab所开发的类Hadoop MapReduce式的通用并行计算框架,它在拥有Hadoop所具有的优点的同时又超越了Hadoop,其中间输出结果可以保存在内存中,从而不再需要读写HDFS,避免了繁杂的I/O操作,因此Spark能更好地适用于数据挖掘与机器学习等需要大量递归、迭代的算法,以及需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,Spark在时间复杂度上受益就会越大,数据量小但是计