1、第四章第四章 数据处理与应用数据处理与应用 了解大数据处理架构和基本思路。了解静态数据、流数据和图数据三者的区别。大数据具有数据量大、数数据量大、数据来源于类型多样、处理据来源于类型多样、处理速度快等速度快等特点,简单的表格处理软件已经无法满足大数据的处理需求,同时,大数据技术、理论和处理大数据技术、理论和处理方法也在不断发展方法也在不断发展,为大数据的处理提供了越来越有力的支持支持。医疗大数据可视化医疗大数据可视化处理大数据时,一般采用分治思想分治思想(“分而治之分而治之”)。分-将问题分解为规模更小的子问题治-将规模更小的子问题逐个击破解决合-将已解决的子问题合并,最终得出原问题的解大数据
2、处理按照类型按照类型可划分为、和。静态数据-指在处理时已收集完成、在计算时不会发生改变的数据,一般采用;流数据-指不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低,通过可以得到更有价值的分析结果;图数据-现实世界中的许多数据,如社交网络、道路交通等数据,可采用进行处理。知识点一:批处理计算(知识点一:批处理计算(静态数据:静态数据:处理时已收集完处理时已收集完成、在计算时不会发生改变的数据成、在计算时不会发生改变的数据)Hadoop:是一个可运行于上的分布式系统基础架构,适用于静态数据的。SparkSpark:与HadoopHadoop相似,启用了内存存储中间结果,运行速
3、度比HadoopHadoop快很多。(1 1)分布式文件系统)分布式文件系统HDFSHDFS是谷歌文件系统(GFS)的开源实现。:将大规模海量数据保存在不同的存储节点中,并用分布式系统进行管理。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。比如:的底层一般采用HDFS实现。(2 2)分布式数据库)分布式数据库HBaseHBase是一个高可靠、高性能、可伸缩、是谷歌BigTable数据库的开源实现。HBase建立在HDFS提供的底层存储基础上,采用基于列列的存储方式,主要用来存储非结构化数据和半结构化数据。(3 3)分布式并行计算模型)分布式并行计算模型MapReduceMapRedu
4、ce主要由Map(映射)和Reduce(归纳)2个函数构成。二、流计算(二、流计算(流数据流数据:不间断地、持续地到达的不间断地、持续地到达的实时实时数据数据)主要的流计算软件系统:IBM InfoSphere(捕获和分析动态数据)Twitter(推特风暴)!S4(雅虎分布式流计算)(银河流数据处理平台)Facebook(是的替代产品)三、图计算(三、图计算(图数据图数据:以图的形式呈现的,或者是可以图的形式呈现的,或者是可以转换为图以后再进行分析的数据,如以转换为图以后再进行分析的数据,如社交网络社交网络、网、网络浏览与购买行为、传染病的传播路径等。络浏览与购买行为、传染病的传播路径等。)目前通用的图处理软件主要包括两类:四、实时处理与批处理的整合四、实时处理与批处理的整合Twitter开源了大数据处理系统,该系统实现了在一个平台架构下的整合。平台的整合缩短了批处理与流处理之间的,有利于减少系统的,降低使用。是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。数据缺失、数据重复、数据异常、逻辑错误、格式不一致等。公式以“=”开头,由常数、函数、单元格引用和运算符组成的式子(公式不仅用于计算,更重要的是构建计算模型)。1.1.分析数据;分析数据;2.2.创建图表(创建图表(););3.3.检查图表。检查图表。