4.2.1 大数据处理的基本思想与架构　ppt课件-2024新浙教版（2019）《高中信息技术》必修第一册.pptx-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

4.2.1 大数据处理的基本思想与架构　ppt课件-2024新浙教版（2019）《高中信息技术》必修第一册.pptx

1、第四章第四章数据处理与应用数据处理与应用了解大数据处理架构和基本思路。了解静态数据、流数据和图数据三者的区别。大数据具有数据量大、数数据量大、数据来源于类型多样、处理据来源于类型多样、处理速度快等速度快等特点，简单的表格处理软件已经无法满足大数据的处理需求，同时，大数据技术、理论和处理大数据技术、理论和处理方法也在不断发展方法也在不断发展，为大数据的处理提供了越来越有力的支持支持。医疗大数据可视化医疗大数据可视化处理大数据时，一般采用分治思想分治思想（“分而治之分而治之”）。分-将问题分解为规模更小的子问题治-将规模更小的子问题逐个击破解决合-将已解决的子问题合并，最终得出原问题的解大数据

2、处理按照类型按照类型可划分为、和。静态数据-指在处理时已收集完成、在计算时不会发生改变的数据，一般采用；流数据-指不间断地、持续地到达的实时数据，随着时间的流逝，流数据的价值也随之降低，通过可以得到更有价值的分析结果；图数据-现实世界中的许多数据，如社交网络、道路交通等数据，可采用进行处理。知识点一：批处理计算（知识点一：批处理计算（静态数据：静态数据：处理时已收集完处理时已收集完成、在计算时不会发生改变的数据成、在计算时不会发生改变的数据）Hadoop：是一个可运行于上的分布式系统基础架构，适用于静态数据的。SparkSpark：与HadoopHadoop相似，启用了内存存储中间结果，运行速

3、度比HadoopHadoop快很多。（1 1）分布式文件系统）分布式文件系统HDFSHDFS是谷歌文件系统（GFS）的开源实现。：将大规模海量数据保存在不同的存储节点中，并用分布式系统进行管理。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。比如：的底层一般采用HDFS实现。（2 2）分布式数据库）分布式数据库HBaseHBase是一个高可靠、高性能、可伸缩、是谷歌BigTable数据库的开源实现。HBase建立在HDFS提供的底层存储基础上，采用基于列列的存储方式，主要用来存储非结构化数据和半结构化数据。（3 3）分布式并行计算模型）分布式并行计算模型MapReduceMapRedu

4、ce主要由Map(映射)和Reduce（归纳）2个函数构成。二、流计算（二、流计算（流数据流数据：不间断地、持续地到达的不间断地、持续地到达的实时实时数据数据）主要的流计算软件系统：IBM InfoSphere（捕获和分析动态数据）Twitter（推特风暴）!S4（雅虎分布式流计算）（银河流数据处理平台）Facebook（是的替代产品）三、图计算（三、图计算（图数据图数据：以图的形式呈现的，或者是可以图的形式呈现的，或者是可以转换为图以后再进行分析的数据，如以转换为图以后再进行分析的数据，如社交网络社交网络、网、网络浏览与购买行为、传染病的传播路径等。络浏览与购买行为、传染病的传播路径等。）目前通用的图处理软件主要包括两类：四、实时处理与批处理的整合四、实时处理与批处理的整合Twitter开源了大数据处理系统，该系统实现了在一个平台架构下的整合。平台的整合缩短了批处理与流处理之间的，有利于减少系统的，降低使用。是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。数据缺失、数据重复、数据异常、逻辑错误、格式不一致等。公式以“=”开头,由常数、函数、单元格引用和运算符组成的式子（公式不仅用于计算，更重要的是构建计算模型）。1.1.分析数据；分析数据；2.2.创建图表（创建图表（）；）；3.3.检查图表。检查图表。

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

4.2.1 大数据处理的基本思想与架构 ppt课件-2024新浙教版（2019）《高中信息技术》必修第一册.pptx