1、大数据架构详解:从数据获取到深度学习 2025-11-11 演讲人01.第一部分 大数据的本质02.03.目录第二部分 大数据技术第三部分 大数据文化01第一部分 大数据的本质1 大数据是什么1.1 大数据导论1.1.1 大数据简史(1)1.1.2 大数据现状1.1.3 大数据与BI(4)1.3 大数据挑战1.3.1 成本挑战1.3.2 实时性挑战1.3.3 安全挑战1.2 企业数据资产 1.4 小结 第一部分 大数据的本质2 运营商大数据架构第一部分 大数据的本质2.1 架构驱动的因素2.3 平台发展趋势1322.2 大数据平台架构2.4 小结3 运营商大数据业务3.1 运营商常见的大数据业
2、务 3.1.1 SQM(运维质量管理)3.1.2 CSE(客户体验提升)3.1.3 MSS(市场运维支撑)3.1.4 DMP(数据管理平台)3.2 小结02第二部分 大数据技术4 数据获取4.1 数据分类A4.2 数据获取组件B4.3 探针C4.4 网页采集D4.5 日志收集E4.6 数据分发中间件F4 数据获取4.7 小结4 数据获取4.3 探针4.3.1 探针原理4.3.2 探针的关键能力4 数据获取4.4 网页采集4.4.1 网络爬虫(10)4.4.2 简单爬虫Python代码示例(11)4 数据获取4.5 日志收集4.5.1 Flume(12)4.5.2 其他日志收集组件4 数据获取4
3、.6 数据分发中间件4.6.1 数据分发中间件的作用4.6.2 Kafka架构和原理(15)5 流处理5.1 算子5.2 流的概念5.3 流的应用场景5.6 实时结合机器学习5.5 CEP(10)5.4 业界两种典型的流引擎5 流处理5.7 小结5 流处理5.3 流的应用场景5.3.1 金融领域5.3.2 电信领域5 流处理5.4 业界两种典型的流引擎5.4.1 Storm(3)5.4.2 Spark Streaming(4)5.4.3 融合框架(7)5 流处理5.5 CEP(10)5.5.1 CEP是什么(11)5.5.2 CEP的架构5.5.3 Esper(12)5 流处理5.6 实时结合
4、机器学习5.6.1 Eagle的特点5.6.2 Eagle概览6 交互式分析DCBA6.1 交互式分析的概念6.2 MPPDB技术6.3 SQL on Hadoop6.4 大数据仓库E6.5 小结6 交互式分析6.2 MPPDB技术6.2.1 MPP的概念(1)6.2.2 典型的MPP数据库6.2.3 MPP DB调优实战6.2.4 MPPDB适用场景(11)6 交互式分析6.3 SQL on Hadoop6.3.1 Hive6.3.2 Phoenix6.3.3 Impala6 交互式分析6.4 大数据仓库6.4.1 数据仓库的概念6.4.2 OLTP/OLAP对比6.4.3 大数据场景下的同
5、与不同6.4.4 查询引擎6.4.5 存储引擎7 批处理技术0102030405067.1 批处理技术的概念7.2 MPP DB技术7.3 Map Re duc e 编程 框 架7.4 Spark架构和原理(1)7.5 BSP框架(5)7.6 批处理关键技术7 批处理技术7.7 小结7 批处理技术7.3 MapReduce编程框架7.3.1 MapReduce起源7.3.2 MapReduce原理7.3.3 Shuffle7.3.4 性能差的主要原因7 批处理技术7.4 Spark架构和原理(1)7.4.1 Spark的起源和特点7.4.2 Spark的核心概念7 批处理技术7.5 BSP框架
6、(5)7.5.1 什么是BSP模型7.5.2 并行模型介绍7.5.3 BSP模型基本原理7.5.4 BSP模型的特点7.5.5 BSP模型的评价7.5.6 BSP与MapReduce对比7.5.7 BSP模型的实现7.5.8 Apache Hama简介7 批处理技术7.6 批处理关键技术7.6.1 CodeGen(6)7.6.2 CPU亲和技术(7)8 机器学习和数据挖掘AEDFBC8.2 典型的数据挖掘和机器学习过程8.3 机器学习概览8.5 交互式分析(1)8.4 机器学习&数据挖掘应用案例8.6 深度学习(2)(3)8.1 机器学习和数据挖掘的联系与区别8 机器学习和数据挖掘8.
7、7 小结8 机器学习和数据挖掘8.3 机器学习概览8.3.1 学习方式8.3.2 算法类似性8 机器学习和数据挖掘8.4 机器学习&数据挖掘应用案例8.4.1 尿布和啤酒的故事8.4.2 决策树用于电信领域故障快速定位8.4.3 图像识别领域8.4.4 自然语言识别8 机器学习和数据挖掘8.6 深度学习(2)(3)8.6.1 深度学习概述8.6.2 机器学习的背景8.6.3 人脑视觉机理8.6.4 关于特征8.6.5 需要有多少个特征8.6.6 深度学习的基本思想8 机器学习和数据挖掘8.6 深度学习(2)(3)8.6.7 浅层学习和深度学习8.6.8 深度学习与神经网络8.6.9 深
8、度学习的训练过程8.6.10 深度学习的框架8.6.11 深度学习与GPU8.6.12 深度学习小结与展望9 资源管理019.1 资源管理的基本概念029.2 Hadoop领域的资源调度框架039.3 资源分配算法049.4 数据中心统一资源调度059.5 多租户技术069.6 基于应用描述的智能调度9 资源管理9.8 小结9.7 Apache Mesos架构和原理(3)9 资源管理9.1 资源管理的基本概念9.1.1 资源调度的目标和价值9.1.2 资源调度的使用限制及难点9 资源管理9.2 Hadoop领域的资源调度框架9.2.1 YARN9.2.2 Borg(1)9.2.3 Omega9
9、.2.4 本节小结9 资源管理9.3 资源分配算法9.3.1 算法的作用9.3.2 几种调度算法分析9 资源管理9.4 数据中心统一资源调度9.4.1 Mesos+Marathon架构和原理9.4.2 Mesos+Marathon小结9 资源管理9.5 多租户技术9.5.1 多租户概念9.5.2 多租户方案9 资源管理9.7 Apache Mesos架构和原理(3)9.7.1 Apache Mesos背景9.7.2 Apache Mesos总体架构9.7.3 Apache Mesos工作原理9.7.4 Apache Mesos关键技术9.7.5 Mesos与YARN比较10 存储是基础0102
10、0304050610.1 分久必合,合久必分10.2 存储硬件的发展10.3 存储关键指标10.4 RAID技术10.5 存储接口10.6 存储加速技术10 存储是基础10.7 小结10 存储是基础10.2 存储硬件的发展10.2.1 机械硬盘的工作原理10.2.2 SSD的原理10.2.3 3DXPoint10.2.4 硬件发展小结10 存储是基础10.5 存储接口10.5.1 文件接口10.5.2 裸设备10.5.3 对象接口10.5.4 块接口(7)10.5.5融合是趋势10 存储是基础10.6 存储加速技术10.6.1 数据组织技术10.6.2 缓存技术11 大数据云化0111.1 云
11、计算定义11.2 应用上云0211.3 大数据上云0311.4 小结0411 大数据云化11.2 应用上云11.2.1 CloudNative概念11.2.2 微服务架构(1)11.2.3 Docker配合微服务架构(2)11.2.4 应用上云小结11 大数据云化11.3 大数据上云11.3.1 大数据云服务的两种模式11.3.2 集群模式AWSEMR(5)11.3.3 服务模式AzureDataLakeAnalytics03第三部分 大数据文化12 大数据技术开发文化12.1 开源文化 12.2 DevOps理念12.2.1 Development和Operations的组合12.2.2 对应用程序发布的影响12.2.3 遇到的问题12.2.4 协调人12.2.5 成功的关键12.4 小结 12.3 速度远比你想的重要 感谢聆听