1、阿里数据同步的前世今生巴真 陈守元阿里数据同步前世今生历程展望背景背景历程展望阿里数据同步前世今生背景-阿里数据开发流程需求分析业务建模数据集成数据开发数据测试线上部署结果集成需求分析业务建模数据集成数据开发数据测试线上部署结果集成业务异构数据集成到离线计算平台背景-阿里数据开发流程需求分析业务建模数据集成数据开发数据测试线上部署结果集成计算结果数据导入在线业务平台背景-阿里数据开发流程同构在线异构离线背景 数据同步本质历程背景展望阿里数据同步前世今生2005年年 史前时代2005 年年2007 年年2009 年年2013 年年OracleRac Hadoop飞天/Hadoop 数据平台发展之
2、初 计算平台单节点Oracle调用系统?同步/集成使用脚本封装 业务需求历程 数据平台的追溯2005 年年2007 年年2009 年年2013 年年OracleRac Hadoop飞天/Hadoop2007年年 发展之初数据业务逐步快速发展计算平台采用Rac,后扩充为20节点调用系统使用crontab定时调用同步/集成仍然采用脚本封装数据开始为公司决策服务历程 数据平台的追溯2005 年年2007 年年2009 年年2013 年年OracleRac Hadoop飞天/Hadoop2009年年 黄金时期 数据业务进入高速发展时期 计算平台开始使用Hadoop 调用系统使用天网调度系统 同步/集成
3、使用定制化工具 数据开始为社会提供服务历程 数据平台的追溯2005 年年2007 年年2009 年年2013 年年OracleRac Hadoop飞天/Hadoop2013年年 云计算平台 数据平台成为集团单独事业部门 计算平台为Hadoop/飞天 调度系统使用工作流+分布式资源框架 同步工具采用DataX/TT 数据平台将作为阿里云计算平台为社会提供服务历程 数据平台的追溯阿里集团前端服务(淘宝/天猫/一淘/B2B/支付宝)MysqlOracleHBaseOBTFSDataXTT离线计算平台实时计算平台DataXMysqlOracleHBaseOBTFS数据产品报表展现应用Adhoc应用层源
4、数据层数据集成层计算中心层数据同步层宿数据层结果展现层数据流动历程 数据流动的现状应用数据同步总线结构化数据实时流式同步非结构化数据实时流式同步结构化数据离线同步流式数据计算框架离线数据计算框架实时计算MySQL ClusterHBase中间层搜索引擎非结构化数据源应用服务器分布式资源池数据中心结构化数据源对内数据支撑:商业智能与决策支持产品运营分析系统运维数据产品应用中间件服务工作流调度历程 数据流动的现状实时结构化非实时非结构化现状 同步的领域细分现状 同步的领域细分维度DataXTT系统目标解决任意异构数据源的数据离线交换解决异构数据实时传输的平台实时性低高数据结构化结构化、半结构化结构
5、化、非结构化(日志)数据源支持覆盖阿里几乎所有类型的数据存储、计算系统较DataX少,数据源必须提供增量解析接口服务形式工具包、服务平台服务平台开源类似产品Sqoopflume、chukwa、scribe DataX Service现状 DataX 结构管理、监控数据同步集群 DataX Master管理、监控每个同步作业 DataX Slave管理、监控每个同步子任务 DataX Instance管理、监控每个同步示例/同步插件 DataX Plugin负责数据的抽取、转换、装载Service ClusterMasterMasterSlaveSlaveSlaveInstanceInstanceInstanceReaderWriterTransformer现状 DataX 结构DataX 集群MSMSMSSSSSSSSSSMS Master Slave Launch FailOver现状 TT 结构TT 集群FileTailerDBSyncShrekBrokerBrokerBrokerBrokerHBaseODPS WriterHDFS Writer展望背景历程阿里数据同步前世今生展望 阿里大数据和云数据云服务数据同步离线数据总线分布式资源管理框架同步网关实时数据总线计算中心存储中心工作流引擎元数据服务应用云阿里云服务平台Conversation