1、滴滴数据资产管理实践目目录录/Contents01滴滴的数据资产概述滴滴的数据资产概述02平台建设平台建设 之之 数据开发平台数据开发平台03平台建设平台建设 之之 数据应用平台数据应用平台04平台建设平台建设 之之 资产管理平台资产管理平台2019滴滴的数据资产概述滴滴的数据资产概述2019滴滴的数据资产5.5亿亿+用户用户1000+座座全球城市全球城市日新增日新增106TB数据数据日均处理处日均处理处理理4875+TB数据数据人人司机乘客路路静态信息:全球、全国、城市等各粒度动态信息:行程轨迹车车静态信息:归属人/公司、车牌号、车型动态信息:里程数、维保 记录700亿亿日日ETA请求请求1
2、50亿亿日定位数据日定位数据2019滴滴的数据特色010203实时数据占比高实时数据占比高结构化数据为主,结构化数据为主,价值密度高价值密度高地理位置、轨迹相关地理位置、轨迹相关的数据占比高的数据占比高2019数据同 步数据开 发调度监控告 警数据质 量项目管 理权限管 理数据开数据开 发平台发平台离线引擎实时引擎机器学习引擎数 据 内 容 建 设数据服务化资产管理平台决策分析业务分析看板分析数据应用数据应用产品平台产品平台 BI自助分析工具统一数据门户PCAPP-H5业务应业务应用用/DS内部用内部用户户/DS大屏用户大屏用户数据数据公共层公共层数据接入数据接入数据消费数据消费技技 术术&业
3、业 务务 元元 数数 据据 打打 通通指标管理平台数据大屏滴滴的数据平台业务架构 元数据打通,更准确识别公司核心元数据打通,更准确识别公司核心数数据资据资产产,辅,辅助助资产资产信信息的完息的完善,从而沉淀数据资产善,从而沉淀数据资产2019平台建设平台建设 之之 数据开发平数据开发平台台2019数据梦工场数易数易BI实时监控实时监控监控大屏监控大屏北极星北极星把脉把脉数据应用产品数据应用产品数据地图数据地图监控告警监控告警数据质量数据质量资产管理资产管理离线计算引擎离线计算引擎Hive、SparkOmega标签系统标签系统智能地图智能地图 流计算引擎流计算引擎Flink数据检索数据检索ES消
4、息队列消息队列Kafka、DDMQHbase Phoenix机器学习机器学习TensorFlow 一站式智能数据开发、生产平台一站式智能数据开发、生产平台数据中数据中台台(数据梦数据梦工工场场)数据开发数据开发调度调度同步中心同步中心数据安全数据安全机器学习机器学习算法平台算法平台高质量的高质量的元数据元数据内置内置 规规范范 产出产出语义明确语义明确的的元数据元数据衍生衍生更智能化更智能化的的平台服务平台服务极致简单极致简单只要会会SQL,人人都是数据玩家!完整闭环完整闭环一站式一站式数据开发生产平台底层封装、模块中心化、平台应用模块智能联 动,提提升开发效率升开发效率安全保障安全保障权限控
5、制责任到人,权权限控制责任到人,权限限到字段到字段开发生产数据隔离开发生产数据隔离多种措施保障数据安全行业领先行业领先基于开源引擎开源引擎基线监控机制,标记最核心计算通路,确保核心核心数据及时产出数据及时产出经验积累经验积累国内领先国内领先的大数据体系建设及数据治理经验2019数据同步数据同步数据开发数据开发调度系统调度系统监控报警监控报警数据质量数据质量项目管理和权限项目管理和权限管管理理稳定高效异构数据源同步服务。1集成实时、离线两种方式;2快速扩展,插件式拓展多种同步类型;3自主运维,同步相关指标清晰可见;4为流计算提供实时数据源;2019产品功能产品功能数据同步数据同步数据开发数据开发
6、调度系统调度系统监控报警监控报警数据质量数据质量项目管理和权限项目管理和权限管管理理针对数据开发、临时查询场景,为用户提供更加规范、顺滑的数据开发体验:1智能编辑器,支持各种库表、函数、变量联想输入、动态语法检查等2提供SQL格式化、错误提示,提供更顺滑的SQL开发体验3支持各种SQL(Hive、Spark、Presto)、Shell、PySpark 等 类 型 任 务 支 持,4)支持文件多版本、任务回滚;5)直通调度,字段检测依赖,方便测试和上 线任务。6)提供历史查询记录和大规模数据下载能力(经过安全审批)2019产品功能数据同步数据同步数据开发数据开发调度系统调度系统监控报警监控报警数
7、据质量数据质量项目管理和权限项目管理和权限管管理理支持百万级的离线例行任务调度,保障业务稳定运行。1提供开发、生产两套环境,相互隔离2支持MR/Hive/Spark/Shell等不太任 务类型的任务调度3支持小时、天、周、月多种调度周期配置 4)数据回溯简单易用:支持重跑、支持 多维度运维2019产品功能数据同步数据同步数据开发数据开发调度系统调度系统监控报警监控报警数据质量数据质量项目管理和权限项目管理和权限管管理理智能监控任务运行情况,异常时发出告警。体系化解决“是否报警、何时报警、如何报警、给谁报警”,杜绝无效报警;抽象“数据基线”保证重要数据的及时产出,并动态规划相关任务优先级。结合算
8、法,预测可能的数据延迟,提前预警,将影响面降到最低。升级逻辑,避免漏处理。数据量流量异常数据数据接入任务出错任务延迟基线延迟数据加工表规则监控字段规则监 控自定义监控数据质量存储告警计算告警资源告警2019产品功能数据同步数据同步数据开发数据开发调度系统调度系统监控报警监控报警数据质量数据质量项目管理和权限项目管理和权限管管理理全链路的数据质量管控,实现数据质量校验、通知、管理能力1完整配置 VS 快速配置2强规则 VS 弱规则3表规则 VS 字段规则4预设规则 VS SQL规则201941%产品功能个人资产我的资产我的应用数据管理资产概览资产明细大盘待办趋势应用概览表任务单应用管理趋势&明细
9、成本管理表管理数据编目全局资产资产管理资产分析业务全局管理应用血缘资产仪表盘数据量数据流趋势表任务quota数据加工者数据加工者2019数据管理者数据管理者统一便捷的进行项目管理和权限管理。1)项目管理提供项目自身的增删改查以及项目内的人员、角色、生产账号、库表、存储和队列等资产管理功能。2)权限管理针对人员、角色的权限申请和主动授权,以及过期权限、闲置权限的回收和权限审计等功能。数据同步数据同步数据开发数据开发调度系统调度系统监控报警监控报警数据质量数据质量项目管理和权限项目管理和权限管管理理数据 同步数据开发实时数据源离线调度提交实时运维提交监控告警机器学习数据 质量提交质量告警触发触发实
10、时任务告警梦工场-模块关系图ML任务告警项目 管理2019权限管理梦工场-典型的离线场景数据库导入日志数据导入其他来源数据离线同步实时同步实时同步实时同步导入1导入2导入3导入4导入5导入6日志check计算1计算2计算3计算4计算5计算6计算7计算8导出1导出2导出3导出4导出5数据导入数据加工数据导出2019梦工场-优先级上推策略355数据库导入日志数据导入其他来源数据离线同步3实时同步1实时同步5实时同步5数据导入导入12导入2 3导入3 3导入4 3导入5 5导入6 5日志5check数据加工23135计算1计算2计算3计算4计算5数据导出235计算6计算7计算812345导出1导出2
11、导出3导出4导出5基线基线(业务业务)-任任务务-调度调度机机-yarn 全流程全流程打通打通2019梦工场-业务下线数据库导入日志数据导入其他来源数据离线同步实时同步实时同步实时同步导入1导入2导入3导入4导入5导入6日志check计算1计算2计算3计算4计算5计算6计算7计算8导出1导出2导出4导出5数据导入数据加工数据导出业务下线导出32019平台建设平台建设 之之 数据应用平数据应用平台台2019数易数易敏捷、自助的数据分析、可视数易敏捷、自助的数据分析、可视化化平台。平台。数易解决用户三大痛点问题:数易解决用户三大痛点问题:Where:去哪儿看数据What:数据分析、可视化可以产出哪
12、些内容?How:业务需求那么多,如何快速响应,更方便、自 助实现数据可视化?2019开放的 API 接口可视化能力分析 可视化BIBI层层的的可可扩扩展展性性查询层查询层查询层的可扩展性的可扩展性数据存储层存储层存储层的的可可扩扩展展性性开放分析功能的查询接口扩展对接多种数据源可对接实时、离线、文件多种 源数据类型无缝对接主 流大数据处 理套件数易技术特点2019数据APP滴滴数据App,让用户随时随地第一时间触达数据,掌握业务,结合数据知识圈子分享,是滴滴内部的一站式数据移动平台。2019标标签签系系统统是是基基于于海海量量标标签签进进行行用用户户分群分群、快快速速圈圈出出特特定定人人群群、
13、对对人人群群进进行行计算计算及及分分析,析,支持精细化运营和广告投放等活动支持精细化运营和广告投放等活动的的运营运营支支持服持服务务系统。系统。分析速度快 数据颗粒度足够细 数据交叉分析数据分析数据分析 快速制定策略 提供策略服务 寻找相似人群产品策略产品策略 策略收益分析 目标人群关键指标趋势分析效果追踪效果追踪标签系统2019用户单一维度构成分析用户单一维度构成分析交叉维度分析交叉维度分析用户核心路径漏斗分析用户核心路径漏斗分析2019重点用户关键指标趋势追踪重点用户关键指标趋势追踪标签系统多维度数据分析快速圈定目标用户快速圈定目标用户 制定千人千面的策略制定千人千面的策略2019人群相似
14、性扩展人群相似性扩展探索业务增长探索业务增长标签系统 策略制定图表配置简单灵活支持多源数据接入支持多维度分析2019业务监控大屏监控滴滴核心业务指标,是管理者、产品、运营等观察业务状况的“眼睛”。基于实时计算能力分钟级别发现业务故障业务BI监控监控大屏订单数据毫秒级更新,适配实时数据彰显酷炫视觉特效 实时业务核心数据监控+仪表盘的展示 短信/电话预警配置 支持实时、离线数据大屏 各类展厅、展会数据大屏2019平台建设平台建设 之之 资产管理平台资产管理平台2019一站式资源管理平台2019资产管理平台成本透出 资产概览 账单明细 历史对比治理抓手 删除数据 生命周期管理 下线任务 转交管理入口 团队视图 红黑榜 一体化的元数据2019资产治理资产治理(存储、计算)(存储、计算)存储治理计算治理团队个人部门同源导入数据相似废弃表生命周期过长暴利扫描相似计算无效计算数据倾斜参数不合理2019数据存储和计算治理将治理的控制权交还给每一个使用者,根据业务的发展情况,即时即刻的去管理所属的存储和治理需求。资产管理平台个人资产我的资产我的应用数据管理资产概览资产明细任务表大盘待办趋势应用概览单应用管理趋势&明细成本管理表管理数据编目全局资产资产管理资产仪表盘数据量资产分析业务全局管理应用血缘数据流趋势表任务quota20192019谢谢