1、大数据分析与生态系统论坛面向大规模并发实时数仓业务实践- ADBAgendap云计算+大数据时代OLAP新需求p产品技术及创新p面临的技术挑战p阿里ADB关键技术剖析p典型业务落地分享云计算+大数据时代OLAP新需求高并发大容量复杂度实时性云计算+大数据时代OLAP 需求新OLAP项目建设及运维 产品技术选型多样性、组合 应用平滑迁移SQL兼容性 数据模型重新定义 数据质量整治 迁云工程 在线弹性扩展 数据资产保护备份异地容灾产品技术及创新OLAP产品技术发展及创新 行存换代列存行列混存 索引:行索引(B+tree)块索引智能索引 存储:压缩、SSD加速,存储计算分离 计算引擎:MPP 优化器
2、:CBO,RBO,HBO? 硬件加速:GPU Cloud-Native:弹性面临的技术挑战高性能、低成本、更智能、更安全 机器学习:优化器+参数配置动态调整 硬件加速:GPU、FPGA HTAP:成为OLTP和OLAP的一个能力扩展 异地容灾:大数据量异地容灾 安全:加密与安全 多模态数据:结构化+非结构化融合ADB关键技术剖析ADB产品简介 分析数据库服务(Analytic DB,简称:ADB,原ADS),是阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务Analytic DBADB关键技术剖析ADB产品演进历程 阿里集团内部、公有云客户、专有云(私有云)
3、,1万+节点 阿里云大数据三大必选产品之一ADB关键技术剖析ADB整体技术架构ADB关键技术剖析弹性资源管理-ECUADB关键技术剖析多租户在离线负载混合部署ADB关键技术剖析行列混合存储实现SELECT * FROM tab WHERE id=? AND time = ?SELECT sum(c1) FROM tab WHERE time BETWEEN ? AND ?ADB关键技术剖析超大规模的立即可见实时写入500w+sADB关键技术剖析智能全索引n块索引元数据n倒排索引: 分区表的所有列(适用Bitmap索引的列除外)都建了倒排索引,key为排序的列值,value为对应的RowID l
4、ist,所以对于任何列进行FILTER(WHEREkey=value)或者JOIN查询都非常高效。 同时索引采用pForDelta压缩,拥有高压缩比(1:41:32)和解压速度 。nBitmap索引: 对于值重复率高的列-1024,建立Bitmap索引。n区间树索引: 为了加速范围查询,对于类型为数字、时间列同时建立了区间树索引。列数据Max,min,sum,countSelect max(c1) ,count(*) from tab where 12Select * from tab where c113.Data Block30000ADB关键技术剖析计算引擎 MPP+DAG双引擎 流式分
5、时执行 TPC-H/TPC-DS 预告:本周公有云发布TPC-H公开测试,深圳region典型业务落地分享数据链路生产业务数据库OracleMySQLRDS实时同步DTSDataxAnalyticDBDRDSSQL SeverMQ流计算实时写入分析提速分析在线化T+1or小时级同步大数据平台Maxcompute/Hadoop典型业务落地分享经典实时数仓场景典型业务落地分享大数据平台加速场景典型业务落地分享实时计算-结果回流场景典型业务落地分享ADB性能指标数据来自线上业务系统3PB+. 20000+表2000+物理机3万亿规模单集群单DB单表3w+500w+1000亿+性能每秒写入记录每日入库
6、QPS典型业务落地分享阿里集团双十一业务情况 ADB支撑阿里集团大部分OLAP 总共300+业务,单日查询次数1亿+典型业务落地分享GPU硬件加速数据银行离线计算走向实时计算 数据银行是电商平台品牌商的私有数据中枢,典型用户场景 “沉淀,分析,运营”。 PB级别,单表超过万亿 复杂实时计算涉及到多个几百亿表的交并差 内嵌GPU执行引擎,加速Groupby、Hashjoin、Set等算子典型业务落地分享城市大脑pADB 在专有云项目上首次达到 4000+ ECU ,近1000物理机的计算规模p实时数据的写入,TPS达到 500万/secp支撑每日实时写入3000亿条记录pADB 集群每日新增数据
7、量高达 50TBpADB MPP 计算引擎支持超过 QPS 2000 复杂查询 的高并发极速运算典型业务落地分享城市大脑向量计算成为基础服务p“人脸识别” 和 “车辆智搜”等业务p在检索性能和准确度上均达到业界领先水平p在数据规模上可以支撑百亿级别向量库搜索pQPS可支撑1000以上典型业务落地分享某快递集团替换传统业务-去IOE背景:原来平台采用IOE架构,无法弹性,运维成本高。价值:弹性计算、稳定轻松应对双11业务洪峰QPS:2000+,混合查询:详单查询+统计报表全国所有10几万机构客户总机构IOE系统迁移前后阿里云新一代寄递平台实时数据分析平台(ADB)省公司省公司省公司IOE系统IO
8、E系统IOE系统典型业务落地分享某城市交通替换Hadoop+ES海量数据:一个市仅交通卡口过车纪录表达到200亿级别(保存1年)每日增量:市级系统每天数据增量5000万条左右实时可见:过车信息实时查询监控,查询要求RT1s复杂查询:多表查询(join)、模糊查询(like)、轨迹分析(in)、区域碰撞(intersect)、短时过车(having count)33380典型业务落地分享公有云替换MongoDBn 业务诉求:100亿数据,实时入库更新,快速复杂分析n 历史问题:PHP打点数据早期存MySQLmongoDB,性能均无法接受,后来换成n 改造收益:实时入库,复杂分析从分钟级到2秒内分析引业务系统运营系统用户分析擎活动效果APP质量分析ADB数据库典型业务落地分享公有云混合云n 极低成本: 年成本30万+,投入2人1.5个月完成数据化建设n 极高性能:海量数据多表join,毫秒级返回n 极高效率:数据接入到数据化运营上线,仅历时1个半月业务库数据传输分析引擎可视化层QBI报表DTSADB数据库Datav大屏Thank you!