1、2018360大数据中心平台演进与实践目录目录01业务介绍业务介绍02演进过程演进过程03实践案例实践案例04未来规划未来规划业务介绍业务介绍最全最全的的样样本本行行为为库库-总日志数十万亿数十万亿条条-每天新增数百亿条数百亿条全球全球域域名名信信息息库库-数十亿数十亿DNS解析记录-每天约新增上百万上百万条-13年年+Whois信息存储网址网址库库 每天查询数百亿数百亿条条 每天处理上百亿上百亿条条 每天拦截访问钓鱼数 超过1.4亿亿URL全球全球文文件件样样本本库库-每天新增数百万样本数百万样本-总样本数上百亿上百亿-20亿亿+黑名单-1亿亿+白名单数据来源:全球5.09亿亿PC安全客户端
2、,7.44亿亿移移动动端安全客户端;360浏览器、搜索终端应等数据来源:互联网基础设施DNS,猎网、补天等各类举报与响应平台,以及 100+第第三三方方数据源大数据服务器规模超过40000台台,总存储数据量接近1.6EB,每天新增超过1PB 每天各种数据计算任务10万个万个,每天处理数据量10PB漏洞漏洞 信息信息社会社会 工程工程钓鱼钓鱼 网址网址恶意恶意 样本样本互联网互联网痕迹大数据痕迹大数据攻击武攻击武器大数据器大数据主机主机 信息信息移动移动 信息信息主动主动 防御防御网址网址 访问访问域名域名 解析解析资产资产搜索搜索IoT个人个人 安全安全视频视频 信息流信息流游戏游戏应用应用
3、产品产品搜索游戏网址导航手机助手相机清理大师浏览器分身大师wifiPC卫士加固宝手机卫士网盾360OS花椒信息流奶糖影视基本属性消费能力上网行为兴趣偏好人流迁徙统计分析活跃产品70+表1000+字段30000+业务介绍业务介绍 业务介绍业务介绍业务介绍业务介绍010203数据加工处理数据加工处理千亿级网页库数据 网页/链接 分析热点数据获取、推荐海量数据检索海量数据检索全球最大病毒库 全球最大的安全漏洞数据产品数据分析产品数据分析产品分析、统计报告演进过程演进过程统一的数据统计、报表工具以产品为单位的数据处理工具一站式的数据治理、加工及挖掘平台演进过程演进过程第一个MR程序上线2010.10老
4、版本数据处理程序全 面下线2011.10移动端SDK发布 报表工具发布2015.06数据处理平台发布,支持 离线处理、在线查询2015.07数据处理平台发布 实时计算功能2016.06大数据平台第一版发布大数据平台第一版发布2017.12发展里程碑演进过程演进过程QDAS+:一站式的数据治理、加工及挖掘平台基础平台基础平台HadoopPaaSCache应用平台应用平台ESSparkFLink报表组件任务调度数据资产数据存储规则引擎算子组件数据采集数据集成MQMricoService业务打点数据业务打点数据接入数据接入数据业务数据业务数据实体数据实体数据应用层数据应用层数据外部数据外部数据权限管
5、理服务服务产品产品&工具工具数据采集服务数据采集服务用户画像分析用户画像分析数据展现服务数据展现服务数据管理服务数据管理服务任务调度服务任务调度服务数据集成服务数据集成服务OLAP分析服务分析服务数据分析服务数据分析服务DAU 预测预测Query词词分类分类用户画像用户画像用户生命周期用户生命周期 管理管理渠道优化渠道优化KPI异动分析异动分析TitanQReportQNote安全数据安全数据数据查询服务数据查询服务演进过程演进过程RDBNoSQLLogStreamTITAN数据接入数据处理QMiner深度学习算法模型特征工程模型评估规则引擎调度管理服务化框架QReport自助分析自助报表QD
6、AM原始明细汇聚应用数数数据据据质安资量全产QProfile标签管理模型管理实体管理QNote在线查询在线分析QOPS资服预源务警管监管理控理数据开放服务数据开放服务基础平台基础平台演进过程演进过程用户画像数据服务数据平台数据资产全域产品数据分层、归一化跨业务的数据价值评估体系统一的数据标准和安全体系统一的用户账号体系自助式创建用户标签跨引擎的计算平台图元化的任务配置多数据源任务处理基于场景化的服务主要改进点电脑软件手机软件视频智能硬件游戏金融理财数据关联度低:海量业务数据孤立存放,无统一ID 体系12数据缺乏维护:部分数据含义不清晰,命名不规范, 相同业务语义数据有多种表现形式3价值体现不足
7、:本产品数据只在产品内使用,对于维度缺失数据补齐难度较大实践案例实践案例数据治理-用户数据归一化实践案例实践案例Step2:虚拟自然人维度建立MIDM1M2M1M2QID数据治理-用户数据归一化Step1:业务行为数据关系提取业务1业务2业务3业务线25+表600+字段20000+数据模型整理连通区域的id聚类创建孤岛id关系对虚拟自然人用户ID实践案例实践案例数据治理-用户数据归一化实践案例实践案例数据处理-演进过程Stage1:分布式数据处理工具:分布式数据处理工具Stage2:数据处理平台化数据处理平台化(Titan) 从传统的数据处理到分布式数 据计算 从计算规则重复编写到规则模 板化
8、 从单一的数据源到支持多种数 据源 支持多种计算引擎 从单一的数据输出到增加报表、 查询等模块 系统功能按照模块化构建单一计算引擎单一计算引擎模板库模板库自定义脚本自定义脚本数据输出数据输出报表报表数据源数据源HDFSHIVEMySQL计算引擎计算引擎SparkMR模板库模板库Spark模板模板MR模板模板Hive模板模板自定义模板自定义模板报表报表在线查询在线查询经营分析经营分析调调 度度权权 限限数据输出数据输出Now:高性能、高可靠、低门槛:高性能、高可靠、低门槛1数据源类型2场景支持 度3资源管 控4使用门槛面临的问题面临的问题1234 数据处理类型单一,场景模板无法自定义; 任务调度
9、类型支持较少; 计算资源分配策略单一,资源利用率不高; 数据资源的管控粒度较粗,数据价值无法最大 化; 数据处理逻辑基于表单式配置,用户体验较差; 任务以列表方式展现,任务在可视化展现方面 较弱; 仅支持HDFS、HIVE、MySQL,支持类型少; 仅支持单一数据源接入;实践案例实践案例数据处理-问题和挑战实践案例实践案例数据处理-系统架构HDFSHBaseHIVEMongoDBKafkaMySQLQBusAPISparkFLinkYARNRuntime组件库规则引擎模板库/API图元接入API接入调 度 监 控权 限 管 理1覆盖业界主流数据源类型,支持 混合数据源接入2计算逻辑和计算流程分
10、离,支持 不同的场景3基于第三代计算引擎的分布式处理4提供多种调度规则,支持不同类 型的任务5基于图元拖拽式的交互,任务配 置无码化数据计算组件应用实践案例实践案例总数据量50+TB日新增数据8000+日运行任务数数据处理-当前现状35+5PB接入业务线200并发任务数实践案例实践案例数据处理-任务管理任务调试场景优化异常处理策略配置默认值补齐防数据倾斜性能&可靠性数据缓存小文件合并实践案例实践案例在线查询-整体介绍设计目标 一次性数据分析工具 数据集成和报表工具一种补充主要特性用户人群功能定位 数据分析人员 具有一定数据分析能力的产品人员 支持多种数据源查询 查询语言统一化 结果集二次查询
11、多数据源混合查询实践案例实践案例在线查询-架构设计多语言执行环境节点管理多语言执行平台资源管理会话管理SQL解析SQL解析引擎适配器元数据查询服务上 下 文监 控1支持多种数据源的查询和数据源 的混合查询2查询统一SQL输入,屏蔽底层数 据源的类型3添加查询会话管理,查询资源统 一管控4查询结果的二次分析处理实践案例实践案例100GB10TB10min1.3h在线查询-当前现状查询性能提查询性能提升升100%20min2.5h查询时查询时延延90% =2S查询资源可重复使用执行器水平扩展资源申请资源扩容用户体验优化用户体验优化批量执行二次分析用户笔记实践案例实践案例未来规划 数据处理生命周期的运维 基于产品场景的解决方案2018THANK YOU !