1、链家网大数据平台体系构建历程技术创新 变革未来目录一、背景简介二、大数据从0到1的架构落地三、大数据平台化体系的建设四、总结一家卖房的中介公司要什么大数据?业务背景 12001年链家地产第一家门店22014年链家网 成立全面推进O2O打通线上线下服务32015年组建大数据部链家网数据知多少经纪人13万用户2000万线上日UV 千万线下日约看房4万次全国楼盘字典 7000万链家网大数据应用场景房屋估价链家网大数据应用场景房客图谱链家网大数据应用场景BI报表目录一、背景简介二、大数据从0到1的架构落地三、大数据平台化体系的建设四、总结大数据早期落地架构图 搭建Hadoop集群 构建Hive数据仓库
2、 定制化报表开发大数据早期落地架构图特点 简单 开源HIVE数据仓库模型DWSTGODSDWOLAPRPT星型模型 雪花模型大数据从0到1落地成果挖掘分析支撑报表整合数据目录一、背景简介二、大数据从0到1的架构落地三、大数据平台化体系的建设四、总结业务发展带来的新挑战数据需求快速增长数据治理亟需规范数据安全迫在眉睫大数据平台化体系演进新大数据平台化架构工具服务层数据权限调度执行数据质量应用层基础层业务用户画像运营管理搜索推荐房客图谱数据接入KafkaMysql数据存储HiveHDFSHBase数据计算MRStormSparkKylin数据API元数据自助报表数据挖掘PAAS新大数据平台化架构数
3、据需求快速增长数据治理亟需规范数据安全迫在眉睫 自助报表 调度系统 元数据系统 指标平台 数据权限 Ad hoc大数据平台化实践010203应用层工具层基础层点此输入标题点此输入文字大数据平台化实践01应用层点此输入标题点此输入文字BI报表产出慢数据指标无统一定义数据流转脚本多应用层地动仪自助报表点此输入标题点此输入文字 通用报表5分钟配置 支持Mysql / Kylin/ Presto等多数据源 Dashboard可复用组合应用层地动仪自助报表点此输入标题点此输入文字应用层元数据管理和指标平台点此输入标题应用层元数据管理和指标平台点此输入标题点此输入文字 表的增删改查 指标的描述应用层元数据
4、管理和指标平台点此输入标题点此输入文字 完善的元数据管理 核心指标统一定义 数据流转集中管控大数据平台化实践010203应用层工具层基础层点此输入标题点此输入文字大数据平台化实践02工具层点此输入标题点此输入文字ETL作业调度运维难Ad hoc 查询速度慢任务链路 不清晰工具层任务调度系统点此输入标题点此输入文字 数据链路长 任务种类多 依赖类型杂工具层任务调度系统点此输入文字工具层任务调度系统点此输入标题点此输入文字工具层任务调度系统点此输入文字 简单易用的依赖配置 提供ETL常用组件,零编码 一键修复追溯,图形化运维 智能调度,错峰运行工具层Ad hoc点此输入标题点此输入文字050100
5、150200250PrestoSparkSQLHIVESQL速度测试对比10G100G Hive Presto Spark SQL Impala Kylin Druid 广 快工具层Ad hoc点此输入标题点此输入文字 快速查询 语法兼容 容灾HA SQL QueryAdhocPresto DownloadAdapter Spark SQLHIVE仓库Redis/File查询双引擎大数据平台化实践010203应用层工具层基础层点此输入标题点此输入文字大数据平台化实践0基础层点此输入标题点此输入文字集群任务剧增集群数据安全集群资源隔离基础层集群安全和存储点此输入文字 数据权限自上而下打通 用户操
6、作审计日志 用户队列资源隔离机器数100任务数10000数据量1.8PB日增量5 TB基础层集群性能优化点此输入文字 资源预留,保障核心作业 参数调优 冷数据迁移S3存储VM.overcommit_memoryMpress.map.outputetc/fstab data noatime,nodiratime 大数据平台化取得的效果点此输入文字 数据获取效率大大提升,从1-2周提升到1-2天 分析师能多维度快速探索数据,分钟级到秒级 公司核心指标统一管理 数据全生命周期追踪展望点此输入文字 数据血缘 数据预警 混合云 机器学习平台化支撑目录一、背景简介二、大数据从0到1的架构落地三、大数据平台化体系的建设四、总结案例启示传统企业 / 初创团队 如何快速落地大数据 采用成熟的业界方案 深入业务找到契合点案例启示业务迅速增长,平台化思维是一个法宝 自助服务 Eat Your Own Dogfood案例启示平台化的产品需要梳理流程,制定规范 数据流集中管控 核心指标委员会总结链家网为啥要做大数据从0到1快速落地的架构大数据平台体系的三层 谢谢聆听!