1、 Apache Kylin大数据驱动商务革新李扬Kyligence CTO摘要介绍基于Apache Kylin的多个案例,展现大数据如何驱动商务革新,创造商业价值。移动省级运营商,用Kylin做用户行为数据挖掘和网络质量分析,近百倍性能提升,节约硬件成本1600万国美,用Kylin作为运营参谋分析技术平台,支撑利润、风控、缺货、调价等商业决策京东,用Kylin做数据服务平台,利用Kylin高速高并发的特点,将数据变现eBay,用Kylin多维分析做精准营销,提升收益5%以上eBay,用Kylin实时监控预防渠道流量导入风险,稳健营收易观,用Kylin优化人群画像技术,服务效率提升10倍Hado
2、op Summit 2016开幕Key Note,Hortonworks CEO Rob Bearden:“数据正在改变商业世界”。“Hadoop技术走过了十年,大数据不再是象牙塔和实验室里的玩具,它已经能切实地创造商业价值,深切地改变商业世界。零售商通过大数据技术做精准市场预测,洞察物流效率,每年可以节省7000万美元系统开支,营收增长8%,利润增长3%。保险公司通过实时分析司机的驾驶模式,动态计算行驶风险并奖励安全驾驶,带来每年26亿美金的保险金增长,减少4%的理赔损失。”问题概述:大数据转化商业价值的关键阻力大数据商业模式数据/需求积累大数据平台建设应用实施价值回报技术缺失(超高成本)实
3、施周期长转化效率低-成本-风险-问题描述:缺乏高速高效、易实施的大数据分析技术,阻碍了大数据商业化传统技术大数据能力缺失大数据能力缺失百度,MySQL多维分析平台,百万级封顶eBay,传统数仓不支持大数据,2GB封顶技术实施成本高实施成本高,落地周期长落地周期长eBay,每年过100万美金的数据平台维护费用电信运行商,数据仓库一体机满配,2000多万,不含维保国美,运营参谋系统,计划开发周期一整年大数据处理效率低,利润转化效率低利润转化效率低eBay,搜索引擎流量分析,数据处理滞后2天易观,用户画像人群分析,单次分析耗时3分钟并发量非常有限(100),对比数千分析师商业化模式风险高,回报不确定
4、回报不确定,试错成本高试错成本高快销行业,销量预测案例,3-5年的不确定回报汽车行业,IoT案例,不确定的业务需求传统数据仓库传统RDBMS商用大数据系统MPP一体机SQL on HadoopHive,SparkSQL 解决方案:Apache Kylin成就大数据商业化大数据商业模式数据/需求积累大数据平台建设应用实施利润回报技术缺失(超高成本)周期长效率低支持万亿记录为大数据而生Hadoop平台纯SQL接口无需编程高速实施秒级查询速度互联网级并发百倍生产效率全球最大的开源软件基金会与Apache Kylin团队一起合作使Kylin通过孵化成为顶级项目对我而言非常激动人心,Kylin在技术方面
5、当然是振奋人心的,但同样令人兴奋的是Kylin代表了亚洲国家,特别是中国,在开源社区中越来越高的参与度 Ted Dunning,Apache 孵化项目副总裁,MapR首席架构师顶级项目Apache Kylin,中国唯一的Apache顶级开源项目,核心开发者及贡献者都在中国,Kyligence贡献超过90%代码行业认可连续两年荣获InfoWorld”最佳开源大数据工具奖”,今年更是与Google TensorFlow一起获得该奖用户认可国内外超过100多家大型公司正式使用Kylin作为大数据分析平台解决方案,分布各个行业技术优势在超大规模数据集上,Kylin以O(1)的时间复杂度远远超过其他MP
6、P等技术的O(n)算法,目前没有比Kylin更快,并发更高,成本更省的技术生态社区活跃的社区,众多用户及开发者,广泛的开源、商业合作伙伴体系Apache Kylin 预计算引领无限数据的高速查询Apache Kylin 全球案例,广受好评All rights reserved Kyligence Inc.http:/kyligence.io省级移动All rights reserved Kyligence Inc.http:/kyligence.io移动某省级运营商:用户行为分析中国移动某省级运营商n应用:用户行为数据挖掘,和网络质量分析n数据量:原始数据每天数据增量是20B+条,相当于15+
7、TB之前:Oracle Exadata一体机现状:Kylin/Hadoop集群成本满配Exadata一体机,2000多万,不含维保实现同样需求只要70节点集群,成本在400万左右数据规模只能满足TB级别数据分析支持PB级别分析,能够做以往做不到的明细数据分析和应用数据加工分析模型运算过程超过8小时,客户担心数据量激增后无法满足进一步需求同样任务Kylin只要40分钟查询性能查询性能在秒级到几十秒Kylin只需要几秒甚至毫秒级扩展性可扩展性差,无法水平扩展易于水平扩展,增加节点即可未来发展专有技术,外企产品,未来收到限制基于开源技术,符合公司未来架构发展规划结论基于Kylin的大数据分析平台大大
8、降低了总体拥有成本,并能在此基础上为客户提供远超传统数据仓库分析的数量级和能力,并同时提供更加快速的计算和查询性能All rights reserved Kyligence Inc.http:/kyligence.io移动某省公司:网络流量多维分析平台背景概述用户超过2000万原始数据超过300亿/天ETL入库3TB/天任务规模超过800/天集群规20+400TB固定报表实时性要求不高的场景低延时、灵活性高的场景数据规模数据需求探索性数据分析需求旺盛数据爆炸式增长All rights reserved Kyligence Inc.http:/kyligence.io移动某省公司:网络流量多维分
9、析平台为什么选择Kylin?I.部署速度快II.查询速度快执行资源执行时长备注hive86vcores+380GBMEM1522秒orc+zlibspark sql131vcores+912GBMEM125秒orc+zlibkylinHbase5台节点3.43秒*执行测试语句:select rat,count(distinct msisdn)from phone_usertmp where reportdate=20160225 group by rat;*原始数据大小103GB,条目数11亿All rights reserved Kyligence Inc.http:/kyligence.i
10、o移动某省公司:网络流量多维分析平台选择Kylin后带来的架构变化Kylin弥补了分析/可视化工具与大数据平台之间的鸿沟All rights reserved Kyligence Inc.http:/kyligence.io移动某省公司:网络流量多维分析平台应用场景一:用户上网统计分析Cube1:统计类固定报表n维度:终端制式,域名,网络类型,应用类型,应用名称,日期,小时n指标:次数求和,流量求和,时长求和,ID排重求和Cube2:详单的灵活查询n维度:ID,终端制式,域名,网络类型,应用类型,应用名称,日期,小时(mandatory=Y)n指标:次数求和,流量求和,时长求和Cube Bui
11、ld的统计信息n原始数据47GBnCube1:80分钟(非独占),17GB 膨胀率 36%nCube2:51分钟(非独占),22GB 膨胀率 47%All rights reserved Kyligence Inc.http:/kyligence.io移动某省公司:网络流量多维分析平台应用场景二:流量方向统计分析l通过统计,分析不同方向的流量规模和成功率,以实现精准的网络负载优化l超过40个维度,hostname的基数超过500万单条查询 0.5S精准查询 200SAPPTYPE APPNAME HOSTNAME BJIDCFLAG BJCMCDNDLFLAG BJCMCDNWSFLAG BJ
12、CMCDNLXFLAG BJCMCACHEHWFLAG BJCMCACHEKWFLAG BJCMZHILIANFLAG WSCMFLAG WSCMZHILIANFLAG OTHERFLAG BDRATE BWRATE TIMEDELAY TIMEDELAYFLAG SUCRATE LOADDATE DNSIDC DNSBJCMCDNDL DNSBJCMCDNWS DNSBJCMCDNLX DNSBJCMCACHEWX BJCMCACHEWX DNSBJCMCACHEHW DNSBJCMCACHEKW DNSBJCMZHILIAN DNSWSCM DNSWSCMZHILIAN DNSOTHER
13、All rights reserved Kyligence Inc.http:/kyligence.io某家电网购平台All rights reserved Kyligence Inc.http:/kyligence.io Cube最大Cube10个维度,目前有8个cube,可用指标20+最大表流量数据和部分业务数据10个维度6亿源数据日处理数各类数据40G查询速度90%的查询在5秒内返回5秒某家电网购平台:运营参谋分析平台实用实用快速快速简单简单All rights reserved Kyligence Inc.http:/kyligence.io某家电网购平台:运营参谋分析平台业务目标流量
14、PC/WAP/APP会员用户画像标签销售毛销售,妥投商品各类商品属性仓储自营,联营的商品可卖数24153国美运营参谋12345All rights reserved Kyligence Inc.http:/kyligence.io 某家电网购平台:运营参谋分析平台大数据平台架构FlumeNginxCanalOGG流量日志MySqlKafkaSqoop接口数据Oracle业务DB任务调度HDFSMapReduceHiveSparkKylin数据仓库离线计算缓存数据RedisHBase实时计算Storm数据服务Kylin数据应用运营参谋热力图商家助手服务接口数据平台管理YARNRedisAll r
15、ights reserved Kyligence Inc.http:/kyligence.io 某家电网购平台:运营参谋分析平台应用展现All rights reserved Kyligence Inc.http:/kyligence.io京东云All rights reserved Kyligence Inc.http:/kyligence.io京东云:全面使用Kylin支持内外部数据服务KylinJCloud 京东宙斯nAPI调用分析应用KylinJCloud 京东云海n数据服务平台KylinJCloud 数据云n数据分析支撑平台All rights reserved Kyligence
16、Inc.http:/kyligence.io京东宙斯:API调用分析应用Kylin作为运营人员分析JOS API调用情况的OLAP查询引擎,2015年6月上线使用n日志数据量为100G/天。n对API调用成功率,调用延时等情况的分析,帮助各个应用进行产品改进和故障定位等。n分析查询延迟要求达到秒级Cube规模:单个Cube最大维度16个,最大数据条数100+亿,Cube占用最大存储空间400G查询场景:跨天,周,月方式多维分析查询性能:95%的查询响应时间在15秒以内All rights reserved Kyligence Inc.http:/kyligence.io京东云海:数据服务平台A
17、pache Kylin作为云海数据开放后台原始数据高频率低延时查询引擎,2015年5月上线使用Cube规模:n单个Cube最大维度8个,最大数据条数4亿,最大存储空间800G。30个Cube占用4TB空间。性能:n平均响应时间200ms,查询QPS=50,n平均响应时间1s,查询QPS=200集群规模:n30台(和其他业务共用),可以对Apache Kylin Query Server和HBase集群水平扩容来提高并发查询能力和减小响应时间。第三方合作商ISV开发者商家元数据管理任务管理任务监控数据质量管理京东云海集成开发环境IDE离线计算实时计算批处理引擎流处理引擎数据仓库Spark SQL
18、HadoopHBaseHiveMySQLKylin离线数据推送实时Kafka源JOS API京东云海云海将京东POP商家数据进行ETL处理,分主题进行数据表开放。ISV通过商家授权后,通过京东云海数据开放API获取授权后的数据进行应用开发。ISV开发的应用在京东服务市场进行销售。商家购买应用对自己店铺各项情况进行分析。All rights reserved Kyligence Inc.http:/kyligence.io京东数据云:数据分析支撑平台Apache Kylin作为京东数据云在线数据分析产品数千工坊底层支撑平台数千工坊(DF):通过拖拽,所见即所得的数据操作方式,对海量数据进行可视化
19、分析,使用户轻松上手大数据处理及分析。2016年4月上线对外开放All rights reserved Kyligence Inc.http:/kyligence.io其他用户案例All rights reserved Kyligence Inc.http:/kyligence.ioeBayAll rights reserved Kyligence Inc.http:/kyligence.io易观:用户画像数据服务UserTagApp1.定义人群旅游、医疗、白领集合交、并、补2.在人群上多维分析男女、地域偏好、消费习惯5M+300+25K+200倍变现效率提升!SparkSQLKylin企业版
20、企业版8 SQLs查询23 分钟10 秒并发能力 5100+小结:Apache Kylin是高速高效、易实施的大数据分析平台大数据商业模式数据/需求积累Hadoop+KylinSQL应用价值回报支持万亿记录为大数据而生Hadoop平台纯SQL接口无需编程高速实施秒级查询速度互联网级并发百倍生产效率小结:大数据项目落地经验大数据商业模式数据/需求积累大数据平台建设应用实施价值回报优先选择成熟、低风险的商业模式迭代开发,尽早上线,缩短回报周期实现价值反馈正循环初期投入高,等待业务需求满足ROI慎重选择技术平台防止重复建设成本管理风险管理未来工作持续持续Apache Kylin技术创新技术创新实时流式大数据分析支持复杂数据模型,雪花模型,星座模型自动模型优化持续业务创新持续业务创新树立行业标杆案例提供更好的Apache Kylin企业级产品和服务专业服务企业级产品构建领先的全球开源社区管理与自动化云计算解决方案