1、2018.10.14大数据分析驱动产品与运营曹犟 神策数据联合创始人 & CTO大数据的本质“信息是用来消除不确定性的东西”香农 信息论“大数据的本质,就是通过信息消除不确定性” 吴军 硅谷之谜大数据驱动的价值驱动业务决策驱动产品智能运营监控产品迭代营销分析商业决策产品改造体验升级指标提升其他场景大数据数据驱动闭环建模分析反馈采集分析类型统计分析 挖掘涉及内容反馈类型决策反馈产品反馈数据流采集目标客户端数据业务端数据 第三方数据 线下数据数据存储数据建模 数据处理经典的数据分析平台架构应用反馈应用反馈数据建模数据建模数据分析数据分析数据采集数据采集营销渠道优化网站优化驱动业务决策注册转化分析产
2、品流程分析跳出率分析AB测试精准用户运营流失客户挽回用户画像反作弊驱动产品智能个性化推荐精准广告搜索优化用户标签挖掘可视化自助分析指标体系多维分析监控报警用户分群标签管理自动化标签标签输出数据模型平台客户价值模型流失预测模型个性化推荐模型数据模型文本处理元数据数据质管理量管理任务 调度格式转换数据清洗数据存储聚合连接ID-Mapping客户端APPH5服务器历史数据导入小程序WEB第三方数据CRMERPPOSWi-Fi 探针传感器DW业务端数据库线下数据摄像头建模分析反馈采集分析类型统计分析 挖掘涉及内容反馈类型决策反馈产品反馈数据流采集目标客户端数据业务端数据 第三方数据 线下数据数据存储数
3、据建模 数据处理大数据数据驱动闭环宏观的宏观的“大大”多种数据源多种数据源时效性时效性任意维度、任意指任意维度、任意指标标大大全全细细时时秒级数据导入秒级数据查询用户属性行为属性单一指标符合指标数据量大范围广客户端服务器业务系统历史数据数据采集的原则数据采集是应用的根基数据采集的内容 用户行为数据 用户数据 业务运行数据 内容数据数据类型 第一方 第三方数据所有者 线上数据 线下数据数据来源一个典型银行的用户行为相关数据采集客户端服务器日志业务操作线下行为JavaScript、iOS、Android按钮点击、下拉框选择Nginx、UI、Server浏览、检索、理财产品CRM、客服、中台等暂无实
4、际案例,探索中1234中国银联用户行为数据应用案例产品线神策数据PaaSBI 系统日活、月活日活、月活其他全局指标其他全局指标银联 大数据交易数据交易数据行为数据行为数据构建反黄牛风控体系全局指标明细数据管理层管理层技术团队技术团队产品团队产品团队运营团队运营团队营销团队营销团队分析团队分析团队日活、月活日活、月活其他数据iOSH5安卓运营分析新用户占比新用户占比渠道来源占比渠道来源占比注册转化注册转化转化分析开户转化开户转化付费转化付费转化全局视角监控业务表现日程数据驱动数据获取数据获取数据应用数据应用全角色全角色银联云闪付Apple Pay设备 指纹加密 传输SDK开源改造:建模分析反馈采
5、集分析类型统计分析 挖掘反馈类型决策反馈产品反馈数据流采集目标客户端数据业务端数据 第三方数据 线下数据涉及内容数据存储数据建模 数据处理大数据数据驱动闭环Event 事件When:事件发生的实际时间User 用户通过 User ID 与相关的 Event 关联记录和收集用户的长期属性(User Profile)User IDItem 实体和用户行为相关的实体(商品、视频、小说等)Item IDWhere:事件发生的地点Who:参与此事件的用户是谁What:描述用户所做的这个事件的具体内容How:用户从事这个事件的方式通过 Item ID 与相关的 Event 关联一种常见的数据基础模型数据处
6、理数据的清洗字段的扩充非格式化数据的格式化必要的 Join 与 UnionID-Mapping统一归档:数据处理将从不同来源采集到的数据 统一归档到数据基础模型上ETL 产品:在多数据源采集的情况下,很难找到 直接可用的 ETL 产品搭建好调度、计算框架、质量管理和元数据 管理等通用工作结合业务完成现成的工作为不同的数据模型选择不同的存储方案Event 数据追加为主数据量极大 列极多分析型应用每次涉及的列较少 有批量计算和处理的需要列存储是一种较好的存储选型:ORCFile、Parquet为了保证时效性,则可以扩展为行列 混合的方案User 数据/Item 数据有更新、删除的需要 数据量相对较
7、小有单独的分析需求,也需要与 Event数据关联分析可以选择具有一定 OLTP 能力的OLAP 数据库:Kudu、Vertica 等不同存储下的关联分析可能需要改造查询引擎大数据数据驱动闭环建模分析反馈采集分析类型统计分析 挖掘涉及内容反馈类型决策反馈产品反馈数据流采集目标客户端数据业务端数据 第三方数据 线下数据数据存储数据建模 数据处理数据统计与分析的两种方法论分析需求计算规则定制开发模型抽象需求抽象自助分析 通过例行的报表满足基本的指标获取需求 临时性的需求通过新的开发解决 抽象的模型覆盖指标体系以及大部分分析需求 通过友好的交互让需要数据的人自主获取数据理想中的数据驱动现实中的数据驱动
8、时间都等没了! 时机都错过了!理想中的数据驱动业务人员自助满足需求, 把时机握在手中!自助式的数据分析产品、运营、市场 管理者日常数据监测产品改进分析广告投放分析精细化运营银行用户转账汇款理财贷款浏览注册开户时间 | 地域 | 渠道 | 机型 | 理财产品 | 任意自定义字段用户行为序列神策分析可视化分析界面 | SQL查询 | 专业API | 搜索用户事件分析漏斗分析留存分析用户分群线索质量评估分 析建 模采 集分布分析用户路径网页热力分析App 点击分析用户属性间隔分析标签体系用户画像推荐引擎反作弊营销自动化技术方案的选型MOLAP ROLAP适用场景:以指标与报表类型的分析为主维度与指标
9、相对固定没有复杂的分析需求,如:漏斗分析、 路径分析等对数据刷新的时效性没有特殊要求对查询响应时间有较高要求一些技术选型:Druid、Kylin 等适用场景:维度与指标需要灵活组合有复杂的分析需求期望分析结果不仅仅是数据,更能看到数 据后的细节有很强的数据刷新时效性需求局限性:查询 QPS 有限,查询响应时间有限数据建模银行业关键数据指标示例开户用户数开户成功率OCR识别通过率OCR识别耗时活体识别通过率活体识别耗时开户绑卡监控开户绑卡监控用户总人数新增新客人数活跃用户人数不同风险等级用户数用户申购留存率 用户分布情况(申购 次数、申购金额)用户质量监控用户质量监控新客申购人数申购次数平均申购
10、金额转入/转出平均金额 不同转出方式人数(快 速转出、普通转出)余额自动转入设置人数理财申购监控理财申购监控页面浏览时长页面触达位置交易密码输入耗时验证码输入耗时行为偏好监控行为偏好监控大数据数据驱动闭环建模分析反馈采集分析类型统计分析 挖掘涉及内容数据流采集目标客户端数据业务端数据 第三方数据 线下数据数据存储数据建模 数据处理反馈类型决策反馈产品反馈数据反馈决策建立基于数据的驱动闭环,驱动业务决策发现问题发现问题分析原因分析原因用户分群用户分群精准营销精准营销效果验证效果验证数据驱动产品迭代:需求分析、产品迭代和效果验证行业学习撰写详细需求文档研发过程跟进策略定位用户故事迭代需求整理用户调
11、研场景设计上线前培训用户反馈数值设计A/B测试验证内部需求逻辑与流程设计上线后环比量化追踪竞品分析交互文档数据优化用户行为属性数据分析验证方案、数据可用性测试业务数据分析产品/服务运营策略制定指标010203需求定义与分析产品决策与设计效果验证与迭代注册开户充值投资激活用户提升激活-注册的转化率提升注册-开户的转化率提升开户-投资的转化率第一关键指标:首投转化率数据驱动产品迭代:某专业理财平台案例首页优化,提升注册转化老版本首页Banner 轮播与新手利益相关的页面点击高 首页注册入口注册的用户占比 43% “我”从“我”中注册的用户占比 37% 具体优化目标 提升首页新手福 利的聚焦只相差
12、6%与预期不符数据驱动产品迭代:某专业理财平台案例去掉轮播位,改为安全传 达头图,点击后跳转安全 保障页新增新手状态提示,根据 用户状态变化更突出“立即注册”视 觉焦点首页51%(43%)“我”页30%(37%)其它页19%(20%)注册成功触达“注册”页面数据驱动产品迭代:某专业理财平台案例7.2.0版本(5.23-5.25)新用户激活注册率对照版本(5.03-5.05)增长幅度为37%全民享加息518理财节对照7.2.0上线华为渠道新用户激活注册转化率走势(%)数据驱动产品迭代:某专业理财平台案例数据驱动用户运营:构建标签体系,实现精准营销闭环反馈访问注册开户入金交易策略1策略2策略3策略
13、4用 户 触 达 平 台产品用户行为数据触达策略闭环验证转化漏斗分析用户留存分析策略效果评估活动 ROI 分析人群特征分析阶段1只有产品本身无行为数据触达方式简单阶段2有用户行为数据漏斗锁定不同场景下的流失无触达策略,或触达方式单一阶段3基于触达方式、内容、时间有不同策略策略诞生效率低,时效差无法验证策略优劣阶段4完整闭环,验证营销活动效果效果反馈,迭代策略本身人群特征再分析,更新标签体系未注册注册未开户开户未入金入金未交易数据驱动用户运营:构建标签体系,实现精准营销闭环反馈属性特征偏好特征 品类特征 竞品特征 行为特征种子人群特征提取人群放大,构建标签体系基于用户行为数据的标签管理平台用户标
14、签体系的技术实现数据流向x调度器Monitor元数据子系统ParquetHDFS存储子系统Kudu数据接入子系统NginxExtractorKafka导入子系统Data Loader批量计算子系统MergerSegmenterYarn前端展示子系统查询引擎ImpalaSQuery EngineWeb Server标签存储与管理Tag Manager标签在线服务在线在线 APISDKAPP SDKWEBH5小程序业务数据导入后端 SDK日志导入传感器数据导入已有标签导入Redis数据学习反馈产品智能的应用探索在线 分析搜索 优化用户 画像文本 挖掘反作 弊精准 广告个性化 推荐智能推荐智能推荐
15、引擎引擎基于行为数据的深度学习召回方案:召回方案: 基于基于 Google 最新深最新深 度学习论文度学习论文 也是也是 YouTube 采用的采用的 召回模型方案召回模型方案参考阅读:参考阅读:“Deep Neural Networks for Youtube Recommendation”Paul Covington, Jay Adams, Emre Sargin指标计算方式目标点击率总点击量总展示量提升 20%人均点击量频道总点击量频道UV提升 10%人均浏览时长频道浏览时长频道UV提升 5%评估体系:统计指标相关性指标计算方式内容分析兴趣标签基于客户提供的关键词用户画像用户的关键词偏好
16、符合用户的历史行为内容相关性推荐内容比例符合用户画像中的关键词偏好行为相关性推荐用户根用户内容的共现概览比随机内容和 用户浏览内容的共现概览高 10 倍推荐结果推荐内容比例符合 70%热门 + 20%最新 + 10%兴趣某视频平台个性化推荐案例关于神策数据核心创始团队来自百度大数据部, 从零到一构建了百度大数据日志平 台,拥有十一年的数据分析实操经 验。产品团队成绩资本神策分析 (Sensors Analytics) 针对企业用户的深度数据分析平 台,提供从数据采集到分析应用的 完整数据驱动解决方案。神策数据(Sensors Data) 荣获 2018 年 大 数 据 “ 星 河 (Galaxy) 奖” 最佳大数据产品奖。正式付费 客户超过 500 家。完成 C 轮 融资,华平资本领投, 红杉资本、 DCM等跟投。总融资 额超 4 亿元。与数据驱动先锋者同行电子商务电子商务在线教育在线教育文化娱乐文化娱乐互联网互联网+其他其他银行保险证券支银行保险证券支付付零售零售航空旅游航空旅游互联网互联网企业服务企业服务在线医疗在线医疗互联网金融互联网金融神策数据,帮助客户实现数据驱动!THANKS更多案例及场景分析