1、大数据环境下的推荐系统架构汇报人:余俊良背景毫无疑问,这是一个数据爆发的时代。一分钟内,推特上有 20 万条新消息被发送;在“Facebook”上用户浏览的信息超过 1000 万条。人们在享受网络带来便捷的同时,产生了大量的新型多结构数据。有人说,世界的本质就是数据,大数据将开启一次重大的时代转型。背景当然,如果处理不好大数据,人类可能会被大数据“反噬”,找到自己需要的信息变得更困难,迷失于大数据之中。有用的信息埋没于繁杂的数据中的 现象被称为“信息过载”。在大数据时代,让用户从海量的信息中找到自己想要的信息实在是有点强人所难。时代变了,用户获取知识的方式也应随之改变:利用推荐技术向用户推送个
2、性化服务。推荐系统研究现状目前推荐系统的研究内容和方向主要包括以下几个方面:1、推荐技术的研究2、推荐的实时性与推荐质量3、利用云计算提高推荐系统计算能力4、推荐系统的可解释性5、用户隐私问题推荐系统组成产品核心数据算法推荐系统组成产品同类或者相关商品、店铺推荐买了还买、看来还看等猜你喜欢群体信息披露热门排行榜etc推荐系统组成数据显式数据:能准确的反应用户对物品的真实喜好,但需要用户付出额外的代价-用户收藏-用户评价隐式数据:通过一些分析和处理,才能反映用户的喜好,只是数据不是很精确,有些行为的分析存在较大的噪音-用户浏览-页面停留时间-访问次数推荐系统组成算法算法类型:基于内存的算法 基于
3、模型的算法 基于内容的算法 LR算法计算方式:离线:用户偏好分析、用户购买力分析、关联性分析在线:排序、过滤、增量计算传统的推荐系统框架用户用户行为日志存储系统UI日志系统推荐系统数据反馈传统的推荐系统框架传统的推荐系统框架通常只能应对少量的推荐需求,面对如今的多用户反馈,多商品信息,要求根据上下文进行实时性推荐等是无能为力的。通过将推荐系统部署在云平台,利用集群的计算能力解决大数据下的推荐问题,已是大势所趋。大数据环境下的推荐系统大数据环境下推荐系统的挑战海量用户商品行为流量实时实时采集实时计算实时预测精准用户体验业界口碑大数据环境下的推荐系统一个好的推荐系统分析处理海 量数据快速处理新 增
4、数据和实 时交互灵活加入和 迭代各种推 荐算法低延迟响应 高QPS的推 荐请求大数据环境下的推荐系统基于云平台的推荐系统分层架构大数据环境下的推荐系统整个推荐系统的底层运转和计算大量依赖于Hadoop生态系统计算 超过20000个 MapReduce 任 务 超过100个Spark任务存储 超过200TB HDFS存储 超过20TBHbase使用 每天新生成数 据超过1TB数据流 处理超过 500GB的数据 流 处理超过10亿 条消息大数据环境下的推荐系统Spark与推荐算法 基于内存的数据缓存和计算 基于RDD的数据集逻辑结构 Scala简洁的基于函数式的编程体验Map ReduceSpar
5、k计算大数据环境下的推荐系统存储HDFS 分布式文件系统 Hive 基于HDFS的数据仓库 类SQL查询语言HBase 分布式Key-Value Schema Free大数据环境下的推荐系统数据流Flume 高可用的,高可靠的,分布式的海量日志采 集、聚合和传输Kafka 分布式消息队列 Push&PullStorm 实时计算框架技术架构技术架构Online服务引擎 高并发、低延迟、高稳定 Load Balance/Scalability在线计算 数据缓存 Couchbase/Redis 数据加载和更新 运算和预测技术架构Nearline用户行为收集 从日志服务器收集用户行为 基于Apache Flume进行读取分发用户行为分发 近在线部分将事件发送给Kafka 离线部分将数据存储到HDFS技术架构Nearline基于Kafka+Storm 高稳定性 高实时性 高并发度实现分布式的实时数据计算 内容相关性计算 Online Learning技术架构Offline数据建模用户兴趣建模/商品建模用户/商品聚类内容去重推荐算法Item CF矩阵分解基于内容的推荐机器学习排序模型CTR预估推荐流程上线与迭代理论支持线下测试在线A/B测试全量上线测试失败