1、深度学习在推荐系统的应用技术创新,变革未来推荐引擎架构及策略演进深度学习引入推荐系统的架构和实现 强化学习的分类强化学习引入推荐系统的实现推荐引擎架构召回场景区分多策略融合 策略降级过滤低质量信息/黑名单/已查看信息 Rank产品规则/个性化排序 展示控制多样性控制/推荐理由推荐引擎打分服务推荐引擎策略演进推荐引擎算法模型智能化时代的搜索和推荐学习能力决策能力智能化 体系LRGBDT,FTRL,Online DNNLTR,MAB,CMAB,Online LTR,DRLDeep Neural Networks for YouTube Recommendations推荐引擎架构Deep Neura
2、l Networks for YouTube RecommendationsCANDIDATE GENERATIONDeep Neural Networks for YouTube RecommendationsRANKINGWide&Deep Learning模型将深度神经网络(DNN)和逻辑回归(Logistic Regression)模型并置在同一个网络中将离散型特征(Categorical Feature)和连续型特 征(Continuous Feature)有机地结合在一起Wide&Deep Learning模型Wide&Deep 模型的TensorFlow实现Wide Model:
3、Linear Model with Crossed Feature ColumnsWide&Deep 模型的 TensorFlow实现Deep Model:Neural Network with EmbeddingsWide&Deep 模型的 TensorFlow实现Combining Wide and Deep Models into One排序方法Learning to Rank(LTR)在商品维度进行学习,根据商品的点击、成交 数据构造学习样本,回归出排序权重有大量的样本是不可见的,所以LTR模型从某种 意义上说是解释了过去现象,并不一定真正全 局最优的两种解决方案在离线训练中解决 on
4、line 和 offline 不一致的 问题Counterfactual Machine Learning在线 trial-and-error 进行学习Bandit Learning 和 Reinforcement Learning强化学习简介把推荐系统看作智能体(Agent)、把用户看做 环境(Environment),则商品的推荐问题可以 被视为典型的顺序决策问题。Agent每一次排序 策略的选择可以看成一次试错(Trial-and-Error),把用户的反馈,点击成交等作为从环 境获得的奖赏。强化学习分类Model-free 和 Model-basedPolicy-Based 和 Val
5、ue-BasedQ-learning,Sarsa,Policy Gradientspolicy gradientsQ-learning,sarsa强化学习分类回合更新和单步更新在线学习 和 离线学习Monte-carlo learning 和基础版的 policy gradientsQlearning,Sarsa,升 及 版 的 policy gradientssarsa,sarsa lambdaQ learning,Deep-Q-Network问题建模MDP可以由一个四元组表示:1S为状态空间(State Space);2A为动作空间(Action Space);3R为奖赏函数;4T为环境状
6、态转移函数(State Transition Function)问题建模状态定义在每一个PV请求发生时,把在最近一段时间内点 击的商品的特征作为当前Agent感知到的状态奖赏函数定义用户根据排序的结果进行的浏览、商品点击或购买 等行为都可以看成对Agent的排序策略的直接反馈问题建模算法设计Q-learning(Tabular)Q-learning的算法实现问题建模奖赏塑形(Reward Shaping)势函数(Potential Function):学习过程中的子目标(Local Objective)把每个状态对应PV的商品信息纳入Reward的定义中,将势函数定义为问题建模在单商品的推荐场
7、景,a对应的是单个商品。我们 的目标是学习在状态s下采取动作a所能获得的累积 奖励(的期望值)多商品推荐场景:假设用户是否会点击单商品的决 策是独立的Actor-Critic结合了 Policy Gradient(Actor)和 Function Approximation(Critic)的方法.Actor 基于概率选行为,Critic 基于 Actor 的行 为评判行为的得分,Actor 根据 Critic 的评分修改选行为的概率.Actor-model 在某种意义上,我们看成是一个从 state生成action的 Generative ModelCritic-model 看成是基于状态-策略输入下的 Q 值回归网络的 Discriminative Model整个数据理解和建模过程就通过这样的系统新运作方式来使得 生成式模型更好地去发现未知世界中的True Positive 样本更多强化学习方法Deep Deterministic Policy Gradient(DDPG)Asynchronous Advantage Actor-Critic (A3C)