1、视频精准推荐系统实践视频精准推荐系统实践目录 背景介绍 精准推荐系统架构 精准推荐算法架构 计划与方向背景介绍-需求场景英语教学自频道长李雷勤奋专业有潜力,优土想扶持他成为“万万计划”的一员流量运营韩梅梅新做了一个餐馆评测,想尽快让更多中关村地区的小清新吃货看到用户 场景定向联合出品捉妖记:哪种片花更能吸引大学生群体?用户调查 反馈背景介绍-展现形态1背景介绍-展现形态2背景介绍-展现形态3背景介绍 需求方 内部业务方:来疯、会员、PGC、分成、生态、游戏、BD 外部业务方:自频道主,PGC 精准推荐系统目的 整合和优化推广位,尽量满足各方需求,使资源位的价值最大化 打造视频生态:扶持自频道主
2、、PGC,并引导他们的行为 保证用户的体验:在合适的时机给合适的用户推荐合适的限定集合内的视频目录 背景介绍 精准推荐系统架构 精准推荐算法架构 计划与方向精准推荐系统-所处位置业务端业务端会员电影游戏系统端系统端用户前端用户前端价值链价值链会员交易PC/移动移动播放页播放页展示来疯收入大推荐系统APPPUSHIKU 弹窗弹窗精准定向精准定向推荐系统推荐系统内容流量售卖版权/自制PGCPUGC用户3.实时匹配定实时匹配定向条件并计算向条件并计算推荐结果推荐结果成长点击游戏联运收益来疯UP/VP系统其他1.输入输入(标签标签)定向条件与出定向条件与出价价2.提供内容提供内容/用户标签定用户标签定
3、向功能向功能4.向目标用户展示精准向目标用户展示精准推荐结果推荐结果5.以点击率和后续转化以点击率和后续转化进行价值评估进行价值评估精准推荐系统架构-概览实时统计系统后台前台实时统计数据实时统计数据推荐项信息推荐项信息推荐项索引计算(离线计算)推荐项索引(所Log系统(kafka)投放系统集群投放内容有推荐项)UP/VP离线数UP/VP在线服推荐宿主系统素材内容据务客户端精准推荐系统架构-链式结构 链式结构 责任链模式(Chain of Responsebility):一系列有序的command能够按照顺序执行,并能够互相交换或者传递执行结果 解耦:方便在线更换处理节点,通过节点组合实现不同的
4、功能 自动降级:方便跳过一些节点,实现自动降级功能UP查询VP查询订单过滤频次控制算法在线计算元信息封装算法链式处理召回(获取候选集)排序重排序精准推荐系统架构-定向投放 通过UP、VP系统获取用户画像和视频画像 通过索引系统将订单索引起来精准推荐系统架构-索引管理推荐计划管理投放引擎推荐项变化消息队列标签/关键字 匹配的推荐项索引管理(在线)推荐项索引索引更新图例推荐计划信息库索引框架定期检测索引管理核心模块读取(投放量级)更新(订单变化量级)框架变化(每日几次)定期同步(日级)索引管理(离线)系统架构经验1-服务稳定性保障第三方服务调用 服务降级 当服务器负载过高时,简化运算逻辑服务状态是
5、否可用否 外部依赖的外部服务出现异常,及时熔断防止主服务被拖垮是本次请求是否作为探测流量是服务调用 降级顺序 算法降级:非线性模型(GBDT)-线性模型(LR)否 分流控制模块关闭 up、tp模块功能关闭 投放缓存内容降级处理逻辑更新服务可用状态结束系统架构经验2-在线debug系统 快速定位问题 发现潜在问题 便于技术和产品调研-找到新的优化方向系统架构经验3-监控报警系统 系统状态监控 CPU、IO、内存 接口响应时间、外部依赖接口响应时间 线程数、jvm状态 自定义sql监控数据库 异常订单报警 运营数据监控 自定义接口监控 支持自定义接口实现复杂的监控功能精准推荐系统架构-关键数据 每
6、天收到的请求量5亿+峰值QPS8000+,平均响应时间20ms以下 每天的曝光4亿+,点击率0.5%以上 满足优土集团十几个事业部的内部推广需求目录 背景介绍 精准推荐系统架构 精准推荐算法架构 计划与方向精准推荐算法架构-概览人工调权重排序符合条件的订单相关视频排序召回(获取候选集)猜你喜欢运营位GBDT/LR点击反馈文本相关性CF候选候选图片相关候选其他候选模型训练图片信息文本信息日志精准推荐算法-召回 用户行为:(Item-based CF)看了又看 收藏了还收藏了 评论了还评论了 内容:同主演、同导演、同嘉宾 同一题材:校园偶像剧、时空穿越类科幻 标题相似:LSH、word2vec 视
7、频内容相似:截图、关键帧 热门 夏季热播 IMDB To p 200、2016奥斯卡获奖电影精准推荐算法-截图召回 截图召回 图片理解:通过CNN embedding到高维空间 计算图片相似性精准推荐算法-排序 模型:LR、FTRL GBDT 特征工程 特征预处理:归一化,one-hot编码,缺失值补充,异常值去除,数据变化 特征选择 Filter:计算特征和目标的相关性,比如方差、卡方检验、相关系数 Wrapper:根据损失函数,递归增加或者消除若干特征 模型的方法:L1正则,基于树模型 实践比较有效的特征选择方法 专家经验:和产品运营的同学多聊 模型选择方法:L1正则,GBDT给出feat
8、ure重要性排序 用非线性模型取代线性模型来减少对组合特征发现的依赖 快速迭代,快速上线测试精准推荐算法-特征 模型特征:候选集自带的特征,比如CF相似度,文本相关性相似度 用户类:人口统计学特征,比如年龄、性别、收入 频道偏好 兴趣标签 使用的终端类别 源视频 所属频道、标签 标题、描述 视频时长 目标视频 视频质量、播放完成率 所属频道、标签 视频时长 上下文(Contextual Info)时间 位置精准推荐算法-重排序 点击反馈 多样性 根据线索分组 人工调权 节奏控制精准推荐算法架构-A/B Test系统 分层实验,促进流量的最大化利用Launch Layer1Launch Laye
9、r2 保证用户真正随机RecLayerUI Layer 为每次实验构建一个实验层Rec/UILayerRec Res LayerPromotedRec LayerPromoted Rec Result Layer*参考paper:Overlapping Experiment Infrastructure:More,Better,Faster Experimentation目录 背景介绍 精准推荐系统架构 精准推荐算法架构 计划与方向计划与方向-技术 实时化 模型实时更新 使用更多的实时化特征:比如用户短时兴趣 增强推荐解释 同标签、同主演、同嘉宾、同类top10、奥斯卡、本站最热 用户显性反馈 深度学习 观看序列分析:RNN、LSTM 视频截图和视频内容分析:CNN计划与方向-产品 让整体的流量智能可控 让推荐流量和运营位的流量可以比较智能可控地支持视频生态建设 引导PGC的行为 给PGC一些运营上的指导 多上传原创视频 持续上传、保持视频质量稳定 视频主题尽量集中 给PGC一些视频制作上建议 视频具体的题材方向 视频标签、视频长度 将这些能力开放给更多的PGCQ&A