深度学习推荐系统实战
王喆
Roku 推荐系统架构负责人,前 hulu 高级研究员,《深度学习推荐系统》作者
33298 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 44 讲
深度学习推荐系统实战
15
15
1.0x
00:00/00:00
登录|注册

27 | 评估体系:如何解决A/B测试资源紧张的窘境?

解决线上A/B测试资源紧张的问题
解决不同评估方法的配合问题
线上Interleaving方法
离线Replay方法的工程架构
不能替代传统A/B测试在测试用户级别指标时
能替代传统A/B测试在测试CTR、播放量、播放时长等指标时
保证模型A和模型B的结果交替领先
通过交替选择模型A和模型B的推荐物品得到最终评估结果
用户收到模型A和模型B的混合结果
不需要用户分组
Prana模块
Context Set模块
Snapshot Jobs模块
未来信息问题/特征穿越问题
通过动态改变测试时间点模拟模型的在线更新过程
线上A/B测试
线上Interleaving评估
离线Replay评估
传统离线评估
解决不同评估方法的配合问题
解决线上A/B测试资源紧张的问题
利用很少的资源快速筛选出效果更好的模型
综合考虑评估效率和正确性
兼顾效率和正确性
由多种不同的评估方式组成
目的
重点注意
适用性
公平性问题
实现过程
Netflix的时光机架构
工程问题
原理
评估体系的层级
构建评估体系的目的
成熟的评估体系应该
评估体系定义
评估体系的建立
线上Interleaving评估方法
离线Replay评估方法
推荐系统的评估体系

该思维导图由 AI 生成,仅供参考

你好,我是王喆。
我们在进行推荐系统评估时经常会遇到两类问题。
一类是在做线上 A/B 测试的时候,流量经常不够用,要排队等别人先做完测试之后才能进行自己的测试。线上 A/B 测试资源紧张的窘境,会大大拖慢我们试验的新思路,以及迭代优化模型的进度。
另一类是,离线评估加上在线评估有那么多种测试方法,在实际工作中,我们到底应该选择哪一种用来测试,还是都要覆盖到呢?
其实,这两个问题的答案是有深刻联系的,并不是孤立的。我认为最好的解决办法就是,建立起一套推荐系统的评估体系,用它来解决不同评估方法的配合问题,以及线上 A/B 测试资源紧张的问题。这节课,我就带你一起来厘清如何建立起一整套推荐系统评估体系。

什么是推荐系统的评估体系?

首先,什么是评估体系呢?我先给它下一个定义,推荐系统的评估体系指的是,由多种不同的评估方式组成的、兼顾效率和正确性的,一套用于评估推荐系统的解决方案。一个成熟的推荐系统评估体系应该综合考虑评估效率和正确性,可以利用很少的资源,快速地筛选出效果更好的模型。
那对一个商业公司来说,最公正也是最合理的评估方法就是进行线上测试,来评估模型是否能够更好地达成公司或者团队的商业目标。但是,正如我们开头所说,线上 A/B 测试要占用宝贵的线上流量资源,这些有限的线上测试机会远远不能满足算法工程师改进模型的需求。所以如何有效地把线上和离线测试结合起来,提高测试的效率,就是我们迫切的需求。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

推荐系统评估体系是解决线上A/B测试资源紧张问题的关键。文章介绍了推荐系统评估体系的构建和重要性,以及离线评估、离线Replay和在线Interleaving等方法的应用。文章还详细介绍了Netflix的Replay评估方法实践,包括时光机的架构和数据处理流程。时光机通过快照作业模块、Context Set模块和Prana模块,实现了离线Replay评估的高效实施。通过这些方法,可以有效解决线上A/B测试资源紧张的问题,提高评估效率和正确性,为推荐系统的优化提供了重要的技术支持。 Interleaving评估方法是一种在线评估方法,旨在比传统的A/B测试更快地得到在线评估结果,同时节约资源。该方法通过让用户在一个推荐列表里同时看到模型A和模型B的推荐结果,然后通过交替选择的方式保证公平性。Interleaving方法能够替代传统A/B测试,特别适用于测试CTR、播放量、播放时长等指标。然而,在测试用户级别的在线指标时,仍需使用传统A/B测试。总的来说,Interleaving方法节约了一半的流量资源,但并非能完全替代传统A/B测试。 文章还总结了推荐系统的评估体系,包括传统离线评估、离线Replay、线上Interleaving和线上A/B测试四个层级。这些层级共同构成一个能够高效筛选候选模型的评估体系。通过深入学习离线Replay实践和Interleaving方法的工程架构和实现细节,读者可以全面了解推荐系统评估体系的建立和运作。 总的来说,本文介绍了推荐系统评估体系的重要性和构建,以及离线和在线评估方法的应用。通过深入学习离线Replay实践和Interleaving方法的工程架构和实现细节,读者可以全面了解推荐系统评估体系的建立和运作。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《深度学习推荐系统实战》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(11)

  • 最新
  • 精选
  • fsc2016
    问题:和选择推荐第一个商品的逻辑一样,如果第一次出现重叠商品,可以随机归入到A或B模型中,以后进行交替并入 老师,实战课程快结束了,学到了很多,非常感谢老师分享和解答问题。请问老师,github还有没有相关的推荐实战项目以供继续学习了。或者在个人提升方面,可以从哪些方面继续提升了。

    作者回复: 大言不惭的说咱们的项目应该是最好的实战项目了。 接下来我推荐找准你刚兴趣的一个点,或者说未来职业发展想深入的点去学习。比如对tensorflow模型感兴趣,就去多学习tf的项目,多实践,多改进。 对大数据感兴趣,就多去实践spark flink,各个项目的官方文档,官方项目就是最好的学习资源。

    2020-12-16
    32
  • 那时刻
    在 Interleaving 方法中,如果模型 A 和模型 B 的结果中有重叠怎么办?我感觉可以随机交替选择模型A或B来显示,如果本次随机选择了模型A,那下次可以选择模型B,这样不丢失模型A和B的信息。 另外,请问老师,线上是否可以同时采用Interleaving方法和AB测试呢?我感觉如果两个测试方法不正交的话,是可以的。

    作者回复: 1、基本是这样的思路。只要保证A和B每次去除重复的概率相同就可以了。 2、可以,只要遵循上一讲AB测试的基本原则就可以了。

    2020-12-16
    2
    6
  • 科学养牛
    历史快照怎么办呢?是还要一天一天的补回来吗

    作者回复: 一般是当天生成保存。如果有的feature没有当天生成快照的话,需要一天天回填

    2021-07-13
    3
  • 笑笑是个好孩子
    时光机里面的S3是什么啊?

    作者回复: S3就是HDFS在amazon 云方案上的实现

    2021-06-29
    2
  • 范闲
    1.A模型和B模型交叉选择。详细点说就是上次选A,这次选B 2.不过从现在的情况来看,本质上可以当做同类模型的不同版本,可以对流量做切分。比如80%走A模型,20%走B模型。离线的时候再颠倒过来走。这样其实可以更好的观察效果

    作者回复: 1 没问题 2 这样做就是传统AB test的方式,没必要使用interleaving

    2021-01-26
  • 浣熊当家
    对于思考题,我的想法是重合的部分既属于A模型也属于B模型,在评估两个模型的时候都把它算上,比较能真实反映A和B的performance

    作者回复: 这应该没有回答我说的问题。

    2020-12-22
    3
  • Wiiki
    王老师,您好,推荐系统实战篇总体快告一段落了,感谢您的倾情分享~ 还想问一下呀,咋们的课程后续会介绍推荐系统实时方面的课程吗,以及flink在实时推荐中的应用~

    作者回复: 会有一节介绍,不会太深,主要是介绍用法

    2020-12-21
  • Alan
    答:我认为在设计一个比较相似度权重累加计算系统。例如:A模型计算结果(a,c,d,a)-(a2,c1,d2),B模型计算结果(a,b,e,d)-(a1,b1,d1,d1),于是推荐的结果(a3,b1,c1,d1,e1),很明显a排在最前面即可。至于保留的问题,可以根据用户点击结果,来调整的A模型与B模型的权重,二者并存。若是必须留存,那就留下推荐模型A((a2,c1,d2))与用户反馈结果(a2,c1),相似度最高的A模型。
    2021-04-08
    2
  • Geek_8a732a
    交替等概率分配到模型A和模型B中去
    2021-08-23
    1
  • Geek_742481
    关于测试框架的介绍,好像老师的https://zhuanlan.zhihu.com/p/68509372 这篇文章介绍的更详细 ^_^
    2021-06-10
    1
收起评论
显示
设置
留言
11
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部