27 | 评估体系:如何解决A/B测试资源紧张的窘境?
该思维导图由 AI 生成,仅供参考
什么是推荐系统的评估体系?
- 深入了解
- 翻译
- 解释
- 总结
推荐系统评估体系是解决线上A/B测试资源紧张问题的关键。文章介绍了推荐系统评估体系的构建和重要性,以及离线评估、离线Replay和在线Interleaving等方法的应用。文章还详细介绍了Netflix的Replay评估方法实践,包括时光机的架构和数据处理流程。时光机通过快照作业模块、Context Set模块和Prana模块,实现了离线Replay评估的高效实施。通过这些方法,可以有效解决线上A/B测试资源紧张的问题,提高评估效率和正确性,为推荐系统的优化提供了重要的技术支持。 Interleaving评估方法是一种在线评估方法,旨在比传统的A/B测试更快地得到在线评估结果,同时节约资源。该方法通过让用户在一个推荐列表里同时看到模型A和模型B的推荐结果,然后通过交替选择的方式保证公平性。Interleaving方法能够替代传统A/B测试,特别适用于测试CTR、播放量、播放时长等指标。然而,在测试用户级别的在线指标时,仍需使用传统A/B测试。总的来说,Interleaving方法节约了一半的流量资源,但并非能完全替代传统A/B测试。 文章还总结了推荐系统的评估体系,包括传统离线评估、离线Replay、线上Interleaving和线上A/B测试四个层级。这些层级共同构成一个能够高效筛选候选模型的评估体系。通过深入学习离线Replay实践和Interleaving方法的工程架构和实现细节,读者可以全面了解推荐系统评估体系的建立和运作。 总的来说,本文介绍了推荐系统评估体系的重要性和构建,以及离线和在线评估方法的应用。通过深入学习离线Replay实践和Interleaving方法的工程架构和实现细节,读者可以全面了解推荐系统评估体系的建立和运作。
《深度学习推荐系统实战》,新⼈⾸单¥68
全部留言(11)
- 最新
- 精选
- fsc2016问题:和选择推荐第一个商品的逻辑一样,如果第一次出现重叠商品,可以随机归入到A或B模型中,以后进行交替并入 老师,实战课程快结束了,学到了很多,非常感谢老师分享和解答问题。请问老师,github还有没有相关的推荐实战项目以供继续学习了。或者在个人提升方面,可以从哪些方面继续提升了。
作者回复: 大言不惭的说咱们的项目应该是最好的实战项目了。 接下来我推荐找准你刚兴趣的一个点,或者说未来职业发展想深入的点去学习。比如对tensorflow模型感兴趣,就去多学习tf的项目,多实践,多改进。 对大数据感兴趣,就多去实践spark flink,各个项目的官方文档,官方项目就是最好的学习资源。
2020-12-1632 - 那时刻在 Interleaving 方法中,如果模型 A 和模型 B 的结果中有重叠怎么办?我感觉可以随机交替选择模型A或B来显示,如果本次随机选择了模型A,那下次可以选择模型B,这样不丢失模型A和B的信息。 另外,请问老师,线上是否可以同时采用Interleaving方法和AB测试呢?我感觉如果两个测试方法不正交的话,是可以的。
作者回复: 1、基本是这样的思路。只要保证A和B每次去除重复的概率相同就可以了。 2、可以,只要遵循上一讲AB测试的基本原则就可以了。
2020-12-1626 - 科学养牛历史快照怎么办呢?是还要一天一天的补回来吗
作者回复: 一般是当天生成保存。如果有的feature没有当天生成快照的话,需要一天天回填
2021-07-133 - 笑笑是个好孩子时光机里面的S3是什么啊?
作者回复: S3就是HDFS在amazon 云方案上的实现
2021-06-292 - 范闲1.A模型和B模型交叉选择。详细点说就是上次选A,这次选B 2.不过从现在的情况来看,本质上可以当做同类模型的不同版本,可以对流量做切分。比如80%走A模型,20%走B模型。离线的时候再颠倒过来走。这样其实可以更好的观察效果
作者回复: 1 没问题 2 这样做就是传统AB test的方式,没必要使用interleaving
2021-01-26 - 浣熊当家对于思考题,我的想法是重合的部分既属于A模型也属于B模型,在评估两个模型的时候都把它算上,比较能真实反映A和B的performance
作者回复: 这应该没有回答我说的问题。
2020-12-223 - Wiiki王老师,您好,推荐系统实战篇总体快告一段落了,感谢您的倾情分享~ 还想问一下呀,咋们的课程后续会介绍推荐系统实时方面的课程吗,以及flink在实时推荐中的应用~
作者回复: 会有一节介绍,不会太深,主要是介绍用法
2020-12-21 - Alan答:我认为在设计一个比较相似度权重累加计算系统。例如:A模型计算结果(a,c,d,a)-(a2,c1,d2),B模型计算结果(a,b,e,d)-(a1,b1,d1,d1),于是推荐的结果(a3,b1,c1,d1,e1),很明显a排在最前面即可。至于保留的问题,可以根据用户点击结果,来调整的A模型与B模型的权重,二者并存。若是必须留存,那就留下推荐模型A((a2,c1,d2))与用户反馈结果(a2,c1),相似度最高的A模型。2021-04-082
- Geek_8a732a交替等概率分配到模型A和模型B中去2021-08-231
- Geek_742481关于测试框架的介绍,好像老师的https://zhuanlan.zhihu.com/p/68509372 这篇文章介绍的更详细 ^_^2021-06-101