24 | 离线评估:常用的推荐系统离线评估方法有哪些?
该思维导图由 AI 生成,仅供参考
离线评估的主要方法
- 深入了解
- 翻译
- 解释
- 总结
本文介绍了推荐系统离线评估方法的重要性,并详细介绍了常用的离线评估方法,包括Holdout检验、交叉检验、自助法、时间切割和离线Replay。Holdout检验通过随机划分训练集和测试集进行评估,交叉检验通过多次训练和评估取平均值来减少随机性,自助法通过自助采样解决样本规模较小时训练集减小的问题,时间切割法避免引入“未来信息”,离线Replay方法则仿真线上更新过程。文章还介绍了如何使用Spark实现这些评估方法,为读者提供了全面的了解和选择依据。总之,各种评估方法都有优劣,读者需要根据实际情况选择合适的评估方法。
《深度学习推荐系统实战》,新⼈⾸单¥68
全部留言(10)
- 最新
- 精选
- 张弛 Conor思考题:离线Replay和RL都是动态更新模型的,都需要不断的测试和再训练模型。增强学习(如DRN)是通过不断接受反馈,在线更新模型的,所以评估方法不能引入未来信息,而简单的时间切割评估方法又不能模拟模型的更新频率,所以离线Replay是增强学习的唯一离线评估方法。
作者回复: 我的天,说的太好了,我本来以为这是一道比较难的思考题。基本就是我想要的答案,给你点赞。
2020-12-07397 - Geek_033ad5老师,在交叉检验的例子中,因为是使用的spark,那模型也必须是用spark实现的模型吧?那如果是tf实现的模型,该怎么做交叉检验呢?感谢!
作者回复: 是的,示例代码中是spark的交叉验证代码,并不支持tf模型。 如果确实需要的话,需要根据交叉验证的思想自己实现。
2021-01-104 - KongTzeSing老师,我想问问,如果模型用early_stop来调整训练轮数,需要单独拿1天数据当验证集吗,然后测试集是验证集后一天的数据。就是想问上线之后每天跑是否也需要有“验证集”的概念?
作者回复: 没有绝对,但early stop最好是有验证集,通过验证集来确定训练收敛的轮数,上线之后我一般会确定训练轮数来避免一些不可控的问题。
2020-12-1123 - 浩浩可以用来离线模拟和评估强化学习的在线过程
作者回复: 是这样
2020-12-212 - 浣熊当家如果通过划分userID来划分训练集和测试集,是不是也可以避免引入未来信息呢?
作者回复: 可以是可以,但效果会非常糟。你想想效果为什么会非常糟。
2020-12-0872 - 那时刻文中提到自助法在 n 次采样之后,将这些没有被抽出的样本作为验证集进行模型验证。如果n次采样之后导致没有被抽出的样本比较多,从而导致验证集比较大,这种情况下,需要抛弃这次采样么? 另外,请问老师一个样本数据有偏斜的问题。比如正例样本有10000例,而反例样本之后100例,采用什么方法对模型进行评估呢?
作者回复: 1、一般不建议这样做,需要n的规模比较大,进行充分的采样。 2、关注下一节课,选取AUC等合适的评估指标。
2020-12-072 - Peter老师,有个最近遇到的一个疑问,就是我有30天的数据,我的模型(非rl模型),我现在模型使用数据(时间分割法)是前五天做训练,后一天做测试,以六天为一个窗口进行滑动。但是看到动态replay,想问对于非RL的模型(NLP模型),动态replay评估是否有必要? 如果采用动态replay那是否需要有一个时间上限? 比例前15天训练,随后的15天进行replay,一旦完成就完成评估,还是得不断延迟时间观察平均的性能? 不知道描述清楚没有。。。
作者回复: replay是要仿真你线上的模型更新环境和过程。只要你的模型在生产环境下要更新,就应该使用replay的方法,和RL没有关系。 第二个问题也和你的生产环境相关,采用一样的训练和更新频率就好
2021-07-151 - 浣熊当家老师我突然想不清楚了,模型训练中,我们的输入是各种用户 ,产品,场景的特征,然后输出是什么来着? 比如说其中一条sample的输入特征会是某个用户A在时间点t (-5) 到 t(0) 的观影序列, t(0) 的 场景特征, t(-5)到 t(0) 时刻的 产品特征, 然后要预测的是t(1) 时刻, 用户A点击(或者评论)的 物品ID这样吗? 这个物品ID也是个embedding向量吗?
作者回复: 训练的输出是预测这个样本的标签,也就是0或者1。 最终模型的输出是预测的概率,也就是预测这个样本标签为1的概率。
2020-12-0831 - Geek_3c29c3老师,书中8.4节有淘宝数据集和亚马逊数据集的AUC对比,请问这些数据源和模型baseline可以在哪里获得啊?
作者回复: 书中的对比是原paper中的数据,是别人公司的内部数据。 能不能获得要看别人开不开放数据集和源代码。
2020-12-071 - Geek_13197e请教老师,像传统的FM等模型,输出的数据是Tabular形式的数据,因此这些评估方法都是合理的。但对于DIN这种序列模型,一个正样本对应一个负样本,然后预测Next Item来计算AUC,是不是不用考虑时间切割的问题了。2023-01-16归属地:福建