• 张弛 Conor
    2020-12-07
    思考题:离线Replay和RL都是动态更新模型的,都需要不断的测试和再训练模型。增强学习(如DRN)是通过不断接受反馈,在线更新模型的,所以评估方法不能引入未来信息,而简单的时间切割评估方法又不能模拟模型的更新频率,所以离线Replay是增强学习的唯一离线评估方法。

    作者回复: 我的天,说的太好了,我本来以为这是一道比较难的思考题。基本就是我想要的答案,给你点赞。

    共 3 条评论
    95
  • Geek_033ad5
    2021-01-10
    老师,在交叉检验的例子中,因为是使用的spark,那模型也必须是用spark实现的模型吧?那如果是tf实现的模型,该怎么做交叉检验呢?感谢!

    作者回复: 是的,示例代码中是spark的交叉验证代码,并不支持tf模型。 如果确实需要的话,需要根据交叉验证的思想自己实现。

    
    4
  • KongTzeSing
    2020-12-11
    老师,我想问问,如果模型用early_stop来调整训练轮数,需要单独拿1天数据当验证集吗,然后测试集是验证集后一天的数据。就是想问上线之后每天跑是否也需要有“验证集”的概念?

    作者回复: 没有绝对,但early stop最好是有验证集,通过验证集来确定训练收敛的轮数,上线之后我一般会确定训练轮数来避免一些不可控的问题。

    共 2 条评论
    3
  • 浩浩
    2020-12-21
    可以用来离线模拟和评估强化学习的在线过程

    作者回复: 是这样

    
    2
  • 浣熊当家
    2020-12-08
    如果通过划分userID来划分训练集和测试集,是不是也可以避免引入未来信息呢?

    作者回复: 可以是可以,但效果会非常糟。你想想效果为什么会非常糟。

    共 7 条评论
    2
  • 那时刻
    2020-12-07
    文中提到自助法在 n 次采样之后,将这些没有被抽出的样本作为验证集进行模型验证。如果n次采样之后导致没有被抽出的样本比较多,从而导致验证集比较大,这种情况下,需要抛弃这次采样么? 另外,请问老师一个样本数据有偏斜的问题。比如正例样本有10000例,而反例样本之后100例,采用什么方法对模型进行评估呢?

    作者回复: 1、一般不建议这样做,需要n的规模比较大,进行充分的采样。 2、关注下一节课,选取AUC等合适的评估指标。

    
    2
  • Peter
    2021-07-15
    老师,有个最近遇到的一个疑问,就是我有30天的数据,我的模型(非rl模型),我现在模型使用数据(时间分割法)是前五天做训练,后一天做测试,以六天为一个窗口进行滑动。但是看到动态replay,想问对于非RL的模型(NLP模型),动态replay评估是否有必要? 如果采用动态replay那是否需要有一个时间上限? 比例前15天训练,随后的15天进行replay,一旦完成就完成评估,还是得不断延迟时间观察平均的性能? 不知道描述清楚没有。。。

    作者回复: replay是要仿真你线上的模型更新环境和过程。只要你的模型在生产环境下要更新,就应该使用replay的方法,和RL没有关系。 第二个问题也和你的生产环境相关,采用一样的训练和更新频率就好

    
    1
  • 浣熊当家
    2020-12-08
    老师我突然想不清楚了,模型训练中,我们的输入是各种用户 ,产品,场景的特征,然后输出是什么来着? 比如说其中一条sample的输入特征会是某个用户A在时间点t (-5) 到 t(0) 的观影序列, t(0) 的 场景特征, t(-5)到 t(0) 时刻的 产品特征, 然后要预测的是t(1) 时刻, 用户A点击(或者评论)的 物品ID这样吗? 这个物品ID也是个embedding向量吗?

    作者回复: 训练的输出是预测这个样本的标签,也就是0或者1。 最终模型的输出是预测的概率,也就是预测这个样本标签为1的概率。

    共 3 条评论
    1
  • Geek_3c29c3
    2020-12-07
    老师,书中8.4节有淘宝数据集和亚马逊数据集的AUC对比,请问这些数据源和模型baseline可以在哪里获得啊?

    作者回复: 书中的对比是原paper中的数据,是别人公司的内部数据。 能不能获得要看别人开不开放数据集和源代码。

    
    1
  • Geek_13197e
    2023-01-16 来自福建
    请教老师,像传统的FM等模型,输出的数据是Tabular形式的数据,因此这些评估方法都是合理的。但对于DIN这种序列模型,一个正样本对应一个负样本,然后预测Next Item来计算AUC,是不是不用考虑时间切割的问题了。
    
    