作者回复: 非常好,这也是我们实验和实践中更喜欢用ROC的原因。
作者回复: 非常好。
作者回复: 离线主要用AUC和gAUC。但工业界离线指标主要是参考作用,最重要的还是在线指标。 diversity比较重要,但一般是secondary metric,一般不作为主要优化的指标
作者回复: 这个问题还挺有意思。当然是没有标准了,你想怎么比较都行,越是fine grain比较,越能比出东西。 像你说的情况,我们居然发现两个模型在不同时段的效果有不同,如果这个pattern比较固定的话,为什么我们不能把他们综合起来使用,形成一个time based model呢?这不是我们通过评估发现的改进点吗?
作者回复: 赞
作者回复: 正样本比较好说,就是你定义的一些正向的行为,比如点击、播放、购买等等。负样本其实看你的选择了,有纯random的,也有曝光未点击等等。
作者回复: ROC曲线,P-R曲线是对全量样本在一起排序,不区分用户,所以这里说是全量数据。
作者回复: 是这样,如果有好的文章可以分享到留言区。
作者回复: 比如一个点击率预估问题,所有点击样本就是所有的真正正样本的个数。 当然你无法列出真正的ground true,只能通过历史数据来评估。
作者回复: 当然是可行的,非常常用的做法。但要在inference过程中做ctr calibration