25 | 评估指标:我们可以用哪些指标来衡量模型的好坏?
该思维导图由 AI 生成,仅供参考
低阶评估指标
1. 准确率
- 深入了解
- 翻译
- 解释
- 总结
推荐系统评估指标的选择对于模型性能的评估至关重要。本文介绍了低阶和高阶评估指标的分类及其应用。低阶评估指标包括准确率、精确率、召回率、对数损失和均方根误差,用于评估模型的分类和回归能力。而高阶评估指标包括P-R曲线、ROC曲线和平均精度均值,用于综合评估模型在不同数量推荐结果上的性能。文章详细解释了每个指标的计算方法和应用场景,并强调了P-R曲线、ROC曲线和mAP的重要性。在选择评估指标时,作者建议根据业务场景选择2~4个有代表性的离线指标,进行高效率的离线实验。总的来说,评估指标的选择是一个动态深入的过程,需要根据评测的“深度”来决定。读者通过本文可以更好地了解推荐系统评估指标的应用和意义,以及在模型离线评估中如何选择合适的指标进行评估。
《深度学习推荐系统实战》,新⼈⾸单¥68
全部留言(21)
- 最新
- 精选
- Geek_b86285ROC曲线,FPR=FP/N,TPR=TP/P,当我们将负样本复制10倍时,TPR显然不会变,FPR是负样本中被预测为正样本的比例,这其实也是不变的,那整个ROC曲线也就没有变。PR曲线,精确率P=TP/(TP+FP),TP不变,FP增大,而召回率R没有变,显然ROC曲线更稳定一些
作者回复: 非常好,这也是我们实验和实践中更喜欢用ROC的原因。
2020-12-26334 - 张弛 ConorP-R曲线的优点是能够表现精确率与召回率平衡的过程,缺点是无法显示明确的阈值,且缺乏对TN的考量。ROC曲线不仅能表现假阳性率与真阳性率的平衡,还可以表现出具体的阈值,也考量了TN,但缺乏对FN的考量。在正负样本不均衡的情况下,FN会较大,FP会较小,因此正样本性能的改进主要在于降低FN,P-R曲线中的召回率更关注FN,所以使用P-R曲线更好。
作者回复: 非常好。
2020-12-09414 - PatrickPro2老师,工业界在用指标评估排序列表结果时,最最常用的指标是啥?我上学期上了cmu的搜索引擎这门课,我们教授说MAP和NDCG是最常用的,其中NDCG应该是效果最好的,因为NDCG考虑到了每个数的实际相关性和模型预测出的排序顺序。 我还有个问题:Diversity在推荐系统中重要吗?如果重要的话,是不是除了以上这些指标,还需要用到诸如Precision-Intent aware@K和alpha-NDCG这些指标进一步分析模型效果呢?
作者回复: 离线主要用AUC和gAUC。但工业界离线指标主要是参考作用,最重要的还是在线指标。 diversity比较重要,但一般是secondary metric,一般不作为主要优化的指标
2021-05-255 - Sebastian老师,想额外问一个关于CTR指标计算的问题:在AB测试中,如何合理的比较AB测试中两者的CTR指标呢?会不会一天内,某个时间段A桶的CTR高于B桶,但是某个时间段A桶又小于B桶,那这种该如何比较AB哪个算法更好?
作者回复: 这个问题还挺有意思。当然是没有标准了,你想怎么比较都行,越是fine grain比较,越能比出东西。 像你说的情况,我们居然发现两个模型在不同时段的效果有不同,如果这个pattern比较固定的话,为什么我们不能把他们综合起来使用,形成一个time based model呢?这不是我们通过评估发现的改进点吗?
2020-12-094 - 那时刻提供一个通过confusion matrix理解precision,recall, roc的文章,https://www.biostat.wisc.edu/~page/rocpr.pdf,大家可以参考一下
作者回复: 赞
2020-12-103 - 小强在实际工作中,一般是如何定义正样本和负样本的呢?首先,这个正样本和负样本应该是应用户而异吧?其次,以电影推荐为例,对于某个用户A,我们是把用户A之前看过的电影都定义成正样本,然后没有看过的电影都标记为负样本嘛?还是有其他什么方法?
作者回复: 正样本比较好说,就是你定义的一些正向的行为,比如点击、播放、购买等等。负样本其实看你的选择了,有纯random的,也有曝光未点击等等。
2021-02-192 - JustDoDT个性化推荐,不是每个人的推荐结果都不一样吗。为啥说ROC、P-R是全量数据,我认为是针对每个人的全量物品推荐,文中的全量是指全量物品吗。mAP严格意义上说是用到了全量的用户和物品。
作者回复: ROC曲线,P-R曲线是对全量样本在一起排序,不区分用户,所以这里说是全量数据。
2020-12-1122 - 那时刻感觉通过confusion matrix(混淆矩阵)理解precision,recall以及TPR,FPR会更加形象些
作者回复: 是这样,如果有好的文章可以分享到留言区。
2020-12-092 - 飞行器老师好,召回率(Recall)是分类正确的正样本个数占真正的正样本个数的比例。但是在实际环境中对于召回率的计算比较困难吧,对于实际生产中海量的数据,很难找到所有真正正样本的个数吧?那如何进行离线评估召回率的计算呢?
作者回复: 比如一个点击率预估问题,所有点击样本就是所有的真正正样本的个数。 当然你无法列出真正的ground true,只能通过历史数据来评估。
2021-10-191 - 小峰™ =エ=®老师你好,针对现实数据集中点击率只有1~10%,训练集正负样本数量偏差的问题——使用样本平衡的方法,对负样本进行下采样来,最终实现训练集正负样本1:1,这样的方法是否可行?这样出来准确率是降低了,但模型对正样本的判定会更敏感些,不知道这样理解对不对?
作者回复: 当然是可行的,非常常用的做法。但要在inference过程中做ctr calibration
2021-07-0121