深度学习推荐系统实战
王喆
Roku 推荐系统架构负责人,前 hulu 高级研究员,《深度学习推荐系统》作者
33298 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 44 讲
深度学习推荐系统实战
15
15
1.0x
00:00/00:00
登录|注册

25 | 评估指标:我们可以用哪些指标来衡量模型的好坏?

分类正确的正样本个数占真正的正样本个数的比例
分类正确的正样本个数占分类器判定为正样本个数的比例
AUC
横坐标是False Positive Rate,纵坐标是True Positive Rate
AUC
横轴是召回率,纵轴是精确率
多分类问题
二分类问题
召回率
精确率
分类正确的样本占总样本个数的比例
平均精度均值
ROC曲线
P-R曲线
均方根误差
对数损失
精确率与召回率
准确率
正负样本分布极不均衡的情况下的表现
P-R曲线和ROC曲线的优缺点
高阶指标
低阶评估指标
评估指标的动态深入
评估指标选择
高阶评估指标
低阶评估指标
课后问题
小结
合理选择评估指标
推荐模型的评估指标
文章

该思维导图由 AI 生成,仅供参考

你好,我是王喆。今天,我们来学习推荐模型的评估指标。
上节课,我们讲了五种评估方法,清楚了它们都是怎么把样本分割为训练集和测试集的。但是只分割样本是远远不够的,为了比较模型效果的好坏,还得用一些指标进行衡量。就像我们工作中经常说,我的模型提高了“一个点”的效果,那所谓的“一个点”指的是什么呢?它其实说的就是,我们的模型在一些经典的推荐指标上提升了 1% 的效果,这节课我就带你来捋一捋这些经典的推荐评估指标。

低阶评估指标

我按照指标计算的难易程度,和评估的全面性,把推荐系统的评估指标可以分成低阶评估指标和高阶评估指标两大类。对于低阶评估指标来说,准确率、精确率与召回率、对数损失、均方根误差,这四个指标在推荐模型评估中最常用,计算起来也最容易。所以,我们就先来学习一下这几个低阶评估指标的具体含义。

1. 准确率

准确率 (Accuracy) 是指分类正确的样本占总样本个数的比例,公式 1 就是:
其中, ncorrect 是正确分类的样本个数, ntotal 是样本的总数。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

推荐系统评估指标的选择对于模型性能的评估至关重要。本文介绍了低阶和高阶评估指标的分类及其应用。低阶评估指标包括准确率、精确率、召回率、对数损失和均方根误差,用于评估模型的分类和回归能力。而高阶评估指标包括P-R曲线、ROC曲线和平均精度均值,用于综合评估模型在不同数量推荐结果上的性能。文章详细解释了每个指标的计算方法和应用场景,并强调了P-R曲线、ROC曲线和mAP的重要性。在选择评估指标时,作者建议根据业务场景选择2~4个有代表性的离线指标,进行高效率的离线实验。总的来说,评估指标的选择是一个动态深入的过程,需要根据评测的“深度”来决定。读者通过本文可以更好地了解推荐系统评估指标的应用和意义,以及在模型离线评估中如何选择合适的指标进行评估。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《深度学习推荐系统实战》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(21)

  • 最新
  • 精选
  • Geek_b86285
    ROC曲线,FPR=FP​/N,TPR=TP​/P,当我们将负样本复制10倍时,TPR显然不会变,FPR是负样本中被预测为正样本的比例,这其实也是不变的,那整个ROC曲线也就没有变。PR曲线,精确率P=TP/(TP+FP),TP不变,FP增大,而召回率R没有变,显然ROC曲线更稳定一些

    作者回复: 非常好,这也是我们实验和实践中更喜欢用ROC的原因。

    2020-12-26
    3
    34
  • 张弛 Conor
    P-R曲线的优点是能够表现精确率与召回率平衡的过程,缺点是无法显示明确的阈值,且缺乏对TN的考量。ROC曲线不仅能表现假阳性率与真阳性率的平衡,还可以表现出具体的阈值,也考量了TN,但缺乏对FN的考量。在正负样本不均衡的情况下,FN会较大,FP会较小,因此正样本性能的改进主要在于降低FN,P-R曲线中的召回率更关注FN,所以使用P-R曲线更好。

    作者回复: 非常好。

    2020-12-09
    4
    14
  • PatrickPro2
    老师,工业界在用指标评估排序列表结果时,最最常用的指标是啥?我上学期上了cmu的搜索引擎这门课,我们教授说MAP和NDCG是最常用的,其中NDCG应该是效果最好的,因为NDCG考虑到了每个数的实际相关性和模型预测出的排序顺序。 我还有个问题:Diversity在推荐系统中重要吗?如果重要的话,是不是除了以上这些指标,还需要用到诸如Precision-Intent aware@K和alpha-NDCG这些指标进一步分析模型效果呢?

    作者回复: 离线主要用AUC和gAUC。但工业界离线指标主要是参考作用,最重要的还是在线指标。 diversity比较重要,但一般是secondary metric,一般不作为主要优化的指标

    2021-05-25
    5
  • Sebastian
    老师,想额外问一个关于CTR指标计算的问题:在AB测试中,如何合理的比较AB测试中两者的CTR指标呢?会不会一天内,某个时间段A桶的CTR高于B桶,但是某个时间段A桶又小于B桶,那这种该如何比较AB哪个算法更好?

    作者回复: 这个问题还挺有意思。当然是没有标准了,你想怎么比较都行,越是fine grain比较,越能比出东西。 像你说的情况,我们居然发现两个模型在不同时段的效果有不同,如果这个pattern比较固定的话,为什么我们不能把他们综合起来使用,形成一个time based model呢?这不是我们通过评估发现的改进点吗?

    2020-12-09
    4
  • 那时刻
    提供一个通过confusion matrix理解precision,recall, roc的文章,https://www.biostat.wisc.edu/~page/rocpr.pdf,大家可以参考一下

    作者回复: 赞

    2020-12-10
    3
  • 小强
    在实际工作中,一般是如何定义正样本和负样本的呢?首先,这个正样本和负样本应该是应用户而异吧?其次,以电影推荐为例,对于某个用户A,我们是把用户A之前看过的电影都定义成正样本,然后没有看过的电影都标记为负样本嘛?还是有其他什么方法?

    作者回复: 正样本比较好说,就是你定义的一些正向的行为,比如点击、播放、购买等等。负样本其实看你的选择了,有纯random的,也有曝光未点击等等。

    2021-02-19
    2
  • JustDoDT
    个性化推荐,不是每个人的推荐结果都不一样吗。为啥说ROC、P-R是全量数据,我认为是针对每个人的全量物品推荐,文中的全量是指全量物品吗。mAP严格意义上说是用到了全量的用户和物品。

    作者回复: ROC曲线,P-R曲线是对全量样本在一起排序,不区分用户,所以这里说是全量数据。

    2020-12-11
    2
    2
  • 那时刻
    感觉通过confusion matrix(混淆矩阵)理解precision,recall以及TPR,FPR会更加形象些

    作者回复: 是这样,如果有好的文章可以分享到留言区。

    2020-12-09
    2
  • 飞行器
    老师好,召回率(Recall)是分类正确的正样本个数占真正的正样本个数的比例。但是在实际环境中对于召回率的计算比较困难吧,对于实际生产中海量的数据,很难找到所有真正正样本的个数吧?那如何进行离线评估召回率的计算呢?

    作者回复: 比如一个点击率预估问题,所有点击样本就是所有的真正正样本的个数。 当然你无法列出真正的ground true,只能通过历史数据来评估。

    2021-10-19
    1
  • 小峰™ =エ=®
    老师你好,针对现实数据集中点击率只有1~10%,训练集正负样本数量偏差的问题——使用样本平衡的方法,对负样本进行下采样来,最终实现训练集正负样本1:1,这样的方法是否可行?这样出来准确率是降低了,但模型对正样本的判定会更敏感些,不知道这样理解对不对?

    作者回复: 当然是可行的,非常常用的做法。但要在inference过程中做ctr calibration

    2021-07-01
    2
    1
收起评论
显示
设置
留言
21
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部