机器学习 40 讲
王天一
工学博士,副教授
35375 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 46 讲
机器学习 40 讲
15
15
1.0x
00:00/00:00
登录|注册

08 | 模型的评估指标

AUC
假正例率(FPR)
真正例率(TPR)
论文
著作《机器学习》
专长
P-R曲线
ROC曲线
查全率(recall)
查准率(precision)
错误率(error rate)
精度(accuracy)
类别平衡性对P-R图和ROC曲线的影响
彼得·弗拉克(Peter Flach)
混淆矩阵
评估指标
机器学习中模型的评估指标

该思维导图由 AI 生成,仅供参考

用训练数据集拟合出备选模型的参数,再用验证数据集选出最优模型后,接下来就到了是骡子是马牵出来溜溜,也就是模型评估的阶段了。模型评估中使用的是测试数据集,通过衡量模型在从未出现过的数据上的性能来估计模型的泛化特性。为简便起见,我将以二分类任务为例来说明度量模型性能的不同指标。
二分类任务是最重要也最基础的机器学习任务,其最直观的性能度量指标就是分类的准确率。给定一组训练数据,算法不可能完全正确地划分所有实例,而是会将一部分正例误判为反例,也会将一部分反例误判为正例。分类正确的样本占样本总数的比例是精度(accuracy),分类错误的样本占样本总数的比例是错误率(error rate),两者之和等于 1
在现实生活中,二分类任务的一个实际应用就是疾病的诊断。你可以回忆一下在“贝叶斯视角下的机器学习”中提到的例子:“Jo 去进行某种疾病的检查。已知检查的准确率是 95%,也就是此病患者的检查结果 95% 会出现阳性,非此病患者的检查结果 95% 会出现阴性,同时在 Jo 的类似人群中,此病的发病率是 1%。如果 Jo 的检查结果呈阳性,那么她患病的概率是多大呢?”
这个例子就是一个典型的二分类问题。根据之前的分析结果,即使 Jo 的检查结果呈现阳性,她患病的概率也只有 16%,如果一个庸医完全按照检查结果判定的话,每 6 个病人里他就要误诊 5 个!(这又是频率主义直观的看法)但是需要注意的是,错误的分类不仅包括假阳性这一种情况,假阴性也要考虑在内——也就是确实生病的患者没有被检查出来的情形,假阳性和假阴性共同构成所有的误分类结果。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文深入介绍了机器学习模型评估中的关键概念和指标,重点围绕二分类任务展开讨论。首先,文章详细解释了准确率、错误率、精度等基本概念,并通过实际应用案例,如疾病诊断,展示了这些指标的重要性。其次,混淆矩阵的概念和在评估模型性能中的作用得到了详细阐述,包括真正例、假正例、假反例、真反例等概念。此外,文章介绍了查准率和查全率这两个重要的性能指标,并解释了它们的含义和应用场景。还介绍了P-R曲线和ROC曲线两种可视化评估模型性能的方式,以及它们的特点和应用。通过对ROC曲线下面积(AUC)的概念和意义的阐述,读者可以更好地理解模型性能的评估方法。此外,文章还推荐了布里斯托尔大学的彼得·弗拉克教授的著作和论文,为进一步学习提供了参考资源。最后,文章引发了读者思考的问题,即类别平衡性对P-R曲线和ROC曲线的影响,为读者提供了更多思考和探索的空间。整体而言,本文内容丰富,涵盖了机器学习模型评估的重要概念和方法,对于想要深入了解该领域的读者具有重要参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《机器学习 40 讲》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(12)

  • 最新
  • 精选
  • 冬瓜
    我的经验是,正负样本比例不平衡时,不能通过ROC曲线来评估模型,可能会出现ROC很好看,但业务上无法使用的情况。 具体来说就是,roc很高,但是PR很低,查准率和查全率都无法满足使用要求。 举个例子,正负样本比例为1:100,有10100个样本,100个正的,10000个负的。 假设TPR为0.9时,FPR为0.1,这时候ROC曲线应该算是不错的(auc 大于0.81,可能超过0.9) 但是,此时真正例为 100*0.9 = 90 , 假正例为 10000* 0.1 = 1000 , 所以查准率为 90/1090 =8.3% 这个准确率,可不一定符合业务使用需要。。

    作者回复: 您的例子非常好👍这就体现出样例平衡的作用了,脱离实际情况空谈指标有时会误事。

    2018-10-11
    3
    32
  • 林彦
    ROC曲线中的TPR的分子和分母里的TP,FN都来自正例,FPR的分子,分母里的FP,TN都来自负例。PR曲线中的Precision的分母里的TP和FP则会同时受到正例和负例的影响。 当样本的正负例比例发生较大变化时,原来同一类型的样本点在PR曲线受到的影响由于Precision值的明显变化,会比ROC曲线要大。这只是我的粗浅推测。怎么推导还是不明白。

    作者回复: 其实你已经找到点了。从混淆矩阵看,ROC的两个指标计算分别对应两个列,也就是不同类别真实输出上的准确率。只要算法不发生变化,那准确率就不会受到样本数的影响。 反过来,PR的两个指标在混淆矩阵里是一行一列,一个考察真实输出的准确率,一个考察预测输出的准确率。当数据类别不平衡导致各类真假正负例的数目改变时,这一行一列在计算比例时就没法保证相同的变化尺度,导致PR曲线变形。

    2018-06-21
    7
  • KingZone
    正样本10000个,负样本3个,那么查全率(即召回率)是不是很低?!

    作者回复: 查全率取决于模型的精确度,也就是正例有多少判定正确。但样本不平衡会导致对模型精确性判断的偏差,即使这3个负样本全部分类错误也说明不了问题,因为数量太少了。

    2018-07-25
    5
  • TranQ
    老师,除了分类模型之外,其他模型也可以用精度,ROC曲线等这类工具进行评估吗?例如回归模型。如果可以,那么大致思路是什么呢?

    作者回复: 回归模型是连续模型,需要刻画连续变化的误差,所以精度 ROC这些肯定是不行的,只能用均方误差这一类的来处理。

    2019-04-08
    4
  • Shine
    对这几个概念和对应的计算公式很难有一个直觉的把握。需要在实际项目上练出这种直觉吗?

    作者回复: 实际项目的真实数据肯定能让指标更容易理解,也可以看到指标在不平衡数据集上的一些特性。

    2019-01-27
    1
  • liuyu5337
    机器学习课程只通过语音讲授,效果不太好。好多东西很难解释的很清楚。

    作者回复: 是的,图片和公式还是要看文本。

    2018-06-21
    1
  • paradox
    老师,您好 文中: 此时最优模型的精度是多少呢?就是交点所在直线的截距,也就是和 TPR轴的交点。 精度的数值是不是应该是 截距*pos?

    作者回复: 精度的数值取决于等精度线和ROC曲线交点的位置

    2018-08-09
    2
  • 王亚雄
    老师最后找最优模型的方式是对的,但是最优精度并不是直接等于y轴截距,文中最后的说法是错的,等精度线和roc曲线相交之后,精度应该是pos*y轴截距+(1-pos)
    2021-07-15
    2
  • ifelse
    学习打卡
    2023-05-29归属地:浙江
    1
  • 杨家荣
    极客时间 21天打卡行动 46/21 <<机器学习40讲/08>>模型的评估指标 今日所学: 1,ROC 曲线,P-R 曲线 2,分类正确的样本占样本总数的比例是精度(accuracy),分类错误的样本占样本总数的比例是错误率(error rate),两者之和等于 1。 3,机器学习采用了混淆矩阵(confusion matrix),也叫列联表(contingency table)来对不同的划分结果加以区分。 4,在混淆矩阵中,所有测试样例被分为真正例(true positive, TP)、假正例(false positive, FP)、假反例(false negative, FN)、真反例(true negative, TN)四大类; 5,查准率 P 也叫正例预测值(positive predictive value),表示的是真正例占所有预测结果为正例的样例的比值,也就是模型预测结果的准确程度; 6,查全率 R 也叫真正例率(true positive rate, TPR),表示的是真正例占所有真实情况为正例的样例的比值,也就是模型对真实正例的判断能力; 7,将查准率和查全率画在同一个平面直角坐标系内,得到的就是 P-R 曲线,它表示了模型可以同时达到的查准率和查全率; 8,受试者工作特征曲线简称 ROC 曲线;判断雷达接收到的信号到底是敌机还是干扰; 9,ROC 曲线描述的是真正例率和假正例率之间的关系,也就是收益(真正例)与代价(假正例)之间的关系。 10,完美的模型体现在 ROC 空间上的 (0, 1) 点:FPR = 0 意味着没有假正例,没有负例被掺入; 11,ROC 曲线下面积(Area Under ROC Curve)简称 AUC。 重点: 在二分类任务中,模型性能度量的基本指标是精度和错误率,两者之和为 1; 混淆矩阵是个 2 \times 2 的性能度量矩阵,其元素分别是真正例、假正例、假反例和真反例的数目; P-R 曲线表示的是查准率和查全率之间的关系,曲线在点 (1, 1) 上达到最优性能; ROC 曲线表示的是真正例率和假正例率之间的关系,曲线在点 (0, 1) 上达到最优性能。
    2020-02-02
    1
收起评论
显示
设置
留言
12
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部