08 | 模型的评估指标

王天一



该思维导图由 AI 生成，仅供参考

用训练数据集拟合出备选模型的参数，再用验证数据集选出最优模型后，接下来就到了是骡子是马牵出来溜溜，也就是模型评估的阶段了。模型评估中使用的是测试数据集，通过衡量模型在从未出现过的数据上的性能来估计模型的泛化特性。为简便起见，我将以二分类任务为例来说明度量模型性能的不同指标。
二分类任务是最重要也最基础的机器学习任务，其最直观的性能度量指标就是分类的准确率。给定一组训练数据，算法不可能完全正确地划分所有实例，而是会将一部分正例误判为反例，也会将一部分反例误判为正例。分类正确的样本占样本总数的比例是精度（accuracy），分类错误的样本占样本总数的比例是错误率（error rate），两者之和等于 1。
在现实生活中，二分类任务的一个实际应用就是疾病的诊断。你可以回忆一下在“贝叶斯视角下的机器学习”中提到的例子：“Jo 去进行某种疾病的检查。已知检查的准确率是 95%，也就是此病患者的检查结果 95% 会出现阳性，非此病患者的检查结果 95% 会出现阴性，同时在 Jo 的类似人群中，此病的发病率是 1%。如果 Jo 的检查结果呈阳性，那么她患病的概率是多大呢？”
这个例子就是一个典型的二分类问题。根据之前的分析结果，即使 Jo 的检查结果呈现阳性，她患病的概率也只有 16%，如果一个庸医完全按照检查结果判定的话，每 6 个病人里他就要误诊 5 个！（这又是频率主义直观的看法）但是需要注意的是，错误的分类不仅包括假阳性这一种情况，假阴性也要考虑在内——也就是确实生病的患者没有被检查出来的情形，假阳性和假阴性共同构成所有的误分类结果。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文深入介绍了机器学习模型评估中的关键概念和指标，重点围绕二分类任务展开讨论。首先，文章详细解释了准确率、错误率、精度等基本概念，并通过实际应用案例，如疾病诊断，展示了这些指标的重要性。其次，混淆矩阵的概念和在评估模型性能中的作用得到了详细阐述，包括真正例、假正例、假反例、真反例等概念。此外，文章介绍了查准率和查全率这两个重要的性能指标，并解释了它们的含义和应用场景。还介绍了P-R曲线和ROC曲线两种可视化评估模型性能的方式，以及它们的特点和应用。通过对ROC曲线下面积（AUC）的概念和意义的阐述，读者可以更好地理解模型性能的评估方法。此外，文章还推荐了布里斯托尔大学的彼得·弗拉克教授的著作和论文，为进一步学习提供了参考资源。最后，文章引发了读者思考的问题，即类别平衡性对P-R曲线和ROC曲线的影响，为读者提供了更多思考和探索的空间。整体而言，本文内容丰富，涵盖了机器学习模型评估的重要概念和方法，对于想要深入了解该领域的读者具有重要参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《机器学习 40 讲》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(12)

最新
精选

冬瓜
我的经验是，正负样本比例不平衡时，不能通过ROC曲线来评估模型，可能会出现ROC很好看，但业务上无法使用的情况。具体来说就是，roc很高，但是PR很低，查准率和查全率都无法满足使用要求。举个例子，正负样本比例为1:100，有10100个样本，100个正的，10000个负的。假设TPR为0.9时，FPR为0.1，这时候ROC曲线应该算是不错的（auc 大于0.81，可能超过0.9）但是，此时真正例为 100*0.9 = 90 ，假正例为 10000* 0.1 = 1000 ，所以查准率为 90/1090 =8.3% 这个准确率，可不一定符合业务使用需要。。
作者回复: 您的例子非常好👍这就体现出样例平衡的作用了，脱离实际情况空谈指标有时会误事。
2018-10-11
3
32
林彦
ROC曲线中的TPR的分子和分母里的TP，FN都来自正例，FPR的分子，分母里的FP，TN都来自负例。PR曲线中的Precision的分母里的TP和FP则会同时受到正例和负例的影响。当样本的正负例比例发生较大变化时，原来同一类型的样本点在PR曲线受到的影响由于Precision值的明显变化，会比ROC曲线要大。这只是我的粗浅推测。怎么推导还是不明白。
作者回复: 其实你已经找到点了。从混淆矩阵看，ROC的两个指标计算分别对应两个列，也就是不同类别真实输出上的准确率。只要算法不发生变化，那准确率就不会受到样本数的影响。反过来，PR的两个指标在混淆矩阵里是一行一列，一个考察真实输出的准确率，一个考察预测输出的准确率。当数据类别不平衡导致各类真假正负例的数目改变时，这一行一列在计算比例时就没法保证相同的变化尺度，导致PR曲线变形。
2018-06-21

7
KingZone
正样本10000个，负样本3个，那么查全率（即召回率）是不是很低？！
作者回复: 查全率取决于模型的精确度，也就是正例有多少判定正确。但样本不平衡会导致对模型精确性判断的偏差，即使这3个负样本全部分类错误也说明不了问题，因为数量太少了。
2018-07-25

5
TranQ
老师，除了分类模型之外，其他模型也可以用精度，ROC曲线等这类工具进行评估吗？例如回归模型。如果可以，那么大致思路是什么呢？
作者回复: 回归模型是连续模型，需要刻画连续变化的误差，所以精度 ROC这些肯定是不行的，只能用均方误差这一类的来处理。
2019-04-08

4
Shine
对这几个概念和对应的计算公式很难有一个直觉的把握。需要在实际项目上练出这种直觉吗？
作者回复: 实际项目的真实数据肯定能让指标更容易理解，也可以看到指标在不平衡数据集上的一些特性。
2019-01-27

1
liuyu5337
机器学习课程只通过语音讲授，效果不太好。好多东西很难解释的很清楚。
作者回复: 是的，图片和公式还是要看文本。
2018-06-21

1
paradox
老师，您好文中：此时最优模型的精度是多少呢？就是交点所在直线的截距，也就是和 TPR轴的交点。精度的数值是不是应该是截距*pos?
作者回复: 精度的数值取决于等精度线和ROC曲线交点的位置
2018-08-09
2

王亚雄
老师最后找最优模型的方式是对的，但是最优精度并不是直接等于y轴截距，文中最后的说法是错的，等精度线和roc曲线相交之后，精度应该是pos*y轴截距+（1-pos）
2021-07-15

2
ifelse
学习打卡
2023-05-29归属地：浙江

1
杨家荣
极客时间 21天打卡行动 46/21 <<机器学习40讲/08>>模型的评估指标今日所学: 1,ROC 曲线,P-R 曲线 2,分类正确的样本占样本总数的比例是精度（accuracy），分类错误的样本占样本总数的比例是错误率（error rate），两者之和等于 1。 3,机器学习采用了混淆矩阵（confusion matrix），也叫列联表（contingency table）来对不同的划分结果加以区分。 4,在混淆矩阵中，所有测试样例被分为真正例（true positive, TP）、假正例（false positive, FP）、假反例（false negative, FN）、真反例（true negative, TN）四大类; 5,查准率 P 也叫正例预测值（positive predictive value），表示的是真正例占所有预测结果为正例的样例的比值，也就是模型预测结果的准确程度; 6,查全率 R 也叫真正例率（true positive rate, TPR），表示的是真正例占所有真实情况为正例的样例的比值，也就是模型对真实正例的判断能力; 7,将查准率和查全率画在同一个平面直角坐标系内，得到的就是 P-R 曲线，它表示了模型可以同时达到的查准率和查全率; 8,受试者工作特征曲线简称 ROC 曲线;判断雷达接收到的信号到底是敌机还是干扰; 9,ROC 曲线描述的是真正例率和假正例率之间的关系，也就是收益（真正例）与代价（假正例）之间的关系。 10,完美的模型体现在 ROC 空间上的 (0, 1) 点：FPR = 0 意味着没有假正例，没有负例被掺入; 11,ROC 曲线下面积（Area Under ROC Curve）简称 AUC。重点: 在二分类任务中，模型性能度量的基本指标是精度和错误率，两者之和为 1；混淆矩阵是个 2 \times 2 的性能度量矩阵，其元素分别是真正例、假正例、假反例和真反例的数目； P-R 曲线表示的是查准率和查全率之间的关系，曲线在点 (1, 1) 上达到最优性能； ROC 曲线表示的是真正例率和假正例率之间的关系，曲线在点 (0, 1) 上达到最优性能。
2020-02-02

1

收起评论