08 | 模型的评估指标
该思维导图由 AI 生成,仅供参考
- 深入了解
- 翻译
- 解释
- 总结
本文深入介绍了机器学习模型评估中的关键概念和指标,重点围绕二分类任务展开讨论。首先,文章详细解释了准确率、错误率、精度等基本概念,并通过实际应用案例,如疾病诊断,展示了这些指标的重要性。其次,混淆矩阵的概念和在评估模型性能中的作用得到了详细阐述,包括真正例、假正例、假反例、真反例等概念。此外,文章介绍了查准率和查全率这两个重要的性能指标,并解释了它们的含义和应用场景。还介绍了P-R曲线和ROC曲线两种可视化评估模型性能的方式,以及它们的特点和应用。通过对ROC曲线下面积(AUC)的概念和意义的阐述,读者可以更好地理解模型性能的评估方法。此外,文章还推荐了布里斯托尔大学的彼得·弗拉克教授的著作和论文,为进一步学习提供了参考资源。最后,文章引发了读者思考的问题,即类别平衡性对P-R曲线和ROC曲线的影响,为读者提供了更多思考和探索的空间。整体而言,本文内容丰富,涵盖了机器学习模型评估的重要概念和方法,对于想要深入了解该领域的读者具有重要参考价值。
《机器学习 40 讲》,新⼈⾸单¥59
全部留言(12)
- 最新
- 精选
- 冬瓜我的经验是,正负样本比例不平衡时,不能通过ROC曲线来评估模型,可能会出现ROC很好看,但业务上无法使用的情况。 具体来说就是,roc很高,但是PR很低,查准率和查全率都无法满足使用要求。 举个例子,正负样本比例为1:100,有10100个样本,100个正的,10000个负的。 假设TPR为0.9时,FPR为0.1,这时候ROC曲线应该算是不错的(auc 大于0.81,可能超过0.9) 但是,此时真正例为 100*0.9 = 90 , 假正例为 10000* 0.1 = 1000 , 所以查准率为 90/1090 =8.3% 这个准确率,可不一定符合业务使用需要。。
作者回复: 您的例子非常好👍这就体现出样例平衡的作用了,脱离实际情况空谈指标有时会误事。
2018-10-11332 - 林彦ROC曲线中的TPR的分子和分母里的TP,FN都来自正例,FPR的分子,分母里的FP,TN都来自负例。PR曲线中的Precision的分母里的TP和FP则会同时受到正例和负例的影响。 当样本的正负例比例发生较大变化时,原来同一类型的样本点在PR曲线受到的影响由于Precision值的明显变化,会比ROC曲线要大。这只是我的粗浅推测。怎么推导还是不明白。
作者回复: 其实你已经找到点了。从混淆矩阵看,ROC的两个指标计算分别对应两个列,也就是不同类别真实输出上的准确率。只要算法不发生变化,那准确率就不会受到样本数的影响。 反过来,PR的两个指标在混淆矩阵里是一行一列,一个考察真实输出的准确率,一个考察预测输出的准确率。当数据类别不平衡导致各类真假正负例的数目改变时,这一行一列在计算比例时就没法保证相同的变化尺度,导致PR曲线变形。
2018-06-217 - KingZone正样本10000个,负样本3个,那么查全率(即召回率)是不是很低?!
作者回复: 查全率取决于模型的精确度,也就是正例有多少判定正确。但样本不平衡会导致对模型精确性判断的偏差,即使这3个负样本全部分类错误也说明不了问题,因为数量太少了。
2018-07-255 - TranQ老师,除了分类模型之外,其他模型也可以用精度,ROC曲线等这类工具进行评估吗?例如回归模型。如果可以,那么大致思路是什么呢?
作者回复: 回归模型是连续模型,需要刻画连续变化的误差,所以精度 ROC这些肯定是不行的,只能用均方误差这一类的来处理。
2019-04-084 - Shine对这几个概念和对应的计算公式很难有一个直觉的把握。需要在实际项目上练出这种直觉吗?
作者回复: 实际项目的真实数据肯定能让指标更容易理解,也可以看到指标在不平衡数据集上的一些特性。
2019-01-271 - liuyu5337机器学习课程只通过语音讲授,效果不太好。好多东西很难解释的很清楚。
作者回复: 是的,图片和公式还是要看文本。
2018-06-211 - paradox老师,您好 文中: 此时最优模型的精度是多少呢?就是交点所在直线的截距,也就是和 TPR轴的交点。 精度的数值是不是应该是 截距*pos?
作者回复: 精度的数值取决于等精度线和ROC曲线交点的位置
2018-08-092 - 王亚雄老师最后找最优模型的方式是对的,但是最优精度并不是直接等于y轴截距,文中最后的说法是错的,等精度线和roc曲线相交之后,精度应该是pos*y轴截距+(1-pos)2021-07-152
- ifelse学习打卡2023-05-29归属地:浙江1
- 杨家荣极客时间 21天打卡行动 46/21 <<机器学习40讲/08>>模型的评估指标 今日所学: 1,ROC 曲线,P-R 曲线 2,分类正确的样本占样本总数的比例是精度(accuracy),分类错误的样本占样本总数的比例是错误率(error rate),两者之和等于 1。 3,机器学习采用了混淆矩阵(confusion matrix),也叫列联表(contingency table)来对不同的划分结果加以区分。 4,在混淆矩阵中,所有测试样例被分为真正例(true positive, TP)、假正例(false positive, FP)、假反例(false negative, FN)、真反例(true negative, TN)四大类; 5,查准率 P 也叫正例预测值(positive predictive value),表示的是真正例占所有预测结果为正例的样例的比值,也就是模型预测结果的准确程度; 6,查全率 R 也叫真正例率(true positive rate, TPR),表示的是真正例占所有真实情况为正例的样例的比值,也就是模型对真实正例的判断能力; 7,将查准率和查全率画在同一个平面直角坐标系内,得到的就是 P-R 曲线,它表示了模型可以同时达到的查准率和查全率; 8,受试者工作特征曲线简称 ROC 曲线;判断雷达接收到的信号到底是敌机还是干扰; 9,ROC 曲线描述的是真正例率和假正例率之间的关系,也就是收益(真正例)与代价(假正例)之间的关系。 10,完美的模型体现在 ROC 空间上的 (0, 1) 点:FPR = 0 意味着没有假正例,没有负例被掺入; 11,ROC 曲线下面积(Area Under ROC Curve)简称 AUC。 重点: 在二分类任务中,模型性能度量的基本指标是精度和错误率,两者之和为 1; 混淆矩阵是个 2 \times 2 的性能度量矩阵,其元素分别是真正例、假正例、假反例和真反例的数目; P-R 曲线表示的是查准率和查全率之间的关系,曲线在点 (1, 1) 上达到最优性能; ROC 曲线表示的是真正例率和假正例率之间的关系,曲线在点 (0, 1) 上达到最优性能。2020-02-021