16｜性能评估：不平衡数据集应该使用何种评估指标？

黄佳

你好，我是黄佳。欢迎来到零基础实战机器学习。
上一讲中，我们通过逻辑回归和深度学习神经网络两种模型，判断了会员流失的可能性，准确率大概在 78% 左右。我想考一考你，这个准确率是否能够反映出模型的分类性能？
也许你会回答，看起来没什么问题啊。但是，如果我告诉你，对于这个数据集来说，即使不用任何机器学习模型，我闭着眼睛也能够达到 70% 以上的预测准确率。你会不会吓一跳，说，这怎么可能呢？
其实，如果你仔细观察一下这个数据集已经流失和留存下来的会员比例，就会发现，在这个数据集中，留下的会员是 73%，而已经离开的会员占 27%。
流失与否？
这也就是说，如果我直接提出一个模型，判断所有的会员都会留存，那我这个模型的预测准确率就是 73%。所以说，要达到 70% 以上的预测准确率，真的是没有什么难度。
我再举一个极端一点的例子，在银行客户欺诈行为的检测系统中，存在欺诈行为的客户可能不到万分之一。那么，一个模型只要预测所有的客户都没有欺诈行为，这个模型的准确率就能达 99.999%。
然而，这样的模型没有任何意义。因为我们的目标不是判断出这 9999 个正常客户，而是要想法设法找出那万分之一的异常客户。所以，对于我们这个问题来说，如何精确定位那 23% 的可能流失的客户，才是关键所在。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了在机器学习中处理不平衡数据集时的性能评估方法。作者首先以一个例子引出了准确率无法完全反映模型分类性能的问题，强调了对于不平衡数据集，单一使用准确率作为评估标准是不合适的。随后，作者介绍了混淆矩阵、精确率和召回率这些重要的评估指标，以及如何计算和展示模型的混淆矩阵。文章还介绍了F1分数作为综合评估指标，能够更全面地评估模型的性能。通过具体案例和技术细节，读者可以深入了解不平衡数据集的性能评估方法，对模型的优劣进行客观评价。此外，文章还介绍了ROC曲线和AUC值的重要性，以及如何通过这些工具来比较不同模型的分类性能。最后，作者提出了两道思考题，引导读者思考如何优化神经网络模型以及如何使用分层采样来进行模型验证。整体而言，本文通过深入浅出的方式，为读者提供了处理不平衡数据集时的性能评估方法，为机器学习领域的从业者提供了有益的技术指导。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《零基础实战机器学习》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(4)

最新
精选

王平
一个样本集合只能算出一个TPR和FPR，那为什么会能有多个点形成曲线呢
作者回复: 当我们讨论TPR (真正率) 和FPR (假正率) 形成的曲线时，我们通常指的是ROC曲线（Receiver Operating Characteristic Curve）。ROC曲线中的每一个点都是基于一个特定的决策阈值得到的。为了构造ROC曲线，我们不是只对数据集进行一次二分类预测。而是，对于每一个可能的决策阈值，都计算一次TPR和FPR，并在ROC空间中为这个阈值画一个点。将所有这些点连接起来，就得到了ROC曲线。让我给你一个具体的例子来解释：假设我们有一个二分类问题，而分类器为每一个样本输出一个概率，表示该样本为正类的概率。常见的决策阈值是0.5：即如果一个样本的概率大于0.5，我们预测它为正类，否则为负类。但0.5只是其中一个可能的阈值。我们可以将阈值从0变到1，计算出每个阈值对应的TPR和FPR。当阈值为0时，我们预测所有样本都为正类，这时FPR和TPR都是1。当阈值为1时，我们预测所有样本都为负类，这时FPR和TPR都是0。在0到1之间的每一个可能的阈值都会给我们一个不同的TPR和FPR，这就是为什么我们可以得到多个点并形成一个ROC曲线的原因。
2023-02-18归属地：上海

1
在路上
佳哥好，我认为今天的内容关键在于理解“预测值和真值共同组成的矩阵”，查准率、查全率和ROC曲线都是基于这个矩阵计算。我喜欢用真阳、假阳、真阴、假阴来理解这个矩阵，因为读医学相关内容时常看到“假阳性”一词。查准率是所有预测值为阳性的样本中确实是阳性的比率，查全率是所有实际值为阳性的样本中被预测为阳性的比率。假阳性就是没病的被当成了有病的，查准率就是1-假阳性概率。
作者回复: 嗯，我也觉得。真阳、假阳比真正、假正好理解。因为我们体检报告啥的会经常读到，因此较容易关联起来。以后我写文章时会以真阳、假阳为主！🎃
2021-10-08


谦
佳哥，对于不平衡数据集，训练的时候会不会容易造成模型更倾向于把比例较大的分类分对呢？因为训练的时候是降低整体损失，比例较大的分类对损失的贡献度应该更大，最后变成了模型更倾向于把比例较大的分对？
作者回复: 有可能，所以很多人会使用SMOTE的方法增加少数类样本的数量，把不平衡的数据集弄得较为平衡。
2021-10-04
2

Geek_b64f09
老师好，我对这个不是太理解：“当阈值为1时，我们预测所有样本都为负类，这时FPR和TPR都是0”。我认为当阈值为1的时候，TP, FP都是0，但是FN好像也是0，这样的话，FPR可以等于0，但是TPR成了0除以0，好像没有意义。不知道这个理解是哪里不合适，希望老师指教，谢谢。
2024-01-24归属地：广东



收起评论