19 | 模型性能评估（一）：从信用评分产品看什么是混淆矩阵？

刘海丰



该思维导图由 AI 生成，仅供参考

你好，我是海丰。
这节课，我们来学习分类模型的评估指标。上节课我们说了，分类模型的性能评估指标有混淆矩阵、KS、AUC 等等。混淆矩阵是其中最基础的性能评估指标，通过它，我们可以直观地看出二分类模型预测准确和不准确的结果具体有多少，而且像是 KS、AUC 这些高阶的评估指标也都来自于混淆矩阵。
比如说，对信用评分这样典型的分类问题进行评估，其实就是要知道一个人信用的好坏。通过混淆矩阵，我们就能知道这个信用评分能够找到多少坏人（召回率），以及找到的坏人中有多少是真的坏人（精确率）。
因此，要对分类模型的性能进行评估，我们一定要掌握混淆矩阵。接下来，我们就通过一个信用评分产品的例子来详细说一说，混淆矩阵是什么，以及相关指标的计算方法。
什么是混淆矩阵？信用评分的产品指的是利用客户提交的资料和系统中留存的客户信息，通过模型来评估用户信用情况的模型。信用评分主要应用于信贷场景中，对用户和中小企业进行信用风险评估。
假设，你的算法团队做了一个信用评分产品，分数范围是 [0, 100]。同时，算法团队给出一个参考阈值，60 分以下的人逾期概率远高于 60 分以上的人群。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

混淆矩阵及其相关指标是评估分类模型性能的关键工具。通过混淆矩阵，我们可以了解模型的预测准确性，其中的真正例（TP）、假正例（FP）、假负例（FN）和真负例（TN）等情况能够帮助我们评估模型的性能。除了混淆矩阵外，准确率、精确率和召回率等指标也是评估模型性能的重要工具。准确率从全局的角度评价模型正确分类的能力，而精确率和召回率则分别描述模型识别的精确度和广度。在实际工作中，精确率和召回率常常一起使用，因为它们可以帮助判断模型预测的好坏。此外，还有一个综合反映精确率和召回率的指标——F1 值。在使用这些指标时，需要注意样本不均衡情况下的偏差，以及精确率和召回率的矛盾关系。总的来说，混淆矩阵及其相关指标为评估分类模型性能提供了重要的工具，而在信用评分模型中，通常会使用 KS、AUC 等指标进行评估。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《成为 AI 产品经理》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(11)

最新
精选

悠悠
准确率=（预测对的坏人+预测对的好人）/总得预测人数例如：总样本数100，样本中真实好人为90，真实坏人为10。模型预测出了100个好人，准确率在90%，虽然准确率高，但是一个坏人也找不出来，这样的高准确率没有意义
2021-02-01

10
孙瑜
看过解释说，比如一个分类问题识别癌症，准确率99%，看上去很高了，但是这个癌症的发病率0.01%，也就是一万个人只有一个，如果一个模型识别预测时无脑说阴性，准确率就可以达到99.99%，相比模型的99%更准，所以样本偏差极大的无法用准确率。同时像医疗场景可能更关注召回率。不可错放过一个造作治疗，就算误判影响的可能让患者多做了一些检查，但如果放过去了，可能最终导致治疗不及时恶化晚期以致死亡。
2022-04-29
1
7
Yonzeng
老师，想去京东面试AI产品经理了
2021-03-13

5
Yonzeng
分享一个网站http://charleshm.github.io/2016/03/Model-Performance/
2021-03-13

3
夏天的芭蕉
信用场景大多数是好人，准确率可能会引导模型都预测好人，属于样本偏差太大
2021-10-14

2
Venom
图上的好和坏都写反了吧
2023-09-13归属地：北京

1
我不过是善良
信用评分预测的不是正负二值，而是区间内数值
2021-02-18

1
Geek_d54869
信用平分的背景下，样本偏差较大，信用好的人远大于信用差的，所以不能用准确率
2023-05-26归属地：北京


大脑壳
比如一个分类问题识别癌症，准确率99%，看上去很高了，但是这个癌症的发病率0.01%，也就是一万个人只有一个，如果一个模型识别预测时无脑说阴性，准确率就可以达到99.99%，相比模型的99%更准，所以样本偏差极大的无法用准确率。同时像医疗场景可能更关注召回率。不可错放过一个造作治疗，就算误判影响的可能让患者多做了一些检查，但如果放过去了，可能最终导致治疗不及时恶化晚期以致死亡。
2022-06-29
1

俯瞰风景.
如果样本中P和N的数据量偏差很大，就不适合用准确率。
2021-08-27



收起评论