成为 AI 产品经理
刘海丰
京东高级架构师
23717 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 38 讲
成为 AI 产品经理
15
15
1.0x
00:00/00:00
登录|注册

20 | 模型性能评估(二):从信用评分产品看什么是KS、AUC?

0.5到1
ROC曲线
KS>40
KS>30&KS<40
KS>20&KS<30
KS<20
KS曲线
ROC曲线
FPR
TPR
目标和知识面
不同AI产品经理的需求
手动计算KS值
数据准确性
不一定是好事情
合适数值范围
计算方法
合适数值范围
计算方法
总结
课后讨论
模型评估
AUC
KS
信用评分产品

该思维导图由 AI 生成,仅供参考

你好,我是海丰。
上节课,我们学习了混淆矩阵,以及准确率、精确率和召回率这 3 个基础指标的计算。这节课,我们依然会借助上节课的信用评估模型,来学习二分类模型中常用的两个综合性指标,KS 和 AUC。

构建 KS 和 AUC 的基础:TPR 和 FPR

首先,我们来看两个基础指标:TPR 和 FPR,它们是计算 KS 和 AUC 的基础指标。
在信用评分模型中,TPR(True Positive Rate)代表模型找到真坏人(对应混淆矩阵中的 TP)占实际坏人(TP+FN)的比例,它的计算公式为 TPR=TP/(TP+FN)。一般来说,这个指标被称为:真正率、真阳率,用来评估模型正确预测的能力。不过,因为它的计算公式和召回率是一样的,所以为了方便我们也经常叫它召回率。
FPR(False Positive Rate)代表模型误伤(认为是坏人,实际是好人)的人占总体好人的比例,它的计算公式为 FPR=FP/(FP+TN)。一般来说,这个指标被称为:假正率、假阳率,它用来评估模型误判的比率或者误伤的比率,为了方便我们也叫它误伤率。
那这两个指标是怎么构建 KS 和 AUC 的呢?别着急,我们慢慢往下看。

ROC 曲线绘制和 AUC 的计算

在实际工作中,我们最希望的模型一定是找到的坏人足够多,并且误伤的好人足够少,也就是 TPR 尽量高、FPR 尽量低。为了形象地表达它们之间的关系,我们引入了 ROC 曲线。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了在信用评分产品中常用的两个综合性指标,KS和AUC。文章首先介绍了构建KS和AUC的基础指标TPR和FPR,分别代表模型找到真坏人和模型误伤好人的比例。接着,文章详细解释了ROC曲线的绘制和AUC的计算过程,以及如何通过AUC来评估模型的区分能力。通过对ROC曲线的解释,读者可以直观地了解模型的分类效果,而AUC则提供了一个直观的评估指标,帮助读者快速判断模型的优劣。此外,文章还介绍了KS曲线的绘制和KS值的计算方法,以及对于信用评分产品来说,KS指标的合适范围。最后,文章强调了不同类型和不同公司的AI产品经理需要掌握的评估能力可能不同,以及对于B端做金融风控模型的产品经理来说,了解KS的重要性。整体而言,本文通过简洁清晰的语言和直观的图示,帮助读者快速了解了KS和AUC这两个在信用评分模型中常用的评估指标的含义和计算方法,以及其在实际工作中的重要性。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《成为 AI 产品经理》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(16)

  • 最新
  • 精选
  • Sandflass
    交作业: 以30分作为第一个阈值计算,有100个n,900个p,tn=93,fn=7,tp=5+32+35+48+55+67+88+95+99=524,fp=95+68+65+52+45+33+12+5+1=376,这样换算出tpr=tp/(tp+fn)=0.987,fpr=fp/(fp+tn)=0.802,tpr-fpr=0.185; 同理可算得, 40分阈值tp=519,fp=281,tn=188,fn=12,tpr-fpr=0.977-0.599=0.378 50分阈值tp=487,fp=213,tn=256,fn=44,tpr-fpr=0.917-0.454=0.463 55分阈值tp=452,fp=148,tn=321,fn=79,tpr-fpr=0.851-0.316=0.535 60分阈值tp=404,fp=96,tn=373,fn=127,tpr-fpr=0.761-0.205=0.556 65分阈值tp=349,fp=51,tn=481,fn=182,tpr-fpr=0.657-0.109=0.548 70分阈值tp=282,fp=18,tn=451,fn=249,tpr-fpr=0.531-0.038=0.493 75分阈值tp=194,fp=6,tn=463,fn=337,tpr-fpr=0.365-0.013=0.352 80分阈值tp=99,fp=1,tn=468,fn=432,tpr-fpr=0.186-0.002=0.184 因此,可求得,KS=max(tpr-fpr)=0.556,满足KS的阈值分数为60分。
    2021-08-15
    1
    10
  • 橙gě狸
    老师,roc曲线的那个图错了。。。曲面积的边缘没有标蓝,也没有阴影……=3=
    2021-07-29
    5
  • 永光
    老师你好,同学的疑问,我发现我也有同样的疑问 1、@蓝白胖子 说的OOT 测试的 KS 是 40,测试集的 KS 是 39,训练集的 KS 是 35。虽然我们用的都是真实数据,但结果依然不合理 这个是为什么呀,不理解。 2、@ AsyDong 说的,三条曲线,一定是平滑的曲线吗,可能是折线等吗? 3、@ Rosa rugosa 说的 作业中,没有真实的好人与坏人,怎么计算TPR FPR 呀? 还请老师多多讲解,谢谢
    2021-05-11
    3
  • gjbbjj
    看不懂,一头雾水
    2021-04-30
    3
  • Rosa rugosa
    1,老师,作业的表格中人数比例是真实好人的人数比例吗? 2,预测好人坏人为(32,68)时不知预测中有多少好人是真的好人,有多少坏人是真的坏人。怎么计算TPR,FPR呢?
    2021-03-15
    1
    2
  • Sophia-百鑫
    数据表的含义如下: 最大值列 - 阈值即各个分切点, 30 ,40 ,50 … 人数列 - 各个分切范围下的预测值 goods (negative) 和 bads (positive)是 各个分切范围内的真实值, 真实的好人数和真实的坏人数 在1000个样本中,真实的好人数 = TN+ FP = 上表中 所有 goods列的总和 即 531 在1000个样本中,真实的坏人数 = TP+ FN= 上表中 所有 bads列的总和 即 469 以40为阈值,即大于40 是 好人,小于等于40 是坏人 。 模型预测出坏人数 = 200 , 预测出好人数 = 800 混淆矩阵中关键数据如下: TP =93+95=188 FP= 7+5=12 计算TPR 和FPR 如下:(备注如下值 小数点后做了位数保留。大家关注逻辑即可) TPR =188/469 =0.401 FPR =12/531 = 0.0226 KS =TPR-FPR = 0.378 同逻辑计算 ,分切点 是 30 ,50,55,60 ….. 的 KS 得到 分切点是60 时,ks 最大 0.556
    2024-01-24归属地:上海
  • Baymax
    P=469 N=531 TPR=TP/(TP+FN)=TP/P=TP/469 FPR=FP/(FP+TN)=FP/N=FP/531 如果切分点为30,TP=93,FP=7,则TPR=93/469=0.198,FPR=7/531=0.013 切分点 TPR FPR 0 0 0 30 0.013182674 0.198294243 40 0.02259887 0.400852878 50 0.082862524 0.545842217 55 0.148775895 0.684434968 60 0.239171375 0.795309168 65 0.342749529 0.891257996 70 0.468926554 0.961620469 75 0.634651601 0.987206823 80 0.813559322 0.997867804 100 1 1 根据以上离散的点绘制曲线,然后找到FPR- TPR最大的切分点,如果只以以上离散点判断的话,切分点为60,KS=max(FPR-TPR)=0.556137794
    2024-01-09归属地:北京
  • 潘平
    这里讲的对分类模型的评估,看起来只适用于二分类,多分类的如何评估呢?
    2023-08-28归属地:上海
  • Geek_23daec
    为什么不同测试集的KS值不同就不合理呢?这不是很正常吗?KS主要是召回率和误伤率的最大值,那么不同的测试集TPR和FPR有偏差不是也正常么,还是说这样代表模型的泛化能力太差
    2023-01-30归属地:江苏
  • 299号女孩
    题目里的最小值和最大值是什么意思?
    2022-12-09归属地:浙江
收起评论
显示
设置
留言
16
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部