• 冬瓜
    2018-10-11
    我的经验是,正负样本比例不平衡时,不能通过ROC曲线来评估模型,可能会出现ROC很好看,但业务上无法使用的情况。

    具体来说就是,roc很高,但是PR很低,查准率和查全率都无法满足使用要求。

    举个例子,正负样本比例为1:100,有10100个样本,100个正的,10000个负的。
    假设TPR为0.9时,FPR为0.1,这时候ROC曲线应该算是不错的(auc 大于0.81,可能超过0.9)
    但是,此时真正例为 100*0.9 = 90 , 假正例为 10000* 0.1 = 1000 , 所以查准率为 90/1090 =8.3%
    这个准确率,可不一定符合业务使用需要。。
    展开

    作者回复: 您的例子非常好👍这就体现出样例平衡的作用了,脱离实际情况空谈指标有时会误事。

     1
     10
  • KingZone
    2018-07-25
    正样本10000个,负样本3个,那么查全率(即召回率)是不是很低?!

    作者回复: 查全率取决于模型的精确度,也就是正例有多少判定正确。但样本不平衡会导致对模型精确性判断的偏差,即使这3个负样本全部分类错误也说明不了问题,因为数量太少了。

    
     3
  • 林彦
    2018-06-21
    ROC曲线中的TPR的分子和分母里的TP,FN都来自正例,FPR的分子,分母里的FP,TN都来自负例。PR曲线中的Precision的分母里的TP和FP则会同时受到正例和负例的影响。

    当样本的正负例比例发生较大变化时,原来同一类型的样本点在PR曲线受到的影响由于Precision值的明显变化,会比ROC曲线要大。这只是我的粗浅推测。怎么推导还是不明白。

    作者回复: 其实你已经找到点了。从混淆矩阵看,ROC的两个指标计算分别对应两个列,也就是不同类别真实输出上的准确率。只要算法不发生变化,那准确率就不会受到样本数的影响。
    反过来,PR的两个指标在混淆矩阵里是一行一列,一个考察真实输出的准确率,一个考察预测输出的准确率。当数据类别不平衡导致各类真假正负例的数目改变时,这一行一列在计算比例时就没法保证相同的变化尺度,导致PR曲线变形。

    
     2
  • Geek_59
    2020-02-02
    极客时间
    21天打卡行动 46/21
    <<机器学习40讲/08>>模型的评估指标
    今日所学:
    1,ROC 曲线,P-R 曲线
    2,分类正确的样本占样本总数的比例是精度(accuracy),分类错误的样本占样本总数的比例是错误率(error rate),两者之和等于 1。
    3,机器学习采用了混淆矩阵(confusion matrix),也叫列联表(contingency table)来对不同的划分结果加以区分。
    4,在混淆矩阵中,所有测试样例被分为真正例(true positive, TP)、假正例(false positive, FP)、假反例(false negative, FN)、真反例(true negative, TN)四大类;
    5,查准率 P 也叫正例预测值(positive predictive value),表示的是真正例占所有预测结果为正例的样例的比值,也就是模型预测结果的准确程度;
    6,查全率 R 也叫真正例率(true positive rate, TPR),表示的是真正例占所有真实情况为正例的样例的比值,也就是模型对真实正例的判断能力;
    7,将查准率和查全率画在同一个平面直角坐标系内,得到的就是 P-R 曲线,它表示了模型可以同时达到的查准率和查全率;
    8,受试者工作特征曲线简称 ROC 曲线;判断雷达接收到的信号到底是敌机还是干扰;
    9,ROC 曲线描述的是真正例率和假正例率之间的关系,也就是收益(真正例)与代价(假正例)之间的关系。
    10,完美的模型体现在 ROC 空间上的 (0, 1) 点:FPR = 0 意味着没有假正例,没有负例被掺入;
    11,ROC 曲线下面积(Area Under ROC Curve)简称 AUC。
    重点:
     在二分类任务中,模型性能度量的基本指标是精度和错误率,两者之和为 1;
    混淆矩阵是个 2 \times 2 的性能度量矩阵,其元素分别是真正例、假正例、假反例和真反例的数目;
    P-R 曲线表示的是查准率和查全率之间的关系,曲线在点 (1, 1) 上达到最优性能;
    ROC 曲线表示的是真正例率和假正例率之间的关系,曲线在点 (0, 1) 上达到最优性能。
    展开
    
    
  • TranQ
    2019-04-08
    老师,除了分类模型之外,其他模型也可以用精度,ROC曲线等这类工具进行评估吗?例如回归模型。如果可以,那么大致思路是什么呢?

    作者回复: 回归模型是连续模型,需要刻画连续变化的误差,所以精度 ROC这些肯定是不行的,只能用均方误差这一类的来处理。

    
    
  • code-artist
    2019-01-27
    对这几个概念和对应的计算公式很难有一个直觉的把握。需要在实际项目上练出这种直觉吗?

    作者回复: 实际项目的真实数据肯定能让指标更容易理解,也可以看到指标在不平衡数据集上的一些特性。

    
    
  • paradox
    2018-08-09
    老师,您好
    文中:
    此时最优模型的精度是多少呢?就是交点所在直线的截距,也就是和 TPR轴的交点。
     
    精度的数值是不是应该是 截距*pos?

    展开

    作者回复: 精度的数值取决于等精度线和ROC曲线交点的位置

    
    
  • liuyu5337
    2018-06-21
    机器学习课程只通过语音讲授,效果不太好。好多东西很难解释的很清楚。

    作者回复: 是的,图片和公式还是要看文本。

    
    
我们在线,来聊聊吧