作者回复: 您的例子非常好👍这就体现出样例平衡的作用了,脱离实际情况空谈指标有时会误事。
作者回复: 查全率取决于模型的精确度,也就是正例有多少判定正确。但样本不平衡会导致对模型精确性判断的偏差,即使这3个负样本全部分类错误也说明不了问题,因为数量太少了。
作者回复: 其实你已经找到点了。从混淆矩阵看,ROC的两个指标计算分别对应两个列,也就是不同类别真实输出上的准确率。只要算法不发生变化,那准确率就不会受到样本数的影响。
反过来,PR的两个指标在混淆矩阵里是一行一列,一个考察真实输出的准确率,一个考察预测输出的准确率。当数据类别不平衡导致各类真假正负例的数目改变时,这一行一列在计算比例时就没法保证相同的变化尺度,导致PR曲线变形。
作者回复: 回归模型是连续模型,需要刻画连续变化的误差,所以精度 ROC这些肯定是不行的,只能用均方误差这一类的来处理。
作者回复: 实际项目的真实数据肯定能让指标更容易理解,也可以看到指标在不平衡数据集上的一些特性。
作者回复: 精度的数值取决于等精度线和ROC曲线交点的位置
作者回复: 是的,图片和公式还是要看文本。