机器学习40讲
王天一
工学博士,副教授
立即订阅
8040 人已学习
课程目录
已完结 44 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 打通修炼机器学习的任督二脉
免费
机器学习概观 (10讲)
01 | 频率视角下的机器学习
02 | 贝叶斯视角下的机器学习
03 | 学什么与怎么学
04 | 计算学习理论
05 | 模型的分类方式
06 | 模型的设计准则
07 | 模型的验证方法
08 | 模型的评估指标
09 | 实验设计
10 | 特征预处理
统计机器学习模型 (18讲)
11 | 基础线性回归:一元与多元
12 | 正则化处理:收缩方法与边际化
13 | 线性降维:主成分的使用
14 | 非线性降维:流形学习
15 | 从回归到分类:联系函数与降维
16 | 建模非正态分布:广义线性模型
17 | 几何角度看分类:支持向量机
18 | 从全局到局部:核技巧
19 | 非参数化的局部模型:K近邻
20 | 基于距离的学习:聚类与度量学习
21 | 基函数扩展:属性的非线性化
22 | 自适应的基函数:神经网络
23 | 层次化的神经网络:深度学习
24 | 深度编解码:表示学习
25 | 基于特征的区域划分:树模型
26 | 集成化处理:Boosting与Bagging
27 | 万能模型:梯度提升与随机森林
总结课 | 机器学习的模型体系
概率图模型 (14讲)
28 | 最简单的概率图:朴素贝叶斯
29 | 有向图模型:贝叶斯网络
30 | 无向图模型:马尔可夫随机场
31 | 建模连续分布:高斯网络
32 | 从有限到无限:高斯过程
33 | 序列化建模:隐马尔可夫模型
34 | 连续序列化模型:线性动态系统
35 | 精确推断:变量消除及其拓展
36 | 确定近似推断:变分贝叶斯
37 | 随机近似推断:MCMC
38 | 完备数据下的参数学习:有向图与无向图
39 | 隐变量下的参数学习:EM方法与混合模型
40 | 结构学习:基于约束与基于评分
总结课 | 贝叶斯学习的模型体系
结束语 (1讲)
结课 | 终有一天,你将为今天的付出骄傲
机器学习40讲
登录|注册

08 | 模型的评估指标

王天一 2018-06-21
用训练数据集拟合出备选模型的参数,再用验证数据集选出最优模型后,接下来就到了是骡子是马牵出来溜溜,也就是模型评估的阶段了。模型评估中使用的是测试数据集,通过衡量模型在从未出现过的数据上的性能来估计模型的泛化特性。为简便起见,我将以二分类任务为例来说明度量模型性能的不同指标。
二分类任务是最重要也最基础的机器学习任务,其最直观的性能度量指标就是分类的准确率。给定一组训练数据,算法不可能完全正确地划分所有实例,而是会将一部分正例误判为反例,也会将一部分反例误判为正例。分类正确的样本占样本总数的比例是精度(accuracy),分类错误的样本占样本总数的比例是错误率(error rate),两者之和等于 1
在现实生活中,二分类任务的一个实际应用就是疾病的诊断。你可以回忆一下在“贝叶斯视角下的机器学习”中提到的例子:“Jo 去进行某种疾病的检查。已知检查的准确率是 95%,也就是此病患者的检查结果 95% 会出现阳性,非此病患者的检查结果 95% 会出现阴性,同时在 Jo 的类似人群中,此病的发病率是 1%。如果 Jo 的检查结果呈阳性,那么她患病的概率是多大呢?”
这个例子就是一个典型的二分类问题。根据之前的分析结果,即使 Jo 的检查结果呈现阳性,她患病的概率也只有 16%,如果一个庸医完全按照检查结果判定的话,每 6 个病人里他就要误诊 5 个!(这又是频率主义直观的看法)但是需要注意的是,错误的分类不仅包括假阳性这一种情况,假阴性也要考虑在内——也就是确实生病的患者没有被检查出来的情形,假阳性和假阴性共同构成所有的误分类结果。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《机器学习40讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(7)

  • 冬瓜
    我的经验是,正负样本比例不平衡时,不能通过ROC曲线来评估模型,可能会出现ROC很好看,但业务上无法使用的情况。

    具体来说就是,roc很高,但是PR很低,查准率和查全率都无法满足使用要求。

    举个例子,正负样本比例为1:100,有10100个样本,100个正的,10000个负的。
    假设TPR为0.9时,FPR为0.1,这时候ROC曲线应该算是不错的(auc 大于0.81,可能超过0.9)
    但是,此时真正例为 100*0.9 = 90 , 假正例为 10000* 0.1 = 1000 , 所以查准率为 90/1090 =8.3%
    这个准确率,可不一定符合业务使用需要。。

    作者回复: 您的例子非常好👍这就体现出样例平衡的作用了,脱离实际情况空谈指标有时会误事。

    2018-10-11
    1
    9
  • KingZone
    正样本10000个,负样本3个,那么查全率(即召回率)是不是很低?!

    作者回复: 查全率取决于模型的精确度,也就是正例有多少判定正确。但样本不平衡会导致对模型精确性判断的偏差,即使这3个负样本全部分类错误也说明不了问题,因为数量太少了。

    2018-07-25
    3
  • 林彦
    ROC曲线中的TPR的分子和分母里的TP,FN都来自正例,FPR的分子,分母里的FP,TN都来自负例。PR曲线中的Precision的分母里的TP和FP则会同时受到正例和负例的影响。

    当样本的正负例比例发生较大变化时,原来同一类型的样本点在PR曲线受到的影响由于Precision值的明显变化,会比ROC曲线要大。这只是我的粗浅推测。怎么推导还是不明白。

    作者回复: 其实你已经找到点了。从混淆矩阵看,ROC的两个指标计算分别对应两个列,也就是不同类别真实输出上的准确率。只要算法不发生变化,那准确率就不会受到样本数的影响。
    反过来,PR的两个指标在混淆矩阵里是一行一列,一个考察真实输出的准确率,一个考察预测输出的准确率。当数据类别不平衡导致各类真假正负例的数目改变时,这一行一列在计算比例时就没法保证相同的变化尺度,导致PR曲线变形。

    2018-06-21
    2
  • TranQ
    老师,除了分类模型之外,其他模型也可以用精度,ROC曲线等这类工具进行评估吗?例如回归模型。如果可以,那么大致思路是什么呢?

    作者回复: 回归模型是连续模型,需要刻画连续变化的误差,所以精度 ROC这些肯定是不行的,只能用均方误差这一类的来处理。

    2019-04-08
  • code-artist
    对这几个概念和对应的计算公式很难有一个直觉的把握。需要在实际项目上练出这种直觉吗?

    作者回复: 实际项目的真实数据肯定能让指标更容易理解,也可以看到指标在不平衡数据集上的一些特性。

    2019-01-27
  • paradox
    老师,您好
    文中:
    此时最优模型的精度是多少呢?就是交点所在直线的截距,也就是和 TPR轴的交点。
     
    精度的数值是不是应该是 截距*pos?

    作者回复: 精度的数值取决于等精度线和ROC曲线交点的位置

    2018-08-09
  • liuyu5337
    机器学习课程只通过语音讲授,效果不太好。好多东西很难解释的很清楚。

    作者回复: 是的,图片和公式还是要看文本。

    2018-06-21
收起评论
7
返回
顶部