机器学习40讲
王天一
工学博士,副教授
立即订阅
8040 人已学习
课程目录
已完结 44 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 打通修炼机器学习的任督二脉
免费
机器学习概观 (10讲)
01 | 频率视角下的机器学习
02 | 贝叶斯视角下的机器学习
03 | 学什么与怎么学
04 | 计算学习理论
05 | 模型的分类方式
06 | 模型的设计准则
07 | 模型的验证方法
08 | 模型的评估指标
09 | 实验设计
10 | 特征预处理
统计机器学习模型 (18讲)
11 | 基础线性回归:一元与多元
12 | 正则化处理:收缩方法与边际化
13 | 线性降维:主成分的使用
14 | 非线性降维:流形学习
15 | 从回归到分类:联系函数与降维
16 | 建模非正态分布:广义线性模型
17 | 几何角度看分类:支持向量机
18 | 从全局到局部:核技巧
19 | 非参数化的局部模型:K近邻
20 | 基于距离的学习:聚类与度量学习
21 | 基函数扩展:属性的非线性化
22 | 自适应的基函数:神经网络
23 | 层次化的神经网络:深度学习
24 | 深度编解码:表示学习
25 | 基于特征的区域划分:树模型
26 | 集成化处理:Boosting与Bagging
27 | 万能模型:梯度提升与随机森林
总结课 | 机器学习的模型体系
概率图模型 (14讲)
28 | 最简单的概率图:朴素贝叶斯
29 | 有向图模型:贝叶斯网络
30 | 无向图模型:马尔可夫随机场
31 | 建模连续分布:高斯网络
32 | 从有限到无限:高斯过程
33 | 序列化建模:隐马尔可夫模型
34 | 连续序列化模型:线性动态系统
35 | 精确推断:变量消除及其拓展
36 | 确定近似推断:变分贝叶斯
37 | 随机近似推断:MCMC
38 | 完备数据下的参数学习:有向图与无向图
39 | 隐变量下的参数学习:EM方法与混合模型
40 | 结构学习:基于约束与基于评分
总结课 | 贝叶斯学习的模型体系
结束语 (1讲)
结课 | 终有一天,你将为今天的付出骄傲
机器学习40讲
登录|注册

33 | 序列化建模:隐马尔可夫模型

王天一 2018-08-21
前几讲中介绍概率图模型都没有涉及“时间”尺度,模型所表示的都是同一时刻下的状态,因而不能建模随机变量的动态特性。如果要定义系统在时间尺度上的演化,就需要引入系统状态(system state)的概念,每一时刻的系统状态都是表示系统属性的随机变量。
将图模型中的结点用表示时间流动的有向边连接起来,得到的是动态贝叶斯网络(dynamic Bayesian nework),其最简单的实现是隐马尔可夫模型(hidden Markov model)。
隐马尔可夫模型实现的是序列化的建模,它打破了对数据独立同分布的固有假设,侧重于时序上的依赖关系。在自然语言和金融市场数据这类时间序列(time series)中,某个数据往往会受到之前数据的影响,这种情况下还要强行套用独立同分布假设的话,肯定不会符合实际情况。隐马尔可夫模型正是将过去对现在的影响纳入模型中,以此来实现更加准确的预测。
隐马尔可夫模型则是通过隐藏状态生成观测序列的马尔可夫过程。在更简单的马尔可夫链(Markov chain)里,所有状态是都直接可见的,因此状态转移概率是唯一的参数。而在隐马尔可夫模型中,状态本身不是直接可见的,可见的是取决于状态的输出。由于每个状态都有和输出相关的概率分布,因而隐马尔可夫模型的输出就能够提供关于隐藏状态的信息。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《机器学习40讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(4)

  • 林彦
    隐马尔可夫在自然语言里可以用来做词性标注,实体标注和分词。

    在词性标注的任务中,我们可以将一个句子看成是可见状态序列,每一个词都是一个可见的状态(oi),而每一个词都对应着一个词性,这个词性就是隐藏状态(qi),而整个文本中的所有词汇表就是观察状态的集合(W),预定义的词性标记集就是隐藏状态集合(S)。而我们的目标是,在给定一个观察序列O(句子,或者可以看成是词组的序列)的情况下,寻找其对应的隐藏状态序列Q(每一个词对应的词性标记)。

    词性标注中我的理解转移概率矩阵A就是已知上个词的词性,紧接下一个可能的词性会是什么的概率。观测概率矩阵B是已知这个词的词性,它会对应哪个词。当HMM是2阶时,转移概率矩阵由前2个词的词性决定;是3阶时,转移概率矩阵由前3个词的词性决定。初始状态概率向量π我不太理解如何生成。按照整体词性标注库中在句子中不同位置的统计概率决定?

    最后如何做标注我也不完全理解。是有了观察序列和3中HMM的参数,就能反过来推导计算出隐藏状态序列的值吗?或者是计算隐藏状态序列中每一个值的概率?这个中要解决的问题和老师文中的例子不太一样。

    作者回复: 做标注一般就是根据观测找到后验概率最大的状态,也就是在给定词语时找到最可能的一组词性。求解时利用的是Viterbi算法,简单说就是每走一步都只保留最优的状态,比穷举效率高很多。
    在监督学习里,隐马尔可夫的三个矩阵需要在初始化时确定,根据训练数据计算出来。两个矩阵你理解的都是对的。初始状态其实就是词性的先验,每类词在文本中出现的频率。

    2018-09-09
    1
  • 黄拔峰
    但对于隐藏状态本身的变化而言,我们默认了它们的先验分布是不包含信息的均匀分布。老师,这个怎么解释

    作者回复: 意思就是不对他做任何假设,每种取值的可能性是均等的。

    2019-07-18
  • Smirk
    状态转移矩阵那里说是N维对称方阵. 这个不一定对称吧,N维方阵是对的,但是ij两个状态转移概率不一定一样

    听了好多遍,王教授的课很棒,还在反复听

    作者回复: 说得对,看得非常仔细,感谢指正👍

    2018-09-20
  • 林彦
    查了一下,词性标注是不是用到维特比算法?

    维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列。维特比算法其实就是多步骤每步多选择模型的最优选择问题,其在每一步的所有选择都保存了前续所有步骤到当前步骤当前选择的最小总代价(或者最大价值)以及当前代价的情况下前继步骤的选择。依次计算完所有步骤后,通过回溯的方法找到最优选择路径。

    作者回复: 是的,最早接触维特比是通信里的卷积码译码,也是非常经典的应用。

    2018-09-09
收起评论
4
返回
顶部