102 | 基础文本分析模型之三:EM算法
洪亮劼
该思维导图由 AI 生成,仅供参考
周一我们分享的模型是“概率隐语义分析”(Probabilistic Latent Semantic Indexing),或者简称为 PLSA,这类模型有效地弥补了隐语义分析的不足,在 LDA 兴起之前,成为了有力的文本分析工具。
不管是 PLSA,还是 LDA,其模型的训练过程都直接或者间接地依赖一个算法,这个算法叫作“期望最大化”(Expectation Maximization),或简称为 EM 算法。实际上,EM 算法是针对隐参数模型(Latent Variable Model)最直接有效的训练方法之一。既然这些模型都需要 EM 算法,我们今天就来谈一谈这个算法的一些核心思想。
EM 和 MLE 的关系
EM 算法深深根植于一种更加传统的统计参数方法:最大似然估计(Maximum Likelihood Estimation),有时候简称为 MLE。绝大多数的机器学习都可以表达成为某种概率模型的 MLE 求解过程。
具体来说,MLE 是这样构造的。首先,我们通过概率模型写出当前数据的“似然表达”。所谓的“似然”表达,其实也就是在当前模型的参数值的情况下,看整个数据出现的可能性有多少。可能性越低,表明参数越无法解释当前的数据。反之,如果可能性非常高,则表明参数可以比较准确地解释当前的数据。因此,MLE 的思想其实就是找到一组参数的取值,使其可以最好地解释现在的数据。
针对某一个模型写出这个 MLE 以后,就是一个具体的式子,然后看我们能否找到这个式子最大值下的参数取值。这个时候,整个问题往往就已经变成了一个优化问题。从优化的角度来说,那就是针对参数求导,然后尝试把整个式子置零,从而求出在这个时候的参数值。
对绝大多数相对比较简单的模型来说,我们都可以根据这个流程求出参数的取值。比如,我们熟悉的利用高斯分布来对数据进行建模,其实就可以通过 MLE 的形式,写出用高斯建模的似然表达式,然后通过求解最优函数解的方式得到最佳的参数表达。而正好,这个最优的参数就是样本的均值和样本的方差。
然而,并不是所有的 MLE 表达都能够得到一个“解析解”(Closed Form Solution),有不少的模型甚至无法优化 MLE 的表达式,那么这个时候,我们就需要一个新的工具来求解 MLE。
EM 算法的提出就是为了简化那些求解相对比较困难模型的 MLE 解。
有一点需要说明的是,EM 算法并不能直接求到 MLE,而只能提供一种近似。多数无法直接求解的 MLE 问题都属于非凸(Non-Convex)问题。因此,EM 能够提供的仅仅是一个局部的最优解,而不是全局的最优解。
EM 算法的核心思想
理解了 EM 和 MLE 的关系后,我们来看一看 EM 的一些核心思想。因为 EM 算法是技术性比较强的算法,我建议你一定要亲自去推演公式,从而能够真正理解算法的精髓。我们在这里主要提供一种大体的思路。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
EM算法是一种用于求解概率图模型的重要工具,本文介绍了EM算法与MLE算法的关系以及EM算法的核心思想。首先,文章解释了EM算法与MLE算法的关系,指出EM算法是为了简化求解相对困难模型的MLE解。其核心思想是利用杨森不等式得到MLE的一个下限,并通过优化求解模型参数和模型的隐含变量的过程来逼近最优解。EM算法的迭代轮回包括E步和M步,分别求解模型的隐含变量和参数。EM算法的应用在实际中也存在一些问题,需要进一步讨论。 EM算法的重要性在于其能够有效地处理隐含变量模型的求解问题,尤其在概率图模型中具有广泛的应用。通过理解EM算法的核心思想,读者可以更好地理解为什么隐变量模型需要利用EM或类似EM的步骤进行求解。EM算法的介绍为读者提供了对概率图模型求解的重要工具的认识,同时也引发了对实际应用中可能存在的问题的思考。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》,新⼈⾸单¥98
《AI 技术内参》,新⼈⾸单¥98
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(3)
- 最新
- 精选
- 马勇(Daniel)最好有公式2018-10-051
- 林彦EM算法是不是有收敛速度慢,每一步的计算比较复杂的问题?2018-04-27
- 罗马工匠还是有公式好理解一点。另外问题的答案能否放评论区呢?em算法除了局部最优,还有其他问题么?2018-04-25
收起评论