102 | 基础文本分析模型之三：EM算法

洪亮劼



该思维导图由 AI 生成，仅供参考

周一我们分享的模型是“概率隐语义分析”（Probabilistic Latent Semantic Indexing），或者简称为 PLSA，这类模型有效地弥补了隐语义分析的不足，在 LDA 兴起之前，成为了有力的文本分析工具。
不管是 PLSA，还是 LDA，其模型的训练过程都直接或者间接地依赖一个算法，这个算法叫作“期望最大化”（Expectation Maximization），或简称为 EM 算法。实际上，EM 算法是针对隐参数模型（Latent Variable Model）最直接有效的训练方法之一。既然这些模型都需要 EM 算法，我们今天就来谈一谈这个算法的一些核心思想。
EM 和 MLE 的关系EM 算法深深根植于一种更加传统的统计参数方法：最大似然估计（Maximum Likelihood Estimation），有时候简称为 MLE。绝大多数的机器学习都可以表达成为某种概率模型的 MLE 求解过程。
具体来说，MLE 是这样构造的。首先，我们通过概率模型写出当前数据的“似然表达”。所谓的“似然”表达，其实也就是在当前模型的参数值的情况下，看整个数据出现的可能性有多少。可能性越低，表明参数越无法解释当前的数据。反之，如果可能性非常高，则表明参数可以比较准确地解释当前的数据。因此，MLE 的思想其实就是找到一组参数的取值，使其可以最好地解释现在的数据。
针对某一个模型写出这个 MLE 以后，就是一个具体的式子，然后看我们能否找到这个式子最大值下的参数取值。这个时候，整个问题往往就已经变成了一个优化问题。从优化的角度来说，那就是针对参数求导，然后尝试把整个式子置零，从而求出在这个时候的参数值。
对绝大多数相对比较简单的模型来说，我们都可以根据这个流程求出参数的取值。比如，我们熟悉的利用高斯分布来对数据进行建模，其实就可以通过 MLE 的形式，写出用高斯建模的似然表达式，然后通过求解最优函数解的方式得到最佳的参数表达。而正好，这个最优的参数就是样本的均值和样本的方差。
然而，并不是所有的 MLE 表达都能够得到一个“解析解”（Closed Form Solution），有不少的模型甚至无法优化 MLE 的表达式，那么这个时候，我们就需要一个新的工具来求解 MLE。
EM 算法的提出就是为了简化那些求解相对比较困难模型的 MLE 解。
有一点需要说明的是，EM 算法并不能直接求到 MLE，而只能提供一种近似。多数无法直接求解的 MLE 问题都属于非凸（Non-Convex）问题。因此，EM 能够提供的仅仅是一个局部的最优解，而不是全局的最优解。
EM 算法的核心思想理解了 EM 和 MLE 的关系后，我们来看一看 EM 的一些核心思想。因为 EM 算法是技术性比较强的算法，我建议你一定要亲自去推演公式，从而能够真正理解算法的精髓。我们在这里主要提供一种大体的思路。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

EM算法是一种用于求解概率图模型的重要工具，本文介绍了EM算法与MLE算法的关系以及EM算法的核心思想。首先，文章解释了EM算法与MLE算法的关系，指出EM算法是为了简化求解相对困难模型的MLE解。其核心思想是利用杨森不等式得到MLE的一个下限，并通过优化求解模型参数和模型的隐含变量的过程来逼近最优解。EM算法的迭代轮回包括E步和M步，分别求解模型的隐含变量和参数。EM算法的应用在实际中也存在一些问题，需要进一步讨论。 EM算法的重要性在于其能够有效地处理隐含变量模型的求解问题，尤其在概率图模型中具有广泛的应用。通过理解EM算法的核心思想，读者可以更好地理解为什么隐变量模型需要利用EM或类似EM的步骤进行求解。EM算法的介绍为读者提供了对概率图模型求解的重要工具的认识，同时也引发了对实际应用中可能存在的问题的思考。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(3)

最新
精选

马勇(Daniel)
最好有公式
2018-10-05

1
林彦
EM算法是不是有收敛速度慢，每一步的计算比较复杂的问题？
2018-04-27


罗马工匠
还是有公式好理解一点。另外问题的答案能否放评论区呢？em算法除了局部最优，还有其他问题么？
2018-04-25



收起评论