在今天这篇总结中,我将对贝叶斯机器学习中涉及的模型做一个系统的梳理。虽然这个模块的主题是概率图模型,内容也围绕着概率图的三大问题——表示、推断和学习展开,但概率图归根结底是手段,其目的是将概率分布用图结构表示出来,进而从贝叶斯定理出发,从概率角度解决机器学习的问题。因此从宏观的角度来对概率模型加以整理是很有必要的。
概率模型基本上都属于生成模型,它们可以建模数据的生成机制,这和统计机器学习以判别模型为主的特色形成鲜明的对比。在统计学习中,几乎所有模型都可以追溯到线性回归的演化,在贝叶斯学习里,起到万物之源作用的是具有最大不确定性的高斯分布,对高斯分布的不同处理方式决定了不同的数据生成方式。
在观察高斯分布的演化时,不妨先从外部入手。最简单的外部拓展方法就是混合,将多个不同数字特征的高斯分布混杂在一起,先按一定概率抽取成分,再根据选定的成分分布生成数据,这种生成模型就是高斯混合模型。在高斯混合模型里,决定每个时刻的观察结果到底来自哪个成分的变量不能被直接观测,因而是隐变量。
除了横向意义上的混合之外,纵向意义上的时序也是外部演化的常见手段,这相当于在数据序列中引入马尔可夫性。如果给高斯混合模型中的隐变量添加时序关系,让下一时刻的状态依赖于这一时刻的状态,就形成了隐马尔可夫模型。如果隐马尔可夫模型的状态数目从有限扩展到无穷多,又形成了线性动态系统。