在上一篇文章中,我和你分享了最简单的概率图模型——朴素贝叶斯分类器。由于朴素贝叶斯假定不同的属性相互独立,因而它的概率图具有发散的星型结构。但在实际当中,这样的条件独立性几乎是不可能满足的,属性之间总会有些概率性的关联,如果将属性之间的关联体现在概率图模型中,就相当于把朴素贝叶斯中互相独立的结点联结起来,得到的正是贝叶斯网络。
贝叶斯网络(Bayesian network)也叫信念网络(belief network),由一些顶点和连接某些顶点的边构成,每个顶点代表一个随机变量,带箭头的有向边则表示随机变量之间的因果关系。
从拓扑结构看,贝叶斯网络是有向无环图,“有向”指的是连接不同顶点的边是有方向的,起点和终点不能调换,这说明由因到果的逻辑关系不能颠倒;“无环”指的是从任意顶点出发都无法经过若干条边回到该点,在图中找不到任何环路,这说明任何变量都不能自己决定自己。
贝叶斯网络是对随机变量以及存在于它们之间的不确定性的一种表示(representation),它以因子分解的方式定义了联合概率分布的数据结构,还给出了这个分布中的一系列条件独立性假设。
下面这个例子出自发表于《AI 季刊》(AI Magazine)第 12 卷第 4 期的论文《傻瓜贝叶斯网络》(Bayesian networks without tears),它说明当事件之间的因果关系不能完全确定时,基于概率的贝叶斯网络是如何发挥作用的。