1. 概率图模型
结合概率论与图论知识,使用图(Graph)来表示与模型相关的变量的联合概率分布。其中节点表示相关变量,边用于描述随机变量的依赖或相关性。
概率图模型分为贝叶斯网络(Bayesian Network) 和马尔可夫(Markov Network) 两大类。
1.1 贝叶斯网络
贝叶斯网络又称信念网络(Belief Network),或有向无环图模型 (directed acyclic graphical model)。
其中节点表示随机变量X1, X2, …, Xn。他们既可以是可观察到的变量,也可以是隐变量或未知参数等。认为其有因果关系(非条件独立)的变量则用箭头来连接。单箭头所连接的两个节点,一个为“因(parents)”,另一个为**“果(children)”,而边的值表示两个节点的条件概率值**,即P(H|E)。
1.2 马尔可夫网络
若这个图退化成线性链的方式,则得到马尔可夫模型。因为每个节点(随机变量)可视为各个时刻(或空间)的相关变化,以随机过程的视角,则可以看成是马尔可夫过程。若网络为无向图,则可称为马尔可夫随机场或马尔可夫网络。如果在给定条件下,则得到条件随机场。
-
马尔可夫过程
马尔可夫过程是一类随机过程,改过程具有如下特征:在已知目前状态(条件)下,它未来的演变(将来)不依赖雨它以往的演变(过去)。 -
马尔可夫网络、
设X=(x1, x2, xn)和Y=(y1,y2,yn)都是联合随机变量,若随机变量Y构成的无向图G=(V,E)表示的马尔可夫随机场,则条件概率分布P(Y|X)称为条件随机场。
一个通俗的例子假设你有许多小明同学一天内不同时段的照片,从小明提裤子起床到脱裤子睡觉各个时间段都有(小明是照片控!)。现在的任务是对这些照片进行分类。比如有的照片是吃饭,那就给它打上吃饭的标签;有的照片是跑步时拍的,那就打上跑步的标签;有的照片是开会时拍的,那就打上开会的标签。问题来了,你准备怎么干?
一个简单直观的办法就是,不管这些照片之间的时间顺序,想办法训练出一个多元分类器。就是用一些打好标签的照片作为训练数据,训练出一个模型,直接根据照片的特征来分类。例如,如果照片是早上6:00拍的,且画面是黑暗的,那就给它打上睡觉的标签;如果照片上有车,那就给它打上开车的标签。
乍一看可以!但实际上,由于我们忽略了这些照片之间的时间顺序这一重要信息,我们的分类器会有缺陷的。举个例子,假如有一张小明闭着嘴的照片,怎么分类?显然难以直接判断,需要参考闭嘴之前的照片,如果之前的照片显示小明在吃饭,那这个闭嘴的照片很可能是小明在咀嚼食物准备下咽,可以给它打上吃饭的标签;如果之前的照片显示小明在唱歌,那这个闭嘴的照片很可能是小明唱歌瞬间的抓拍,可以给它打上唱歌的标签。
所以,为了让我们的分类器能够有更好的表现,在为一张照片分类时,我们必须将与它 相邻的照片的标签信息考虑进来。这——就是条件随机场(CRF)大显身手的地方! 这就有点类似于词性标注了,只不过把照片换成了句子而已,本质上是一样的。