7.1贝叶斯决策论
假设有NNN种可能的类别标记,即 yyy= {
c1,c2,…cNc_{1}, c_{2} ,… c_{N}c1?,c2?,…cN?} ,λij\lambda_{ij}λij? 是将一个真实标记为 cjc_{j}cj?的样本误分类为cic_{i}ci? 所产生的损失。R(ci∣x)R(c_{i}|x)R(ci?∣x)样本xxx分类为cic_{i}ci?所产生的期望损失(expected loss) ,也称风险。
我们的任务是寻找一个判定准则 h:x?>yh:x->yh:x?>y 以最小化总体风险:
对每个样本xxx,若hhh 能最小化条件风险R(h(x)∣x)R(h(x)|x)R(h(x)∣x)叫,则总体风险 R(h)R(h)R(h)将被最小化.
h?h^*h?称为贝叶斯最优分类器。
则误判损失λij\lambda_{ij}λij?可以写为:
条件风险:
由前面的公式可以推导如下公式:
不难看出,欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概P(c∣x)P(c | x)P(c∣x). 然而,在现实任务中这通常难以直接获得.
P(c)P(c)P(c) 是类"先验"(prior) 概率,类先验概率 P(c)P(c)P(c) 表达了样本空间中各类样本所占的比例。 P(x∣c)P(x | c)P(x∣c) 是样本 xxx相对于类标记ccc 的类条件概率 ,或称为"似然"。P(x)P(x)P(x) 对所有类标记均相同。估计 P(c∣x)P(c | x)P(c∣x) 的问题就转化为如何基于训练数据DDD来估计先验P(c)P(c)P(c) 和似然 P(x∣c)P(x | c)P(x∣c)。
7.2极大似然估计
估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计.假设 P(x∣c)P(x | c)P(x∣c) 具有确定的形式并且被参数向量θc\theta_{c}θc?唯一确定,则我们的任务就是利用训练集 DDD估计参数θc\theta_{c}θc?。
令DcD_{c}Dc? 表示训练集中第ccc类样本组成的集合,假设这些样本是独立同分布的,则参数 θcθ_{c}θc? 对于数据集 DcD_{c}Dc? 的似然是:
极大似然估计是试图在θcθ_{c}θc? 所有可能的取值中,找到一个能使数据出现的"可能性"最大的值.
连乘操作易造成下溢,通常使用对数似然:
此时参数θc\theta_{c}θc?的极大似然估计 :
例如,在连续属性情形下,假设概率密度函数 p(x∣c)N(μc,σc2)p(x|c)~N(\mu_{c},\sigma_{c}^2)p(x∣c) N(μc?,σc2?),则参数μc\mu_{c}μc?和σc2\sigma_{c}^2σc2?的极大似然估计为:
估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布.
7.3朴素贝叶斯分类器
假设每个属性独立地对分类结果发生影响.
ddd为属性数目,xix_{i}xi?为xxx在第iii个属性上的取值.
对所有类别来说 P(x) 相同:
DcD_{c}Dc? 表示训练集 DDD中第ccc类样本组成的集合,若有充足的独立同分布样本,则可容易地估计出类先验概率
对离散属性而言,令 Dc,xiD_{c,x_{i}}Dc,xi?? 表示 DcD_{c}Dc? 中在第iii个属性上取值为 xix_{i}xi? 的样本组成的集合:
对连续属性可考虑概率密度函数,假定 p(xi∣c)N(μc,i,σc,i2)p(x_{i}|c) ~N(\mu_{c,i},\sigma_{c,i}^2)p(xi?∣c) N(μc,i?,σc,i2?) 其中 μc,i\mu_{c,i}μc,i?和σc,i2\sigma_{c,i}^2σc,i2?分别是第ccc类样本在第iii个属性上取值的均值和方差,
为了避免其他属性携带的信息被训练集中未出现的属性值"抹去’,在估计概率值时通常要进行"平滑" ,常用"拉普拉斯修正" 。具体来说,令NNN表示训练集DDD中可能的类别数,NiN_{i}Ni? 表示第iii个属性可能的取值数。
拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题。