当前位置: 代码迷 >> 综合 >> 机器学习学习笔记——贝叶斯分类器
  详细解决方案

机器学习学习笔记——贝叶斯分类器

热度:47   发布时间:2023-12-23 03:07:10.0

1.贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法,对于分类任务,在所有相关概率都已知的理想情形下,贝叶斯决策论基于这些概率和误判损失选择最有类别标记。

判别式模型:给定样本x,可通过直接建模P(c|x)来预测,如决策树、神经网络、SVM;

生成式模型:对联合概率分布P(x,c)建模,然后再得到P(c|x),如贝叶斯分类器。

基于贝叶斯定理,?可写为:

                                                                P(c|x)=\frac{P(c)P(x|c)}{P(x)}

其中?P(c)是类先验概率;P(x|c)?是样本?相对于类标记c?的类条件概率,或称似然;P(x)?是用于归一化的证据因子,对于给定样本,证据因子与类标记无关。贝叶斯决策论核心思想:选择具有较高概率的决策。


λij是将一个真实标记cj的样本误分类为ci所产生的损失,条件风险:

为最小化总体风险,只需选择使条件风险最小的类别标记:

具体情况如果误判损失为0/1损失,此时条件风险为:

则只需选择P(c|x)最大的类别标记:

2.极大似然估计

假设类条件概率具有确定的形式并被参数向量唯一确定,则任务就是利用训练集估计参数;

假设样本是独立同分布的,则参数对于数据集的似然:

通常使用对数似然,避免下溢:

此时的参数极大似然估计:

3.朴素贝叶斯分类器

朴素贝叶斯分类器表达式:

                                                                   h_{nb}(x)=\mathop{argmax}_{c\in\mathcal Y}P(c)\prod^{d}_{i=1}P(x_i|c)

对连续属性可考虑概率密度函数,假定p(x_i | c)=\mathcal N\sim(\mu_{c,i},\sigma^2_{c,i})?,其中?\mu_{c,i}和?\sigma^2_{c,i}分别是第?c类样本在第i?个属性上取值的均值和方差,则有:

                                                       p(x_i|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}}exp(-\frac{(x_i-\mu_{c,i})^2}{2\sigma^2_{c,i}})

为避免训练集中某个类属性没有出现过,从而导致连乘结果为0,在估计概率是通常使用拉普拉斯修正进行平滑处理。令?N表示训练集?D中可能的类别数,N_i?表示第?i个属性可能的取值数,则修改为:

                                                                    \hat{P}(c)=\frac{\left|D_c\right|+1}{\left|D\right|+N}\\ \hat{P}(x_i|c)=\frac{\left|D_{c,x_i}\right|+1}{\left|D_c\right|+N_i}

4.半朴素贝叶斯分类器

独立依赖估计:

SPODE:假设所有属性依赖同一个属性,称为超父;

TAN:基于最大带权生成树算法,通过条件互信息构建完全图;

条件互信息:

AODE:尝试将每一个属性作为父类,构建SPODE,

5.贝叶斯网

贝叶斯网也成为信念网,借助有向无环图可换属性之间的依赖关系,并用条件概率表来描述属性的联合概率分布;

1.结构

贝叶斯网假设每个属性与他的非后裔属性独立,于是将属性的联合概率分布定义为:

                                     

三种依赖关系:同父结构、V型结构、顺序结构;

.学习

实际中不知道网络结构,根据训练集找到恰当网络结构,需要评分函数:

3.推断

吉布斯采样,随机采样法;

6.朴素贝叶斯分类器的优缺点

优点:在数据较少的情况下仍然有效,可以处理多类别问题。

缺点:对于输入数据的准备方式较为敏感。

使用数据类型:标称型数据。

7.总结

第七章贝叶斯分类器,这一章开始涉及概率,需要一点概率的基础,一边学习一边查询公式,并且自己推导一遍会有更深的理解,再结合书上例子过一遍,后面的贝叶斯网和EM算法暂时没太深入,等以后需要的时候再做补充。

参考文献

[1] Peter Harringtom. 机器学习实战[M].北京, 人民邮电出版社, 2013.

[2] 周志华. 机器学习[M].北京,清华大学出版社,2016.。

附录

西瓜数据3.0

编号 色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好瓜
1 青绿 蜷缩 浊响 清晰 凹陷 硬滑 0.697 0.46 1
2 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 0.744 0.376 1
3 乌黑 蜷缩 浊响 清晰 凹陷 硬滑 0.634 0.264 1
4 青绿 蜷缩 沉闷 清晰 凹陷 硬滑 0.608 0.318 1
5 浅白 蜷缩 浊响 清晰 凹陷 硬滑 0.556 0.215 1
6 青绿 稍蜷 浊响 清晰 稍凹 软粘 0.403 0.237 1
7 乌黑 稍蜷 浊响 稍糊 稍凹 软粘 0.481 0.149 1
8 乌黑 稍蜷 浊响 清晰 稍凹 硬滑 0.437 0.211 1
9 乌黑 稍蜷 沉闷 稍糊 稍凹 硬滑 0.666 0.091 0
10 青绿 硬挺 清脆 清晰 平坦 软粘 0.243 0.267 0
11 浅白 硬挺 清脆 模糊 平坦 硬滑 0.245 0.057 0
12 浅白 蜷缩 浊响 模糊 平坦 软粘 0.343 0.099 0
13 青绿 稍蜷 浊响 稍糊 凹陷 硬滑 0.639 0.161 0
14 浅白 稍蜷 沉闷 稍糊 凹陷 硬滑 0.657 0.198 0
15 乌黑 稍蜷 浊响 清晰 稍凹 软粘 0.36 0.37 0
16 浅白 蜷缩 浊响 模糊 平坦 硬滑 0.593 0.042 0
17 青绿 蜷缩 沉闷 稍糊 稍凹 硬滑 0.719 0.103 0