1.贝叶斯决策论
贝叶斯决策论是概率框架下实施决策的基本方法,对于分类任务,在所有相关概率都已知的理想情形下,贝叶斯决策论基于这些概率和误判损失选择最有类别标记。
判别式模型:给定样本,可通过直接建模来预测,如决策树、神经网络、SVM;
生成式模型:对联合概率分布建模,然后再得到,如贝叶斯分类器。
基于贝叶斯定理,?可写为:
其中?是类先验概率;?是样本?相对于类标记?的类条件概率,或称似然;?是用于归一化的证据因子,对于给定样本,证据因子与类标记无关。贝叶斯决策论核心思想:选择具有较高概率的决策。
λij是将一个真实标记cj的样本误分类为ci所产生的损失,条件风险:;
为最小化总体风险,只需选择使条件风险最小的类别标记:;
具体情况如果误判损失为0/1损失,此时条件风险为:;
则只需选择P(c|x)最大的类别标记:;
2.极大似然估计
假设类条件概率具有确定的形式并被参数向量唯一确定,则任务就是利用训练集估计参数;
假设样本是独立同分布的,则参数对于数据集的似然:;
通常使用对数似然,避免下溢:;
此时的参数极大似然估计:;
3.朴素贝叶斯分类器
朴素贝叶斯分类器表达式:
对连续属性可考虑概率密度函数,假定?,其中?和?分别是第?类样本在第?个属性上取值的均值和方差,则有:
为避免训练集中某个类属性没有出现过,从而导致连乘结果为0,在估计概率是通常使用拉普拉斯修正进行平滑处理。令?表示训练集?中可能的类别数,?表示第?个属性可能的取值数,则修改为:
4.半朴素贝叶斯分类器
独立依赖估计:;
SPODE:假设所有属性依赖同一个属性,称为超父;
TAN:基于最大带权生成树算法,通过条件互信息构建完全图;
条件互信息:;
AODE:尝试将每一个属性作为父类,构建SPODE,。
5.贝叶斯网
贝叶斯网也成为信念网,借助有向无环图可换属性之间的依赖关系,并用条件概率表来描述属性的联合概率分布;
1.结构
贝叶斯网假设每个属性与他的非后裔属性独立,于是将属性的联合概率分布定义为:
三种依赖关系:同父结构、V型结构、顺序结构;
.学习
实际中不知道网络结构,根据训练集找到恰当网络结构,需要评分函数:;
3.推断
吉布斯采样,随机采样法;
6.朴素贝叶斯分类器的优缺点
优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
使用数据类型:标称型数据。
7.总结
第七章贝叶斯分类器,这一章开始涉及概率,需要一点概率的基础,一边学习一边查询公式,并且自己推导一遍会有更深的理解,再结合书上例子过一遍,后面的贝叶斯网和EM算法暂时没太深入,等以后需要的时候再做补充。
参考文献
[1] Peter Harringtom. 机器学习实战[M].北京, 人民邮电出版社, 2013.
[2] 周志华. 机器学习[M].北京,清华大学出版社,2016.。
附录
西瓜数据3.0
编号 | 色泽 | 根蒂 | 敲声 | 纹理 | 脐部 | 触感 | 密度 | 含糖率 | 好瓜 |
---|---|---|---|---|---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.697 | 0.46 | 1 |
2 | 乌黑 | 蜷缩 | 沉闷 | 清晰 | 凹陷 | 硬滑 | 0.744 | 0.376 | 1 |
3 | 乌黑 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.634 | 0.264 | 1 |
4 | 青绿 | 蜷缩 | 沉闷 | 清晰 | 凹陷 | 硬滑 | 0.608 | 0.318 | 1 |
5 | 浅白 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.556 | 0.215 | 1 |
6 | 青绿 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 软粘 | 0.403 | 0.237 | 1 |
7 | 乌黑 | 稍蜷 | 浊响 | 稍糊 | 稍凹 | 软粘 | 0.481 | 0.149 | 1 |
8 | 乌黑 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 硬滑 | 0.437 | 0.211 | 1 |
9 | 乌黑 | 稍蜷 | 沉闷 | 稍糊 | 稍凹 | 硬滑 | 0.666 | 0.091 | 0 |
10 | 青绿 | 硬挺 | 清脆 | 清晰 | 平坦 | 软粘 | 0.243 | 0.267 | 0 |
11 | 浅白 | 硬挺 | 清脆 | 模糊 | 平坦 | 硬滑 | 0.245 | 0.057 | 0 |
12 | 浅白 | 蜷缩 | 浊响 | 模糊 | 平坦 | 软粘 | 0.343 | 0.099 | 0 |
13 | 青绿 | 稍蜷 | 浊响 | 稍糊 | 凹陷 | 硬滑 | 0.639 | 0.161 | 0 |
14 | 浅白 | 稍蜷 | 沉闷 | 稍糊 | 凹陷 | 硬滑 | 0.657 | 0.198 | 0 |
15 | 乌黑 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 软粘 | 0.36 | 0.37 | 0 |
16 | 浅白 | 蜷缩 | 浊响 | 模糊 | 平坦 | 硬滑 | 0.593 | 0.042 | 0 |
17 | 青绿 | 蜷缩 | 沉闷 | 稍糊 | 稍凹 | 硬滑 | 0.719 | 0.103 | 0 |