朴素贝叶斯
概念直观理解:
验证每一个类别中,样本特征的分布情况,根据新样本中特征的分布情况预测属于每一个类别的概率,输出概率最大的类别,我们就认为这个样本属于这个类别。
案列:早起咱们的Yahoo做垃圾邮件的分类,就使用的是咱们的朴素贝叶斯
几个比较常见的概率基础知识:
条件概率是指事件A在事件B发生的条件下发生的概率
P(A∣B)=P(AB)P(B)P(A | B)=\frac{P(A B)}{P(B)} P(A∣B)=P(B)P(AB)?
联合概率是指包含多个条件,且所有条件同时成立的概率 P(AB) 或者P(A,B),或者P(A∩B)
乘法公式:
由条件概率公式得:
? P(AB)=P(A|B)P(B)=P(B|A)P(A)
乘法公式的推广:对于任何正整数n≥2,当P(A1A2…An-1) > 0 时,有:
? P(A1A2…An-1An)=P(A1)P(A2|A1)P(A3|A1A2)…P(An|A1A2…An-1)
全概率公式
设 B1,B2,…是样本空间Ω的一个划分(完备事件组),A为任一事件,则:
P(A)=∑i=1∞P(Bi)P(A∣Bi)P(A)=\sum_{i=1}^{\infty} P\left(B_{i}\right) P\left(A | B_{i}\right) P(A)=i=1∑∞?P(Bi?)P(A∣Bi?)
朴素贝叶斯
朴素贝叶斯的独立性假设,只适用于特征之间,而不能说特征与咱们的目标之间也是独立的
设B1,B2,…是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有
P(Bi∣A)=P(Bi)P(A∣Bi)∑j=1nP(Bj)P(A∣Bj)P\left(B_{i} | A\right)=\frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)} P(Bi?∣A)=∑j=1n?P(Bj?)P(A∣Bj?)P(Bi?)P(A∣Bi?)?
其实咱们的朴素贝叶斯公式是由以上三个公式总结得来
弄清楚笔记本里面的关于文本分类的朴素贝叶斯公式的推导
算法总结:
优点:
- 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
- 对缺失数据不太敏感,算法也比较简单,常用于文本分类
- 分类精确度高,速度快
缺点:
- 由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好(结合咱们的词语之间是有上下文关系的去考虑)