当前位置: 代码迷 >> 综合 >> Naive_Bayes
  详细解决方案

Naive_Bayes

热度:24   发布时间:2023-11-25 23:43:42.0

朴素贝叶斯

概念直观理解:

验证每一个类别中,样本特征的分布情况,根据新样本中特征的分布情况预测属于每一个类别的概率,输出概率最大的类别,我们就认为这个样本属于这个类别。

案列:早起咱们的Yahoo做垃圾邮件的分类,就使用的是咱们的朴素贝叶斯

几个比较常见的概率基础知识:

条件概率是指事件A在事件B发生的条件下发生的概率
P(A∣B)=P(AB)P(B)P(A | B)=\frac{P(A B)}{P(B)} P(AB)=P(B)P(AB)?
联合概率是指包含多个条件,且所有条件同时成立的概率 P(AB) 或者P(A,B),或者P(A∩B)

乘法公式:

由条件概率公式得:

? P(AB)=P(A|B)P(B)=P(B|A)P(A)

乘法公式的推广:对于任何正整数n≥2,当P(A1A2…An-1) > 0 时,有:

? P(A1A2…An-1An)=P(A1)P(A2|A1)P(A3|A1A2)…P(An|A1A2…An-1)

全概率公式

设 B1,B2,…是样本空间Ω的一个划分(完备事件组),A为任一事件,则:
P(A)=∑i=1∞P(Bi)P(A∣Bi)P(A)=\sum_{i=1}^{\infty} P\left(B_{i}\right) P\left(A | B_{i}\right) P(A)=i=1?P(Bi?)P(ABi?)

朴素贝叶斯

朴素贝叶斯的独立性假设,只适用于特征之间,而不能说特征与咱们的目标之间也是独立的

设B1,B2,…是样本空间Ω的一个划分,则对任一事件A(P(A)>0),有
P(Bi∣A)=P(Bi)P(A∣Bi)∑j=1nP(Bj)P(A∣Bj)P\left(B_{i} | A\right)=\frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)} P(Bi?A)=j=1n?P(Bj?)P(ABj?)P(Bi?)P(ABi?)?
其实咱们的朴素贝叶斯公式是由以上三个公式总结得来

弄清楚笔记本里面的关于文本分类的朴素贝叶斯公式的推导

算法总结:

优点:

  • 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
  • 对缺失数据不太敏感,算法也比较简单,常用于文本分类
  • 分类精确度高,速度快

缺点:

  • 由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好(结合咱们的词语之间是有上下文关系的去考虑)
  相关解决方案