Naive_Bayes_综合

朴素贝叶斯

概念直观理解：

验证每一个类别中，样本特征的分布情况，根据新样本中特征的分布情况预测属于每一个类别的概率，输出概率最大的类别，我们就认为这个样本属于这个类别。

案列：早起咱们的Yahoo做垃圾邮件的分类，就使用的是咱们的朴素贝叶斯

几个比较常见的概率基础知识：

条件概率是指事件A在事件B发生的条件下发生的概率
$B)=\frac{P(A B)}{P(B)}$
联合概率是指包含多个条件，且所有条件同时成立的概率 P(AB) 或者P(A,B),或者P(A∩B)

乘法公式：

由条件概率公式得：

? P(AB)=P(A|B)P(B)=P(B|A)P(A)

乘法公式的推广：对于任何正整数n≥2，当P(A1A2…An-1) > 0 时，有：

? P(A1A2…An-1An)=P(A1)P(A2|A1)P(A3|A1A2)…P(An|A1A2…An-1)

全概率公式

设 B1,B2,…是样本空间Ω的一个划分（完备事件组），A为任一事件，则：
$P(A)=∑i=1∞P(Bi)P(A∣Bi)P(A)=\sum_{i=1}^{\infty} P\left(B_{i}\right) P\left(A | B_{i}\right)$

朴素贝叶斯

朴素贝叶斯的独立性假设，只适用于特征之间，而不能说特征与咱们的目标之间也是独立的

设B1,B2,…是样本空间Ω的一个划分，则对任一事件A（P(A)>0),有
$P(Bi∣A)=P(Bi)P(A∣Bi)∑j=1nP(Bj)P(A∣Bj)P\left(B_{i} | A\right)=\frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)}$
其实咱们的朴素贝叶斯公式是由以上三个公式总结得来

弄清楚笔记本里面的关于文本分类的朴素贝叶斯公式的推导

算法总结：

优点：

朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率
对缺失数据不太敏感，算法也比较简单，常用于文本分类
分类精确度高，速度快

缺点：

由于使用了样本属性独立性的假设，所以如果特征属性有关联时其效果不好（结合咱们的词语之间是有上下文关系的去考虑）