文章目录
- 题
- 7.1
- 7.2
- 7.3(待补)
- 7.4
- 7.5
- 7.6(待补)
- 7.7
- 7.8
- 7.9(待补)
- 7.10(待补)
题
7.1
西瓜数据集3.0(P84)
编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜
1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是
2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是
3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是
4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是
5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,0.556,0.215,是
6,青绿,稍蜷,浊响,清晰,稍凹,软粘,0.403,0.237,是
7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,0.481,0.149,是
8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,0.437,0.211,是
9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,0.666,0.091,否
10,青绿,硬挺,清脆,清晰,平坦,软粘,0.243,0.267,否
11,浅白,硬挺,清脆,模糊,平坦,硬滑,0.245,0.057,否
12,浅白,蜷缩,浊响,模糊,平坦,软粘,0.343,0.099,否
13,青绿,稍蜷,浊响,稍糊,凹陷,硬滑,0.639,0.161,否
14,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,0.657,0.198,否
15,乌黑,稍蜷,浊响,清晰,稍凹,软粘,0.36,0.37,否
16,浅白,蜷缩,浊响,模糊,平坦,硬滑,0.593,0.042,否
17,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,0.719,0.103,否
7.2
朴素贝叶斯分类器是建立在属性条件独立性假设上的。当属性不独立时,且所有样本不独立的属性取值相同、分类也相同,那么此时朴素贝叶斯分类器也将产生最优分类器。
7.3(待补)
7.4
采用P149的办法,将式子对数化,即将连乘化为连加。因此式子(7.15)变为:
hnb(x)=arg?max?θlog?(P(c))∑i=1dlog?(P(xi∣c))h_{n b}(x)=\underset{\theta}{\arg \max } \log (P(c))\sum_{i=1}^{d} \log \left(P\left(x_{i} | c\right)\right)hnb?(x)=θargmax?log(P(c))∑i=1d?log(P(xi?∣c))
7.5
解释一:原文链接:https://blog.csdn.net/icefire_tyh/article/details/52167273
假设1类样本均值为u1u_1u1?,2类样本均值为u2u_2u2?
由于数据满足同方差的高斯分布,当样本足够大时,可以认为
线性判别分析公式J=∣wT(u1?u2)∣2wT(Σ1+Σ2)wJ=\frac{|w^T(u_1-u_2)|^2}{w^T(Σ_1+Σ_2)w}J=wT(Σ1?+Σ2?)w∣wT(u1??u2?)∣2?求最大值
对1J=wT(Σ1+Σ2)w∣wT(u1?u2)∣2=∑i(1?yi)∣wT(xi?u1)∣2+yi∣wT(xi?u2)∣2∣wT(u1?u2)∣2\frac{1}{J}=\frac{w^T(Σ_1+Σ_2)w}{|w^T(u_1-u_2)|^2}=\sum_i\frac{(1-y_i)|w^T(x_i-u_1)|^2+y_i|w^T(x_i-u_2)|^2}{|w^T(u_1-u_2)|^2}J1?=∣wT(u1??u2?)∣2wT(Σ1?+Σ2?)w?=∑i?∣wT(u1??u2?)∣2(1?yi?)∣wT(xi??u1?)∣2+yi?∣wT(xi??u2?)∣2?求最小值
最优贝叶斯分类器使每个训练样本的后验概率P(c|x)P(c|x)最大,对应线性判别分析中,即离对应分类的中心距离(平方)除以两个分类中心的距离(平方)越小。
即求∑i(1?yi)∣wT(xi?u1)∣2+yi∣wT(xi?u2)∣2∣wT(u1?u2)∣2\sum_i\frac{(1-y_i)|w^T(x_i-u_1)|^2+y_i|w^T(x_i-u_2)|^2}{|w^T(u_1-u_2)|^2}∑i?∣wT(u1??u2?)∣2(1?yi?)∣wT(xi??u1?)∣2+yi?∣wT(xi??u2?)∣2?的最小值
两个式子相同,所以线性判别分析产生最优贝叶斯分类器。
解释二:https://zhuanlan.zhihu.com/p/51768750
7.6(待补)
AODE:P155
7.7
(7.15):先验概率项是P(c)=∣Dc∣DP(c)=\frac{|D_c|}{D}P(c)=D∣Dc?∣?,题中说明一共有两个类c,一个类需要至少30个样例,即P(C1)P(C_1)P(C1?)的估算就需要30个,即∣Dc1∣|D_{c1}|∣Dc1?∣需要30个,因此共需要60个.
(7.23):先验概率项是P(c,xi)=∣Dc,xi∣+1∣D∣+N+NiP(c,x_i)=\frac{|D_{c,x_i}|+1}{|D|+N+N_i}P(c,xi?)=∣D∣+N+Ni?∣Dc,xi??∣+1?,其中∣Dc,xi∣|D_{c,x_i}|∣Dc,xi??∣是类别为c且在第i个属性上取值为xix_ixi?的集合。因此意味着 任意c,xic,x_ic,xi?的组合至少出现30次。
-
属性二值(+1,-1)、类二类(0,1):
-
- 最好情况:
当d=1时,0和-1的组合30个,0和+1的组合30个,1和-1的组合30个,1和+1的组合30个,一共120个。
当d=2时,假设属性1取+1时,属性2正好也取+1;属性1取-1时,属性2也去-1,因此即 (0 +1 +1) 30个,(0 -1 -1)30个,(1 +1 +1)30个,(1 -1 -1)30个,此时刚好满足任意c,xic,x_ic,xi?的组合至少出现30次,且一共120个
因此,最好情况不管d取何值,共要120个
- 最好情况:
-
最坏情况
-
- 120个样子中,第二个属性d2都取相同的值 +1 ,那么为了估算 P(c,x2=?1)P(c,x_2=-1)P(c,x2?=?1) 需要额外60个样本,总计180个样本,同理计算出d=2,3,4… 时的样本数,即每多一个特征,最坏情况需要多加额外60个样本, d=n时,需要 60(n+1)个样本。
即最好120,最坏 60(n+1)
7.8
根据P157的公式(7.26)可知: