Conditional Guassian Distribution 条件高斯分布及其证明
-
- 1. 写在前面
- 2. 高斯分布
-
- 2.1 一元高斯分布
- 2.2 多元高斯分布
- 3. 条件高斯分布
-
- 3.1 准备工作
- 3.2 条件高斯分布的结论
- 4. 高斯条件分布的证明
-
- 4.1 构造变量
- 4.2 公式证明
- 5. 参考资料
1. 写在前面
~~~~~~ 本文的公式证明来自陈喜群教授的PPT课件以及以及书本《模式识别与机器学习》,在此特别感谢。想写整个博客的原因也由于是网上的推导过程过于繁琐,陈教授的推导过程较为巧妙,但是由于本人基础较为薄弱,想到可能也有很多和我需求相同的人,因此在这里把我的详细公式推导贴在这里。
2. 高斯分布
2.1 一元高斯分布
~~~~~~ ?斯分布,也被称为正态分布,?泛应?于连续型随机变量分布的模型中。对于?元变量xxx的情形,?斯分布可以写成下?的形式:
N(x∣μ,σ2)=1(2πσ2)12exp?{?12σ2(x?μ)2}N\left( x\left| \mu ,\sigma ^2 \right. \right) =\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}\left( x-\mu \right) ^2 \right\} N(x∣∣?μ,σ2)=(2πσ2)21?1?exp{
?2σ21?(x?μ)2}
~~~~~~ 其中,μ\muμ代表均值,σ2\sigma ^2σ2代表方差。对于DDD维向量xxx。
2.2 多元高斯分布
多元高斯分布的形式为:
N(x∣μ,Σ)=1(2π)D21∣Σ∣12exp?{?12(x?μ)TΣ?1(x?μ)}N\left( x\left| \mu ,\Sigma \right. \right) =\frac{1}{\left( 2\pi \right) ^{\frac{D}{2}}}\frac{1}{\left| \Sigma \right|^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2}\left( x-\mu \right) ^T\Sigma ^{-1}\left( x-\mu \right) \right\} N(x∣μ,Σ)=(2π)2D?1?∣Σ∣21?1?exp{
?21?(x?μ)TΣ?1(x?μ)}
~~~~~~ 其中,μ\muμ是一个DDD维均值向量,Σ\SigmaΣ是一个D×DD\times DD×D的协方差矩阵,∣Σ∣|\Sigma|∣Σ∣是Σ\SigmaΣ的行列式。
3. 条件高斯分布
3.1 准备工作
~~~~~~ 多元?斯分布的?个重要性质是,如果两组变量是联合?斯分布,那么以?组变量为条件,另?组变量同样是?斯分布。类似地,任何?个变量的边缘分布也是 ?斯分布 。
~~~~~~ ?先考虑条件概率的情形。假设xxx是一个服从高斯分布N(x∣μ,Σ)N(x|\mu,\Sigma)N(x∣μ,Σ)的DDD维度的向量,我们把xxx划分为两个不相交的子集xax_axa?和xbx_bxb?,不失?般性,我们可以令xax_axa?为x的前MMM个分量,令xbx_bxb?为剩余的D?MD -MD?M个分量,因此:
x=(xaxb)x=\left( \begin{array}{c} x_a\\ x_b\\\end{array} \right) x=(xa?xb??)
~~~~~~ 我们也定义对应的对均值向量μ\muμ的划分,即:
μ=(μaμb)\mu =\left( \begin{array}{c} \mu _a\\ \mu _b\\\end{array} \right) μ=(μa?μb??)
~~~~~~ 协?差矩阵Σ\SigmaΣ为:
Σ=(ΣaaΣabΣbaΣbb)\Sigma =\left( \begin{array}{c} \Sigma _{aa}\,\,\Sigma _{ab}\\ \Sigma _{ba}\,\,\Sigma _{bb}\\ \end{array} \right) Σ=(Σaa?Σab?Σba?Σbb??)
~~~~~~ 这里,我对Σaa\Sigma _{aa}Σaa?不理解,因此特地了解了一下。根据协方差矩阵的计算公式,针对于二维变量X(x1,x2)X(x_1,x_2)X(x1?,x2?),其协方差矩阵可以表示为:
Σ=(cov(x1,x1)cov(x1,x2)cov(x2,x1)cov(x2,x2))\Sigma =\left( \begin{array}{c} \text{cov}\left( x_1,x_1 \right) \,\,\text{cov}\left( x_1,x_2 \right)\\ \text{cov}\left( x_2,x_1 \right) \,\,\text{cov}\left( x_2,x_2 \right)\\ \end{array} \right) Σ=(cov(x1?,x1?)cov(x1?,x2?)cov(x2?,x1?)cov(x2?,x2?)?)
~~~~~~ 类比可知:
Σaa=cov(xa,xa)=(cov(x1,x1)...cov(x1,xa)??cov(xa,x1)...cov(xa,xa))\Sigma _{aa}=\text{cov}\left( x_a,x_a \right) =\left( \begin{array}{c} \text{cov}\left( x_1,x_1 \right) ... \text{cov}\left( x_1,x_a \right)\\ \vdots \,\, \vdots\\ \text{cov}\left( x_a,x_1 \right) ... \text{cov}\left( x_a,x_a \right)\\ \end{array} \right) Σaa?=cov(xa?,xa?)=????cov(x1?,x1?)...cov(x1?,xa?)??cov(xa?,x1?)...cov(xa?,xa?)?????
~~~~~~ 由于cov(x1,x2)=cov(x2,x1)\text{cov}(x_1,x_2)=\text{cov}(x_2,x_1)cov(x1?,x2?)=cov(x2?,x1?)可知,Σaa\Sigma _{aa}Σaa?是一个正交矩阵
~~~~~~ 同理:Σab\Sigma _{ab}Σab?为:
Σab=cov(xa,xb)=(cov(x1,x1)...cov(x1,xb)??cov(xa,x1)...cov(xa,xb))\Sigma _{ab}=\text{cov}\left( x_a,x_b \right) =\left( \begin{array}{c} \text{cov}\left( x_1,x_1 \right) ... \text{cov}\left( x_1,x_b \right)\\ \vdots \,\, \vdots\\ \text{cov}\left( x_a,x_1 \right) ... \text{cov}\left( x_a,x_b \right)\\ \end{array} \right) Σab?=cov(xa?,xb?)=????cov(x1?,x1?)...cov(x1?,xb?)??cov(xa?,x1?)...cov(xa?,xb?)?????
~~~~~~ 观察其结构,我们同样可以发现,Σab=Σba?1\Sigma_{ab}=\Sigma_{ba}^{-1}Σab?=Σba?1?。
3.2 条件高斯分布的结论
~~~~~~ p(xa)p(x_a)p(xa?)表示MMM维的高斯分布,p(xb)p(x_b)p(xb?)表示D?MD-MD?M维的高斯分布,我们可以得到条件概率分布p(xa∣xb)p(x_a|x_b)p(xa?∣xb?)的均值和协方差的表达式:
μa∣b=μa+ΣabΣbb?1(xb?μb)\mu _{a|b}=\mu _a+\Sigma _{ab}\Sigma _{bb}^{-1}\left( x_b-\mu _b \right) μa∣b?=μa?+Σab?Σbb?1?(xb??μb?)
Σa∣b=Σaa?ΣabΣbb?1Σba\Sigma _{a|b}=\Sigma _{aa}-\Sigma _{ab}\Sigma _{bb}^{-1}\Sigma _{ba} Σa∣b?=Σaa??Σab?Σbb?1?Σba?
4. 高斯条件分布的证明
4.1 构造变量
~~~~~~ 这里通过一个非常巧妙的方法构造了一个m×Mm\times Mm×M维的矩阵zzz(我们假设xxx是m×D维的m \times D 维的m×D维的)
z=xa+AxbwhereA=?ΣabΣbb?1z=x_a+\text{A}x_b\,\,\text{where} \text{A}=-\Sigma _{ab}\Sigma _{bb}^{-1} z=xa?+Axb?whereA=?Σab?Σbb?1?
~~~~~~ 现在,我们来计算cov(z,xb)\text{cov}(z,x_b)cov(z,xb?):
Cov(z,xb)=Cov(xa+Axb,xb)=Cov(xa,xb)+ACov(xb,xb)=Σab?ΣabΣbb?1Σbb=0\text{Cov}\left( z,x_b \right) =\text{Cov}\left( x_a+\text{A}x_b,x_b \right) =\text{Cov}\left( x_a,x_b \right) +\text{ACov}\left( x_b,x_b \right) \\ \,\, =\Sigma _{ab}-\Sigma _{ab}\Sigma _{bb}^{-1}\Sigma _{bb}=0 Cov(z,xb?)=Cov(xa?+Axb?,xb?)=Cov(xa?,xb?)+ACov(xb?,xb?)=Σab??Σab?Σbb?1?Σbb?=0
~~~~~~ 通过巧妙的设计,我们实现了cov(z,xb)\text{cov}(z,x_b)cov(z,xb?)=0,后面我们需要用到这个结论。
4.2 公式证明
均值的证明:
~~~~~~ 首先给出E(z)\text{E}(z)E(z)的表达式:E(z)=μ+Aμb\text{E}(z)=\mu+\text{A}\mu_bE(z)=μ+Aμb?
E(xa∣xb)=E(z?Axb∣xb)=E(z∣xb)?AE(xb∣xb)\text{E}\left( x_a|x_b \right) =\text{E}\left( z-\text{A}x_b|x_b \right) =\text{E}\left( z|x_b \right) -A\text{E}\left( x_b|x_b \right) E(xa?∣xb?)=E(z?Axb?∣xb?)=E(z∣xb?)?AE(xb?∣xb?)
由于cov(z,xb)\text{cov}(z,x_b)cov(z,xb?)=0,可得:
E(z∣xb)=E(z)=μa+Aμb\text{E}\left( z|x_b \right) =\text{E}\left( z \right) =\mu _a+\text{A}\mu _b E(z∣xb?)=E(z)=μa?+Aμb?
E(xb∣xb)=xb(因为xb是确定的)\text{E}\left( x_b|x_b \right) =x_b (因为x_b是确定的) E(xb?∣xb?)=xb?(因为xb?是确定的)
~~~~~~ 那么
E(xa∣xb)=E(z?Axb∣xb)=E(z∣xb)?AE(xb∣xb)=μa+Aμb?Axb=μa+ΣabΣbb?1(xb?μb)\text{E}\left( x_a|x_b \right) =\text{E}\left( z-\text{A}x_b|x_b \right) =\text{E}\left( z|x_b \right) -A\text{E}\left( x_b|x_b \right) \\=\mu _a+\text{A}\mu _b-Ax_b=\mu _a+\Sigma _{ab}\Sigma _{bb}^{-1}\left( x_b-\mu _b \right) E(xa?∣xb?)=E(z?Axb?∣xb?)=E(z∣xb?)?AE(xb?∣xb?)=μa?+Aμb??Axb?=μa?+Σab?Σbb?1?(xb??μb?)
方差的证明:
Var(xa∣xb)=Var(z?Axb∣xb)=Var(z∣xb)+Var(Axb∣xb)?ACov(z,?xb)?Cov(z,?xb)AT\text{Var}\left( x_a|x_b \right) =\text{Var}\left( z-\text{A}x_b|x_b \right) =\text{Var}\left( z|x_b \right) +\text{Var}\left( \text{A}x_b|x_b \right) -\text{ACov}\left( z,-x_b \right) -\text{Cov}\left( z,-x_b \right) \text{A}^{\text{T}} Var(xa?∣xb?)=Var(z?Axb?∣xb?)=Var(z∣xb?)+Var(Axb?∣xb?)?ACov(z,?xb?)?Cov(z,?xb?)AT
~~~~~~ 由题:
cov(z,xb)=0\text{cov}(z,x_b)=0 cov(z,xb?)=0
Var(z∣xb)=Var(z)\text{Var}\left( z|x_b \right)=\text{Var}\left( z\right) Var(z∣xb?)=Var(z)
Var(Axb∣xb)=0\text{Var}\left( \text{A}x_b|x_b \right) =0 Var(Axb?∣xb?)=0
~~~~~~ 那么:
Var(Axb∣xb)=Var(z)\text{Var}\left( \text{A}x_b|x_b \right) =\text{Var}\left( z \right) Var(Axb?∣xb?)=Var(z)
~~~~~~ 展开Var(z)\text{Var}\left( z \right)Var(z):
Var(z)=Var(xa)+AVar(xb)AT+ACov(xa,xb)+Cov(xa,xb)AT\text{Var}\left( z \right) =\text{Var}\left( x_a \right) +\text{AVar}\left( x_b \right) \text{A}^{\text{T}}+\text{ACov}\left( x_a,x_b \right) +\text{Cov}\left( x_a,x_b \right) \text{A}^{\text{T}} Var(z)=Var(xa?)+AVar(xb?)AT+ACov(xa?,xb?)+Cov(xa?,xb?)AT
~~~~~~ 带入:
Var(xa)=ΣaaA=?ΣabΣbb?1Cov(xa,xb)=Σab\text{Var}\left( x_a \right) =\Sigma _{aa} \\ \text{A}=-\Sigma _{ab}\Sigma _{bb}^{-1} \\ \text{Cov}\left( x_a,x_b \right) =\Sigma _{ab} Var(xa?)=Σaa?A=?Σab?Σbb?1?Cov(xa?,xb?)=Σab?
~~~~~~ 可得到:
Var(z)=Σab?ΣabΣbb?1Σba\text{Var}\left( z \right) =\Sigma _{ab}-\Sigma _{ab}\Sigma _{bb}^{-1}\Sigma _{b\text{a}} Var(z)=Σab??Σab?Σbb?1?Σba?
5. 参考资料
1.陈喜群:交通大数据PPT
2.《模式识别与机器学习》