当前位置: 代码迷 >> 综合 >> Conditional Guassian Distribution 条件高斯分布及其证明
  详细解决方案

Conditional Guassian Distribution 条件高斯分布及其证明

热度:25   发布时间:2024-02-22 12:56:57.0

Conditional Guassian Distribution 条件高斯分布及其证明

    • 1. 写在前面
    • 2. 高斯分布
      • 2.1 一元高斯分布
      • 2.2 多元高斯分布
    • 3. 条件高斯分布
      • 3.1 准备工作
      • 3.2 条件高斯分布的结论
    • 4. 高斯条件分布的证明
      • 4.1 构造变量
      • 4.2 公式证明
    • 5. 参考资料

1. 写在前面

~~~~~~       本文的公式证明来自陈喜群教授的PPT课件以及以及书本《模式识别与机器学习》,在此特别感谢。想写整个博客的原因也由于是网上的推导过程过于繁琐,陈教授的推导过程较为巧妙,但是由于本人基础较为薄弱,想到可能也有很多和我需求相同的人,因此在这里把我的详细公式推导贴在这里。

2. 高斯分布

2.1 一元高斯分布

~~~~~~      ?斯分布,也被称为正态分布,?泛应?于连续型随机变量分布的模型中。对于?元变量xxx的情形,?斯分布可以写成下?的形式:
N(x∣μ,σ2)=1(2πσ2)12exp?{?12σ2(x?μ)2}N\left( x\left| \mu ,\sigma ^2 \right. \right) =\frac{1}{\left( 2\pi \sigma ^2 \right) ^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2\sigma ^2}\left( x-\mu \right) ^2 \right\} N(x?μ,σ2)=(2πσ2)21?1?exp{ ?2σ21?(x?μ)2}
~~~~~~      其中,μ\muμ代表均值,σ2\sigma ^2σ2代表方差。对于DDD维向量xxx

2.2 多元高斯分布

多元高斯分布的形式为:
N(x∣μ,Σ)=1(2π)D21∣Σ∣12exp?{?12(x?μ)TΣ?1(x?μ)}N\left( x\left| \mu ,\Sigma \right. \right) =\frac{1}{\left( 2\pi \right) ^{\frac{D}{2}}}\frac{1}{\left| \Sigma \right|^{\frac{1}{2}}}\exp \left\{ -\frac{1}{2}\left( x-\mu \right) ^T\Sigma ^{-1}\left( x-\mu \right) \right\} N(xμ,Σ)=(2π)2D?1?Σ21?1?exp{ ?21?(x?μ)TΣ?1(x?μ)}
~~~~~~      其中,μ\muμ是一个DDD维均值向量,Σ\SigmaΣ是一个D×DD\times DD×D的协方差矩阵,∣Σ∣|\Sigma|ΣΣ\SigmaΣ的行列式。

3. 条件高斯分布

3.1 准备工作

~~~~~~      多元?斯分布的?个重要性质是,如果两组变量是联合?斯分布,那么以?组变量为条件,另?组变量同样是?斯分布。类似地,任何?个变量的边缘分布也是 ?斯分布
~~~~~~       ?先考虑条件概率的情形。假设xxx是一个服从高斯分布N(x∣μ,Σ)N(x|\mu,\Sigma)N(xμ,Σ)DDD维度的向量,我们把xxx划分为两个不相交的子集xax_axa?xbx_bxb?,不失?般性,我们可以令xax_axa?为x的前MMM个分量,令xbx_bxb?为剩余的D?MD -MD?M个分量,因此:
x=(xaxb)x=\left( \begin{array}{c} x_a\\ x_b\\\end{array} \right) x=(xa?xb??)
~~~~~~      我们也定义对应的对均值向量μ\muμ的划分,即:
μ=(μaμb)\mu =\left( \begin{array}{c} \mu _a\\ \mu _b\\\end{array} \right) μ=(μa?μb??)
~~~~~~      协?差矩阵Σ\SigmaΣ为:
Σ=(ΣaaΣabΣbaΣbb)\Sigma =\left( \begin{array}{c} \Sigma _{aa}\,\,\Sigma _{ab}\\ \Sigma _{ba}\,\,\Sigma _{bb}\\ \end{array} \right) Σ=(Σaa?Σab?Σba?Σbb??)
~~~~~~      这里,我对Σaa\Sigma _{aa}Σaa?不理解,因此特地了解了一下。根据协方差矩阵的计算公式,针对于二维变量X(x1,x2)X(x_1,x_2)X(x1?,x2?),其协方差矩阵可以表示为:
Σ=(cov(x1,x1)cov(x1,x2)cov(x2,x1)cov(x2,x2))\Sigma =\left( \begin{array}{c} \text{cov}\left( x_1,x_1 \right) \,\,\text{cov}\left( x_1,x_2 \right)\\ \text{cov}\left( x_2,x_1 \right) \,\,\text{cov}\left( x_2,x_2 \right)\\ \end{array} \right) Σ=(cov(x1?,x1?)cov(x1?,x2?)cov(x2?,x1?)cov(x2?,x2?)?)
~~~~~~      类比可知:
Σaa=cov(xa,xa)=(cov(x1,x1)...cov(x1,xa)??cov(xa,x1)...cov(xa,xa))\Sigma _{aa}=\text{cov}\left( x_a,x_a \right) =\left( \begin{array}{c} \text{cov}\left( x_1,x_1 \right) ... \text{cov}\left( x_1,x_a \right)\\ \vdots \,\, \vdots\\ \text{cov}\left( x_a,x_1 \right) ... \text{cov}\left( x_a,x_a \right)\\ \end{array} \right) Σaa?=cov(xa?,xa?)=????cov(x1?,x1?)...cov(x1?,xa?)??cov(xa?,x1?)...cov(xa?,xa?)?????
~~~~~~      由于cov(x1,x2)=cov(x2,x1)\text{cov}(x_1,x_2)=\text{cov}(x_2,x_1)cov(x1?,x2?)=cov(x2?,x1?)可知,Σaa\Sigma _{aa}Σaa?是一个正交矩阵
~~~~~~      同理:Σab\Sigma _{ab}Σab?为:
Σab=cov(xa,xb)=(cov(x1,x1)...cov(x1,xb)??cov(xa,x1)...cov(xa,xb))\Sigma _{ab}=\text{cov}\left( x_a,x_b \right) =\left( \begin{array}{c} \text{cov}\left( x_1,x_1 \right) ... \text{cov}\left( x_1,x_b \right)\\ \vdots \,\, \vdots\\ \text{cov}\left( x_a,x_1 \right) ... \text{cov}\left( x_a,x_b \right)\\ \end{array} \right) Σab?=cov(xa?,xb?)=????cov(x1?,x1?)...cov(x1?,xb?)??cov(xa?,x1?)...cov(xa?,xb?)?????
~~~~~~      观察其结构,我们同样可以发现,Σab=Σba?1\Sigma_{ab}=\Sigma_{ba}^{-1}Σab?=Σba?1?

3.2 条件高斯分布的结论

~~~~~~      p(xa)p(x_a)p(xa?)表示MMM维的高斯分布,p(xb)p(x_b)p(xb?)表示D?MD-MD?M维的高斯分布,我们可以得到条件概率分布p(xa∣xb)p(x_a|x_b)p(xa?xb?)的均值和协方差的表达式:
μa∣b=μa+ΣabΣbb?1(xb?μb)\mu _{a|b}=\mu _a+\Sigma _{ab}\Sigma _{bb}^{-1}\left( x_b-\mu _b \right) μab?=μa?+Σab?Σbb?1?(xb??μb?)
Σa∣b=Σaa?ΣabΣbb?1Σba\Sigma _{a|b}=\Sigma _{aa}-\Sigma _{ab}\Sigma _{bb}^{-1}\Sigma _{ba} Σab?=Σaa??Σab?Σbb?1?Σba?

4. 高斯条件分布的证明

4.1 构造变量

~~~~~~      这里通过一个非常巧妙的方法构造了一个m×Mm\times Mm×M维的矩阵zzz(我们假设xxxm×D维的m \times D 维的m×D
z=xa+AxbwhereA=?ΣabΣbb?1z=x_a+\text{A}x_b\,\,\text{where} \text{A}=-\Sigma _{ab}\Sigma _{bb}^{-1} z=xa?+Axb?whereA=?Σab?Σbb?1?
~~~~~~      现在,我们来计算cov(z,xb)\text{cov}(z,x_b)cov(z,xb?)
Cov(z,xb)=Cov(xa+Axb,xb)=Cov(xa,xb)+ACov(xb,xb)=Σab?ΣabΣbb?1Σbb=0\text{Cov}\left( z,x_b \right) =\text{Cov}\left( x_a+\text{A}x_b,x_b \right) =\text{Cov}\left( x_a,x_b \right) +\text{ACov}\left( x_b,x_b \right) \\ \,\, =\Sigma _{ab}-\Sigma _{ab}\Sigma _{bb}^{-1}\Sigma _{bb}=0 Cov(z,xb?)=Cov(xa?+Axb?,xb?)=Cov(xa?,xb?)+ACov(xb?,xb?)=Σab??Σab?Σbb?1?Σbb?=0
~~~~~~      通过巧妙的设计,我们实现了cov(z,xb)\text{cov}(z,x_b)cov(z,xb?)=0,后面我们需要用到这个结论。

4.2 公式证明

均值的证明:
~~~~~~      首先给出E(z)\text{E}(z)E(z)的表达式:E(z)=μ+Aμb\text{E}(z)=\mu+\text{A}\mu_bE(z)=μ+Aμb?
E(xa∣xb)=E(z?Axb∣xb)=E(z∣xb)?AE(xb∣xb)\text{E}\left( x_a|x_b \right) =\text{E}\left( z-\text{A}x_b|x_b \right) =\text{E}\left( z|x_b \right) -A\text{E}\left( x_b|x_b \right) E(xa?xb?)=E(z?Axb?xb?)=E(zxb?)?AE(xb?xb?)
由于cov(z,xb)\text{cov}(z,x_b)cov(z,xb?)=0,可得:
E(z∣xb)=E(z)=μa+Aμb\text{E}\left( z|x_b \right) =\text{E}\left( z \right) =\mu _a+\text{A}\mu _b E(zxb?)=E(z)=μa?+Aμb?
E(xb∣xb)=xb(因为xb是确定的)\text{E}\left( x_b|x_b \right) =x_b (因为x_b是确定的) E(xb?xb?)=xb?(xb?)
~~~~~~      那么
E(xa∣xb)=E(z?Axb∣xb)=E(z∣xb)?AE(xb∣xb)=μa+Aμb?Axb=μa+ΣabΣbb?1(xb?μb)\text{E}\left( x_a|x_b \right) =\text{E}\left( z-\text{A}x_b|x_b \right) =\text{E}\left( z|x_b \right) -A\text{E}\left( x_b|x_b \right) \\=\mu _a+\text{A}\mu _b-Ax_b=\mu _a+\Sigma _{ab}\Sigma _{bb}^{-1}\left( x_b-\mu _b \right) E(xa?xb?)=E(z?Axb?xb?)=E(zxb?)?AE(xb?xb?)=μa?+Aμb??Axb?=μa?+Σab?Σbb?1?(xb??μb?)
方差的证明:
Var(xa∣xb)=Var(z?Axb∣xb)=Var(z∣xb)+Var(Axb∣xb)?ACov(z,?xb)?Cov(z,?xb)AT\text{Var}\left( x_a|x_b \right) =\text{Var}\left( z-\text{A}x_b|x_b \right) =\text{Var}\left( z|x_b \right) +\text{Var}\left( \text{A}x_b|x_b \right) -\text{ACov}\left( z,-x_b \right) -\text{Cov}\left( z,-x_b \right) \text{A}^{\text{T}} Var(xa?xb?)=Var(z?Axb?xb?)=Var(zxb?)+Var(Axb?xb?)?ACov(z,?xb?)?Cov(z,?xb?)AT

~~~~~~      由题:
cov(z,xb)=0\text{cov}(z,x_b)=0 cov(z,xb?)=0
Var(z∣xb)=Var(z)\text{Var}\left( z|x_b \right)=\text{Var}\left( z\right) Var(zxb?)=Var(z)
Var(Axb∣xb)=0\text{Var}\left( \text{A}x_b|x_b \right) =0 Var(Axb?xb?)=0
~~~~~~      那么:
Var(Axb∣xb)=Var(z)\text{Var}\left( \text{A}x_b|x_b \right) =\text{Var}\left( z \right) Var(Axb?xb?)=Var(z)
~~~~~~      展开Var(z)\text{Var}\left( z \right)Var(z):
Var(z)=Var(xa)+AVar(xb)AT+ACov(xa,xb)+Cov(xa,xb)AT\text{Var}\left( z \right) =\text{Var}\left( x_a \right) +\text{AVar}\left( x_b \right) \text{A}^{\text{T}}+\text{ACov}\left( x_a,x_b \right) +\text{Cov}\left( x_a,x_b \right) \text{A}^{\text{T}} Var(z)=Var(xa?)+AVar(xb?)AT+ACov(xa?,xb?)+Cov(xa?,xb?)AT
~~~~~~      带入:
Var(xa)=ΣaaA=?ΣabΣbb?1Cov(xa,xb)=Σab\text{Var}\left( x_a \right) =\Sigma _{aa} \\ \text{A}=-\Sigma _{ab}\Sigma _{bb}^{-1} \\ \text{Cov}\left( x_a,x_b \right) =\Sigma _{ab} Var(xa?)=Σaa?A=?Σab?Σbb?1?Cov(xa?,xb?)=Σab?
~~~~~~      可得到:
Var(z)=Σab?ΣabΣbb?1Σba\text{Var}\left( z \right) =\Sigma _{ab}-\Sigma _{ab}\Sigma _{bb}^{-1}\Sigma _{b\text{a}} Var(z)=Σab??Σab?Σbb?1?Σba?

5. 参考资料

1.陈喜群:交通大数据PPT
2.《模式识别与机器学习》

  相关解决方案