当前位置: 代码迷 >> 综合 >> 2.高斯分布
  详细解决方案

2.高斯分布

热度:72   发布时间:2023-09-12 07:06:43.0

高斯分布

一维

高斯分布在机器学习中占有举足轻重的作用。在 MLE 方法中: $$ \begin{align}

& data :\longrightarrow

X = (x_1,x_2,\cdots,x_n)^T_{N\times p}

\begin{bmatrix}x_{1}^T  \\x_{2}^T  \\\vdots  \\x_{N}^T  \\
\end{bmatrix}_{N\times p} \\

& X_i\in\mathbb{R}^{p} \ & x_i \mathop{\sim}\limits _{iid} N(\mu,\Sigma) \ & \theta=(\mu,\Sigma)=(\mu,\sigma^{2})

\end{align} $$

$$ \theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits {i=1}^{N}\log p(x{i}|\theta) $$

一般地,高斯分布的概率密度函数写为 $$ p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)} $$ 考虑一维情况 $$ \begin{align} \log p(X|\theta)&=\sum\limits {i=1}^{N}\log p(x{i}|\theta)=\sum\limits {i=1}^{N}\log\frac{1}{\sqrt{2\pi}\sigma}\exp(-(x{i}-\mu)^{2}/2\sigma^{2}) \ & = \sum\limits {i=1}^{N}[\log\frac{1}{\sqrt{2\pi}}+\log\frac{1}{\sigma}-\frac{(x{i}-\mu)^{2}}{2\sigma^{2}}]

\end{align} $$ 首先对 $$\mu$$ 的极值可以得到 : $$ \begin{align} \mu_{MLE} &=\mathop{argmax}\limits {\mu}\log p(X|\theta) \ &=\mathop{argmax}\limits {\mu}\sum\limits {i=1}^{N}-\frac{(x{i}-\mu)^{2}}{2\sigma^{2}} \ &=\mathop{argmin}\limits {\mu}\sum\limits {i=1}^{N}{(x{i}-\mu)^{2}} \end{align} $$ 对$$\mu$$进行求导,有: $$ \frac{\partial}{\partial\mu}\sum\limits {i=1}^{N}(x{i}-\mu)^{2}=\sum\limits {i=1}^{N}2*(x{i}-\mu)=0\longrightarrow\mu{MLE}=\frac{1}{N}\sum\limits {i=1}^{N}x{i} $$ 接下来对另一个参数$$\sigma$$进行求解,有: $$ \begin{align} \sigma{MLE}&=\mathop{argmax}\limits {\sigma}\log p(X|\theta)\ &=\mathop{argmax}\limits {\sigma}\sum\limits {i=1}^{N}[-\log\sigma-\frac{1}{2\sigma^{2}}(x{i}-\mu)^{2}]\nonumber \end{align} $$ 对$$\sigma$$进行求导,有: $$ \begin{align} &\frac{\partial}{\partial\sigma}\sum\limits {i=1}^{N}[-\log\sigma-\frac{1}{2\sigma^{2}}(x{i}-\mu)^{2}]=\sum\limits {i=1}^{N}[-\frac{1}\sigma+\frac{1}{\sigma^{3}}(x{i}-\mu)^{2}] =0 \ &\sum\limits {i=1}^{N}[-\sigma^{2}+(x{i}-\mu)^{2}] = 0 \longrightarrow\sigma{MLE}^{2}=\frac{1}{N}\sum\limits {i=1}^{N}(x{i}-\mu)^{2} \end{align} $$ 但是当对 $$\sigma{MLE}$$ 求 期望的时候由于使用了单个数据集的 $$\mu{MLE}$$,因此对所有数据集求期望的时候我们会发现 $$\sigma_{MLE}$$ 是 有偏的: $$ \begin{align} \mathbb{E}{\mathcal{D}}[\sigma{MLE}^{2}]&=\mathbb{E}{\mathcal{D}}[\frac{1}{N}\sum\limits {i=1}^{N}(x{i}-\mu{MLE})^{2}]\&=\mathbb{E}{\mathcal{D}}[\frac{1}{N}\sum\limits {i=1}^{N}(x{i}^{2}-2x{i}\mu_{MLE}+\mu_{MLE}^{2})\nonumber \&=\mathbb{E}{\mathcal{D}}[\frac{1}{N}\sum\limits {i=1}^{N}x{i}^{2}-\mu{MLE}^{2}]\&=\mathbb{E}{\mathcal{D}}[\frac{1}{N}\sum\limits {i=1}^{N}x{i}^{2}-\mu^{2}+\mu^{2}-\mu{MLE}^{2}]\nonumber\ &= \mathbb{E}{\mathcal{D}}[\frac{1}{N}\sum\limits {i=1}^{N}x{i}^{2}-\mu^{2}]-\mathbb{E}{\mathcal{D}}[\mu_{MLE}^{2}-\mu^{2}]\&=\sigma^{2}-(\mathbb{E}{\mathcal{D}}[\mu{MLE}^{2}]-\mu^{2})\nonumber\&=\sigma^{2}-(\mathbb{E}{\mathcal{D}}[\mu{MLE}^{2}]-\mathbb{E}{\mathcal{D}}^{2}[\mu{MLE}])\&=\sigma^{2}-Var[\mu_{MLE}]\nonumber\&=\sigma^{2}-Var[\frac{1}{N}\sum\limits {i=1}^{N}x{i}]\&=\sigma^{2}-\frac{1}{N^{2}}\sum\limits {i=1}^{N}Var[x{i}]=\frac{N-1}{N}\sigma^{2} \end{align} $$ 而真正的无偏为: $$ \hat{\sigma}^{2}=\frac{1}{N-1}\sum\limits {i=1}^{N}(x{i}-\mu)^{2} $$ 首先对 $$\mu$$ 求 MLE, 然后利用这个结果求 $$\sigma_{MLE}$$ ,因此可以预期的是对数据集求期望时 $$\mathbb{E}{\mathcal{D}}[\mu{MLE}]$$ 是无偏差的: $$ \mathbb{E}{\mathcal{D}}[\mu{MLE}]=\mathbb{E}{\mathcal{D}}[\frac{1}{N}\sum\limits {i=1}^{N}x{i}]=\frac{1}{N}\sum\limits {i=1}^{N}\mathbb{E}{\mathcal{D}}[x{i}]=\mu $$

多维

多维高斯分布表达式: $$ p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)} $$

其中 $$x,\mu\in\mathbb{R}^{p},\Sigma\in\mathbb{R}^{p\times p}$$ ,$$\Sigma$$ 为协方差矩阵,一般是正定矩阵。

指数上的数字可以记为 $$x$$ 和 $$\mu$$ 之间的马氏距离。

如果协方差矩阵为单位矩阵,则马氏距离就是欧式距离。

对于对称的协方差矩阵可进行特征值分解,$$\Sigma=U\Lambda U^{T}=(u_{1},u_{2},\cdots,u_{p})diag(\lambda_{i})(u_{1},u_{2},\cdots,u_{p})^{T}=\sum\limits {i=1}^{p}u{i}\lambda_{i}u_{i}^{T}$$ ,于是: $$ \Sigma^{-1}=\sum\limits {i=1}^{p}u{i}\frac{1}{\lambda_{i}}u_{i}^{T} $$

$$ \Delta=(x-\mu)^{T}\Sigma^{-1}(x-\mu)=\sum\limits {i=1}^{p}(x-\mu)^{T}u{i}\frac{1}{\lambda_{i}}u_{i}^{T}(x-\mu)=\sum\limits {i=1}^{p}\frac{y{i}^{2}}{\lambda_{i}} $$

$$y_{i}=(x-\mu)^T\mu_i$$ ,$$\Delta$$是马氏距离的定义

假设p=2,则$$\Delta=\frac{y_{1}^{2}}{\lambda_{1}}+\frac{y_{2}^{2}}{\lambda_{2}}=1$$

$$y_{i}$$ 是 $$x-\mu$$ 在特征向量 $$u_{i}$$ 上的投影长度,因此上式子就是 $$\Delta$$ 取不同值时的同心椭圆。

局限性

下面我们看多维高斯模型在实际应用时的两个问题

  1. 参数 $$\Sigma,\mu$$ 的自由度为 $$O(p^{2})$$ 对于维度很高的数据其自由度太高。解决方案:高自由度的来源是 $$\Sigma$$ 有 $$\frac{p(p+1)}{2}$$ 个自由参数,可以假设其是对角矩阵,甚至在各向同性假设中假设其对角线上的元素都相同。前一种的算法有 Factor Analysis,后一种有概率 PCA(p-PCA)

  2. 第二个问题是单个高斯分布是单峰的,对有多个峰的数据分布不能得到好的结果。解决方案:高斯混合GMM 模型。

求边缘概率密度以及条件概率密度

已知 $$ \begin{align} x&=(x_1, x_2,\cdots,x_p)^T=(x_{a,m\times 1}, x_{b,n\times1})^T,\ \mu&=(\mu_{a,m\times1}, \mu_{b,n\times1}),\ \Sigma&=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix},且 x\sim\mathcal{N}(\mu,\Sigma)。 \end{align} $$ 求 $$ p(x_a),p(x_b|x_a)以及p(x_b),p(x_a|x_b) $$

通用方法:配方法

采用另外一个方法--高斯分布定理:

已知 $$x\sim\mathcal{N}(\mu,\Sigma), y\sim Ax+b$$,那么 $$y\sim\mathcal{N}(A\mu+b, A\Sigma A^T)$$。

证明:$$\mathbb{E}[y]=\mathbb{E}[Ax+b]=A\mathbb{E}[x]+b=A\mu+b$$,$$Var[y]=Var[Ax+b]=Var[Ax]=A\cdot Var[x]\cdot A^T$$。

1.构造$$x_a=\begin{pmatrix}\mathbb{I}{m\times m}&\mathbb{O}{m\times n}\end{pmatrix}\begin{pmatrix}x_a\x_b\end{pmatrix}$$,代入定理得: $$ \mathbb{E}[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\mu_a\\mu_b\end{pmatrix}=\mu_a\ Var[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}\mathbb{I}\\mathbb{O}\end{pmatrix}=\Sigma_{aa} $$ 可知 $$x_a\sim p(x_a)=\mathcal{N}(\mu_a,\Sigma_{aa})$$。

2.同理,$$x_b\sim\mathcal{N}(\mu_b,\Sigma_{bb})$$。

3.对于两个条件概率,引入三个量: $$ x_{b\cdot a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a\ \mu_{b\cdot a}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a\ \Sigma_{bb\cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} $$ 特别的,最后一个式子叫做 $$\Sigma_{aa}$$ 的 Schur Complementary。可以看到: $$ x_{b\cdot a}=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}{n\times n}\end{pmatrix}\begin{pmatrix}x_a\x_b\end{pmatrix} $$ 于是: $$ \mathbb{E}[x{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}{n\times n}\end{pmatrix}\begin{pmatrix}\mu_a\\mu_b\end{pmatrix}=\mu{b\cdot a}\ Var[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}{n\times n}\end{pmatrix}\begin{pmatrix}\Sigma{aa}&\Sigma_{ab}\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}-\Sigma_{aa}^{-1}\Sigma_{ba}^T\\mathbb{I}{n\times n}\end{pmatrix}=\Sigma{bb\cdot a} $$ 可知 $$x_{b\cdot a}\sim p(x_b|x_a)=\mathcal{N}(\mu_{b\cdot a},\Sigma_{bb\cdot a})$$。

由上面可得到$$x_b=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$$。

因此: $$ \begin{align} &\mathbb{E}[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a \ &Var[x_b|x_a]=Var[x_{b\cdot a}]=\Sigma_{bb\cdot a} \end{align} $$ 可知 $$x_b|x_a\sim\mathcal{N}(\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a,\Sigma_{bb\cdot a})$$。

4.同理, $$ x_{a\cdot b}=x_a-\Sigma_{ab}\Sigma_{bb}^{-1}x_b\ \mu_{a\cdot b}=\mu_a-\Sigma_{ab}\Sigma_{bb}^{-1}\mu_b\ \Sigma_{aa\cdot b}=\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba} $$ 有, $$ \begin{align} &\mathbb{E}[x_a|x_b]=\mu_{a\cdot b}+\Sigma_{ab}\Sigma_{bb}^{-1}x_b \ &Var[x_a|x_b]=\Sigma_{aa\cdot b} \end{align} $$

一般情况下两个随机变量之间独立一定不相关,不相关不一定独立(也就是独立的概念更“苛刻”一点,不相关稍微“弱”一点)

如果两个随机变量均服从高斯分布,那么“不相关”等价于“独立”

重要定理:

$$x\sim\mathcal{N}(\mu,\Sigma), y\sim Ax+b$$,则 $$y\sim\mathcal{N}(A\mu+b, A\Sigma A^T)$$

求联合概率分布

下面利用上边四个量,求解线性模型:

已知:$$p(x)=\mathcal{N}(\mu,\Lambda^{-1}),p(y|x)=\mathcal{N}(Ax+b,L^{-1})$$,求解:$$p(y),p(x|y)$$。

另,$$p(x|y)=\frac{p(y|x)*p(x)}{p(y)}$$,$$y\sim\mathcal{N}(A\mu+b, A\Sigma A^T)$$

$$ \begin{align} 解:&令y=Ax+b+\epsilon,\epsilon\sim\mathcal{N}(0,L^{-1})\

&所以, \mathbb{E}[y]=\mathbb{E}[Ax+b+\epsilon]=A\mu+b\

&Var[y]=Var[Ax+b+\epsilon] \ &=Var[Ax+b]+Var[\epsilon] \ &=A \Lambda^{-1}A^T+L^{-1} \

&因此:\

&y\sim p(y)=\mathcal{N}(A\mu+b,L^{-1}+A\Lambda^{-1}A^T)

\end{align} $$

构造$$z=(x,y)^T\sim N \Bigg ( \begin{bmatrix} \mu \ A\mu+b \ \end{bmatrix},\begin{bmatrix} \Lambda^{-1} & \Large o \ \Large o & L^{-1}+A\Lambda^{-1}A^{-1}\ \end{bmatrix}\Bigg)$$

其中$$\Large o$$用$$\Delta$$来表达,有, $$ \begin{align} \Delta=Cov[x,y]&=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T]\&=\mathbb{E}[(x-\mu)(Ax-A\mu+\epsilon)^T]\&=\mathbb{E}[(x-\mu)(x-\mu)^TA^T]\&=Var[x]A^T\&=\Lambda^{-1}A^T \end{align} $$ 注意到协方差矩阵的对称性,所以 $$p(z)=\mathcal{N}\Large (\begin{bmatrix}\mu\A\mu+b\end{bmatrix},\begin{bmatrix}\Lambda^{-1}&\Lambda^{-1}A^T\A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T\end{bmatrix} \Large )$$。

根据之前的公式,我们可以得到:

$$\mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b)$$

$$Var[x|y]=\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1}$$