multiple, independent regression problems.
共享相同的基函数
对β求导可计算β估计值\beta求导可计算\beta估计值β求导可计算β估计值
多变量解耦:原因在于W(M?K)W(M*K)W(M?K)只定义了高斯噪声的输出,只考虑单变量即可
WWW中K个变量之间的协方差解偶证明K个变量之间的协方差解偶证明K个变量之间的协方差解偶证明
p(t∣x,W,β)=N(t∣WT?(x),β?1I)p(\mathbf{t} | \mathbf{x}, \mathbf{W}, \beta)=\mathcal{N}\left(\mathbf{t} | \mathbf{W}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \beta^{-1} \mathbf{I}\right) p(t∣x,W,β)=N(t∣WT?(x),β?1I)对于单个样本来说,上面式子中t表示K个变量,其均值WT?(x)对于单个样本来说,上面式子中\mathbf{t}表示K个变量,其均值\mathbf{W}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})对于单个样本来说,上面式子中t表示K个变量,其均值WT?(x)为K维向量,协方差矩阵为对角阵,说明变量之间相互独立为K维向量,协方差矩阵为对角阵,说明变量之间相互独立为K维向量,协方差矩阵为对角阵,说明变量之间相互独立
简单证明如下
用到的公式:d∣A∣=tr(A?dA),?∣A∣?A=(A?)T=∣A∣(A?1)T,特别当A=Σ为对称矩阵时,行列式对矩阵的导数=行列式?矩阵的逆用到的公式:d|A|=tr(A^*dA),\frac{\partial{\mathbf{|A|}}}{\partial\mathbf{A}}=(A^*)^T=|A|(A^{-1})^T,特别当A=\Sigma为对称矩阵时,行列式对矩阵的导数=行列式*矩阵的逆用到的公式:d∣A∣=tr(A?dA),?A?∣A∣?=(A?)T=∣A∣(A?1)T,特别当A=Σ为对称矩阵时,行列式对矩阵的导数=行列式?矩阵的逆
AA?1=IAA ^{-1}=\mathrm{I}AA?1=IdAA?1+AdA?1=0dAA ^{-1}+AdA^{-1}=\mathrm{0}dAA?1+AdA?1=0dA?1=?A?1dAA?1dA^{-1}=-A^{-1}dAA ^{-1}dA?1=?A?1dAA?1
有了以上公式对下式中的Σ\mathbf\SigmaΣ求导
ln?L(W,Σ)=?N2ln?∣Σ∣?12∑n=1N(tn?WT?(xn))TΣ?1(tn?WT?(xn))\ln L(\mathbf{W}, \mathbf{\Sigma})=-\frac{N}{2} \ln |\mathbf{\Sigma}|-\frac{1}{2} \sum_{n=1}^{N}\left(\mathbf{t}_{n}-\mathbf{W}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right)^{\mathrm{T}} \mathbf{\Sigma}^{-1}\left(\mathbf{t}_{n}-\mathbf{W}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right) lnL(W,Σ)=?2N?ln∣Σ∣?21?n=1∑N?(tn??WT?(xn?))TΣ?1(tn??WT?(xn?))
令A=(tn?WT?(xn))令A=(\mathbf{t}_n-\mathbf{W}^{\mathrm{T}}\boldsymbol{\phi(\mathbf{x}_n)})令A=(tn??WT?(xn?))
f=ATΣ?1Af=A^{\mathrm{T}}\mathbf{\Sigma}^{-1}Af=ATΣ?1Adf=ATdΣ?1A=tr(ATdΣ?1A)=tr(AATdΣ?1)df=A^{\mathrm{T}}d\mathbf{\Sigma}^{-1}A=tr(A^{\mathrm{T}}d\mathbf{\Sigma}^{-1}A)=tr(AA^{\mathrm{T}}d\mathbf{\Sigma}^{-1})df=ATdΣ?1A=tr(ATdΣ?1A)=tr(AATdΣ?1)=?tr(AATΣ?1dΣΣ?1)=?tr(Σ?1AATΣ?1dΣ)=-tr(AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}d\mathbf{\Sigma}\mathbf{\Sigma}^{-1})=-tr(\mathbf{\Sigma}^{-1}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}d\mathbf{\Sigma})=?tr(AATΣ?1dΣΣ?1)=?tr(Σ?1AATΣ?1dΣ)?f?Σ=?Σ?1AATΣ?1\frac{\partial f}{\partial \mathbf{\Sigma}}=-\mathbf{\Sigma}^{-1}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}?Σ?f?=?Σ?1AATΣ?1
因此有:
?N2Σ?1+12∑n=1NΣ?1AATΣ?1=0-\frac{N}{2}\mathbf{\Sigma}^{-1}+\frac{1}{2}\sum_{n=1}^{N}\mathbf{\Sigma}^{-1}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}=0?2N?Σ?1+21?n=1∑N?Σ?1AATΣ?1=0∑n=1NΣ?1+∑n=1NΣ?1AATΣ?1=0\sum_{n=1}^{N}\mathbf{\Sigma}^{-1}+\sum_{n=1}^{N}\mathbf{\Sigma}^{-1}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}=0n=1∑N?Σ?1+n=1∑N?Σ?1AATΣ?1=0?∑n=1NΣ?1(I?AATΣ?1)=0-\sum_{n=1}^{N}\mathbf{\Sigma}^{-1}(\mathrm I-AA^{\mathrm{T}}\mathbf{\Sigma}^{-1})=0?n=1∑N?Σ?1(I?AATΣ?1)=0∑n=1N(I?AATΣ?1)=0\sum_{n=1}^{N}(\mathrm I-AA^{\mathrm{T}}\mathbf{\Sigma}^{-1})=0n=1∑N?(I?AATΣ?1)=0NI=∑n=1NAATΣ?1N\mathrm I=\sum_{n=1}^{N}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}NI=n=1∑N?AATΣ?1Σ=1N∑n=1NAAT\mathbf{\Sigma}=\frac{1}{N}\sum_{n=1}^{N}AA^{\mathrm{T}}Σ=N1?n=1∑N?AAT