拉普拉斯特征映射（Laplacian Eigenmaps）_综合

1、介绍

拉普拉斯特征映射（Laplacian Eigenmaps）是一种不太常见的降维算法，它看问题的角度和常见的降维算法不太相同，是从局部的角度去构建数据之间的关系。也许这样讲有些抽象，具体来讲，拉普拉斯特征映射是一种基于图的降维算法，它希望相互间有关系的点（在图中相连的点）在降维后的空间中尽可能的靠近，从而在降维后仍能保持原有的数据结构。
本文参考http://blog.csdn.net/xbinworld/article/details/8855796。

2、推导

拉普拉斯特征映射通过构建邻接矩阵为 $W$ （邻接矩阵定义见这里）的图来重构数据流形的局部结构特征。其主要思想是，如果两个数据实例 $i$ 和 $j$ 很相似，那么 $i$ 和 $j$ 在降维后目标子空间中应该尽量接近。设数据实例的数目为 $n$ ，目标子空间即最终的降维目标的维度为 $m$ 。定义 $n\times m$ 大小的矩阵 $Y$ ，其中每一个行向量 $y_i^T$ 是数据实例 $i$ 在目标 $m$ 维子空间中的向量表示（即降维后的数据实例 $i$ ）。我们的目的是让相似的数据样例 $i$ 和 $j$ 在降维后的目标子空间里仍旧尽量接近，故拉普拉斯特征映射优化的目标函数如下：

min∑i,j||yi?yj||2Wij $min\sum\limits_{i,j}||y_i-y_j||^2W_{ij}$

下面开始推导：

\sum i = 1 n \sum j = 1 n | | y i ? y j | | 2 W i j = \sum i = 1 n \sum j = 1 n (y T i y i ? 2 y T i y j + y T j y j) W i j = \sum i = 1 n (\sum j = 1 n W i j) y T i y i + \sum j = 1 n (\sum i = 1 n W i j) y T j y j ? 2 \sum i = 1 n \sum j = 1 n y T i y j W i j = 2 \sum i = 1 n D i i y T i y i ? 2 \sum i = 1 n \sum j = 1 n y T i y j W i j = 2 \sum i = 1 n (D i i ? ? ? \sqrt y i) T (D i i ? ? ? \sqrt y i) ? 2 \sum i = 1 n y T i (\sum j = 1 n y j W i j) = 2 t r a c e (Y T D Y) ? 2 \sum i = 1 n y T i (Y W) i = 2 t r a c e (Y T D Y) ? 2 t r a c e (Y T W Y) = 2 t r a c e [Y T (D ? W) Y] = 2 t r a c e (Y T L Y)

$\sum_{i=1}^{n}\sum_{j=1}^{n}||y_i-y_j||^2W_{ij} \\=\sum_{i=1}^{n}\sum_{j=1}^{n}(y_i^Ty_i-2y_i^Ty_j+y_j^Ty_j)W_{ij} \\= \sum_{i=1}^{n}(\sum_{j=1}^nW_{ij})y_i^Ty_i+\sum_{j=1}^{n}(\sum_{i=1}^nW_{ij})y_j^Ty_j-2\sum_{i=1}^{n}\sum_{j=1}^{n}y_i^Ty_jW_{ij} \\=2\sum_{i=1}^{n}D_{ii}y_i^Ty_i-2\sum_{i=1}^{n}\sum_{j=1}^{n}y_i^Ty_jW_{ij} \\=2\sum_{i=1}^{n}(\sqrt{D_{ii}}y_i)^T(\sqrt{D_{ii}}y_i)-2\sum_{i=1}^ny_i^T(\sum_{j=1}^ny_jW{ij}) \\=2trace(Y^TDY) - 2\sum_{i=1}^ny_i^T(YW)_i \\=2trace(Y^TDY)-2trace(Y^TWY) \\=2trace[Y^T(D-W)Y] \\=2trace(Y^TLY)$
其中

W $W$ 是图的邻接矩阵，对角矩阵

D $D$ 是图的度矩阵（

Dii=∑nj=1Wij $D_{ii}=\sum_{j=1}^{n}W_{ij}$ ），

L=D?W $L=D-W$ 成为图的拉普拉斯矩阵。

变换后的拉普拉斯特征映射优化的目标函数如下：

mintrace(YTLY),s.t.YTDY=I $min\quad trace(Y^TLY),\quad s.t. Y^TDY=I$

其中限制条件 $s.t. Y^TDY=I$ 保证优化问题有解，下面用拉格朗日乘子法对目标函数求解：

f (Y) = t r (Y T L Y) + t r [Λ (Y T D Y ? I)] ? f ( Y ) ? Y = L Y + L T Y + D T Y Λ T + D Y Λ = 2 L Y + 2 D Y Λ = 0 ∴ L Y = ? D Y Λ

$f(Y) = tr(Y^TLY)+ tr[\Lambda(Y^TDY-I)] \\\dfrac{\partial f(Y)}{\partial Y} =LY+L^TY+D^TY\Lambda^T+DY\Lambda \\=2LY+2DY\Lambda = 0 \\\therefore LY=-DY\Lambda$
其中用到了矩阵的迹的求导，具体方法见迹求导。

Λ $\Lambda$ 为一个对角矩阵，另外

L $L$ 、

D $D$ 均为实对称矩阵，其转置与自身相等。对于单独的

y $y$ 向量，上式可写为：

Ly=λDy $Ly=\lambda D y$ ,这是一个广义特征值问题。。通过求得

m $m$ 个最小非零特征值所对应的特征向量，即可达到降维的目的。

关于这里为什么要选择 $m$ 个最小非零特征值所对应的特征向量，下面评论中的大佬指出，将 $LY=-DY\Lambda$ 带回到 $min\quad trace(Y^TLY)$ 中，由于有着约束条件 $Y^TDY=I$ 的限制，可以得到 $min\quad trace(Y^TLY)=min \quad trace(-\Lambda)$ 。即为特征值之和。我们为了目标函数最小化，要选择最小的 $m$ 个特征值所对应的特征向量。

3、步骤

使用时算法具体步骤为：

步骤1：构建图

使用某一种方法来将所有的点构建成一个图，例如使用KNN算法，将每个点最近的K个点连上边。K是一个预先设定的值。

步骤2：确定权重

确定点与点之间的权重大小，例如选用热核函数来确定，如果点 $i$ 和点 $j$ 相连，那么它们关系的权重设定为：

$W_{ij}=e^{-\frac{||x_i-x_j||^2}{t}}$

另外一种可选的简化设定是 $W_{ij}=1$ 如果点 $i$ ， $j$ 相连，否则 $W_{ij}=0$ 。

步骤3：特征映射

计算拉普拉斯矩阵L的特征向量与特征值： $Ly=\lambda D y$

使用最小的m个非零特征值对应的特征向量作为降维后的结果输出。

4、实例

上图所示左边的图表示有两类数据点（数据是图片），中间图表示采用拉普拉斯特征映射降维后每个数据点在二维空间中的位置，右边的图表示采用PCA并取前两个主要方向投影后的结果，可以清楚地看到，在此分类问题上，拉普拉斯特征映射的结果明显优于PCA。

上图说明的是高维数据（图中3D）也有可能是具有低维的内在属性的（图中Swiss roll实际上是2D的），但是这个低维不是原来坐标表示，例如如果要保持局部关系，蓝色和下面黄色是完全不相关的，但是如果只用任何2D或者3D的距离来描述都是不准确的。

下面的三个图是拉普拉斯特征映射在不同参数下的展开结果（降维到2D），可以看到，似乎是要把整个卷拉平了，蓝色和黄色差的比较远，很好地保留了数据原有的结构。