Gradient Descent Provably Optimizes Over-parameterized Neural Networks 论文阅读_综合

Gradient Descent Provably Optimizes Over-parameterized Neural Networks

论文地址：http://cn.arxiv.org/abs/1810.02054

摘要

神经网络成功的一个谜是可以通过使用随机初始化的一阶方法（如梯度下降）来实现0训练损失，即使是目标函数是非凸和非平滑的。这篇论文发现了使用ReLU激活函数的两层神经网络的一个现象。对于数据量为 $n$ 的数据集和采用ReLU激活函数 $m$ 个隐藏节点的浅层神经网络，我们使用随机初始化的梯度下降法来优化二次损失函数（quadratic loss function），可以证明：只要 $m$ 足够大并且数据是非退化的，将获得具有线性收敛速度的全局最优解。

以上分析主要基于以下观察：过参数化(over-parameterization)和随机初始化联合限制了每个权重向量在所有迭代过程中都接近于初始化，这允许利用强凸性来显示梯度下降将以全局线性速率收敛到全局最优。作者相信这些见解也会有助于分析深度模型以及其他一阶方法。

这篇论文忽略了神经网络的深度，还需要更加努力。而且这篇论文做出的结果是：当隐层神经元个数 $m$ 足够大时，将实现0训练误差（全局最优），个人觉得最重要的是实现测试误差最优。

另外，我很仔细地阅读论文，似乎发现里面有些地方很是粗糙，或是笔误，或是错误，但是对文章整体的结果并没有太大的影响。

问题定义

对于一个使用ReLU（修正线性单元，rectified linear unit）作为激活函数的两层（一个隐层）的神经网络，可以用以下式子来表示：
$f(W,a,x)=1m∑r=1marσ(wrTx)f(W,a,x)=\frac{1}{\sqrt{m}}\sum \limits_{r=1}^{m}a_r\sigma\left(w_r^Tx\right)$
其中 $x∈Rdx\in \mathbb{R}^d$ 是输入， $wr∈Rdw_r\in \mathbb{R}^d$ 是第一层的权重向量， $ar∈Ra_r\in \mathbb{R}$ 是输出的加权，以及 $σ(z)=max{0,z}\sigma(z)=max\{0,z\}$ 为ReLU函数。

本文主要关注使用二次损失的经验风险最小化问题。对于数据集 ${(x_i,y_i)\}_{i=1}^n$ ，我们希望最小化以下目标：
$min?W∈Rd×mL(W)=∑i=1n12(f(W,a,xi)?yi)2\min\limits_{W\in\mathbb{R}^{d\times m}}L(W)=\sum\limits_{i=1}^n\frac{1}{2}(f(W,a,x_i)-y_i)^2$
为了实现这个目标，我们使用梯度下降法来更新权重矩阵：
$W(k+1)=W(k)?η?L(W(k))?W(k)W(k+1)=W(k)-\eta \frac{\partial L(W(k))}{\partial W(k)}$
其中 $η>0\eta>0$ 为步长，对于每个权重向量的具体微分如下：
$?L(W)?wr=1m∑i=1n(f(W,a,xi)?yi)arxiI(wrTxi≥0)\frac{\partial L(W)}{\partial w_r}=\frac{1}{\sqrt{m}}\sum\limits_{i=1}^{n}(f(W,a,x_i)-y_i)a_rx_i\mathbb{I}\left(w_r^Tx_i\ge0\right)$
$I\mathbb{I}$ 为指示函数，为真等于1，为假等于0。

对此，本文将严格地证明对于非退化的数据集以及最够大的 $m$ ，并且正确的随机初始化 $a$ 和 $W (0)$ ，GD能够以线性收敛速率实现零训练损失。即有：
$?ε>0,?W(K),s.t.L(W(K))≤εinK=O(log?(1/ε))iterations\forall\ \varepsilon >0, \exist\ W(K),\ \mathrm{s.t.}\ L(W(K))\le\varepsilon\ \mathrm{in}\ K=O(\log(1/\varepsilon))\ \mathrm{iterations}$

连续时间分析(Continuous Time Analysis)

在本节中，将给出梯度流（最陡下降曲线）的结果，即具有无穷小步长的梯度下降。为此，我们考虑如下定义的微分方程：
$dwr(t)dt=??L(W)?wr\frac{dw_r(t)}{dt}=-\frac{\partial L(W)}{\partial w_r}$
对 $r∈{1,2,...,m}r\in \{1,2,...,m\}$ ，定义 $u_i(t)=f(W(t),a,x_i)$ 表示在时间 $t$ 上对输入 $x_i$ 的预测，并且令 $u(t)=(u1(t),u2(t),...,un(t))∈Rnu(t)=(u_1(t),u_2(t),...,u_n(t))\in \mathbb{R}^n$ 为在时间 $t$ 上的预测向量。

有以下定理：

Theorem 1(Convergence Rate of Gradient Flow)：假设对所有 $i∈{1,2,...,n}，∥xi∥2=1，∣yi∣≤Ci\in \{1,2,...,n\}，\lVert x_i\rVert_2=1，|y_i|\le C$ 对常数 $C$ ，以及矩阵 $H∞∈Rn×nH^{\infty}\in \mathbb{R}^{n\times n}$ ，其中 $Hij∞=Ew?N(0,I)[xiTxjI{wTxi≥0,wTxj≥0}]H^{\infty}_{ij}=\mathbb{E}_{w\sim N(0,I)}[x_i^Tx_j\mathbb{I}\{w^Tx_i\ge0,w^Tx_j\ge0\}]$ ，满足 $λmin?(H∞)=△λ0>0\lambda_{\min}(H^{\infty})\overset{\triangle}=\lambda_0>0$ 。然后对 $r∈{1,2,...,m}r\in \{1,2,...,m\}$ ，初始化 $wr?N(0,I),ar?unif[?1,1]w_r\sim N(0,I),a_r\sim unif[-1,1]$ ，并且令 $m=Ω(n6λ04)m=\Omega(\frac{n^6}{\lambda_0^4})$ ，可得：
$∥u(t)?y∥22≤exp?(?λ0t)∥u(0)?y∥22\lVert u(t)-y\rVert_2^2\le\exp(-\lambda_0t)\lVert u(0)-y\rVert_2^2$
其中 $i∈{1,2,...,n}，∥xr∥2=1，∣yi∣≤Ci\in \{1,2,...,n\}，\lVert x_r\rVert_2=1，|y_i|\le C$ 的假设是为了简化，这可以通过简单放缩实现。关键的假设是 $H∞H^{\infty}$ 矩阵是严格正定的(Xie et al. [2017], Tsuchida et al. [2017])。另外， $m$ 要求为 $Ω(n6λ04)\Omega(\frac{n^6}{\lambda_0^4})$ ，即 $m$ 依赖于样本数 $n$ 以及 $λ0\lambda_0$ ，下面将会证明over-parameterized对保证梯度下降找到全局最优起到很关键的作用。最后，我们可以看到 $∥u(t)?y∥22\lVert u(t)-y\rVert_2^2$ 是以指数级递减至0，并且这个速率依赖于 $λ0\lambda_0$ ，而不依赖于 $n$ 。

Theorem 1的证明

首先计算每个预测的变化：
$KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? \frac{d}{dt}u_…$
其中 $H(t)∈Rn×nH(t)\in \mathbb{R}^{n\times n}$ ，满足：
$Hij(t)=1mxiTxj∑r=1mI{xiTwr(t)≥0,xjTwr(t)≥0}H_{ij}(t)=\frac{1}{m}x_i^Tx_j\sum\limits_{r=1}^m\mathbb{I}\{x_i^Tw_r(t)\ge0,x_j^Tw_r(t)\ge0\}$
有了这个定义后，我们可以用以下简洁的式子来描述：
$ddtu(t)=H(t)(y?u(t))\frac{d}{dt}u(t)=H(t)(y-u(t))$
注意到 $H (t)$ 是一个时间依赖的对称矩阵，我们先在 $t = 0$ 是分析它的属性。我们引出下面这个引理，当 $m$ 很大时， $H (0)$ 的最小特征值在很大的概率内有下界。

Lemma 1.1

Lemma 1.1：如果 $m=Ω(n2λ02log?2(nδ))m=\Omega(\frac{n^2}{\lambda_0^2}\log^2(\frac{n}{\delta}))$ ，有 $P(λmin?(H(0))≥34λ0)≥1?δP(\lambda_{\min}(H(0))\ge\frac{3}{4}\lambda_0)\ge1-\delta$ 。

证明：

Hoeffding inequality：

假定 $X_1,X_2,...,X_n$ 为有界独立随机变量，且 $Xi∈[ai,bi]X_i\in [a_i,b_i]$ ，定义经验均值变量 $X?=1n∑i=1nXi\overline{X}=\frac{1}{n}\sum\limits_{i=1}^n X_i$ ，满足不等式：
$P(X??E[X?]≥t)≤exp?(?2n2t2∑i=1n(bi?ai)2)或P(X??E[X?]≤t)≥1?exp?(?2n2t2∑i=1n(bi?ai)2)P(\overline{X}-\mathbb{E}[\overline X]\ge t)\le \exp(-\frac{2n^2t^2}{\sum_{i=1}^{n}(b_i-a_i)^2})或\\ P(\overline{X}-\mathbb{E}[\overline X]\le t)\ge 1-\exp(-\frac{2n^2t^2}{\sum_{i=1}^{n}(b_i-a_i)^2})$
这里我们有:
$Hij(0)=1m∑r=1mxiTxjI{xiTwr≥0,xjTwr≥0}Hij∞=Ew?N(0,I)[xiTxjI{wTxi≥0,wTxj≥0}]=E[Hij(0)]H_{ij}(0)=\frac{1}{m}\sum\limits_{r=1}^mx_i^Tx_j\mathbb{I}\{x_i^Tw_r\ge0,x_j^Tw_r\ge0\}\\ H^{\infty}_{ij}=\mathbb{E}_{w\sim N(0,I)}[x_i^Tx_j\mathbb{I}\{w^Tx_i\ge0,w^Tx_j\ge0\}]=\mathbb{E}[H_{ij}(0)]$
以下是论文上提出的结果：
$P(∣Hij(0)?Hij∞∣≤2log?(1/δ′)m)≥1?δ′P(|H_{ij}(0)-H_{ij}^\infty|\le\frac{2\log (1/\delta')}{\sqrt m})\ge 1-\delta'$
那么至少有概率 $1?δ1-\delta$ ，使得：
$∣Hij(0)?Hij∞∣≤4log?(n/δ)m|H_{ij}(0)-H_{ij}^\infty |\le\frac{4\log (n/\delta)}{\sqrt m}$
所以有：
$∥H(0)?H∞∥22≤∥H(0)?H∞∥F2≤∑i,j∣Hij(0)?Hij∞∣≤16n2log?2(n/δ)m\lVert H(0)-H^\infty\rVert_2^2\le\lVert H(0)-H^\infty\rVert_F^2\le\sum\limits_{i,j}|H_{ij}(0)-H_{ij}^\infty|\le\frac{16n^2\log^2(n/\delta)}{m}$
因此如果 $m=Ω(n2log?2(n/δ)λ02)m=\Omega(\frac{n^2\log^2(n/\delta)}{\lambda_0^2})$ ，就可以得到想要的结果。

但是我试了一下，似乎应该做出一些变动！！！

易证 $xitxjI{xiTwr≥0,xjTwr≥0}∈[?1,1]x_i^tx_j\mathbb{I}\{x_i^Tw_r\ge0,x_j^Tw_r\ge0\}\in[-1,1]$ ，根据Hoeffding inequality，有：
$P(∣Hij(0)?Hij∞∣≤t)≥1?2exp?(?mt22)P(|H_{ij}(0)-H_{ij}^\infty|\le t)\ge 1- 2\exp(-\frac{mt^2}{2})$
令 $t=2log?(2/δ′)mt=\sqrt{\frac{2\log (2/\delta')}{m}}$ ，得：
$KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? P\left(|H_{ij}…$
那么至少有概率 $1?δ1-\delta$ ，使得：
$∣Hij(0)?Hij∞∣≤2log?(2/δ)m|H_{ij}(0)-H_{ij}^\infty |\le\sqrt{\frac{2\log (2/\delta)}{m}}$
所以有：
$∥H(0)?H∞∥22≤∥H(0)?H∞∥F2≤∑i,j∣Hij(0)?Hij∞∣2≤2n2log?(2/δ)m\lVert H(0)-H^\infty\rVert_2^2\le\lVert H(0)-H^\infty\rVert_F^2\le\sum\limits_{i,j}|H_{ij}(0)-H_{ij}^\infty|^2\le\frac{2n^2\log(2/\delta)}{m}$
因此只需 $m=Ω(n2log?(2/δ)λ02)m=\Omega(\frac{n^2\log(2/\delta)}{\lambda_0^2})$

Lemma 1.2

Lemma 1.2：假设给定时间 $t$ ， $?c>0\exists\ c>0$ ，对所有的 $r∈{1,2,...,m}r\in \{1,2,...,m\}$ ，有 $∥wr(t)?wr(0)∥≤cλ0n2=△R\lVert w_r(t)-w_r(0)\rVert\le\frac{c\lambda_0}{n^2}\overset{\triangle}=R$ ，那么在初始化上有很大的概率使得 $λmin?(H(t))≥λ02\lambda_{\min}(H(t))\ge\frac{\lambda_0}{2}$ 。

证明：

定义事件:
$Air={?w:∥w?wr(0)∥≤R,I{xiTwr(0)≥0}?=I{xiTw≥0}}.A_{ir}=\left\{\exist w:\lVert w-w_r(0)\rVert\le R,\mathbb{I}\left\{x_i^Tw_r(0)\ge 0\right\}\not= \mathbb{I}\left\{x_i^Tw\ge 0\right\} \right\}.$
注意到这个事件当且仅当 $w_r(0)^Tx_0|<R$ 时发生。（此处应该是作者笔误，应该是 $w_r(0)^Tx_i|<R$ ）。另外注意到 $wr(0)?N(0,I)w_r(0)\sim N(0,I)$ ，那么有： $P(Air)=P(∣wr(0)Txi∣<R)≤Pwr?N(0,I)(∣wr∣<R)≤2R2πP(A_{ir})=P(|w_r(0)^Tx_i|<R)\le P_{w_r\sim N(0,I)}(|w_r|<R)\le \frac{2R}{\sqrt{2\pi}}$ ，

又由Cauthy不等式有： $∣xiTxj∣≤∥xi∥2∥xj∥2=1|x_i^Tx_j|\le \lVert x_i\rVert_2\lVert x_j\lVert_2=1$ ，而且易得以下式子：
$∣(I{wr(0)Txi≥0,wr(0)Txj≥0}?I{wr(t)Txi≥0,wr(t)Txj≥0})∣≤I{Air∪Ajr}\bigg|\left(\mathbb{I}\left\{w_r(0)^Tx_i\ge0,w_r(0)^Tx_j\ge0\right\}-\mathbb{I}\left\{w_r(t)^Tx_i\ge0,w_r(t)^Tx_j\ge0\right\}\right)\bigg|\le\mathbb{I}\{A_{ir}\cup A_{jr}\}\\$
故：
$KaTeX parse error: No such environment: align at position 8: \begin{?a?l?i?g?n?}? &\mathbb{E}[|H…$
于是，有：
$E[∑(i,j)=(1,1)(n,n)∣Hij(t)?Hij(0)∣]≤4n2R2π\mathbb{E}\left[\sum _{(i,j)=(1,1)}^{(n,n)}|H_{ij}(t)-H_{ij}(0)|\right]\le \frac{4n^2R}{\sqrt{2\pi}}$
根据Markov Inequality：对于一个非负的随机变量 $X$ 以及 $a > 0$ ，有
$P(X≥a)≤E(X)aorP(X≤a)≥1?E(X)aP(X\ge a)\le\frac{\mathbb{E}(X)}{a}\ or\ P(X\le a)\ge 1-\frac{\mathbb{E}(X)}{a}$
所以对一个很大的绝对常数 $C$ ，有：
$P(∑(i,j)=(1,1)(n,n)∣Hij(t)?Hij(0)∣≤Cn2R)≥1?42πCP\left(\sum _{(i,j)=(1,1)}^{(n,n)}|H_{ij}(t)-H_{ij}(0)|\le Cn^2R\right)\ge 1-\frac{4}{\sqrt{2\pi}C}$
也就是说有很大的概率使得 $∑(i,j)=(1,1)(n,n)∣Hij(t)?Hij(0)∣≤Cn2R\sum _{(i,j)=(1,1)}^{(n,n)}|H_{ij}(t)-H_{ij}(0)|\le Cn^2R$ 成立，又有：
$∥H(t)?H(0)∥2≤∥H(t)?H(0)∥F≤∑(i,j)=(1,1)(n,n)∣Hij(t)?Hij(0)∣≤Cn2R\lVert H(t)-H(0)\rVert_2\le\lVert H(t)-H(0)\rVert_F\le\sum _{(i,j)=(1,1)}^{(n,n)}|H_{ij}(t)-H_{ij}(0)|\le Cn^2R$
最后通过调整 $R=cλ0n2R=\frac{c\lambda_0}{n^2}$ 来控制最小特征值下界：
$λmin?(H(t))≥λmin?(H(0))?Cn2R≥λ02\lambda_{\min}(H(t))\ge\lambda_{\min}(H(0))-Cn^2R\ge \frac{\lambda_0}{2}$

得证。

Lemma 1.3

Lemma 1.3：假设对 $0≤s≤t0\le s\le t$ ，有 $λmin?(H(s))≥λ02\lambda_{\min}(H(s))\ge\frac{\lambda_0}{2}$ ，那么我们有 $∥y?u(t)∥22≤exp?(λ0t)∥y?u(0)∥22\lVert y-u(t)\rVert_2^2\le\exp(\lambda_0 t)\lVert y-u(0)\rVert_2^2$ ，以及对所有的 $r∈{1,2,...,m}r\in\{1,2,...,m\}$ ，有 $∥wr(t)?wr(0)∥22≤2n∥y?u(0)∥2mλ0=△R′\lVert w_r(t)-w_r(0)\rVert_2^2\le \frac{2\sqrt{n}\lVert y-u(0)\rVert_2}{\sqrt m\lambda_0}\overset{\triangle}=R'$

证明：

计算损失函数的变化有：
$ddt∥y?u(t)∥22=?2(y?u(t))TH(t)(y?u(t))≤?λ0∥y?u(t)∥22\frac{d}{dt}\lVert y-u(t)\rVert_2^2=-2(y-u(t))^TH(t)(y-u(t))\le-\lambda_0\lVert y-u(t)\rVert_2^2$
即有到:
$ddt(exp?(λ0t)∥y?u(t)∥22)≤0\frac{d}{dt}\left(\exp(\lambda_0t)\lVert y-u(t)\rVert_2^2\right)\le0$
也就是有函数 $exp?(λ0t)∥y?u(t)∥22\exp(\lambda_0t)\lVert y-u(t)\rVert_2^2$ 单调递减，所以有：
$exp?(λ0t)∥y?u(t)∥22≤∥y?u(0)∥22\exp(\lambda_0t)\lVert y-u(t)\rVert_2^2\le \lVert y-u(0)\rVert_2^2$
即有 $∥y?u(t)∥22≤exp?(?λ0t)∥y?u(0)∥22\lVert y-u(t)\rVert_2^2\le\exp(-\lambda_0t) \lVert y-u(0)\rVert_2^2$ ，这说明 $u(t)→yu(t)\rightarrow y$ 以指数级速率。

接下来我们确定梯度的边界，对 $0≤s≤t0\le s\le t$ ，有：
$KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? \left\lVert\fr…$

对梯度积分，有：
$∥wr(t)?wr(0)∥2≤∫0t∥ddswr(s)∥2ds≤2n∥y?u(0)∥2mλ0\lVert w_r(t)-w_r(0)\rVert_2\le\int_0^t\left\lVert\frac{d}{ds}w_r(s)\right\rVert_2ds\le\frac{2\sqrt n\lVert y-u(0)\rVert_2}{\sqrt m \lambda_0}$
得证。

下面这个引理将会证明如果 $\le R$ ，Lemma1.2和Lemma1.3将会对所有 $t≥0t\ge 0$ 成立。

Lemma 1.4

Lemma 1.4：如果 $R′≤RR'\le R$ ，我们有对所有 $t≥0t\ge0$ ，有 $λmin?(H(t))≥12λ0\lambda_{\min}(H(t))\ge\frac{1}{2}\lambda_0$ ，并且对所有 $r∈{1,2,...,m}r\in\{1,2,...,m\}$ ，有

$∥wr(t)?wr(0)∥>R′\lVert w_r(t)-w_r(0)\rVert> R'$ 以及 $∥y?u(t)∥22≤exp?(?λ0t)∥y?u(0)∥22.\lVert y-u(t)\rVert_2^2\le\exp(-\lambda_0 t)\lVert y-u(0)\rVert_2^2.$

证明：

假设结论在 $t$ 时不成立，即 $?r∈{1,2,...,m}\exists\ r\in\{1,2,...,m\}$ ，有 $∥wr(t)?wr(0)∥≥R′\lVert w_r(t)-w_r(0)\rVert \ge R'$ 或者 $∥y?u(t)∥22>exp?(?λ0t)∥y?u(0)∥22\lVert y-u(t)\rVert_2^2>\exp(-\lambda_0 t)\lVert y-u(0)\rVert_2^2$ 成立，那么根据Lemma1.3知道，存在 $s≤ts\le t$ ，使得 $λmin?(H(s))<12λ0\lambda_{\min}(H(s))<\frac{1}{2}\lambda_0$ ，根据Lemma1.2知存在：
$t0=inf?{t>0:max?r∈{1,2,...,m}∥wr(t)?wr(0)∥22>R}t_0=\inf \left\{t>0:\max_{r\in\{1,2,...,m\}}\lVert w_r(t)-w_r(0)\rVert_2^2> R\right\}$
因此在 $t_0$ 处，存在 $r∈{1,2,...,m}r\in\{1,2,...,m\}$ ，有 $∥wr(t)?wr(0)∥22=R\lVert w_r(t)-w_r(0)\rVert_2^2=R$ ，根据Lemma1.2，有 $λmin?(H(s))≥12λ0\lambda_{\min}(H(s))\ge\frac{1}{2}\lambda_0$ ，对 $t′≤t0t'\le t_0$ ，然而根据Lemma1.3，得 $∥wr(t)?wr(0)∥22≤R′≤R\lVert w_r(t)-w_r(0)\rVert_2^2\le R'\le R$ ，矛盾！

另一方面，在 $t$ 时， $λmin?(H(t))<12λ0\lambda_{\min}(H(t))<\frac{1}{2}\lambda_0$ ，证明类似！

当 $m=Ω(n5∥y?u(0)∥22λ04)m=\Omega\left(\frac{n^5\lVert y-u(0)\rVert_2^2}{\lambda_0^4}\right)$ ，有 $R^{'} < R$ 成立。我们限制 $E[∥y?u(0)∥22]=∑i=1n(yi2+1)=O(n)\mathbb{E}\left[\lVert y-u(0)\rVert_2^2\right]=\sum_{i=1}^n(y_i^2+1)=O(n)$ ，那么根据Markov’s inequality有很大的概率使得 $∥y?u(0)∥22=O(n)\lVert y-u(0)\rVert_2^2=O(n)$ ，则有 $m=Ω(n6λ04)m=\Omega(\frac{n^6}{\lambda_0^4})$ ，Theorem1得证！

离散时间分析(Discrete Time Analysis)

这节将要展示的是随机初始化的梯度下降，在使用恒定的步长下，将以线性速率收敛到全局最小值，首先介绍以下定理。

Theorem 2(Convergence Rate of Gradient Descent)：假设对所有 $i∈{1,2,...,n}，∥xi∥2=1，∣yi∣≤Ci\in \{1,2,...,n\}，\lVert x_i\rVert_2=1，|y_i|\le C$ 对常数 $C$ ，以及矩阵 $H∞∈Rn×nH^{\infty}\in \mathbb{R}^{n\times n}$ ，其中 $Hij∞=Ew?N(0,I)[xiTxjI{wTxi≥0,wTxj≥0}]H^{\infty}_{ij}=\mathbb{E}_{w\sim N(0,I)}[x_i^Tx_j\mathbb{I}\{w^Tx_i\ge0,w^Tx_j\ge0\}]$ ，满足 $λmin?(H∞)=△λ0>0\lambda_{\min}(H^{\infty})\overset{\triangle}=\lambda_0>0$ 。然后对 $r∈{1,2,...,m}r\in \{1,2,...,m\}$ ，初始化 $wr?N(0,I),ar?unif[?1,1]w_r\sim N(0,I),a_r\sim unif[-1,1]$ ，令 $m=Ω(n6λ04)m=\Omega(\frac{n^6}{\lambda_0^4})$ ，并且设置步长 $η=O(λ0n2)\eta =O(\frac{\lambda_0}{n^2})$ ，那么有很大的概率使得：对 $k = 0, 1, 2, . . .$
$∥u(k)?y∥22≤(1?ηλ02)k∥u(0)?y∥22\lVert u(k)-y\rVert_2^2\le\left(1-\frac{\eta \lambda_0}{2} \right)^k\lVert u(0)-y\rVert_2^2$
Theorem2展示了即使目标函数是非凸和非平滑的，梯度下降也会以线性的收敛速度。

Theorem 2的证明

Condition 2.1：在第 $k$ 轮迭代中，有 $∥u(k)?y∥22≤(1?ηλ02)k∥u(0)?y∥22\lVert u(k)-y\rVert_2^2\le\left(1-\frac{\eta \lambda_0}{2} \right)^k\lVert u(0)-y\rVert_2^2$

Corollary 2.1

Corollary 2.1：如果对 $k^{'} = 0, . . ., k$ 都有Condition 2.1成立，那么我们对每个 $\in \{1,2,...,m\}$ ，有：
$∥wr(k+1)?wr(0)∥2≤4n∥y?u(0)∥2mλ0=△R′\lVert w_r(k+1)-w_r(0)\rVert_2\le\frac{4\sqrt n\lVert y-u(0)\rVert_2}{\sqrt m \lambda_0}\overset{\triangle}= R'$

证明：
$KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? \lVert w_r(k+1…$

如前面一样定义事件：
$Air={?w:∥w?wr(0)∥≤R,I{xiTwr(0)≥0}?=I{xiTw≥0}}.A_{ir}=\left\{\exist w:\lVert w-w_r(0)\rVert\le R,\mathbb{I}\left\{x_i^Tw_r(0)\ge 0\right\}\not= \mathbb{I}\left\{x_i^Tw\ge 0\right\}\right\}.$
其中 $R=cλ0n2R=\frac{c\lambda_0}{n^2}$ ， $c$ 为一个小的正数，不同于梯度流(gradient flow)，梯度下降需要一个更精确的分析。为此，令 $Si={r∈{1,2,...,m}:I{Air=1}}S_i=\{r\in \{1,2,...,m\}:\mathbb{I}\{A_{ir}=1\}\}$ 以及 $Si⊥={1,2,...,m}\SiS_i^\perp=\{1,2,...,m\}\backslash S_i$ ，接下来的引理将会确定 $∣Si⊥∣|S_i^\perp|$ 的范围。

Lemma 2.1

Lemma 2.1：有很大的概率， $?C>0\exists\ C>0$ ，s.t. $∑i=1n∣Si⊥∣≤CmnR\sum _{i=1}^n|S_i^\perp|\le CmnR$ 。

证明：

对一个固定的 $\in \{1,2,...,n\}$ 和 $r∈{1,2,...,m}r\in\{1,2,...,m\}$ ，根据前面的证明知： $P(Air≤2R2π)P(A_{ir} \le \frac{2R}{\sqrt {2\pi}})$ ，因此可以得到
$E[∣Si⊥∣]=∑r=1mP(Air)≤2mR2π\mathbb{E}\left[\left|S_i^\perp\right|\right]=\sum_{r=1}^mP(A_{ir})\le\frac{2mR}{\sqrt{2\pi}}$

故有：
$E[∑i=1n∣Si⊥∣]≤2mnR2π\mathbb{E}\left[\sum_{i=1}^n\left|S_i^\perp\right|\right]\le\frac{2mnR}{\sqrt{2\pi}}$
根据Markov Inequality，对一个很大的常数 $C > 0$ ，有很大的概率使得：
$∑i=1n∣Si⊥∣≤CmnR\sum_{i=1}^n\left|S_i^\perp\right|\le CmnR$
得证。

此时有：
$P(∑i=1n∣Si⊥∣≤CmnR)≥1?22πCP(\sum_{i=1}^n|S_i^\perp|\le CmnR)\ge 1- \frac{2}{\sqrt{2\pi}C}$
接下来，计算两相邻迭代之间预测的差
$KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? u_i(k+1)-u_i(k…$
我们将RHS分成两部分，如下：
$I1i=△1m∑r∈Siar(σ((wr(k)?η?L(W(k))?wr(k))Txi)?σ(wr(k)Txi))I2i=△1m∑r∈Si⊥ar(σ((wr(k)?η?L(W(k))?wr(k))Txi)?σ(wr(k)Txi))I_1^i\overset{\triangle}=\frac{1}{\sqrt m }\sum_{r\in S_i}a_r\left(\sigma\left(\left(w_r(k)-\eta\frac{\partial L(W(k))}{\partial w_r(k)}\right)^Tx_i\right)-\sigma\left(w_r(k)^Tx_i\right)\right)\\ I_2^i\overset{\triangle}=\frac{1}{\sqrt m }\sum_{r\in S_i^\perp}a_r\left(\sigma\left(\left(w_r(k)-\eta\frac{\partial L(W(k))}{\partial w_r(k)}\right)^Tx_i\right)-\sigma\left(w_r(k)^Tx_i\right)\right)\\$
由于ReLU是1-Lipschitz函数，并且 $∣ar∣≤1|a_r|\le1$ ，所以我们有：
$∣I2i∣≤ηm∑r∈Si⊥∣(?L(W(k))?wr(k))Txi∣≤η∣Si⊥∣mmax?r∈{1,2,...,m}∥?L(W(k))?wr(k)∥2≤η∣Si⊥∣n∥u(k)?y∥2m|I_2^i|\le\frac{\eta}{\sqrt m}\sum_{r\in S_i^\perp}\left|\left(\frac{\partial L(W(k))}{\partial w_r(k)}\right)^Tx_i\right|\le\frac{\eta|S_i^\perp|}{\sqrt m}\max_{r\in\{1,2,...,m\}}\left\lVert\frac{\partial L(W(k))}{\partial w_r(k)}\right\rVert_2\le\frac{\eta|S_i^\perp|\sqrt n \lVert u(k)-y\rVert_2}{m}$
对于 $I_1^i$ ，根据Corollary 4.1，我们知道 $?r∈{1,2,...,m}\forall r \in \{1,2,...,m\}$ 有 $∥wr(k+1)?wr(0)∥≤R′\lVert w_r(k+1)-w_r(0)\rVert\le R'$ 以及 $∥wr(k)?wr(0)∥≤R′\lVert w_r(k)-w_r(0)\rVert\le R'$ ，另一方面：
$KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? I_1^i&=&-\frac…$
其中 $Hij(k)=1m∑r=1mxiTxjI{wr(k)Txi≥0,wr(k)Txj≥0}H_{ij}(k)=\frac{1}{m}\sum_{r=1}^mx_i^Tx_j\mathbb{I}\{w_r(k)^Tx_i\ge0,w_r(k)^Tx_j\ge0\}$ ，是前面定义的Gram矩阵的离散形式，另外

$Hij⊥(k)=1m∑r∈SiperpxiTxjI{wr(k)Txi≥0,wr(k)Txj≥0}H_{ij}^\perp(k)=\frac{1}{m}\sum_{r\in S_i^perp}x_iTx_j\mathbb{I}\{w_r(k)^Tx_i\ge0,w_r(k)^Tx_j\ge0\}$ 。根据Lemma 2，有很大的概率使得：
$∥H⊥(k)∥2≤∑(i,j)=(1,1)(n,n)∣Hij⊥(k)∣≤n∑i=1n∣Si⊥∣m≤Cn2mRm=n2CR\left\lVert H^\perp(k)\right\rVert_2\le\sum_{(i,j)=(1,1)}^{(n,n)}\left|H_{ij}^\perp(k)\right|\le\frac{n\sum_{i=1}^n|S_i^\perp|}{m}\le\frac{Cn^2mR}{m}=n^2CR$
另外，类似于梯度的经典分析，可以得到：
$∥u(k+1)?u(k)∥22≤η2∑i=1n1m(∑r=1m∥?L(W(k))?wr(k)∥)2≤η2n2∥y?u(k)∥22\lVert u(k+1)-u(k)\rVert_2^2\le\eta^2\sum_{i=1}^n\frac{1}{m}\left(\sum_{r=1}^m\left\lVert\frac{\partial L(W(k))}{\partial w_r(k)}\right\rVert \right)^2\le\eta^2n^2\lVert y-u(k)\rVert_2^2$
基于前面的这些估计，做出对Theorem 2的证明如下：
$KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? \lVert y-u(k+1…$
其中 $R=cλ0n2R=\frac{c\lambda_0}{n^2}$ ，显然可以调节 $c ， C$ ，让上式的有足够大的概率成立。

那么，就证明了Theorem 2。