Gradient Descent Provably Optimizes Over-parameterized Neural Networks
论文地址:http://cn.arxiv.org/abs/1810.02054
摘要
神经网络成功的一个谜是可以通过使用随机初始化的一阶方法(如梯度下降)来实现0训练损失,即使是目标函数是非凸和非平滑的。这篇论文发现了使用ReLU激活函数的两层神经网络的一个现象。对于数据量为nnn的数据集和采用ReLU激活函数mmm个隐藏节点的浅层神经网络,我们使用随机初始化的梯度下降法来优化二次损失函数(quadratic loss function),可以证明:只要mmm足够大并且数据是非退化的,将获得具有线性收敛速度的全局最优解。
以上分析主要基于以下观察:过参数化(over-parameterization)和随机初始化联合限制了每个权重向量在所有迭代过程中都接近于初始化,这允许利用强凸性来显示梯度下降将以全局线性速率收敛到全局最优。作者相信这些见解也会有助于分析深度模型以及其他一阶方法。
这篇论文忽略了神经网络的深度,还需要更加努力。而且这篇论文做出的结果是:当隐层神经元个数mmm足够大时,将实现0训练误差(全局最优),个人觉得最重要的是实现测试误差最优。
另外,我很仔细地阅读论文,似乎发现里面有些地方很是粗糙,或是笔误,或是错误,但是对文章整体的结果并没有太大的影响。
问题定义
对于一个使用ReLU(修正线性单元,rectified linear unit)作为激活函数的两层(一个隐层)的神经网络,可以用以下式子来表示:
f(W,a,x)=1m∑r=1marσ(wrTx)f(W,a,x)=\frac{1}{\sqrt{m}}\sum \limits_{r=1}^{m}a_r\sigma\left(w_r^Tx\right) f(W,a,x)=m?1?r=1∑m?ar?σ(wrT?x)
其中x∈Rdx\in \mathbb{R}^dx∈Rd是输入,wr∈Rdw_r\in \mathbb{R}^dwr?∈Rd是第一层的权重向量,ar∈Ra_r\in \mathbb{R}ar?∈R是输出的加权,以及σ(z)=max{0,z}\sigma(z)=max\{0,z\}σ(z)=max{
0,z}为ReLU函数。
本文主要关注使用二次损失的经验风险最小化问题。对于数据集{(xi,yi)}i=1n\{(x_i,y_i)\}_{i=1}^n{
(xi?,yi?)}i=1n?,我们希望最小化以下目标:
min?W∈Rd×mL(W)=∑i=1n12(f(W,a,xi)?yi)2\min\limits_{W\in\mathbb{R}^{d\times m}}L(W)=\sum\limits_{i=1}^n\frac{1}{2}(f(W,a,x_i)-y_i)^2 W∈Rd×mmin?L(W)=i=1∑n?21?(f(W,a,xi?)?yi?)2
为了实现这个目标,我们使用梯度下降法来更新权重矩阵:
W(k+1)=W(k)?η?L(W(k))?W(k)W(k+1)=W(k)-\eta \frac{\partial L(W(k))}{\partial W(k)} W(k+1)=W(k)?η?W(k)?L(W(k))?
其中η>0\eta>0η>0为步长,对于每个权重向量的具体微分如下:
?L(W)?wr=1m∑i=1n(f(W,a,xi)?yi)arxiI(wrTxi≥0)\frac{\partial L(W)}{\partial w_r}=\frac{1}{\sqrt{m}}\sum\limits_{i=1}^{n}(f(W,a,x_i)-y_i)a_rx_i\mathbb{I}\left(w_r^Tx_i\ge0\right) ?wr??L(W)?=m?1?i=1∑n?(f(W,a,xi?)?yi?)ar?xi?I(wrT?xi?≥0)
I\mathbb{I}I为指示函数,为真等于1,为假等于0。
对此,本文将严格地证明对于非退化的数据集以及最够大的mmm,并且正确的随机初始化aaa和W(0)W(0)W(0),GD能够以线性收敛速率实现零训练损失。即有:
?ε>0,?W(K),s.t.L(W(K))≤εinK=O(log?(1/ε))iterations\forall\ \varepsilon >0, \exist\ W(K),\ \mathrm{s.t.}\ L(W(K))\le\varepsilon\ \mathrm{in}\ K=O(\log(1/\varepsilon))\ \mathrm{iterations} ? ε>0,? W(K), s.t. L(W(K))≤ε in K=O(log(1/ε)) iterations
连续时间分析(Continuous Time Analysis)
在本节中,将给出梯度流(最陡下降曲线)的结果,即具有无穷小步长的梯度下降。为此,我们考虑如下定义的微分方程:
dwr(t)dt=??L(W)?wr\frac{dw_r(t)}{dt}=-\frac{\partial L(W)}{\partial w_r} dtdwr?(t)?=??wr??L(W)?
对r∈{1,2,...,m}r\in \{1,2,...,m\}r∈{
1,2,...,m},定义ui(t)=f(W(t),a,xi)u_i(t)=f(W(t),a,x_i)ui?(t)=f(W(t),a,xi?)表示在时间ttt上对输入xix_ixi?的预测,并且令u(t)=(u1(t),u2(t),...,un(t))∈Rnu(t)=(u_1(t),u_2(t),...,u_n(t))\in \mathbb{R}^nu(t)=(u1?(t),u2?(t),...,un?(t))∈Rn为在时间ttt上的预测向量。
有以下定理:
Theorem 1(Convergence Rate of Gradient Flow):假设对所有i∈{1,2,...,n},∥xi∥2=1,∣yi∣≤Ci\in \{1,2,...,n\},\lVert x_i\rVert_2=1,|y_i|\le Ci∈{
1,2,...,n},∥xi?∥2?=1,∣yi?∣≤C对常数CCC,以及矩阵H∞∈Rn×nH^{\infty}\in \mathbb{R}^{n\times n}H∞∈Rn×n,其中Hij∞=Ew?N(0,I)[xiTxjI{wTxi≥0,wTxj≥0}]H^{\infty}_{ij}=\mathbb{E}_{w\sim N(0,I)}[x_i^Tx_j\mathbb{I}\{w^Tx_i\ge0,w^Tx_j\ge0\}]Hij∞?=Ew?N(0,I)?[xiT?xj?I{
wTxi?≥0,wTxj?≥0}],满足λmin?(H∞)=△λ0>0\lambda_{\min}(H^{\infty})\overset{\triangle}=\lambda_0>0λmin?(H∞)=△λ0?>0。然后对r∈{1,2,...,m}r\in \{1,2,...,m\}r∈{
1,2,...,m},初始化wr?N(0,I),ar?unif[?1,1]w_r\sim N(0,I),a_r\sim unif[-1,1]wr??N(0,I),ar??unif[?1,1],并且令m=Ω(n6λ04)m=\Omega(\frac{n^6}{\lambda_0^4})m=Ω(λ04?n6?),可得:
∥u(t)?y∥22≤exp?(?λ0t)∥u(0)?y∥22\lVert u(t)-y\rVert_2^2\le\exp(-\lambda_0t)\lVert u(0)-y\rVert_2^2 ∥u(t)?y∥22?≤exp(?λ0?t)∥u(0)?y∥22?
其中i∈{1,2,...,n},∥xr∥2=1,∣yi∣≤Ci\in \{1,2,...,n\},\lVert x_r\rVert_2=1,|y_i|\le Ci∈{
1,2,...,n},∥xr?∥2?=1,∣yi?∣≤C的假设是为了简化,这可以通过简单放缩实现。关键的假设是H∞H^{\infty}H∞矩阵是严格正定的(Xie et al. [2017], Tsuchida et al. [2017])。另外,mmm要求为Ω(n6λ04)\Omega(\frac{n^6}{\lambda_0^4})Ω(λ04?n6?),即mmm依赖于样本数nnn以及λ0\lambda_0λ0?,下面将会证明over-parameterized对保证梯度下降找到全局最优起到很关键的作用。最后,我们可以看到∥u(t)?y∥22\lVert u(t)-y\rVert_2^2∥u(t)?y∥22?是以指数级递减至0,并且这个速率依赖于λ0\lambda_0λ0?,而不依赖于nnn。
Theorem 1的证明
首先计算每个预测的变化:
KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? \frac{d}{dt}u_…
其中H(t)∈Rn×nH(t)\in \mathbb{R}^{n\times n}H(t)∈Rn×n,满足:
Hij(t)=1mxiTxj∑r=1mI{xiTwr(t)≥0,xjTwr(t)≥0}H_{ij}(t)=\frac{1}{m}x_i^Tx_j\sum\limits_{r=1}^m\mathbb{I}\{x_i^Tw_r(t)\ge0,x_j^Tw_r(t)\ge0\} Hij?(t)=m1?xiT?xj?r=1∑m?I{
xiT?wr?(t)≥0,xjT?wr?(t)≥0}
有了这个定义后,我们可以用以下简洁的式子来描述:
ddtu(t)=H(t)(y?u(t))\frac{d}{dt}u(t)=H(t)(y-u(t)) dtd?u(t)=H(t)(y?u(t))
注意到H(t)H(t)H(t)是一个时间依赖的对称矩阵,我们先在t=0t=0t=0是分析它的属性。我们引出下面这个引理,当mmm很大时,H(0)H(0)H(0)的最小特征值在很大的概率内有下界。
Lemma 1.1
Lemma 1.1:如果m=Ω(n2λ02log?2(nδ))m=\Omega(\frac{n^2}{\lambda_0^2}\log^2(\frac{n}{\delta}))m=Ω(λ02?n2?log2(δn?)),有P(λmin?(H(0))≥34λ0)≥1?δP(\lambda_{\min}(H(0))\ge\frac{3}{4}\lambda_0)\ge1-\deltaP(λmin?(H(0))≥43?λ0?)≥1?δ。
证明:
Hoeffding inequality:
假定X1,X2,...,XnX_1,X_2,...,X_nX1?,X2?,...,Xn?为有界独立随机变量,且Xi∈[ai,bi]X_i\in [a_i,b_i]Xi?∈[ai?,bi?],定义经验均值变量X?=1n∑i=1nXi\overline{X}=\frac{1}{n}\sum\limits_{i=1}^n X_iX=n1?i=1∑n?Xi?,满足不等式:
P(X??E[X?]≥t)≤exp?(?2n2t2∑i=1n(bi?ai)2)或P(X??E[X?]≤t)≥1?exp?(?2n2t2∑i=1n(bi?ai)2)P(\overline{X}-\mathbb{E}[\overline X]\ge t)\le \exp(-\frac{2n^2t^2}{\sum_{i=1}^{n}(b_i-a_i)^2})或\\ P(\overline{X}-\mathbb{E}[\overline X]\le t)\ge 1-\exp(-\frac{2n^2t^2}{\sum_{i=1}^{n}(b_i-a_i)^2}) P(X?E[X]≥t)≤exp(?∑i=1n?(bi??ai?)22n2t2?)或P(X?E[X]≤t)≥1?exp(?∑i=1n?(bi??ai?)22n2t2?)
这里我们有:
Hij(0)=1m∑r=1mxiTxjI{xiTwr≥0,xjTwr≥0}Hij∞=Ew?N(0,I)[xiTxjI{wTxi≥0,wTxj≥0}]=E[Hij(0)]H_{ij}(0)=\frac{1}{m}\sum\limits_{r=1}^mx_i^Tx_j\mathbb{I}\{x_i^Tw_r\ge0,x_j^Tw_r\ge0\}\\ H^{\infty}_{ij}=\mathbb{E}_{w\sim N(0,I)}[x_i^Tx_j\mathbb{I}\{w^Tx_i\ge0,w^Tx_j\ge0\}]=\mathbb{E}[H_{ij}(0)] Hij?(0)=m1?r=1∑m?xiT?xj?I{ xiT?wr?≥0,xjT?wr?≥0}Hij∞?=Ew?N(0,I)?[xiT?xj?I{ wTxi?≥0,wTxj?≥0}]=E[Hij?(0)]
以下是论文上提出的结果:
P(∣Hij(0)?Hij∞∣≤2log?(1/δ′)m)≥1?δ′P(|H_{ij}(0)-H_{ij}^\infty|\le\frac{2\log (1/\delta')}{\sqrt m})\ge 1-\delta' P(∣Hij?(0)?Hij∞?∣≤m?2log(1/δ′)?)≥1?δ′
那么至少有概率1?δ1-\delta1?δ,使得:
∣Hij(0)?Hij∞∣≤4log?(n/δ)m|H_{ij}(0)-H_{ij}^\infty |\le\frac{4\log (n/\delta)}{\sqrt m} ∣Hij?(0)?Hij∞?∣≤m?4log(n/δ)?
所以有:
∥H(0)?H∞∥22≤∥H(0)?H∞∥F2≤∑i,j∣Hij(0)?Hij∞∣≤16n2log?2(n/δ)m\lVert H(0)-H^\infty\rVert_2^2\le\lVert H(0)-H^\infty\rVert_F^2\le\sum\limits_{i,j}|H_{ij}(0)-H_{ij}^\infty|\le\frac{16n^2\log^2(n/\delta)}{m} ∥H(0)?H∞∥22?≤∥H(0)?H∞∥F2?≤i,j∑?∣Hij?(0)?Hij∞?∣≤m16n2log2(n/δ)?
因此如果m=Ω(n2log?2(n/δ)λ02)m=\Omega(\frac{n^2\log^2(n/\delta)}{\lambda_0^2})m=Ω(λ02?n2log2(n/δ)?),就可以得到想要的结果。但是我试了一下,似乎应该做出一些变动!!!
易证xitxjI{xiTwr≥0,xjTwr≥0}∈[?1,1]x_i^tx_j\mathbb{I}\{x_i^Tw_r\ge0,x_j^Tw_r\ge0\}\in[-1,1]xit?xj?I{ xiT?wr?≥0,xjT?wr?≥0}∈[?1,1],根据Hoeffding inequality,有:
P(∣Hij(0)?Hij∞∣≤t)≥1?2exp?(?mt22)P(|H_{ij}(0)-H_{ij}^\infty|\le t)\ge 1- 2\exp(-\frac{mt^2}{2}) P(∣Hij?(0)?Hij∞?∣≤t)≥1?2exp(?2mt2?)
令t=2log?(2/δ′)mt=\sqrt{\frac{2\log (2/\delta')}{m}}t=m2log(2/δ′)??,得:
KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? P\left(|H_{ij}…
那么至少有概率1?δ1-\delta1?δ,使得:
∣Hij(0)?Hij∞∣≤2log?(2/δ)m|H_{ij}(0)-H_{ij}^\infty |\le\sqrt{\frac{2\log (2/\delta)}{m}} ∣Hij?(0)?Hij∞?∣≤m2log(2/δ)??
所以有:
∥H(0)?H∞∥22≤∥H(0)?H∞∥F2≤∑i,j∣Hij(0)?Hij∞∣2≤2n2log?(2/δ)m\lVert H(0)-H^\infty\rVert_2^2\le\lVert H(0)-H^\infty\rVert_F^2\le\sum\limits_{i,j}|H_{ij}(0)-H_{ij}^\infty|^2\le\frac{2n^2\log(2/\delta)}{m} ∥H(0)?H∞∥22?≤∥H(0)?H∞∥F2?≤i,j∑?∣Hij?(0)?Hij∞?∣2≤m2n2log(2/δ)?
因此只需m=Ω(n2log?(2/δ)λ02)m=\Omega(\frac{n^2\log(2/\delta)}{\lambda_0^2})m=Ω(λ02?n2log(2/δ)?)
Lemma 1.2
Lemma 1.2:假设给定时间ttt,?c>0\exists\ c>0? c>0,对所有的r∈{1,2,...,m}r\in \{1,2,...,m\}r∈{ 1,2,...,m},有∥wr(t)?wr(0)∥≤cλ0n2=△R\lVert w_r(t)-w_r(0)\rVert\le\frac{c\lambda_0}{n^2}\overset{\triangle}=R∥wr?(t)?wr?(0)∥≤n2cλ0??=△R,那么在初始化上有很大的概率使得λmin?(H(t))≥λ02\lambda_{\min}(H(t))\ge\frac{\lambda_0}{2}λmin?(H(t))≥2λ0??。
证明:
定义事件:
Air={?w:∥w?wr(0)∥≤R,I{xiTwr(0)≥0}?=I{xiTw≥0}}.A_{ir}=\left\{\exist w:\lVert w-w_r(0)\rVert\le R,\mathbb{I}\left\{x_i^Tw_r(0)\ge 0\right\}\not= \mathbb{I}\left\{x_i^Tw\ge 0\right\} \right\}. Air?={ ?w:∥w?wr?(0)∥≤R,I{ xiT?wr?(0)≥0}??=I{ xiT?w≥0}}.
注意到这个事件当且仅当∣wr(0)Tx0∣<R|w_r(0)^Tx_0|<R∣wr?(0)Tx0?∣<R时发生。(此处应该是作者笔误,应该是∣wr(0)Txi∣<R|w_r(0)^Tx_i|<R∣wr?(0)Txi?∣<R)。另外注意到wr(0)?N(0,I)w_r(0)\sim N(0,I)wr?(0)?N(0,I),那么有:P(Air)=P(∣wr(0)Txi∣<R)≤Pwr?N(0,I)(∣wr∣<R)≤2R2πP(A_{ir})=P(|w_r(0)^Tx_i|<R)\le P_{w_r\sim N(0,I)}(|w_r|<R)\le \frac{2R}{\sqrt{2\pi}}P(Air?)=P(∣wr?(0)Txi?∣<R)≤Pwr??N(0,I)?(∣wr?∣<R)≤2π?2R?,又由Cauthy不等式有:∣xiTxj∣≤∥xi∥2∥xj∥2=1|x_i^Tx_j|\le \lVert x_i\rVert_2\lVert x_j\lVert_2=1∣xiT?xj?∣≤∥xi?∥2?∥xj?∥2?=1,而且易得以下式子:
∣(I{wr(0)Txi≥0,wr(0)Txj≥0}?I{wr(t)Txi≥0,wr(t)Txj≥0})∣≤I{Air∪Ajr}\bigg|\left(\mathbb{I}\left\{w_r(0)^Tx_i\ge0,w_r(0)^Tx_j\ge0\right\}-\mathbb{I}\left\{w_r(t)^Tx_i\ge0,w_r(t)^Tx_j\ge0\right\}\right)\bigg|\le\mathbb{I}\{A_{ir}\cup A_{jr}\}\\ ∣∣∣∣?(I{ wr?(0)Txi?≥0,wr?(0)Txj?≥0}?I{ wr?(t)Txi?≥0,wr?(t)Txj?≥0})∣∣∣∣?≤I{ Air?∪Ajr?}
故:
KaTeX parse error: No such environment: align at position 8: \begin{?a?l?i?g?n?}? &\mathbb{E}[|H…
于是,有:
E[∑(i,j)=(1,1)(n,n)∣Hij(t)?Hij(0)∣]≤4n2R2π\mathbb{E}\left[\sum _{(i,j)=(1,1)}^{(n,n)}|H_{ij}(t)-H_{ij}(0)|\right]\le \frac{4n^2R}{\sqrt{2\pi}} E???(i,j)=(1,1)∑(n,n)?∣Hij?(t)?Hij?(0)∣???≤2π?4n2R?
根据Markov Inequality:对于一个非负的随机变量XXX以及a>0a>0a>0,有
P(X≥a)≤E(X)aorP(X≤a)≥1?E(X)aP(X\ge a)\le\frac{\mathbb{E}(X)}{a}\ or\ P(X\le a)\ge 1-\frac{\mathbb{E}(X)}{a} P(X≥a)≤aE(X)? or P(X≤a)≥1?aE(X)?
所以对一个很大的绝对常数CCC,有:
P(∑(i,j)=(1,1)(n,n)∣Hij(t)?Hij(0)∣≤Cn2R)≥1?42πCP\left(\sum _{(i,j)=(1,1)}^{(n,n)}|H_{ij}(t)-H_{ij}(0)|\le Cn^2R\right)\ge 1-\frac{4}{\sqrt{2\pi}C} P???(i,j)=(1,1)∑(n,n)?∣Hij?(t)?Hij?(0)∣≤Cn2R???≥1?2π?C4?
也就是说有很大的概率使得∑(i,j)=(1,1)(n,n)∣Hij(t)?Hij(0)∣≤Cn2R\sum _{(i,j)=(1,1)}^{(n,n)}|H_{ij}(t)-H_{ij}(0)|\le Cn^2R∑(i,j)=(1,1)(n,n)?∣Hij?(t)?Hij?(0)∣≤Cn2R成立,又有:
∥H(t)?H(0)∥2≤∥H(t)?H(0)∥F≤∑(i,j)=(1,1)(n,n)∣Hij(t)?Hij(0)∣≤Cn2R\lVert H(t)-H(0)\rVert_2\le\lVert H(t)-H(0)\rVert_F\le\sum _{(i,j)=(1,1)}^{(n,n)}|H_{ij}(t)-H_{ij}(0)|\le Cn^2R ∥H(t)?H(0)∥2?≤∥H(t)?H(0)∥F?≤(i,j)=(1,1)∑(n,n)?∣Hij?(t)?Hij?(0)∣≤Cn2R
最后通过调整R=cλ0n2R=\frac{c\lambda_0}{n^2}R=n2cλ0??来控制最小特征值下界:
λmin?(H(t))≥λmin?(H(0))?Cn2R≥λ02\lambda_{\min}(H(t))\ge\lambda_{\min}(H(0))-Cn^2R\ge \frac{\lambda_0}{2} λmin?(H(t))≥λmin?(H(0))?Cn2R≥2λ0??得证。
Lemma 1.3
Lemma 1.3:假设对0≤s≤t0\le s\le t0≤s≤t ,有λmin?(H(s))≥λ02\lambda_{\min}(H(s))\ge\frac{\lambda_0}{2}λmin?(H(s))≥2λ0??,那么我们有∥y?u(t)∥22≤exp?(λ0t)∥y?u(0)∥22\lVert y-u(t)\rVert_2^2\le\exp(\lambda_0 t)\lVert y-u(0)\rVert_2^2∥y?u(t)∥22?≤exp(λ0?t)∥y?u(0)∥22?,以及对所有的r∈{1,2,...,m}r\in\{1,2,...,m\}r∈{ 1,2,...,m},有∥wr(t)?wr(0)∥22≤2n∥y?u(0)∥2mλ0=△R′\lVert w_r(t)-w_r(0)\rVert_2^2\le \frac{2\sqrt{n}\lVert y-u(0)\rVert_2}{\sqrt m\lambda_0}\overset{\triangle}=R'∥wr?(t)?wr?(0)∥22?≤m?λ0?2n?∥y?u(0)∥2??=△R′
证明:
计算损失函数的变化有:
ddt∥y?u(t)∥22=?2(y?u(t))TH(t)(y?u(t))≤?λ0∥y?u(t)∥22\frac{d}{dt}\lVert y-u(t)\rVert_2^2=-2(y-u(t))^TH(t)(y-u(t))\le-\lambda_0\lVert y-u(t)\rVert_2^2 dtd?∥y?u(t)∥22?=?2(y?u(t))TH(t)(y?u(t))≤?λ0?∥y?u(t)∥22?
即有到:
ddt(exp?(λ0t)∥y?u(t)∥22)≤0\frac{d}{dt}\left(\exp(\lambda_0t)\lVert y-u(t)\rVert_2^2\right)\le0 dtd?(exp(λ0?t)∥y?u(t)∥22?)≤0
也就是有函数exp?(λ0t)∥y?u(t)∥22\exp(\lambda_0t)\lVert y-u(t)\rVert_2^2exp(λ0?t)∥y?u(t)∥22?单调递减,所以有:
exp?(λ0t)∥y?u(t)∥22≤∥y?u(0)∥22\exp(\lambda_0t)\lVert y-u(t)\rVert_2^2\le \lVert y-u(0)\rVert_2^2 exp(λ0?t)∥y?u(t)∥22?≤∥y?u(0)∥22?
即有∥y?u(t)∥22≤exp?(?λ0t)∥y?u(0)∥22\lVert y-u(t)\rVert_2^2\le\exp(-\lambda_0t) \lVert y-u(0)\rVert_2^2∥y?u(t)∥22?≤exp(?λ0?t)∥y?u(0)∥22?,这说明u(t)→yu(t)\rightarrow yu(t)→y以指数级速率。接下来我们确定梯度的边界,对0≤s≤t0\le s\le t0≤s≤t,有:
KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? \left\lVert\fr…对梯度积分,有:
∥wr(t)?wr(0)∥2≤∫0t∥ddswr(s)∥2ds≤2n∥y?u(0)∥2mλ0\lVert w_r(t)-w_r(0)\rVert_2\le\int_0^t\left\lVert\frac{d}{ds}w_r(s)\right\rVert_2ds\le\frac{2\sqrt n\lVert y-u(0)\rVert_2}{\sqrt m \lambda_0} ∥wr?(t)?wr?(0)∥2?≤∫0t?∥∥∥∥?dsd?wr?(s)∥∥∥∥?2?ds≤m?λ0?2n?∥y?u(0)∥2??
得证。
下面这个引理将会证明如果R′≤RR' \le RR′≤R,Lemma1.2和Lemma1.3将会对所有t≥0t\ge 0t≥0成立。
Lemma 1.4
Lemma 1.4:如果R′≤RR'\le RR′≤R,我们有对所有t≥0t\ge0t≥0,有λmin?(H(t))≥12λ0\lambda_{\min}(H(t))\ge\frac{1}{2}\lambda_0λmin?(H(t))≥21?λ0?,并且对所有r∈{1,2,...,m}r\in\{1,2,...,m\}r∈{ 1,2,...,m},有
∥wr(t)?wr(0)∥>R′\lVert w_r(t)-w_r(0)\rVert> R'∥wr?(t)?wr?(0)∥>R′以及∥y?u(t)∥22≤exp?(?λ0t)∥y?u(0)∥22.\lVert y-u(t)\rVert_2^2\le\exp(-\lambda_0 t)\lVert y-u(0)\rVert_2^2.∥y?u(t)∥22?≤exp(?λ0?t)∥y?u(0)∥22?.
证明:
假设结论在ttt时不成立,即?r∈{1,2,...,m}\exists\ r\in\{1,2,...,m\}? r∈{ 1,2,...,m},有∥wr(t)?wr(0)∥≥R′\lVert w_r(t)-w_r(0)\rVert \ge R'∥wr?(t)?wr?(0)∥≥R′或者∥y?u(t)∥22>exp?(?λ0t)∥y?u(0)∥22\lVert y-u(t)\rVert_2^2>\exp(-\lambda_0 t)\lVert y-u(0)\rVert_2^2∥y?u(t)∥22?>exp(?λ0?t)∥y?u(0)∥22?成立,那么根据Lemma1.3知道,存在s≤ts\le ts≤t,使得λmin?(H(s))<12λ0\lambda_{\min}(H(s))<\frac{1}{2}\lambda_0λmin?(H(s))<21?λ0?,根据Lemma1.2知存在:
t0=inf?{t>0:max?r∈{1,2,...,m}∥wr(t)?wr(0)∥22>R}t_0=\inf \left\{t>0:\max_{r\in\{1,2,...,m\}}\lVert w_r(t)-w_r(0)\rVert_2^2> R\right\} t0?=inf{ t>0:r∈{ 1,2,...,m}max?∥wr?(t)?wr?(0)∥22?>R}
因此在t0t_0t0?处,存在r∈{1,2,...,m}r\in\{1,2,...,m\}r∈{ 1,2,...,m},有∥wr(t)?wr(0)∥22=R\lVert w_r(t)-w_r(0)\rVert_2^2=R∥wr?(t)?wr?(0)∥22?=R,根据Lemma1.2,有λmin?(H(s))≥12λ0\lambda_{\min}(H(s))\ge\frac{1}{2}\lambda_0λmin?(H(s))≥21?λ0?,对t′≤t0t'\le t_0t′≤t0?,然而根据Lemma1.3,得∥wr(t)?wr(0)∥22≤R′≤R\lVert w_r(t)-w_r(0)\rVert_2^2\le R'\le R∥wr?(t)?wr?(0)∥22?≤R′≤R,矛盾!另一方面,在ttt时,λmin?(H(t))<12λ0\lambda_{\min}(H(t))<\frac{1}{2}\lambda_0λmin?(H(t))<21?λ0?,证明类似!
当m=Ω(n5∥y?u(0)∥22λ04)m=\Omega\left(\frac{n^5\lVert y-u(0)\rVert_2^2}{\lambda_0^4}\right)m=Ω(λ04?n5∥y?u(0)∥22??),有R′<RR'<RR′<R成立。我们限制 E[∥y?u(0)∥22]=∑i=1n(yi2+1)=O(n)\mathbb{E}\left[\lVert y-u(0)\rVert_2^2\right]=\sum_{i=1}^n(y_i^2+1)=O(n)E[∥y?u(0)∥22?]=∑i=1n?(yi2?+1)=O(n),那么根据Markov’s inequality有很大的概率使得∥y?u(0)∥22=O(n)\lVert y-u(0)\rVert_2^2=O(n)∥y?u(0)∥22?=O(n),则有m=Ω(n6λ04)m=\Omega(\frac{n^6}{\lambda_0^4})m=Ω(λ04?n6?),Theorem1得证!
离散时间分析(Discrete Time Analysis)
这节将要展示的是随机初始化的梯度下降,在使用恒定的步长下,将以线性速率收敛到全局最小值,首先介绍以下定理。
Theorem 2(Convergence Rate of Gradient Descent):假设对所有i∈{1,2,...,n},∥xi∥2=1,∣yi∣≤Ci\in \{1,2,...,n\},\lVert x_i\rVert_2=1,|y_i|\le Ci∈{
1,2,...,n},∥xi?∥2?=1,∣yi?∣≤C对常数CCC,以及矩阵H∞∈Rn×nH^{\infty}\in \mathbb{R}^{n\times n}H∞∈Rn×n,其中Hij∞=Ew?N(0,I)[xiTxjI{wTxi≥0,wTxj≥0}]H^{\infty}_{ij}=\mathbb{E}_{w\sim N(0,I)}[x_i^Tx_j\mathbb{I}\{w^Tx_i\ge0,w^Tx_j\ge0\}]Hij∞?=Ew?N(0,I)?[xiT?xj?I{
wTxi?≥0,wTxj?≥0}],满足λmin?(H∞)=△λ0>0\lambda_{\min}(H^{\infty})\overset{\triangle}=\lambda_0>0λmin?(H∞)=△λ0?>0。然后对r∈{1,2,...,m}r\in \{1,2,...,m\}r∈{
1,2,...,m},初始化wr?N(0,I),ar?unif[?1,1]w_r\sim N(0,I),a_r\sim unif[-1,1]wr??N(0,I),ar??unif[?1,1],令m=Ω(n6λ04)m=\Omega(\frac{n^6}{\lambda_0^4})m=Ω(λ04?n6?),并且设置步长η=O(λ0n2)\eta =O(\frac{\lambda_0}{n^2})η=O(n2λ0??),那么有很大的概率使得:对k=0,1,2,...k=0,1,2,...k=0,1,2,...
∥u(k)?y∥22≤(1?ηλ02)k∥u(0)?y∥22\lVert u(k)-y\rVert_2^2\le\left(1-\frac{\eta \lambda_0}{2} \right)^k\lVert u(0)-y\rVert_2^2 ∥u(k)?y∥22?≤(1?2ηλ0??)k∥u(0)?y∥22?
Theorem2展示了即使目标函数是非凸和非平滑的,梯度下降也会以线性的收敛速度。
Theorem 2的证明
Condition 2.1:在第kkk轮迭代中,有∥u(k)?y∥22≤(1?ηλ02)k∥u(0)?y∥22\lVert u(k)-y\rVert_2^2\le\left(1-\frac{\eta \lambda_0}{2} \right)^k\lVert u(0)-y\rVert_2^2∥u(k)?y∥22?≤(1?2ηλ0??)k∥u(0)?y∥22?
Corollary 2.1
Corollary 2.1:如果对k′=0,...,kk'=0,...,kk′=0,...,k都有Condition 2.1成立,那么我们对每个r∈{1,2,...,m}r \in \{1,2,...,m\}r∈{
1,2,...,m},有:
∥wr(k+1)?wr(0)∥2≤4n∥y?u(0)∥2mλ0=△R′\lVert w_r(k+1)-w_r(0)\rVert_2\le\frac{4\sqrt n\lVert y-u(0)\rVert_2}{\sqrt m \lambda_0}\overset{\triangle}= R' ∥wr?(k+1)?wr?(0)∥2?≤m?λ0?4n?∥y?u(0)∥2??=△R′
证明:
KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? \lVert w_r(k+1…
如前面一样定义事件:
Air={?w:∥w?wr(0)∥≤R,I{xiTwr(0)≥0}?=I{xiTw≥0}}.A_{ir}=\left\{\exist w:\lVert w-w_r(0)\rVert\le R,\mathbb{I}\left\{x_i^Tw_r(0)\ge 0\right\}\not= \mathbb{I}\left\{x_i^Tw\ge 0\right\}\right\}. Air?={
?w:∥w?wr?(0)∥≤R,I{
xiT?wr?(0)≥0}??=I{
xiT?w≥0}}.
其中R=cλ0n2R=\frac{c\lambda_0}{n^2}R=n2cλ0??,ccc为一个小的正数,不同于梯度流(gradient flow),梯度下降需要一个更精确的分析。为此,令Si={r∈{1,2,...,m}:I{Air=1}}S_i=\{r\in \{1,2,...,m\}:\mathbb{I}\{A_{ir}=1\}\}Si?={
r∈{
1,2,...,m}:I{
Air?=1}}以及Si⊥={1,2,...,m}\SiS_i^\perp=\{1,2,...,m\}\backslash S_iSi⊥?={
1,2,...,m}\Si?,接下来的引理将会确定∣Si⊥∣|S_i^\perp|∣Si⊥?∣的范围。
Lemma 2.1
Lemma 2.1:有很大的概率, ?C>0\exists\ C>0? C>0,s.t. ∑i=1n∣Si⊥∣≤CmnR\sum _{i=1}^n|S_i^\perp|\le CmnR∑i=1n?∣Si⊥?∣≤CmnR。
证明:
对一个固定的i∈{1,2,...,n}i \in \{1,2,...,n\}i∈{ 1,2,...,n}和r∈{1,2,...,m}r\in\{1,2,...,m\}r∈{ 1,2,...,m},根据前面的证明知 :P(Air≤2R2π)P(A_{ir} \le \frac{2R}{\sqrt {2\pi}})P(Air?≤2π?2R?),因此可以得到
E[∣Si⊥∣]=∑r=1mP(Air)≤2mR2π\mathbb{E}\left[\left|S_i^\perp\right|\right]=\sum_{r=1}^mP(A_{ir})\le\frac{2mR}{\sqrt{2\pi}} E[∣∣?Si⊥?∣∣?]=r=1∑m?P(Air?)≤2π?2mR?故有:
E[∑i=1n∣Si⊥∣]≤2mnR2π\mathbb{E}\left[\sum_{i=1}^n\left|S_i^\perp\right|\right]\le\frac{2mnR}{\sqrt{2\pi}} E[i=1∑n?∣∣?Si⊥?∣∣?]≤2π?2mnR?
根据Markov Inequality,对一个很大的常数C>0C>0C>0,有很大的概率使得:
∑i=1n∣Si⊥∣≤CmnR\sum_{i=1}^n\left|S_i^\perp\right|\le CmnR i=1∑n?∣∣?Si⊥?∣∣?≤CmnR
得证。
此时有:
P(∑i=1n∣Si⊥∣≤CmnR)≥1?22πCP(\sum_{i=1}^n|S_i^\perp|\le CmnR)\ge 1- \frac{2}{\sqrt{2\pi}C} P(i=1∑n?∣Si⊥?∣≤CmnR)≥1?2π?C2?
接下来,计算两相邻迭代之间预测的差
KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? u_i(k+1)-u_i(k…
我们将RHS分成两部分,如下:
I1i=△1m∑r∈Siar(σ((wr(k)?η?L(W(k))?wr(k))Txi)?σ(wr(k)Txi))I2i=△1m∑r∈Si⊥ar(σ((wr(k)?η?L(W(k))?wr(k))Txi)?σ(wr(k)Txi))I_1^i\overset{\triangle}=\frac{1}{\sqrt m }\sum_{r\in S_i}a_r\left(\sigma\left(\left(w_r(k)-\eta\frac{\partial L(W(k))}{\partial w_r(k)}\right)^Tx_i\right)-\sigma\left(w_r(k)^Tx_i\right)\right)\\ I_2^i\overset{\triangle}=\frac{1}{\sqrt m }\sum_{r\in S_i^\perp}a_r\left(\sigma\left(\left(w_r(k)-\eta\frac{\partial L(W(k))}{\partial w_r(k)}\right)^Tx_i\right)-\sigma\left(w_r(k)^Tx_i\right)\right)\\ I1i?=△m?1?r∈Si?∑?ar?(σ((wr?(k)?η?wr?(k)?L(W(k))?)Txi?)?σ(wr?(k)Txi?))I2i?=△m?1?r∈Si⊥?∑?ar?(σ((wr?(k)?η?wr?(k)?L(W(k))?)Txi?)?σ(wr?(k)Txi?))
由于ReLU是1-Lipschitz函数,并且∣ar∣≤1|a_r|\le1∣ar?∣≤1,所以我们有:
∣I2i∣≤ηm∑r∈Si⊥∣(?L(W(k))?wr(k))Txi∣≤η∣Si⊥∣mmax?r∈{1,2,...,m}∥?L(W(k))?wr(k)∥2≤η∣Si⊥∣n∥u(k)?y∥2m|I_2^i|\le\frac{\eta}{\sqrt m}\sum_{r\in S_i^\perp}\left|\left(\frac{\partial L(W(k))}{\partial w_r(k)}\right)^Tx_i\right|\le\frac{\eta|S_i^\perp|}{\sqrt m}\max_{r\in\{1,2,...,m\}}\left\lVert\frac{\partial L(W(k))}{\partial w_r(k)}\right\rVert_2\le\frac{\eta|S_i^\perp|\sqrt n \lVert u(k)-y\rVert_2}{m} ∣I2i?∣≤m?η?r∈Si⊥?∑?∣∣∣∣∣?(?wr?(k)?L(W(k))?)Txi?∣∣∣∣∣?≤m?η∣Si⊥?∣?r∈{
1,2,...,m}max?∥∥∥∥??wr?(k)?L(W(k))?∥∥∥∥?2?≤mη∣Si⊥?∣n?∥u(k)?y∥2??
对于I1iI_1^iI1i?,根据Corollary 4.1,我们知道?r∈{1,2,...,m}\forall r \in \{1,2,...,m\}?r∈{
1,2,...,m}有∥wr(k+1)?wr(0)∥≤R′\lVert w_r(k+1)-w_r(0)\rVert\le R'∥wr?(k+1)?wr?(0)∥≤R′以及∥wr(k)?wr(0)∥≤R′\lVert w_r(k)-w_r(0)\rVert\le R'∥wr?(k)?wr?(0)∥≤R′,另一方面:
KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? I_1^i&=&-\frac…
其中Hij(k)=1m∑r=1mxiTxjI{wr(k)Txi≥0,wr(k)Txj≥0}H_{ij}(k)=\frac{1}{m}\sum_{r=1}^mx_i^Tx_j\mathbb{I}\{w_r(k)^Tx_i\ge0,w_r(k)^Tx_j\ge0\}Hij?(k)=m1?∑r=1m?xiT?xj?I{
wr?(k)Txi?≥0,wr?(k)Txj?≥0},是前面定义的Gram矩阵的离散形式,另外
Hij⊥(k)=1m∑r∈SiperpxiTxjI{wr(k)Txi≥0,wr(k)Txj≥0}H_{ij}^\perp(k)=\frac{1}{m}\sum_{r\in S_i^perp}x_iTx_j\mathbb{I}\{w_r(k)^Tx_i\ge0,w_r(k)^Tx_j\ge0\}Hij⊥?(k)=m1?∑r∈Sip?erp?xi?Txj?I{
wr?(k)Txi?≥0,wr?(k)Txj?≥0}。根据Lemma 2,有很大的概率使得:
∥H⊥(k)∥2≤∑(i,j)=(1,1)(n,n)∣Hij⊥(k)∣≤n∑i=1n∣Si⊥∣m≤Cn2mRm=n2CR\left\lVert H^\perp(k)\right\rVert_2\le\sum_{(i,j)=(1,1)}^{(n,n)}\left|H_{ij}^\perp(k)\right|\le\frac{n\sum_{i=1}^n|S_i^\perp|}{m}\le\frac{Cn^2mR}{m}=n^2CR ∥∥?H⊥(k)∥∥?2?≤(i,j)=(1,1)∑(n,n)?∣∣?Hij⊥?(k)∣∣?≤mn∑i=1n?∣Si⊥?∣?≤mCn2mR?=n2CR
另外,类似于梯度的经典分析,可以得到:
∥u(k+1)?u(k)∥22≤η2∑i=1n1m(∑r=1m∥?L(W(k))?wr(k)∥)2≤η2n2∥y?u(k)∥22\lVert u(k+1)-u(k)\rVert_2^2\le\eta^2\sum_{i=1}^n\frac{1}{m}\left(\sum_{r=1}^m\left\lVert\frac{\partial L(W(k))}{\partial w_r(k)}\right\rVert \right)^2\le\eta^2n^2\lVert y-u(k)\rVert_2^2 ∥u(k+1)?u(k)∥22?≤η2i=1∑n?m1?(r=1∑m?∥∥∥∥??wr?(k)?L(W(k))?∥∥∥∥?)2≤η2n2∥y?u(k)∥22?
基于前面的这些估计,做出对Theorem 2的证明如下:
KaTeX parse error: No such environment: eqnarray at position 8: \begin{?e?q?n?a?r?r?a?y?}? \lVert y-u(k+1…
其中R=cλ0n2R=\frac{c\lambda_0}{n^2}R=n2cλ0??,显然可以调节c,Cc,Cc,C,让上式的有足够大的概率成立。
那么,就证明了Theorem 2。