当前位置: 代码迷 >> 综合 >> 《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》理解深卷积神经网络中的有效感受野
  详细解决方案

《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》理解深卷积神经网络中的有效感受野

热度:94   发布时间:2023-12-06 00:40:42.0

前言

论文推荐来自B站UP-启释科技,该up对感受野和卷积有深刻的理解
推荐感受野视频讲解:

  1. 深度理解感受野(一)
  2. 深度理解感受野(二)
  3. 深度理解感受野(三)
  4. 深度理解感受野(四)
  5. 深度理解感受野(五)
  6. 深度理解感受野(六)

关于感受野计算基础相关的博文可以了解:感受野-Receptive Field的理解

回归正题,该篇论文发表于NIPS-2016

在这里插入图片描述

Abstract

我们研究了深卷积网络中单位感受野的特征。在许多视觉任务中,感受野的大小是一个至关重要的问题,因为输出必须对图像中足够大的区域做出响应,以捕获有关大型对象的信息。我们引入了有效感受野的概念,并证明它都具有高斯分布,并且只占整个理论感受野的一小部分。我们分析了几种结构设计中的有效感受野,以及nonlinear activations、dropout、sub-sampling和skip connections对其的影响。这就引出了解决其规模过小倾向的建议。

1 Introduction

深层CNN中的一个基本概念是网络中某一层中某个单元的感受野或视野。在完全连接的网络中,每个单元的值取决于网络的整个输入,与此不同,卷积网络中的单元仅取决于输入的一个区域。输入中的这个区域是该单位的感受野。

感受野的概念对于理解和诊断深层CNN的工作方式非常重要。由于输入图像中一个单元感受野以外的任何位置都不会影响该单元的值,因此有必要仔细控制感受野,以确保其覆盖整个相关图像区域。在许多任务中,特别是像语义图像分割、立体和光流估计这样的密集预测任务中,我们对输入图像中的每个像素进行预测,每个输出像素都有一个大的感受野是至关重要的,这样在进行预测时就不会遗漏任何重要信息。

一个单位的感受野大小可以通过多种方式增加。一种选择是堆叠更多层以使网络更深,理论上这会线性增加感受野大小,因为每个额外层都会增加卷积核大小的感受野大小。另一方面,Sub-sampling会成倍增加感受野的大小。像VGG网络[18]和Residual网络[8,6]这样的现代深度CNN架构使用了这些技术的组合。

在本文中,我们仔细研究了深部CNN的感受野,重点研究了其中有许多输出单元的问题。特别是,我们发现并非感受野中的所有像素对输出单位的响应都有相同的贡献。直观地看,很容易看出感受野中心的像素对输出的影响要大得多。在前向传播中,中心像素可以通过许多不同的路径将信息传播到输出,而感受野外部区域的像素只有很少的路径来传播其影响。在反向传播中,来自输出单元的梯度在所有路径上传播,因此中心像素对于来自该输出的梯度具有更大的幅度。

这一观察结果引导我们进一步研究感受野对输出的影响分布( the distribution of impact)。令人惊讶的是,我们可以证明,在许多情况下,感受野中的影响分布呈高斯分布。注意,在早期的工作[20]中,这种关于感受野的高斯假设是在没有正当理由的情况下使用的。这一结果进一步导致了一些有趣的发现,特别是感受野的有效面积,我们称之为有效感受野,只占理论感受野的一小部分,因为高斯分布通常从中心快速衰减。

[20]Kelvin Xu, Jimmy Ba, Ryan Kiros, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, and Y oshua
Bengio. Show, attend and tell: Neural image caption generation with visual attention.arXiv preprint
arXiv:1502.03044, 2015.

我们建立的有效感受野理论也与一些经验观察结果有很好的相关性。一个这样的经验观察是,目前常用的随机初始化导致一些深层CNN从一个小的有效感受野开始,然后在训练期间增长。这可能表明存在错误的初始化偏差。

下面我们将在第2节介绍理论,并在第3节介绍一些经验观察,旨在了解深部CNN的有效感受野。我们在第4节讨论了几种增加有效感受野大小的潜在方法。

2 Properties of Effective Receptive Fields

我们想从数学上描述一个感受野中的每个输入像素对网络上一层单元的输出有多大影响,并研究影响如何分布在该输出单元的感受野中。为了简化符号,我们只考虑每个层上的单个通道,但是对于具有更多的输入和输出通道的卷积层,可以容易地得到类似的结果。

假设每层上的像素由(i,j)(i,j)(i,j)索引,其中心位于(0,0)。将pthp_{th}pth?层上的第(i,j)(i,j)(i,j)个像素表示为xi,jpx_{i,j}^pxi,jp?,其中xi,j0x_{i,j}^0xi,j0?是网络的输入,yi,j=xi,jny_{i,j}=x_{i,j}^nyi,j?=xi,jn?nthn_{th}nth?层上的输出。我们想测量每个xi,j0x_{i,j}^0xi,j0?y0,0y_{0,0}y0,0?的贡献。我们将该中央输出单元的有效感受野effectivereceptivefieldeffective\ receptive\ fieldeffective receptive field(ERF)定义为包含对该单元具有不可忽略影响的任何输入像素的区域

我们在本文中使用的影响度量是偏导数?y0,0/?xi,j0\partial y_{0,0}/\partial x_{i,j}^0?y0,0?/?xi,j0?。其度量了当xi,j0x_{i,j}^0xi,j0?变化一个小数值时y0,0y_{0,0}y0,0?的变化量;因此它是xi,j0x_{i,j}^0xi,j0?相对于y0,0y_{0,0}y0,0?重要性的一个自然度量。然而,这种度量不仅取决于网络的权重,而且在大多数情况下还依赖于输入,因此我们的大多数结果将以对输入分布的期望来表示。

偏导数?y0,0/?xi,j0\partial y_{0,0}/\partial x_{i,j}^0?y0,0?/?xi,j0?可以通过反向传播计算得到。在标准设置中,反向传播传播关于某个损失函数的误差梯度。假设我们有一个任意的losslloss\ lloss l,根据链式法则,我们有
?l?xi,j0=∑i?,j??l?yi?,j??yi?,j??xi,j0\frac{\partial l}{\partial x_{i,j}^0}=\sum_{i^*,j^*}{\frac{\partial l}{\partial y_{i^*,j^*}}\frac{\partial y_{i^*,j^*}}{\partial x_{i,j}^0}}?xi,j0??l?=i?,j???yi?,j???l??xi,j0??yi?,j???
然后为了得到?y0,0/?xi,j0\partial y_{0,0}/\partial x_{i,j}^0?y0,0?/?xi,j0?,我们可以设置误差梯度?l/?y0,0=1\partial l/\partial y_{0,0}=1?l/?y0,0?=1?l/?yi,j=0\partial l/\partial y_{i,j}=0?l/?yi,j?=0(对所有i=?0i\not=0i?=0j=?0j\not=0j?=0),然后将这个梯度传播回网络。

对反向传播的设置有点遗忘的可以回顾下:反向传播推导

结果?l/?xi,j0\partial l/\partial x_{i,j}^0?l/?xi,j0?等于期望值?y0,0/?xi,j0\partial y_{0,0}/\partial x_{i,j}^0?y0,0?/?xi,j0?。这里我们使用了非显式的损失函数的反向传播过程,这个过程可以很容易地用标准的神经网络工具实现。

在下文中,我们首先考虑线性网络,其中该导数不依赖于输入,并且纯粹是网络权重和(i,j)(i,j)(i,j)的函数,它清楚地显示了感受野中像素的分布如何作用。然后,我们考虑更多的现代架构,并讨论nonlinear activations, dropout, sub-sampling,dilation convolutionskip connections对ERF的影响。

2.1 The simplest case: a stack of convolutional layers of weights all equal to one(晦涩难懂)

考虑nnn个卷积层采用k×kk\times kk×k的卷积核,stride 设为1,每个层上有一个单通道,没有非线性,堆叠成一个深度线性的CNN。在此分析中,我们忽略了所有层上的偏置。我们首先分析权值都等于1的卷积核。

g(i,j,p)=?l/?xi,jpg(i,j,p)=\partial l/\partial x_{i,j}^pg(i,j,p)=?l/?xi,jp?来表示pthp_{th}pth?层的梯度,令g(i,j,n)=?l/?yi,jg(i,j,n)=\partial l/\partial y_{i,j}g(i,j,n)=?l/?yi,j?。然后g(,,0)g(,,0)g(,,0)是输入图像的期望梯度。反向传播过程有效地将g(,,p)g(,,p)g(,,p)k×kk\times kk×k卷积核卷积,以得到每个p的g(,,p?1)g(,,p-1)g(,,p?1)

上一段最后一句我翻译得不知对不对,意思相近,但感觉很别扭,原文为:
The back-propagation process effectively convolves g(,,p)g(,,p)g(,,p) with the k×kk\times kk×k kernel to get g(,,p?1)g(,,p-1)g(,,p?1) for each ppp.

在这种特殊情况下,卷积核是一个k×kk\times kk×k的值都为1的矩阵,因此,二维卷积可以分解为两个一维卷积的乘积。因此,我们只关注1D的情况。我们将初始梯度信号u(t)u(t)u(t)和卷积核输出v(t)v(t)v(t)正式定义为u(t)=δ(t),v(t)=∑m=0k?1δ(t?m),whereδ(t)={1,t=00,t=?0???(1)u(t)=\delta(t),v(t)=\sum_{m=0}^{k-1}\delta(t-m), \ where\ \delta(t)=\begin{cases} 1, & \text {$t=0$} \\ 0, & \text{$t\not=0$} \end{cases}---(1)u(t)=δ(t),v(t)=m=0k?1?δ(t?m), where δ(t)={ 1,0,?t=0t?=0????(1)

其中t=0,1,?1,2,?2,...t=0,1,-1,2,-2,...t=0,1,?1,2,?2,...表示像素的索引。

个人理解:
u(t)u(t)u(t)表示整个feature map的初始梯度信号,1D卷积核是一个1×k1\times k1×k的张量,作者定义为卷积核输出为v(t)v(t)v(t),则v(t)v(t)v(t)的计算过程实际上为:v(t)=∑m=0k?1(1×δ(t?m))v(t)=\sum_{m=0}^{k-1}\left(1\times\delta(t-m)\right)v(t)=m=0k?1?(1×δ(t?m))其中卷积核的所有权值均为1,才有了上述的计算过程,表示对包括第ttt像素在内的前k?1k-1k?1像素的梯度信号δ\deltaδ进行卷积计算。从这里我们注意到,δ\deltaδ作为梯度信号,只有当t=0t=0t=0δ=1\delta=1δ=1。意味着卷积范围内的梯度信号δ\deltaδ只有一个为1,其余均为0,这不代表卷积范围内的feature map像素为0
注:这里的个人理解还未理清,仅作参考

在输入像素的梯度信号简写成o=u?v?????vo=u*v*\cdot\cdot\cdot*vo=u?v?????v,用nnn个这样的vvv卷积uuu。为了计算这种卷积,我们可以使用离散时间傅里叶变换将信号转换为傅里叶域,并获得
U(ω)=∑t=?∞∞u(t)e?jωt=1,V(ω)=∑t=?∞∞v(t)e?jωt=∑m=0k?1e?jωm???(2)U(\omega)=\sum_{t=-\infty}^{\infty}u(t)e^{-j\omega t}=1,V(\omega)=\sum_{t=-\infty}^{\infty}v(t)e^{-j\omega t}=\sum_{m=0}^{k-1}e^{-j\omega m}---(2)U(ω)=t=??u(t)e?jωt=1,V(ω)=t=??v(t)e?jωt=m=0k?1?e?jωm???(2)

应用卷积定理,我们得到了傅里叶变换ooo
F(o)=F(u?v?????v)(ω)=U(ω)?V(ω)n=(∑m=0k?1e?jωm)n???(3)F(o)=F(u*v*\cdot\cdot\cdot*v)(\omega)=U(\omega)\cdot V(\omega)^n=\left(\sum_{m=0}^{k-1}e^{-j\omega m}\right)^n---(3)F(o)=F(u?v?????v)(ω)=U(ω)?V(ω)n=(m=0k?1?e?jωm)n???(3)

接下来,我们需要应用傅里叶逆变换反求o(t)o(t)o(t)
o(t)=12π∫?ππ(∑m=0k?1e?jωm)nejωtdω???(4)o(t)=\frac{1}{2\pi}\int_{-\pi}^{\pi}\left(\sum_{m=0}^{k-1}e^{-j\omega m}\right)^ne^{j\omega t}d\omega---(4)o(t)=2π1??ππ?(m=0k?1?e?jωm)nejωtdω???(4)
12π∫?ππe?jωmejωtdω={1,s=t0,s=?t???(5)\frac{1}{2\pi}\int_{-\pi}^{\pi}e^{-j\omega m}e^{j\omega t}d\omega=\begin{cases} 1,& s=t\\ 0,& s\not=t\end{cases}---(5)2π1??ππ?e?jωmejωtdω={ 1,0,?s=ts?=t????(5)
o(t)o(t)o(t)在展开式(∑m=0k?1e?jωm)n\left(\sum_{m=0}^{k-1}e^{-j\omega m}\right)^n(m=0k?1?e?jωm)n中就是e?jωte^{-j\omega t}e?jωt的系数

k=2k=2k=2

考虑最简单的非平凡情况k=2k=2k=2,易得(∑m=0k?1e?jωm)n=(1+e?jω)n\left(\sum_{m=0}^{k-1}e^{-j\omega m}\right)^n=(1+e^{-j\omega})^n(m=0k?1?e?jωm)n=(1+e?jω)n。可o(t)o(t)o(t)作为e?jωte^{-j\omega t}e?jωt的系数时标准的二项式(nt)\begin{pmatrix} n \\ t \\ \end{pmatrix}(nt?)系数,即o(t)=(nt)o(t)=\begin{pmatrix} n \\ t \\ \end{pmatrix}o(t)=(nt?)

众所周知,二项式系数关于ttt的分布当nnn很大时类似高斯分布(详见[13]),这意味着系数的尺度随着偏离中心的平方指数衰减。

[13]L Lovsz, J Pelikn, and K V esztergombi. Discrete mathematics: elementary and beyond, 2003.

当两个一维高斯函数相乘时,我们得到一个二维高斯函数,因此在这种情况下,输入平面上的梯度像二维高斯函数一样分布。

k>2k>2k>2

在这种情况下,系数被称为“扩展二项式系数”或“多项式系数”,它们也像高斯分布一样,例如参见[3,16]。这是第2.3节后面介绍的更一般情况的特例。

[3]Steffen Eger. Restricted weighted integer compositions and extended binomial coefficients.Journal of Integer Sequences, 16(13.1):3, 2013.
[16]Thorsten Neuschel. A note on extended binomial coefficients.Journal of Integer Sequences, 17(2):3, 2014.

2.2 Random weights

现在让我们考虑随机权重的情况。总的来说,我们有
g(i,j,p?1)=∑a=0k?1∑b=0k?1wa,bpg(i+a,i+b,p)???(6)g(i,j,p-1)=\sum_{a=0}^{k-1}\sum_{b=0}^{k-1}w_{a,b}^pg(i+a,i+b,p)---(6)g(i,j,p?1)=a=0k?1?b=0k?1?wa,bp?g(i+a,i+b,p)???(6)
适当移动像素索引以提高清晰度,wa,bpw_{a,b}^pwa,bp?是在第ppp层的卷积核在(a,b)(a,b)(a,b)位置的卷积权重。在每一层中,初始权重独立于均值和方差为零的固定分布。我们假设梯度ggg与权重无关。如果该网络包含非线性,该假设通常是不成立的,但对于线性网络,这些假设成立。当Ew[wa,bp]=0\mathbb{E}_w[w_{a,b}^p]=0Ew?[wa,bp?]=0时,我们可以计算期望:
Ew,input[g(i,j,p?1)]=∑a=0k?1∑b=0k?1Ew[wa,bp]Einput[g(i+a,i+b,p)]=0,?p???(7)\mathbb{E}_{w,input}[g(i,j,p-1)]=\sum_{a=0}^{k-1}\sum_{b=0}^{k-1}\mathbb{E}_w[w_{a,b}^p]\mathbb{E}_{input}[g(i+a,i+b,p)]=0,\forall p---(7)Ew,input?[g(i,j,p?1)]=a=0k?1?b=0k?1?Ew?[wa,bp?]Einput?[g(i+a,i+b,p)]=0,?p???(7)

在这里,期望被接管www分布以及输入数据分布。方差更有趣,如下:
Var[g(i,j,p?1)]=∑a=0k?1∑b=0k?1Var[wa,bp]Var[g(i+a,i+b,p)]=C∑a=0k?1∑b=0k?1Var[g(i+a,i+b,p)]???(8)Var[g(i,j,p-1)]=\sum_{a=0}^{k-1}\sum_{b=0}^{k-1}Var[w_{a,b}^p]Var[g(i+a,i+b,p)]=C\sum_{a=0}^{k-1}\sum_{b=0}^{k-1}Var[g(i+a,i+b,p)]---(8)Var[g(i,j,p?1)]=a=0k?1?b=0k?1?Var[wa,bp?]Var[g(i+a,i+b,p)]=Ca=0k?1?b=0k?1?Var[g(i+a,i+b,p)]???(8)

这等价于用一个k×kk\times kk×k的值全为1的卷积核对梯度方法图像Var[g(,,p)]Var[g(,,p)]Var[g(,,p)]进行卷积,然后乘以CCC得到Var[g(,,p?1)]Var[g(,,p-1)]Var[g(,,p?1)]

基于此,我们可以对梯度方差图像应用与第2.1节完全相同的分析。结论很容易得出Var[g(.,.,0)]Var[g(.,.,0)]Var[g(.,.,0)]具有高斯模型,只需稍微改变方差梯度图像上有一个额外CnC^nCn的恒定因子乘数,这不会影响感受野内的相对分布。

2.3 Non-uniform kernels

更一般地说,卷积核窗口中的每个像素可以具有不同的权重,或者与随机权重情况一样,它们可能具有不同的方差。让我们再考虑一下1D的情况,u(t)=δ(t)u(t)=\delta(t)u(t)=δ(t)和前面提到的一样,卷积核标志v(t)=∑m=0k?1w(m)δ(t?m)v(t)=\sum_{m=0}^{k-1}w(m)\delta(t-m)v(t)=m=0k?1?w(m)δ(t?m),其中w(m)w(m)w(m)是卷积核的第mmm个像素的权重。在不丧失一般性的情况下,我们可以假设权重是标准化的,即∑mw(m)=1\sum_mw(m)=1m?w(m)=1

应用傅里叶变换和卷积定理,我们得到U(ω)?V(ω)?V(ω)=(∑m=0k?1w(m)e?jωm)nU(\omega)\cdot V(\omega) \cdots V(\omega)=\left(\sum_{m=0}^{k-1}w(m)e^{-j\omega m}\right)^nU(ω)?V(ω)?V(ω)=(m=0k?1?w(m)e?jωm)n

空间域信号o(t)o(t)o(t)也是e?jωte^{-j\omega t}e?jωt系数的展开式;唯一的区别是e?jωte^{-j\omega t}e?jωt项由w(m)w(m)w(m)加权。

这些系数在组合数学文献中得到了很好的研究,更多细节参见示例[3]和其中的参考文献。

[3]Steffen Eger. Restricted weighted integer compositions and extended binomial coefficients.Journal of
Integer Sequences, 16(13.1):3, 2013.

在文献[3]中,结果表明,如果w(m)w(m)w(m)是归一化的,那么o(t)o(t)o(t)正好等于概率p(Sn=t)p(S_n=t)p(Sn?=t),其中Sn=∑i=1nXiS_n=\sum_{i=1}^nX_iSn?=i=1n?Xi?并且XiX_iXi?是和w(m)w(m)w(m)独立同分布的多项式变量,也就是p(Xi=m)=w(m)p(X_i=m)=w(m)p(Xi?=m)=w(m)。注意这里的分析要求w(m)>0w(m)>0w(m)>0。但是我们可以简化为随机权重情况下的方差分析,其中方差总是非负的,而权重可以是负的。对w(m)w(m)w(m)为负时的分析比较困难,有待于今后的工作。然而,从经验上看,我们发现本节分析的含义仍然适用于具有负权重的网络。

从中心极限定理的观点,当n→∞n\rightarrow \inftynn(1nSn?E[X])\sqrt{n}(\frac{1}{n}S_n-\mathbb{E}[X])n ?(n1?Sn??E[X])的分布收敛到高斯N(0,Var[X])N(0,Var[X])N(0,Var[X])。这意味着对一个给定足够大的nnnSnS_nSn?将会大概是一个有着均值nE[X]n\mathbb{E}[X]nE[X]和方差nVar[X]nVar[X]nVar[X]的高斯分布。当o(t)=p(Sn=t)o(t)=p(S_n=t)o(t)=p(Sn?=t)时,这进一步意味着o(t)o(t)o(t)也具有高斯模型。当w(m)w(m)w(m)被归一化时,该高斯分布有如下均值和方差:E[Sn]=n∑m=0k?1mw(m),Var[Sn]=n(∑m=0k?1m2w(m)?(∑m=0k?1mw(m))2)???(10)\mathbb{E}[S_n]=n\sum_{m=0}^{k-1}mw(m),Var[S_n]=n\left(\sum_{m=0}^{k-1}m^2w(m)-\left(\sum_{m=0}^{k-1}mw(m)\right)^2\right)---(10)E[Sn?]=nm=0k?1?mw(m),Var[Sn?]=n???m=0k?1?m2w(m)?(m=0k?1?mw(m))2??????(10)

这表明o(t)o(t)o(t)从感受野的中心按高斯分布指数平方衰减。衰减率与高斯分布的方差有关。如果我们取一个标准偏差作为有效感受野(ERF)的大小,大致等于ERF的半径,那么这个大小是Var[Sn]=nVar[Xi]=O(n)\sqrt{Var[S_n]}=\sqrt{nVar[X_i]}=O(\sqrt n)Var[Sn?] ?=nVar[Xi?] ?=O(n ?)

另一方面,当我们堆叠更多卷积层时,理论感受野线性增长,因此相对于理论感受野,ERF实际收缩率为O(1/n)O(1/\sqrt n)O(1/n ?) ,我们对此感到惊讶。

在均匀加权的简单情况下,我们可以进一步看到ERF大小随卷积核大小kkk线性增长。当w(m)=1/kw(m)=1/kw(m)=1/k时,我们有
Var[Sn]=n∑m=0k?1m2k?(∑m=0k?1mk)2=n(k2?1)12=O(kn)???(11)\sqrt{Var[S_n]}=\sqrt n\sqrt{\sum_{m=0}^{k-1}\frac{m^2}{k}-\left(\sum_{m=0}^{k-1}\frac{m}{k}\right)^2}=\sqrt{\frac{n(k^2-1)}{12}}=O(k\sqrt n)---(11)Var[Sn?] ?=n ?m=0k?1?km2??(m=0k?1?km?)2 ?=12n(k2?1)? ?=O(kn ?)???(11)

附注: 本节得出的结果,即深度CNN中感受野内的影响分布收敛为高斯分布,在以下条件下成立:

  1. CNN中的所有层使用相同的卷积权重集。

这通常是不正确的,但是,当我们应用方差分析时,所有层上的权重方差通常是相同的,直到一个常数因子。

  1. 正如中心极限定理所表示的那样,由此导出的收敛是“分布收敛”。

这意味着累积概率分布函数收敛于高斯分布函数,但在空间中的任何一点,概率都可能偏离高斯分布函数。

  1. 收敛结果表明n(1nSn?E[X])→N(0,Var[X])\sqrt n(\frac{1}{n}S_n-\mathbb{E}[X])\rightarrow N(0,Var[X])n ?(n1?Sn??E[X])N(0,Var[X]),因此SnS_nSn?接近N(nE[X],nVar[X])N(n\mathbb{E}[X],nVar[X])N(nE[X],nVar[X]),然而,由于N(nE[X],nVar[X])N(n\mathbb{E}[X],nVar[X])N(nE[X],nVar[X])不是一个固定的分布,所以这里SnS_nSn?的收敛性没有被很好的定义,但它会随着时间的推移而改变。此外,在有限集上,SnS_nSn?的分布可能会偏离高斯分布。但总体分布形状仍然大致为高斯分布。

2.4 Nonlinear activation functions

非线性激活函数是每个神经网络不可分割的一部分。我们使用σ\sigmaσ来表示任意非线性激活函数。在向前传递期间,在每一层上,像素首先通过σ\sigmaσ,然后与卷积核卷积以计算下一层。这种操作顺序有点不标准,但相当于更常见的先卷积和通过非线性的顺序,这使分析稍微容易一些。在这种情况下,反向传播变为
g(i,j,p?1)=σi,jp?∑a=0k?1∑b=0k?1wa,bpg(i+a,i+b,p)???(12)g(i,j,p-1)={\sigma_{i,j}^p}^*\sum_{a=0}^{k-1}\sum_{b=0}^{k-1}w_{a,b}^pg(i+a,i+b,p)---(12)g(i,j,p?1)=σi,jp??a=0k?1?b=0k?1?wa,bp?g(i+a,i+b,p)???(12)
其中我们滥用了一点符号,并且使用σi,jp?{\sigma_{i,j}^p}^*σi,jp??去表示第ppp层的位置为(i,j)(i,j)(i,j)像素的激活函数的梯度。
对于ReLU非线性激活函数,σi,jp?=I[xi,jp>0]{\sigma_{i,j}^p}^*=\bold I[x_{i,j}^p>0]σi,jp??=I[xi,jp?>0],其中I[.]\bold I[.]I[.]是标记函数。除了均值和单位方差为零的假设外,我们还必须对激活xi,jpx_{i,j}^pxi,jp?进行一些额外的假设,以推进分析。一个标准的假设是xi,jpx_{i,j}^pxi,jp?是一个围绕0的对称分布[7]。

[7]Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. InICCV, pages 1026–1034, 2015.

如果我们做一个额外的简化假设,即梯度σ?\sigma^*σ?独立于上层的权重和梯度ggg,我们可以将方差简化为Var[g(i,j,p?1)]=E[σi,jp?2]∑a∑bVar[wa,bp]Var[g(i+a,i+b,p)]Var[g(i,j,p-1)]=\mathbb{E}[{\sigma_{i,j}^p}^{*2}]\sum_a\sum_bVar[w_{a,b}^p]Var[g(i+a,i+b,p)]Var[g(i,j,p?1)]=E[σi,jp??2]a?b?Var[wa,bp?]Var[g(i+a,i+b,p)],并且E[σi,jp?2]=Var[σi,jp?]=1/4\mathbb{E}[{\sigma_{i,j}^p}^{*2}]=Var[{\sigma_{i,j}^p}^*]=1/4E[σi,jp??2]=Var[σi,jp??]=1/4是一个常数因子。在方差分析之后,我们可以再次将这种情况简化为一致的权重情况。

Sigmoid和Tanh非线性更难分析。在这里,我们仅使用以下观察结果:当网络初始化时,权重通常很小,因此这些非线性将处于线性区域,线性分析适用。然而,随着训练期间体重的增加,其效果变得难以分析。

2.5 Dropout, Subsampling, Dilated Convolution and Skip-Connections

在这里,我们考虑一些标准的CNN方法对有效感受野的影响。Dropout是一种流行的技术,以防止过度拟合;我们表明,Dropout不会改变高斯ERF形状。Subsampling和Dilated Convolution是快速增加感受野大小的有效方法。另一方面,Skip-Connections会使ERF更小。我们在附录中给出了所有这些案例的分析。

3 Experiments

在本节中,我们实证研究了各种深度CNN架构的ERF。我们首先使用人工构建的CNN模型来验证我们分析中的理论结果。然后,我们介绍了在真实数据集上训练深层CNN期间ERF如何变化的观察结果。对于所有ERF研究,我们在输出平面的中心放置梯度信号1,在其他地方放置梯度信号0,然后通过网络反向传播该梯度以获得输入梯度。

3.1 Verifying theoretical results

我们首先在人工构建的深CNN中验证了我们的理论结果。为了计算ERF,我们使用随机输入,对于所有随机权重网络,我们遵循[7,5]进行适当的随机初始化。在本节中,我们将验证以下结果:

[5]Xavier Glorot and Y oshua Bengio. Understanding the difficulty of training deep feedforward neural networks. InAISTATS, pages 249–256, 2010.
[7]Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. InICCV, pages 1026–1034, 2015.

在这里插入图片描述

图1:比较了层数、随机权重初始化和非线性激活对ERF的影响。这里所有网络的卷积核大小都固定为3×3。Uniform:卷积核权值均为1,无非线性;Random:随机核权重,无非线性;Random + ReLU: 随机核权重,ReLU非线性。
注:RF是感受野

ERF是高斯分布的: 如图1所示,我们可以观察到均匀和随机加权卷积核的完美高斯形状,无需非线性激活,并且非线性随机加权卷积核的近似高斯形状。由于ERF分布也依赖于输入,添加ReLU非线性使得分布稍微不那么高斯。另一个原因是,ReLU单元的一半输入输出正好为零(注:这里指的一半是xxx轴的一半),并且很容易在输出平面上获得中心像素的零输出,这意味着没有来自感受野的路径可以到达输出,因此梯度都为零。在这里,ERF用不同的随机种子平均运行20次。下图显示了具有20层随机权重的网络的ERF,具有不同的非线性。
在这里插入图片描述
在这里,使用不同的随机权重以及不同的随机输入对100次运行的结果进行平均。在这种情况下,感受野更像高斯分布。

在这里插入图片描述

n\sqrt{n}n ? absolute growth and 1/n1/\sqrt{n}1/n ? relative shrinkage: 在图2中,我们展示了ERF尺寸的变化以及ERF关于卷积层数目相对于理论RF的相对比率。ERF尺寸的最佳拟合线在对数域的斜率为0.56,而ERF比率的拟合线的斜率为-0.43。这表明ERF尺寸关于n\sqrt{n}n ?呈线性增长,ERF比率关于1n\frac{1}{\sqrt{n}}n ?1?层线性收缩。注:此处我们使用2个标准偏差作为ERF大小的测量值,即任何值大于中心点1?95.45%像素值的像素视为ERF。ERF大小由ERF内像素数的平方根表示,而理论RF大小是正方形的边长,其中所有像素对输出像素的影响均为非零,无论大小。这里的所有实验平均20次。

Subsampling & dilated convolution increases receptive field: 下图显示了Subsamplingdilated convolution的效果。
在这里插入图片描述
参考baseline是具有15个密集卷积层的卷积网络。其ERF显示在上图内最左边的图。然后,我们将15个卷积层中的3层卷积替换为步长为2的卷积,以获得“Subsampling”图的ERF,并将其替换为因子为2、4和8的“Dilation”图的dilated convolution(这里的因子详见dilated convolution论文)。

正如我们所看到的,它们都能显著增加感受野的效应。注意,“Dilation”图显示了dilated convolution的典型矩形ERF形状。

3.2 How the ERF evolves during training

在这一部分中,我们将了解分类CNN和语义分割CNN的最顶层卷积层中单元的ERF在训练过程中是如何演变的。对于这两项任务,我们都采用了ResNet体系结构,它广泛使用了skip-connections。分析表明,该网络的ERF应明显小于理论感受野。这确实是我们最初观察到的情况。有趣的是,随着网络的学习,ERF变得更大,在训练结束时,ERF明显大于初始ERF。
在这里插入图片描述

图3:对接受CIFAR-10分类和CamVid语义分割任务训练的模型进行训练前后ERF的比较。CIFAR-10感受野在32×32的图像空间中可视化。

对于分类任务,我们在CIFAR-10数据集上训练了一个具有17个剩余块的ResNet。训练结束时,该网络的测试准确率达到89%。请注意,在这个实验中,我们没有使用 pooling或downsampling,只关注具有skip-connections的体系结构。网络的准确度不是最先进的,但仍然相当高。在图3中,我们显示了训练开始时(随机初始化权重)和训练结束时达到最佳验证精度时32×32图像空间上的有效感受野。请注意,我们网络的理论感受野实际上是74×74,大于图像大小,但ERF仍然无法完全填充图像。对比训练前后的结果,我们发现有效感受野显著增加。

对于语义分割任务,我们使用CamVid数据集进行城市场景分割。我们训练了一个“front-end”模型[21],它是一个纯卷积网络,可以以略低的分辨率预测输出。该网络与VGG网络在许多以前的工作中所起的作用相同[12]。我们训练了一个具有16个残差块的ResNet,每个残差块与4个Subsample操作交错,每个Subsample操作的因子为2。由于这些Subsample操作,输出为输入大小的1/16。对于该模型,顶部卷积层单元的理论感受野在505×505时相当大。然而,如图3所示,ERF在训练开始时仅获得直径为100的ERF的一小部分。我们再次观察到,在训练过程中,ERF的大小增加,最后它的直径几乎达到150左右。

4 Reduce the Gaussian Damage

上述分析表明,ERF只占理论感受野的一小部分,这对于需要大感受野的任务是不可取的。

New Initialization: 增加有效感受野的一个简单方法是处理初始权重。我们提出了一种新的权值随机初始化方案,使得卷积核中心的权值具有较小的尺度,而外部的权值具有较大的尺度;这将中心的注意扩散到外围。实际上,我们可以使用任何初始化方法初始化网络,然后根据中心尺度较低、外部尺度较高的分布来缩放权重。

在极端情况下,我们可以优化w(m)w(m)w(m)以最大化ERF大小,或等效于等式(10)中的方差。解决这个优化问题的结果是,在卷积核的4个角上平均放置权重,而在其他地方保留0。然而,使用此解决方案进行随机权重初始化过于激进,将大量权重保留为0会导致学习速度变慢。这种想法的较温和版本通常效果更好。

我们已经用这种初始化方法训练了一个CNN,用于CIFAR-10分类任务,其中包含几个随机种子。在一些情况下,与更标准的初始化相比,我们的训练速度提高了30%[5,7]。但总的来说,这种方法的好处并不总是显著的。

我们注意到,无论我们如何改变w(m)w(m)w(m),有效感受野仍然是高斯分布的,因此上述建议仅部分解决了问题。

Architectural changes: 一种可能更好的方法是对CNN进行架构更改,这可能会以更基本的方式更改ERF。例如,不用将CNN中的每个单元连接到本地矩形卷积窗口,我们可以使用相同数量的连接将每个单元稀疏地连接到较低层中的较大区域。Dilated convolution [21]属于这一类,但我们可以更进一步,使用非网格状的稀疏连接。

[21]Fisher Y u and Vladlen Koltun. Multi-scale context aggregation by dilated convolutions.arXiv preprint arXiv:1511.07122, 2015.

5 Discussion

Connection to biological neural networks: 在我们的分析中,我们已经确定,深部CNN中的有效感受野实际上比我们过去想象的增长要慢得多。这表明即使经过许多卷积层,仍然保留了大量的局部信息。这一发现与深层生物网络中一些长期存在的相关概念相矛盾。哺乳动物视觉系统的一个常见特征是将其分为“什么”和“哪里”两条路径[19]。

[19]Leslie G Ungerleider and James V Haxby. ‘what’and ‘where’in the human brain.Current opinion in neurobiology, 4(2):157–165, 1994.

沿着what或where路径前进,连通性的性质逐渐改变:感受野大小增加,空间组织变得松散,直到没有明显的视网膜区域组织;视网膜萎缩意味着单个神经元对视野中任何地方的物体(如人脸)做出反应[9]。然而,如果ERF小于RF,这表明表示可能保留位置信息,并且还提出了一个有趣的问题,即在进展过程中这些区域大小的变化。

我们分析的第二个相关效应是,它表明卷积网络可能会自动产生一种中心凹表现形式。人类视网膜中央凹仅在中心像素附近从图像中提取高分辨率信息。等分辨率的子场的排列方式是,它们的大小随着距固定中心的距离而增加。在视网膜边缘,从图像的较大区域提取较低分辨率的信息。一些神经网络已经明确构建了这种形式的表示[11]。然而,由于卷积网络形成高斯感受野,潜在的表征自然具有这种特征。

Connection to previous work on CNNs: 虽然CNN中的感受野尚未被广泛研究,[7,5]进行了类似的分析,以计算方差如何通过网络演变。他们为卷积层开发了一个很好的初始化方案,遵循的原则是在通过网络时方差不应发生太大变化。

研究人员还利用可视化来理解神经网络是如何工作的。[14] 显示了使用自然图像先验的重要性,以及卷积层的激活将代表什么。[22]使用反褶积网络显示图像中像素与正在放电的神经元之间的关系。[23]进行了涉及感受野的实证研究,并将其作为定位的线索。还有一些可视化研究使用梯度上升技术[4],生成有趣的图像,如[15]。这些都集中在单位激活或特征图上,而不是我们在这里研究的有效感受野。

6 Conclusion

在本文中,我们仔细研究了深部CNN的感受野,并建立了一些关于有效感受野大小的令人惊讶的结果。特别是,我们已经证明,感受野内的影响分布是渐近高斯分布,有效感受野只占整个理论感受野的一小部分。实证结果与我们建立的理论相呼应。我们相信这只是有效感受野研究的开始,为深入理解深部CNN提供了一个新的角度。在未来,我们希望更多地研究在实践中影响有效感受野的因素,以及我们如何能够更好地控制这些因素。

7 个人总结

作者的工作:

  1. 基于理论感受野提出了有效感受野这一概念,有效感受野定义为:中央输出单元具有不可忽略影响的任何输入像素的区域。
  2. 基于有效感受野的定义,采用输出对像素的偏导数度量该有效感受野。
  3. 将权值均为1的2D卷积核转化为权值均为1的1D的卷积核的乘积,利用傅里叶变换将卷积过程表示出来,再应用傅里叶逆变换计算出卷积过程的梯度信号。
  4. 分析了堆叠卷积层的梯度信号,当层数很深时,梯度信号类似于高斯分布。
  5. 分析了随机权重对梯度信号的影响,对于线性网络,梯度与权重无关这个假设成立,随机权重不会影响感受野的相对分布。但对于非线性网络,上述假设通常不成立。
  6. 分析了基于权重是标准化时,如果权重归一化了,梯度信号在层数趋于无穷时,梯度信号的分布收敛到高斯分布,并且当堆叠更多卷积层时,理论感受野层线性增长,而有效感受野收缩率是O(1/n)O(1/\sqrt n)O(1/n ?)。得出深度CNN中感受野的影响分布收敛为高斯分布的条件有几个条件(具体请看论文)
  7. 分析了Dropout, Subsampling, Dilated Convolution and Skip-Connections 对有效感受野的影响