带有空间和通道“压缩-激励”块的全卷积校准网络(IEEE TRANSACTIONS ON MEDICAL IMAGING 2018)
论文地址
摘要
F-CNNs的架构创新主要集中在改进空间编码或网络连通性以帮助梯度流动,而本文的目标是从另一个角度来解决问题,通过自适应地重校准学习到的特征映射来增强有意义的特征同时抑制不重要的特征。为此,我们引入了三种不同的用于分割的模块:(i)空间压缩和通道激励,(ii)沿通道压缩和空间激励,(iii)联合空间和通道压缩和激励。
存在的问题及解决方案
以往的工作旨在改进空间和通道的信息的联合编码,而对空间和通道的独立编码关注较少。最近的一项工作试图通过显示地建模通道之间的特征映射依赖性来增强特征表示,这是一个被称为“压缩-激励”(SE)块的组建实现的。SE块通过全局平均池化来学习特定于通道的描述符用于重新缩放输入特征映射以增强有用的通道。由于SE块只对通道进行“压缩-激励”,在本文中我们称之为cSE。我们假设像素级的空间信息对于医学图像中常见的高复杂解剖结构的细粒度分割同样有用,我们引入了一个交替的SE块,它沿着通道“挤压”并在空间上“激发”,称为空间SE(sSE)。这是对SE的补充,因为它并不改变感受野,而是提供空间注意力以关注某些区域。最后我们建议将这两个模块合并为空间和通道SE(scSE),分别沿着通道和空间校准特征图。
方法
给定一个图像III,F-CNN构建一个非线性特征映射Fseg(?)F_{seg}(\cdot)Fseg?(?),用于将III映射到分割图SSS,Fseg:I→S\mathbf{F}_{s e g}: \mathbf{I} \rightarrow \mathbf{S}Fseg?:I→S。Fseg(?)F_{seg}(\cdot)Fseg?(?)是一个由编码器和解码器Ftri(?)F_{tr}^i(\cdot)Ftri?(?)构成的级连函数序列。
Spatial Squeeze and Channel Excitation Block (cSE)
假设输入特征U=[u1,u2,?,uC]\mathbf{U}=\left[\mathbf{u}_{1}, \mathbf{u}_{2}, \cdots, \mathbf{u}_{C}\right]U=[u1?,u2?,?,uC?]视为通道ui∈RH×W\mathbf{u}_{i} \in \mathbb{R}^{H \times W}ui?∈RH×W的集合。空间压缩是由全局平均池化得到的,生成一个向量z∈R1×1×C\mathbf{z} \in \mathbb{R}^{1 \times 1 \times C}z∈R1×1×C
这一操作将全局空间信息嵌入到向量z\mathbf{z}z中,然后z\mathbf{z}z经过两次全连接(1 x 1卷积)操作后再经过sigmoid层得到位于区间[0,1]的σ(z^)\sigma(\hat{z})σ(z^),这个向量即代表了空间压缩后原始特征张量中每个特征图的重要程度,根据这一向量对原始特征图进行重新校准:
Channel Squeeze and Spatial Excitation Block (sSE)
我们引入了通道压缩和空间激励块来压缩通道上的特征映射并在空间上激励,这对于细粒度图像分割是非常重要的。这里,我们考虑输入特征张量U\mathbf{U}U的另一种切片U=[u1,1,u1,2,?,ui,j,?,uH,W]\mathbf{U}=\left[\mathbf{u}^{1,1}, \mathbf{u}^{1,2}, \cdots, \mathbf{u}^{i, j}, \cdots, \mathbf{u}^{H, W}\right]U=[u1,1,u1,2,?,ui,j,?,uH,W],其中ui,j∈R1×1×C\mathbf{u}^{i,j} \in \mathbb{R}^{1 \times 1 \times C}ui,j∈R1×1×C对应于空间位置(i,j)(i,j)(i,j)。U\mathbf{U}U通过1 x 1卷积得到投影张量q∈RH×W\mathbf{q} \in \mathbb{R}^{H \times W}q∈RH×W。同样使用sigmoid得到校准激活值来对原始特征张量进行空间激活:
每个值σ(qi,j)\sigma(q_{i,j})σ(qi,j?)给出对于给定特征映射的(i,j)(i,j)(i,j)位置上信息的相对重要性,这种重新校准为相关的空间位置提供了更多的重要性,而忽略了不相关的空间位置。
Spatial and Channel Squeeze & Excitation Block(scSE)
上述每个cSE和sSE区块都有其独特的性质。cSE块通过合并全局空间信息来重新校准通道,这种全局平均池层在F-CNN的每个阶段提供了一个整个空间范围的接收场,以帮助分割管道。相反,在sSE块中,由于1 x 1卷积层实现了通道压缩,所以接收场没有改变,相反,它的行为就像一个空间注意力映射,指示网络应该更多地集中在哪里来帮助分割。我们建议将这两个SE块的完整信息结合起来,同时对输入进行空间和通道方面的重新校准。我们探讨出四种不同的并行空间的通道策略:
(i)Max-Out:在这一聚合方法中,输出特征映射U^scSE\hat{\mathbf{U}}_{s c S E}U^scSE?的任意位置(i,j,c)(i,j,c)(i,j,c)取U^cSE\hat{\mathbf{U}}_{c S E}U^cSE?和U^sSE\hat{\mathbf{U}}_{s S E}U^sSE?间的最大激活值:
max-out层在两个SE块之间强制执行元素级的竞争性,这提供了选择性的空间和通道激励,从而改进了最终的分割。
(ii)Addition:我们将U^cSE\hat{\mathbf{U}}_{c S E}U^cSE?和U^sSE\hat{\mathbf{U}}_{s S E}U^sSE?的激活值相加:
这种聚合将空间激励和通道激励视为同等重要。
(iii)Multiplication:我们将U^cSE\hat{\mathbf{U}}_{c S E}U^cSE?和U^sSE\hat{\mathbf{U}}_{s S E}U^sSE?的激活值相乘:
(iv)Concatenation:我们沿着通道索引连接两个输入响应,并将其传递给下一个编解码器块:
与前面提到的聚合策略相比,这种聚合的优点是不会丢失任何信息。但不利的是,输出通道的数量会翻倍,导致了模型复杂度的上升
Position of SE Block in F-CNNs
将提出的SE blocks集成到F-CNNs中的一个中心问题是它们在网络中的最佳位置以获得最佳性能。我们探讨以下六种不同的方案:
实验结果
scSE Aggregation Strategies
由于concat聚合增加了模型复杂度(增加了每个块的输出特征映射的通道数),max-out提供了性能和模型复杂度之间的最佳权衡。基于最大输出的聚合的优越性能背后的一个直观解释是它通过使两个激励进行竞争来诱导元素选择性的能力。这一概念以前用于分类中,在分类中,具有多个尺度的核使用最大输出(max out)进行竞争,而不是串联,在降低模型复杂度的情况下提供类似的性能。
Position of SE Blocks
首先,我们观察到scSE块在网络的每个位置(P1-P6)都能明显提高分割质量。与bottleneck(P3)和classifier(P4)相比,编码器(P1)和解码器(P2)的影响更为突出。组合配置P5和P6表现出相似的性能。在这两种配置中,我们选择P5而不是P6,因为它为整个模型增加了较少的复杂性。
下表显示了在不同的FCN体系结构上添加cSE、sSE和scSE块对模型复杂性的影响