1、简要介绍
本篇论文提出的网络,称为高分辨率网络(HRNet),在整个过程中保持高分辨率的表示。
(i) 并行地将高和低分辨率的特征图都用于检测。而不是仅用一个卷积到最后的低分辨率特征图。
(ii) 反复地交换各分辨率特征图之间的信息,这样做的好处就是特征图上的语义信息更加丰富,空间信息更加精确。
2、相关介绍
在以往的网络中,都是通过pool和relu去逐层减少特征图的尺寸,将高分辨率到低分辨率的卷积串联起来,最后的到低分辨的特征,用于做分类任务。如下图:
如果是其他的任务的话,如检测、分割任务,那么特征图被下采样完之后,最好的办法就是将a图中卷积到最后一层的特征图(低分辨率),恢复高分辨率,即从分类网络输出的低分辨率的表示中提高分辨率。此外,扩张的卷积被用来去除一些下采样层,从而产生中等分辨率的代表。事实上FPN、PANet都是这么干的。
3、详细介绍
我们提出了一个新的结构,叫做HRNet,用来保持高分辨率特征表征。我们从高分辨率的卷积流开始,逐渐地一个接一个卷积,将其卷积到低分辨,并且并行连接多个分辨率卷积。我们通过在并行流之间反复交换信息来进行重复的多分辨率融合。如下图所示:
从HRNet中学习到的高分辨特征不仅语义强大,且空间精确。这来自于两个方面:
1、作者将高分辨到低分辨率的卷积流以并行地方式连接,而不是串行连接。因此,作者的方法能够保持原始高分辨率,而不是从低分辨率中恢复高分辨特征。因此HRNet学习到的高分辨特征在空间上更精确。
2、大多数融合方案是将低层的高分辨特征和高层的低分辨率特征(上采用至一个尺寸),然后再融合。
作者的做法是借助低分辨率的特征,重复多分辨率融合,以提高高分辨率的表征能力,反之亦然。因此,所有由高到低的分辨率特征的语义都是强的。
HIGH -RESOLUTION NETWORKS
1、首先将输入图片到管道中,由两个步长为2的3x3的卷积核进行下采样,将分辨率下降到原来的1/4.
2、并行的多分辨率卷积:从高分辨率卷积流作为第一阶段开始,逐渐将高分辨率到低分辨率的流逐个添加,形成新的阶段,并将多分辨率的流并行连接。因此,后一阶段平行流的分辨率由前一阶段的分辨率和一个更低的分辨率组成。就是图2包含4个并行流:
3、反复地多分辨率融合特征:融合模块的目的是使得多分辨率表征之间进行信息交换。每4个残差块融合一次。让我们看一个例子:
融合了3个分辨率的特征图,进行信息传递。当然如图2,各个阶段进行2~4个分辨率的融合。再看图3,输入是由3种分辨率的特征图组成:
r代表分辨率特征图的索引,并且其输出表征:
每一个输出表征是前3个输入表征的变化总和:
不同阶段之间的特征图融合都有一个额外的输出,例如3阶段到4阶段:
如下图:
变换函数的选择fxr(·)是与输入分辨率表征索引x和输出分辨率索引r独立。
1)如果x=r,那么:
2)如果x<r,那么:
fxr(R)下采样输入分辨率表征R,通过(r-s)个步长为2的3x3的卷积。例如,一个步长为2的3x3卷积可以进行2倍的下采样。那么两个连续的这样的卷积进行4倍下采样。
3)如果x>r,那么:
fxr(R)上采样输入分辨率R,通过双线性插值法进行上采样,而且后面接一个1x1的卷积,用于调整通道。
4、Representation head:有3类表征头,如图4.
如图4,每个子图底部的四种分辨率表征是从图2中的网络输出。
HRNetV1:输出仅仅来源于高分辨率流。其余3个分辨率直接忽视,如图4(a)
HRNetV2:在没有改变高分辨率特征的通道数的情况下,我们通过双线性插值对低分辨率的特征进行上采样。如图4(b)
HRNetV2p:我们通过下采样HRNetV2来的高分辨特征输出,从而构造多级表征。如图4?
在这篇论文,我们将显示使用HRNetV1用于人体姿势估计,HRNetV2用于语义分割。HRNetV2p用于目标检测。
看图2:
主体结构包含了4个阶段。对输入,进行了4次下采样,分别是(1/4,1/8,1/16,1/32)。
第一个阶段包含了4个残差单元,每个单元由一个宽度(通道数量)为64的bottleneck,并且后面接着
一个3x3的卷积,用于改变特征图的通道数为C。第二、第三、第四阶段分别包含着1、4、3个
modularized blocks。 每个modularized block的多分辨率并行卷积分支包含了4个残差单元。
每种分辨率下,每个单元包含2个3x3卷积,并且每个卷积后跟着BN+RELU。四种分辨率下的卷积宽度
C , 2C , 4C , and 8C 。