图像语义分割的目标是对每个像素都进行语义分类,它是当前计算机视觉领域最重要、最具挑战性的任务之一。语义分割的问题之一来自于其处理的图像中存在尺寸不一的物体及背景区域,这种尺寸分布的差异给特征表示和关系建模带来了不少困难。
传统的解决方法: 设计精巧的模型结构来缓解这种差异,然而无论是人工设计还是基于NAS模型搜索得到的网络,都尝试在单个网络框架中编码所有的像素区域,在现实环境中缺乏对各种尺度分布的适应能力。
Introduction
本文中,旷视研究院针对语义分割任务提出一个全新的理念:动态路径选择(Dynamic Routing)。具体而言,动态路径选择会在推理过程中根据输入图像生成前向传播路径,也就是说随着输入数据的不同,网络也会自适应地生成不同的结构进行特征编码。利用该方法,网络可以将不同尺寸的物体(或背景)分配到对应分辨率的层级上,以实现有针对性的特征变换。
图1:根据输入尺寸的不同,本文提出的方法选择相应的前向计算路径
Dynamic Routing结构
图2:本文方法的框架图
图2中一共有L个layer,可以看到对于每个layer最多有四种scale的feature map,最小的1/32scale。首先input进行一个固定的三层的STEM把分辨率降至1/4。为了实现各层之间的全连接,会有上采样、下采样、保持scale的三种操作;右边是cell-level的展示,被聚合的特征经过Gate与Cell结构进行特征转换;
以上图中的右边为例,大概就是X为各个scale的Y之和,X经过SepConv3×3与identity mapping变成H(cell部分),Gate部分为卷积等操作之后得到G
Dynamic Routing的总体结构如上图所示,具体描述为:
Stem Block:包含三个网络层(SepConv3x3),负责1/4降采样;
Routing Space:
包含L个网络层,每层包含若干个cell,支持skip connection与multi-path routes;
相邻cell之间,降采样率或上采样率=2;
相比于输入,降采样率最高可达32,因此每个layer的cell数最多为4;
每个cell的输出,存在三条尺度变换路径,即:
up-sampling:conv1x1+bilinear interpolation;
down-sampling:conv1x1 with stride=2;
keeping resolution;
在cell内部,会执行特征变换/聚合(feature aggregation)、与尺度变换路径选择操作;
Routing Process
1、输入特征相加:将cell的多尺度输入特征予以相加:
2、Cell操作与特征聚合:
1、基本的操作路径包括SepConv、与identity mapping,其中每条SepConv路径由若干SepConv3x3堆叠而成 (实验表示两个 SepConv3x3堆叠,效果最好);
2、将不同操作路径的输出予以相加或聚合,获得Hidden state:
Soft Conditional Gate:
1、每条尺度路径的选择概率,由Gate function生成;Gate function是轻量的、可微分的卷积操作模块:
然后,为了实现通路选择,本文提出使用软条件门控进行可微的路径选择。具体而言,对于特征向量 G ,将激活函数δ设计为因此,激活系数 可以由 得到。当时,从尺度s到j的选择通路就会被记为关闭,而所有 的路径将在本次前向推断被保留下来,从而实现了多路径传播。
就动态路径选择而言,本文设计了一种路径选择门控网络,称为软条件门控(Soft Conditional Gate),该门控网络可根据输入图像自适应地选择特征变换路径。此外,该路径选择门控还能被建模为一个可微分模组,从而结合给定的计算资源对网络结构进行端到端的优化。