论文下载:
https://arxiv.org/pdf/1707.06484.pdf
论文代码:
https://github.com/ucbdrive/dla
论文摘要:
视觉识别需要丰富的表示,跨级别从低到高,范围从小型到大型,分辨率从细到粗。架构方面的工作在网络骨干维度的方面上逐渐有突破,人们都倾向于设计更深或更广的网络架构。但是作者认为如何在网络中最好地聚合层和块值得进一步的探索。在这个思路上,作者提出深层聚合方案(Deep Layer Aggregation),通过更深层次的聚合来增强标准架构,以便更好地跨层融合信息。该深层聚合结构迭代和分层合并特征层次,使网络具有更好的准确性和更少的参数。
DLA的简单架构图:
深层聚合统一了语义和空间融合,以更好地捕获内容和位置。聚合架构包含和扩展了密集连接的网络,并使用分层和迭代跳过连接来特征金字塔网络,这加深了表现并改进了分辨率:
更多DLA方面的细节:
作者通过引用论文表明,更深层次提取的语义和全局特征更多,但这些迹象并不能证明最后一层是任何任务的最终表现,通俗点说,最后一层所表现的特征图不一定是由各个网络结构层特征图融合的结果,一些特征有可能在一层接一层的提取中逐渐消失。并提到“聚集,就像深度和宽度一样,是网络架构的一个关键维度”。
在深度聚合(DLA)中,作者又区分出两种结构:迭代深度聚合(iterative deep aggregation:IDA)和分层深度聚合(hierarchical deep aggregation:HDA)。并且这些结构是通过一个架构框架来表现的,与主干网的选择无关。
IDA主要关注分辨率和尺度的特征,HAD主要关键stage,block,channel之间的特征。
IDA遵循基本层次结构逐级细化分辨率和聚合规模。HDA将其自己的树形连接层次结构(交叉和合并阶段)组装起来,以聚合不同级别的表示。
深层聚合是一个通用的体系结构家族,因为它与不同的主干兼容。该架构对块和阶段的内部结构没有任何要求。
聚合的不同方法:
(a)纯粹的block连接,类似VGG
(b)将网络的某些部分与跳跃连接结合起来,类似Unet
?迭代的进行特征融合,IDA结构
(d)通过树形结构,实现不同block,不同深度之间的特征融合
(e)对(d)的改进,增加去往主干分支的支路
(f)对(d)的改进,HDA结构
DLA网络结构:
迭代连接邻近的block,逐步加深空间上的表现。层次连接与树型结构交叉,更好地传播特征和梯度:
从浅到深融合,以形成一个逐步加深和更高分辨率的解码器(使用了两次IDA:一次用于连接主干网络中的各个阶段,另一次用于恢复解析。):
实验结果:
用于分类的深层聚合网络。stage1和2表示通道数n,其他的stage表示d-n,其中d是聚集深度。标有“-C”的型号结构紧凑,只有1 ~ 100万个参数:
DLA对ILSVRC的评估:
与最先进的细粒度(精细化分类)数据集方法的比较:
(左图)城市景观评价在验证上的跨步比较和在测试上与现有方法的比较,(右图)CamVid的评估: