论文:用于视频超分的循环反向投影网络
文章检索出处: 2019 CVPR
摘要和简介
针对视频超分辨率问题,我们提出了一种新颖的体系结构。 使用循环编码器/解码器模块将连续视频帧的空间和时间上下文进行整合,该模块将多帧信息与目标帧的单帧超分网络融合在一起。 与大多数以前通过堆叠或扭曲将帧合并在一起的工作不同,我们的模型是循环反向投影网络(RBPN),将每个上下文帧视为单独的信息源。
这些源组合在一个迭代的框架中,该框架受多图超分中反投影概念的启发。通过显式表示相对于目标的估计帧间运动,而不是显式对齐帧。 我们提出了一个新的视频超分基准,可以进行更大范围的评估并考虑不同运动方式下的视频。 实验结果表明,我们的RBPN在多个数据集上均优于现有方法。
循环反向投影网络
网络结构
RBPN的工作可分为三个阶段:初始特征提取、多次投影和重建。
初始特征提取:在输入ItI_tIt?进入投影模块之前,将其映射为LR特征LtL_tLt?。对于每个相邻帧It?kI_{t-k}It?k?,将其与预先计算的ItI_tIt?和It?kI_{t-k}It?k?的密集运动流图Ft?kF_{t-k}Ft?k?和ItI_{t}It?一起串联起来。然后将这个8个通道的图像映射到邻居特征张量Mt?kM_{t-k}Mt?k?。
多次投影: 在这里,我们通过集成SISR和MISR来提取目标帧中的缺失细节,然后生成精炼的HR特征张量。 该阶段接收It?k?1I_{t-k-1}It?k?1?和Mt?kM_{t-k}Mt?k?,并输出HR特征张量Ht?kH_{t-k}Ht?k?。
重建:将所有的特征图串联馈入到重构模块中。SRt=frec([Ht?1,Ht?2,...,Ht?n]){SR}_t = f_{rec}([H_{t-1},H_{t-2},...,H_{t-n}])SRt?=frec?([Ht?1?,Ht?2?,...,Ht?n?]),其中frecf_{rec}frec?为单卷积层。
多次投影
RBPN的多重投影阶段使用编码器/解码器模块的循环链。跨时间帧共享的投影模块有两个输入:Lt?n?1∈RMlxNlxClL_{t-n-1} \in \mathbb{R}^{M^l \mathsf{x} N^l \mathsf{x} C^l }Lt?n?1?∈RMlxNlxCl和Mt?n∈RMlxNlxCmM_{t-n} \in \mathbb{R}^{M^l \mathsf{x} N^l \mathsf{x} C^m }Mt?n?∈RMlxNlxCm,然后产生两个输出:Lt?nL_{t-n}Lt?n?和Ht?n∈RMhxNhxChH_{t-n} \in \mathbb{R}^{M^h \mathsf{x} N^h \mathsf{x} C^h }Ht?n?∈RMhxNhxCh其中cl,cm,chc^l,c^m,c^hcl,cm,ch是相应图的通道数。
编码器会产生从投影到特定邻居帧的估计HR特征的隐藏状态。
解码器解密相应的隐藏状态,作为编码器模块的下一个输入。
实验
baseline:
消融实验:
量化评估:
仅供学习使用,请勿转载。