【频域深度学习】Learning in the Frequency Domain_综合

引言

我们应该都学习过信号与系统，知道信号可以分为时域、空间域以及频域等等。显然一般的深度学习方法，以图像为例，模型的输入为图像本身，属于空间域信息，那么我们是否可以利用频域信息来进行图像处理呢？
转换为频域最常见的是通过傅里叶变换从时域或者空间域转换到频域。傅里叶变换将信号信息转换成每个成分频率上的幅度和相位。

第一篇用CNN在频域（DCT系数）而不是空域（RGB）上直接学习的文章是On using CNN with DCT based Image Data，这篇文章在图像分类任务上做的实验，包括MNIST、CIFAR10。Faster Neural Networks Straight from JPEG相比On using CNN with DCT based Image Data，用更大的模型（ResNet50）在更大的分类数据集（ImageNet分类任务）上做了更多的实验。我们今天介绍的论文相比Faster Neural Networks Straight from JPEG，将应用从图像分类拓广到了实例分割。

Learning in the Frequency Domain

摘要

深层神经网络在计算机视觉任务中取得了显著的成功。现有的神经网络主要工作在输入尺寸固定的空间域。在实际应用中，图像通常很大，必须降采样到预定的神经网络输入大小。尽管下采样操作减少了计算量和所需的通信带宽，但它同时删除了冗余和显著信息，从而导致精度下降。在数字信号处理理论的启发下，我们从频率角度分析了频谱偏差，提出了一种基于学习的频率选择方法来识别可以去除而不损失精度的微小频率分量。所提出的频域学习方法利用了ResNet-50、MobileNetV2和Mask R-CNN等神经网络的相同结构，同时接受频域信息作为输入。实验结果表明，采用静态信道选择的频域学习方法比传统的空间下采样方法具有更高的精度，同时进一步减小了输入数据量。对于输入大小相同的ImageNet分类，该方法在ResNet-50和MobileNetV2上分别提高了1.60%和0.63%的top-1精度。即使在输入大小为一半的情况下，该方法仍能将ResNet-50的前1位精度提高1.42%。此外，我们观察到掩模R-CNN的平均精度提高了0.8%，例如在COCO数据集上的分割。

动机

现在计算机视觉工作受到计算资源的限制。由于内存限制，大多数CNN模型只接受低分辨率的RGB图像（例如224×224）。然而，现代相机拍摄的图像通常要大得多。例如，现代标准认为高清晰度（HD）分辨率图像（1920×1080）相对较小。甚至**ImageNet数据集中的平均图像分辨率为482×415，**大约是大多数CNN模型所接受的大小的四倍。
图像缩小不可避免地会导致信息丢失和精度下降。先前的工作旨在通过学习任务感知的缩小网络来减少信息丢失。然而，这些网络都是特定于任务的，需要额外的计算，这在实际应用中是不利的。
受人类视觉系统（HVS）对不同频率分量不敏感的观察[11]的启发，我们在频域内分析了图像分类、检测和分割任务，发现CNN模型对低频信道和高频信道的敏感性更高。

贡献

我们提出了一种频域学习方法（使用DCT系数作为输入），该方法对现有的采用RGB输入的CNN模型几乎不需要修改。我们在ResNet50和MobileNetV2上验证了我们的方法用于图像分类任务，在Mask R-CNN上验证了我们的方法用于实例分割任务。
结果表明，频域学习比传统的空间降采样方法（将图像空间大小调整为224×224，大多数CNN模型的默认输入大小）在预处理阶段更好地保留了图像信息，从而提高了精度。
我们从频率的角度来分析频谱偏差。结果表明，CNN模型对低频信道比高频信道更敏感，类似于人类视觉系统（HVS）。
提出了一种基于学习的动态信道选择方法，用于识别在推理过程中静态去除的平凡频率分量。
据我们所知，这是第一个探索在频域中学习目标检测和实例分割的工作。

我们的方法旨在减少输入数据的大小，而不是模型的复杂性。

模型

本文提出了一种通用的频域学习方法，包括数据预处理流水线和输入数据大小剪枝方法。
在传统的方法中，高分辨率的RGB图像通常在CPU上进行预处理，然后传输到GPU/AI加速器进行实时推理。由于RGB格式的未压缩图像通常很大，因此CPU和GPU/AI加速器之间的通信带宽要求通常很高。这种通信带宽可能是系统性能的瓶颈，如图1（a）所示。为了降低计算成本和通信带宽要求，将高分辨率的RGB图像降采样为较小的图像，这往往会导致信息丢失，从而降低推理精度。
在这里插入图片描述
在我们的方法中，高分辨率的RGB图像仍然在CPU上进行预处理。然而，它们首先被转换到YCbCr颜色空间，然后被转换到频域。这与最广泛使用的图像压缩标准（如JPEG）一致。同一频率的所有分量被组合成一个信道。这样，就产生了多个频率通道。某些频率通道对推理精度的影响大于其他通道。因此，我们建议只保留最重要的频率通道并将其传输到GPU/AI加速器进行推断。与传统方法相比，该方法对通信带宽的要求较低，同时具有较高的精度。

预处理流程如下图所示，同样空间领域中传统的预处理流程和增强流程必不可少，包括图像大小调整，裁剪和翻转（下图中的spatial resize and crop）。然后将图像转换为YCbCr颜色空间也就是频域（对应下图DCT transform）。之后，将相同频率的二维DCT系数分组到一个channel，以形成三维DCT立方体（下图中的DCT reshape）。通过通道选择，选择了影响较大的频道的子集（下图的DCT channel select）。 YCbCr颜色空间中的选定channel被concat在一起以形成一个张量（下图中的DCT concatenate）。最后，通过从训练数据集计算出的均值和方差对每个channel进行归一化。

在这里插入图片描述
具体来说，将图像按8x8分块，在Y通道每个块会得到64个DCT信号，对应64个不同的频率分量。对于尺寸为W x H的原始图像, 会有W/8 x H/8 个块。每个块中相同位置的频率分量可以组成一个尺寸为W/8 x H/8 的feature map，这样会产生8x8=64个feature map。对于Cb和Cr通道，也可以各自产生64个feature map。总共产生了64x3=192个feature map。假设W=H=448, 那么现有的基于频域的feature map的尺寸为56x56x192（？）。对于ResNet-50，输入为224x224，经过一次卷积和pooling后， feature map 尺寸为 56x56。这样我们可以把 56x56x192 的具体来说，将图像按8x8分块，在Y通道每个块会得到64个DCT信号，对应64个不同的频率分量。对于尺寸为W x H的原始图像, 会有W/8 x H/8 个块。每个块中相同位置的频率分量可以组成一个尺寸为W/8 x H/8 的feature map，这样会产生8x8=64个feature map。对于Cb和Cr通道，也可以各自产生64个feature map。总共产生了64x3=192个feature map。假设W=H=448, 那么现有的基于频域的feature map的尺寸为56x56x192。的 feature map 放在这里即可。
在这里插入图片描述

在图像分类任务中，CNN模型通常采用224×224×3形状的输入特征，这些特征通常是从分辨率更高的图像中降采样得到的。在频域进行分类时，可以将较大的图像作为输入。以ResNet50为例，将频域中的输入特征连接到第一剩余块，信道数调整为192，形成56×56×192形状的输入特征，它是由448×448×3大小的输入图像进行dct变换，在空间域中比224×224×3大小的输入图像保留4倍多的信息，代价是输入特征大小的4倍。同样，对于MobileNetV2模型，输入特征形状为112×112×192，由大小为896×896×3的图像重塑。
由于输入特征的不同通道处于不同的频率，我们推测某些频率通道对后续的图像分类、目标检测、实例分割等任务的信息量较小，去除平凡的频率通道不会导致性能下降。因此，我们提出了一种基于学习的信道选择机制来利用每个输入频率信道的相对重要性。我们采用动态门模块，为每个频率通道分配一个二进制分数。显著通道被评为1，其他通道被评为0。零分输入频率通道与网络分离。从而减小了输入数据的大小，降低了域转换的计算复杂度和通信带宽需求。该门模块简单，可以作为模型的一部分应用于在线推理。
在这里插入图片描述
这一功能的模块叫dynamic gate model，实际上就是SE-Net中提出的SE-Block，该模块为每个channel分配一个二进制分数。分数为零的输入channel从网络中分离出来。提出一种称为Gumbel Softmax技巧的重新参数化方法，该方法允许梯度通过离散采样过程反向传播。
我们在损失函数中加入一个正则化项来平衡所选频率通道的数目，该数目与交叉熵损失或其他精度相关损失一起最小化。
在这里插入图片描述

针对上面的热图可视化，作者发现了下面四个结论。

与高频频道（索引较大的框）相比，低频频道（索引较小的框）的选择频率更高。这表明对于视觉推理任务而言，低频通道通常比高频通道更具信息性
与色度分量Cb和Cr中的频道相比，模型更频繁地选择亮度分量Y中的频道。这表明亮度分量对于视觉推理任务更具参考价值
热图在分类和分割任务之间共享一个公共模式。这表明上述两个观察结果并非特定于一项任务，很可能对更高层次的视觉任务具有普遍性
这些观察结果暗示CNN模型可能确实表现出与人类视觉类似的特征，并且针对人眼的图像压缩标准（例如JPEG）也可能适用于CNN模型。

实验

频域中的输入特征由分辨率远高于空域对应的图像生成。但是，ImageNet数据集中的一些图像的分辨率较低。我们执行与空间域中类似的预处理步骤，包括调整大小并裁剪到更大的图像大小，在需要时执行上采样。
在这里插入图片描述
这表明，只要选择大多数低频信道，所提出的频域学习的优点就可以应用于许多任务。注意，输入数据大小仅为基线ResNet-50的一半。由于DCT-24S提供了稍好的结果，剩余的静态选择基于接近左上角的模式（一些右下角的通道可能丢失）。
基线ResNet-50相比，使用所有频率信道时，top-1精度提高了1.4%。还应注意，当输入从RGB转换为YCbCr颜色时，精度会降低。
另一个有趣的观察是，使用一个子集信道训练的模型可能比使用所有192个信道训练的模型表现更好。这种反直观的观察意味着少量（例如，24个）低频信道足以捕获有用的特征，并且附加的频率分量可能引入噪声。