【论文翻译】Enhanced Motion-Compensated Video Coding With Deep Virtual Reference Frame Generation_综合

Enhanced Motion-Compensated Video Coding With Deep Virtual Reference Frame Generation
Lei Zhao , Shiqi Wang , Xinfeng Zhang , Member, IEEE, Shanshe Wang ,Siwei Ma , Senior Member, IEEE, and Wen Gao, Fellow, IEEE

摘要-本文通过引入深度虚拟参考帧（VRF），提出了一种有效的帧间预测方案，为视频编码的时间冗余去除提供了更好的参考。特别是，利用基于深度学习的帧速率上转换（FRUC）算法从两个重建的双向帧生成高质量VRF，然后将其合并到作为高质量参考的参考列表中。此外，为了减轻VRF的压缩伪影，我们开发了一个基于卷积神经网络（CNN）的增强模型，以进一步提高其质量。为了更好地利用VRF，设计了一种CTU级的直接虚拟参考帧（DVRF）编码方式，在压缩性能和复杂度之间取得了较好的折衷。将该方案集成到HM-16.6和JEM-7.1软件平台中，在随机接入（RA）配置下的仿真结果表明了该方法的优越性。在HM-16.6上对HEVC测试序列加入VRF后，平均BD速率增益达到6%以上，基于JEM-7.1软件观察到0.8%的BD速率增益。在DVRF模式下，HM-16.6可以节省3.6%的比特率，有效地降低了计算复杂度。
索引术语----帧间预测，虚拟参考框架，深度学习，视频编码。

I.导言
多媒体大数据的迅猛增长对高性能视频编码技术提出了迫切的要求。作为以往视频编码标准的继承，高效视频编码（HEVC）[1][2]也采用了基于块的混合视频编码框架，包括基于块的帧内/帧间预测、变换和熵编码。帧间预测是混合视频编码框架中不可缺少的组成部分，其目的是消除时间冗余。特别地，帧间预测利用图像之间的时间相关性来获得当前待编码块的预测版本，预测残差经过变换、量化和熵编码后在比特流中被信号化。

作为帧间预测的关键技术，双预测允许每个预测单元有两个运动矢量和两个参考指标，与单预测相比具有显著的优越性。HEVC采用分层B编码结构，与经典的B图像编码相比，编码效率可提高1.5db[3]。在图1中示出了具有随机接入（RA）配置中的4个时间级的典型分层B结构，其中I0和B8属于时间级u0，其为后续帧提供高质量参考。在重建0级帧后，I0和B8可以对1级（B4）帧进行双预测。对于级别2（B2和B6）中的帧，级别0和级别1的重构帧都可以用作参考。此外，级别3包含B1、B3、B5和B7，它们可以从所有较低级别的帧中获取参考。
在这里插入图片描述
为了实现可行的运动预测，HEVC采用多幅参考图像，并通过参考索引和运动矢量信号来指定预测信息。参考图的质量作为帧间编码的基础，对视频压缩有着重要的影响。性能。现有视频编码中使用的参考图像主要分为重构图像和合成图像。在帧间编码中，重建图像一直被用作预测。在HEVC中，多个重建的图片被分配给参考图片列表（RPS）。这些重建图像可以是短期图像（STR）或长期图像（LTR）。一般来说，短期图片由于与待编码图片具有较强的相关性而提供了高相似度的参考，而长期图片由于通常使用较低量化参数（QP）进行压缩，因此通常提供高质量的参考。

尽管重建图像可以通过提供多种假设来提高帧间编码性能，但由于重建参考帧在时域内的高相关性，其多样性受到很大限制。这激发了基于合成参考图片的方法，旨在进一步改善RPS中的内容变化。合成参考图片的典型方法是背景建模，其中通过利用重建帧[4]、[5]或原始帧[6]-[10]生成背景参考。一般来说，基于背景建模的方法是为监控视频设计的。但是对于具有全局运动的序列，由于背景区域不稳定，该方案缺乏效率。除了背景建模，Ma等人。[11] 提出了一种片段级的参考管理策略，该策略保留了过去帧中的奇异片段以提高DPB的多样性。然而，这种策略不适用于具有显著噪声的序列，因为它失去了在互预测中多个假设的好处。综上所述，现有的基于综合的参考生成方法主要针对特定应用场景下视频序列存在的具体缺陷，限制了其在应用中的泛化能力。此外，无论是重建图像还是已有的合成图像，都不能准确地推断出待编码的潜在内容，从而限制了帧间编码的效率。

运动数据，包括运动矢量（MV）和参考帧索引，占整个比特流的很大比例。为了更有效地表示运动数据，HEVC采用了两种编码方式，即高级运动矢量预测（AMVP）和合并（merge）来提取预测信息。更具体地说，当选择AMVP模式时，需要在比特流中对参考索引、运动矢量预测器（MVP）和运动矢量差分（MVD）进行编码以恢复预测信号。对于合并模式，只需要发出合并索引的信号，以便可以重用来自相邻块的运动数据。尽管AMVP和merge模式有效地降低了运动数据编码过程中的比特率消耗，但是比特流中的运动信息仍然是一个沉重的负担，特别是在低比特率的编码场景中。事实上，运动数据意味着待编码单元和对应的预测块在位置上的差异。因此，如果参考帧和待编码图片被注册，则不需要向运动数据发送信号。因此，生成可直接用于预测待编码帧的高质量参考帧是高需求的，因为运动信息可以用该参考帧隐式地传送。

近年来，深度学习的发展极大地提高了许多计算机视觉和图像处理任务的性能，这也启发了基于深度学习的视频编码的研究。许多以前的工作已经证明了深度学习在降低复杂度[12]、[13]、[14]和提高率失真（RD）性能[15]-[25]方面的有效性。本文通过引入基于深度学习的虚拟参考框架（VRF），提出了一种高效的帧间预测方法，该方法隐含了基于深度神经网络的运动信息。
本文的贡献如下：

我们从参考帧生成的角度改进了帧间编码的性能，并在HEVC中采用了基于深度学习的帧速率上转换（FRUC）算法。与现有的参考帧生成方法不同，该方法利用重建的双向帧以数据驱动的方式合成和推断待编码帧的高质量预测。
我们提出了一种基于CNN的增强模型，以进一步提高VRF的质量。由于VRF是从带量化噪声的重建帧中导出的，因此CNN模型可以大大减少压缩伪影，进一步提高预测精度。
提出了一种新的CTU级编码模式，称为DVRF模式，用于在速率失真优化（RDO）意义下自适应地补偿当前要编码的CTU。因此，编码比特的减少使得DVRF成为所有候选帧间预测方法中的竞争性编码模式。

本文的其余部分安排如下。第二节回顾了FRUC和合成参考图生成的相关工作。第三节介绍了我们提出的VRF产生方案，第四节详细介绍了模式间DVRF。第五节给出了实验结果和分析，最后在第六节进行了总结。

II.相关工作
在这一部分中，我们首先回顾了已有的关于合成参考图片生成的工作。随后，介绍了基于深度学习的FRUC的最新研究进展。

A.合成参考图片生成
近年来，为了更好地去除图像间的冗余，人们提出了多种综合参考图像生成方案。与传统的基于重建帧的参考文献相比，综合方法通过进一步挖掘RPS的内部和外部信息，有效地改善了RPS的内容变化。在现有的方法中，基于背景建模的参考文献在监控视频编码过程中显示出显著的优势。在[6]中，Zhang等人。研究了一种基于背景建模的自适应预测（BMAP）算法，该算法将背景图像编码为LTR，但背景参考的额外编码会导致严重的比特率负担，这对压缩和传输系统提出了严峻的挑战。有鉴于此，提出了块级更新策略[10]来缓解比特率突发。从原理上讲，基于背景的参考图像可以提供对背景区域的精确预测，使其成为静态摄像机捕获的视频序列的一种有效压缩技术。然而，对于具有全局运动的序列，由于背景区域不稳定，背景参考效率不高。因此，Ma等人没有消除背景冗余。[11] 重点减少了DPB中的重复内容，提出了子框架级的参考管理策略。更具体地说，多个参考图片被分割成多个补丁，每个补丁被识别为单一内容或重复内容。将单个面片重新组织为新的参考，而丢弃重复的面片以保持DPB的多样性。然而，如文献[11]所述，该方案不适用于具有显著噪声的序列，因为它失去了多个假设的好处。一些研究者提出利用外部知识来综合参考文献，而不是利用内部信息。在[26]中，开发了一种基于云的图像压缩方案。具体来说，在压缩当前图像时，首先从云中提取高相似度图像，然后进行全局几何和光度补偿后作为参考。类似的工作也可以在[27]中找到，其中相应捕获区域中的Google Earth图像被用作外部知识来压缩卫星视频。在他们提出的方法中，Google Earth图像在执行了定义和颜色校正之后作为卫星视频中I帧的参考帧。本文针对现有的综合参考图在有限场景下只能提高压缩效率的问题，提出了一种统一的通用视频参考帧生成方法。我们方法的细节将在第三节和第四节中介绍。

B.基于深度学习的Fruc
深度学习的迅速发展极大地促进了FRUC算法的发展。FRUC的目标是综合给定前一帧和后一帧的中间帧。为了提高FRUC的性能，人们提出了几项深入学习的研究工作。特别是周等人。[28]训练卷积神经网络（CNN）来预测外观流，然后用它来重建目标视图。在[29]中，深度体素流方法生成密集体素流，用深度神经网络优化帧内插结果。在现有的基于深度学习的方法中，自适应可分离卷积在插值质量和复杂度方面都显示出相当大的优势。

传统的FRUC方法将目标帧插值分为两步：密集运动估计和像素插值。Niklaus等人。[30]将像素内插作为局部卷积过程，并提供了一种将运动估计和像素合成结合在一步中的自适应卷积方法。如图2所示，对于每个单独的输出像素（x，y），深卷积网络以接收场补丁R1（x，y）和R2（x，y）作为输入，并输出大小为N×N的卷积核。然后，该内核卷积两个以（x，y）为中心的补丁P1和P2，以生成目标像素。自适应卷积的一个主要缺点是它的存储成本。文献[31]中指出，要生成1080p视频序列的中间帧，需要20GB以上的内存开销，这使得它在实时应用中不切实际。鉴于此，Niklaus等人。[31]然后提出了自适应可分离卷积算法，该算法将二维卷积核近似为两个一维核。这样，一个N×N卷积核可以只用2N个变量进行编码，显示出比2D卷积核相当大的优越性。本文采用自适应可分离卷积方法生成虚拟参考系，具有良好的性能。
在这里插入图片描述

III.VRF生成
在这一部分中，我们将详细介绍VRF生成方案，并将其融入到视频压缩过程中，以提高编码性能。如图3所示，我们的VRF生成方法主要包括初始VRF生成和基于CNN的增强。特别是，VRF的初步版本首先通过FRUC过程生成。随后，在具体设计的CNN模型的基础上，进一步提高了VRF的质量。最后将改进后的VRF算法融入到RPS系统中，以提供高质量的参考。
在这里插入图片描述
A.基于深度Fruc的VRF生成
VRF的产生得益于深度学习，它采用非线性融合的数据驱动方式综合中间帧。特别地，我们的方案适用于具有双向参考的B帧。假设待编码帧是fCUR，则检索两个重构帧（fF，fB）以生成VRF。算法1给出了（fF，fB）的推导过程。对于具有双向参考的每个B帧，我们遍历DPB中所有可用的解码帧，并获得相对于fCUR具有相等时间距离的一对帧。如果多帧对满足此条件，则选择时间距离最近的帧对作为输入来合成VRF。

在获得输入帧（fF，fB）之后，基于[29]中的深FRUC过程生成VRF。如图4所示，假设B1是要压缩的帧，并且给定两个重建帧I0和B2，可以直接合成VRF B1。特别是，让F（·）表示FRUC过程，这组图片（GOP）中的3级帧的vrf可以表示如下：在这里插入图片描述

在这里插入图片描述
B.基于CNN的VRF增强
一般认为，质量较好的参考帧可以显著提高预测精度但是，准确度作为FRUC输入的重构帧（fF，fB）已经失真，使得生成的VRF的质量不可避免地降低。针对这一问题，设计了一种基于CNN的VRF质量改进模型。
1）对拟议增强方法的见解：
基于CNN的HEVC压缩视频图像复原技术的研究已经取得了很多成果，其主要目的是减小原始帧与重建帧之间的均方误差（MSE），其中L（）表示深度网络的损失函数，Fori和Frec分别表示原始帧和重建帧，M表示每个帧中的像素数。在前人工作的启发下，我们提出了一个基于CNN的VRF质量改进模型。一种直观的策略是增强FRUC的输入帧，即重建帧。然而，由于提供参考信息的是VRF而不是解码帧，因此该方案可能无法实现期望的性能。有鉴于此，在我们的方案中，增强目标是VRF，所提出的网络的损耗函数可以表述为：在这里插入图片描述
2）网络架构：
采用VRF增强CNN（VECNN）来降低VRF中的压缩噪声。VECNN的架构如图5所示。如我们所见，每个卷积层卷积最后一层的输出，然后将卷积结果反馈给非线性映射层。非线性映射层中使用的激活函数是整流线性单元（ReLU），即f（x）=max（0，x），其中x表示卷积层的卷积输出，f（x）是激活输出。此外，除了第一层之外，VECNN中的所有其他卷积层对每个特征映射使用3x3核大小。对于第一卷积层，为了更好地利用纹理信息，采用了5x5大小的较大核。
在这里插入图片描述

原则上，VECNN的核心模块是残差块。作为一种优秀的CNN学习策略，剩余学习在许多任务中表现出了显著的优势[32]-[34]，剩余学习重新定义了原始映射函数到剩余函数。在所提出的向量神经网络中，我们采用了与文献[34]相似的残差块结构。具体来说，我们使用两个包含64个特征映射的卷积层，然后使用ReLU作为激活函数。

基本上，残差块的数目对VECNN性能有显著影响。为了确定残差块数N，我们探索了VECNN性能与残差块数N之间的关系，特别是，我们用不同残差块数N训练VECNN，其中N的范围为2到12，步长为2，每个模型的性能如图6所示，其中X轴表示残差块数N，Y轴表示每个模型收敛时测试集上相应的MSE损失。如图6所示，当剩余块N的数目从2增加到8时，MSE损失趋于减小。然而，当N从8到12时，MSE损失同时增加。图6中的比较结果表明，VECNN的性能并没有随着N变为更大。相似观察结果见[21]，[37]。基于图7中的观察，在VECNN中N被设置为8。
在这里插入图片描述

3）培训策略：
提出的矢量神经网络旨在减轻压缩过程中产生的量化失真。由于QP是控制失真度的关键参数，因此根据指定的QP设置来训练每个CNN模型参数是很自然的。

更具体地说，我们从SJTU 4K视频数据集[35]、AVS2测试序列数据集[36]和一些其他序列中收集了113个序列作为训练数据，值得一提的是，这些序列与HEVC测试序列没有重叠。为了提高训练数据的多样性，通过将原始序列的大小调整为1080P、720P、WVGA、WQVGA分辨率，对选定的训练序列进行了增强。对于每个测试序列，我们切下一个9帧子序列，然后在RA配置下由HM-16.6压缩。如图4所示，具有9帧的序列包含具有所有四个层次的B帧，这涵盖了在HEVC压缩过程中生成VRF的所有潜在组合。给定一个压缩子序列，共有7个可能组合产生VRF，即I0和B8、I0和B4、I0和B2、B4和B8、B6和B8、B2和B4、B4和B6。例如，如果要编码的当前帧是B4，则根据算法1，将选择I0和B8来生成B4的VRF。通常，针对不同的组合训练单独的模型可以获得更好的编码性能。然而，由于需要保存多个模型，这种策略也给视频编解码带来了巨大的负担。有鉴于此，本文利用包含参考帧的7种组合的训练数据，训练出一个统一的模型，使得该模型能够处理参考帧的所有组合。为了保证训练数据的全面性，对于每个压缩子序列，我们从七个潜在组合中随机选择一个作为输入数据，生成VRF F?rec。

利用VRF的一个直观的想法是直接用VRF代替重建的帧以获得更好的参考。然而，由于在复杂的运动场景中插值中间帧仍然是一个开放性的问题，因此该策略的效率较低。如图3所示，为了有效地利用VRF，在所提出的方法中，我们利用VRF作为新的参考帧，并将VRF附加到RPS中。由于VRF是由重构帧生成的，因此不需要在比特流中发送附加信息，并且解码器侧类似于此过程来导出VRF。由于VRF可以被视为待编码帧的精细预测，因此可以用这种方式改善RPS的内容多样性。

IV.直接虚拟参考帧（DVRF）模式
在这一部分中，我们通过引入一种称为DVRF的新编码模式来进一步开发视频编码中的VRF。其动机是直接将新的参考图片添加到RPS中会带来额外的时间复杂性。特别地，在编码过程中，每个预测单元（PU）对VRF执行ME/MC，这增加了复杂性负担。此外，在B帧编码过程中，生成的帧级VRF被保存在存储器中，这也给存储开销带来了新的挑战。

VRF不同于其它参考帧的最重要的特点是，VRF在时域上与待编码帧对齐。有鉴于此，我们利用VRF的优点，将其以一种新的方式融入到视频编码中。更具体地说，提出了一种CTU级模式间DVRF。所提出的DVRF模式没有在RPS中加入VRF，而是显式地向零MV发送信号以指定VRF中的运动补偿块，从而避免了额外的ME复杂度。此外，DVRF是一种CTU级的帧间模式，它允许在块级而不是帧级实现虚拟参考，从而减轻了内存负担。本文除了在RPS中加入VRF外，还对DVRF模式进行了实现和研究。

A.DVRF模式
提出的DVRF编码模式应用于具有双预测参考的B帧，使得其应用仅限于RA配置。更具体地说，DVRF模式仅在FRUC输入（fF，fB）存在时启用，并且（fF，fB）的推导过程也遵循算法1。

如图7所示，对于要编码的当前帧FT，采用作为DPB中最近的双向参考帧的FT-t和FT+t来生成高质量的VRF FVRF。随后，对于当前帧中的每个CTU，在比特流中发送DVRF模式标志以指示是否选择了DVRF模式。特别地，当DVRF标志被启用时，VRF中由零MV指定的共定位块被视为重建块，并且当前CTU的编码终止。另外，采用传统的HEVC编码过程对当前的CTU进行编码。

B.DVRF模式决定
DVRF模式的选择是在RDO的意义上实现的。设J HEVC表示当前CTU的传统HEVC编码方法的RD代价，使得传统HEVC编码的速率失真代价可以表示为：JHEVC=DHEVC+λ*RHEVC，其中DHEVC和RHEVC分别表示HEVC编码的失真和速率。参数λ是拉格朗日乘子，它控制率和失真之间的关系。对于建议的DVRF模式，让JDV RF表示DVRF模式的RD成本，可以表示为：JDV RF=DDV RF+λ?RDV RF，其中DDV RF和RDV RF是DVRF模式的失真和速率。当JDV RF<JHEVC时，选择DVRF模式。

与在RPS中加入VRF的策略相比，所提出的DVRF模式不需要任何额外的ME处理，使得帧级虚拟参考可以以块的方式实现，在复杂性和存储器方面都显示出优势。此外，需要注意的是，当选择DVRF模式时，只需要在比特流中发送DVRF标志。对于传统的HEVC模式，运动数据包括合并索引、MVP索引、MVD以及量化后的变换系数编码的有效地降低了编码比特，使得DVRF模式成为所有候选帧间预测方法中的一种竞争模式。

V.实验结果
在本节中，我们将评估所提出方法的性能。编码器配置和培训详情见第V-A节，第V-B节显示了VRF方法的总体性能。此外，第V-C节给出了所提出的DVRF模式的性能，第V-D节给出了所提出方法的复杂性分析。这里，使用以下缩写词来区分本文提出的方法。

VRF_INIT：由FRUC生成的初始VRF不经VECNN处理直接添加到RPS中，该初始VRF作为新的参考帧，有利于帧间编码。
VRF_VECNN：正如我们在第III-A节和第III-B节中详细说明的，在将初始VRF合并为新的参考帧之前，通过所提出的VECNN进一步增强。
DVRF:CTU层间模式，直接复制同一位置的VRF CTU，如第四节所述。

A.编码配置和训练详细信息
1）编码配置与评估：所提出的基于VRF的方法被集成到HEVC软件HM-16.6中，并且所有的编码器配置都遵循HEVC通用测试条件（CTC）[38]。除了推荐的QP设置{22，27，32，37}，我们还测试了QP 42的情况，以验证该方法在低比特率条件下的性能。由于VRF的产生需要双向参考帧，因此在实验中只对RA-con figuration进行了测试。此外，为了评估所提出方法的有效性，本文使用了广泛使用的BD率[39]。
2）训练细节：我们在NVIDIA Titan X GPU上训练和测试CNN。更具体地说，采用Pythorch库[38]，并利用[41]中提供的FRUC模型生成初始VRF。对于VECNN，使用Tensorflow[42]对VRF进行增强。另外，对4个QP点{27、32、37、42}分别训练4个模型，每个模型的训练时间不超过10小时。至于QP=22，我们没有在VRF上执行VECNN，因为质量已经足够好了。由于我们的重点是提高luma分量的质量，所以只有Y分量通过VECNN得到增强，这也减轻了压缩复杂度的负担。此外，我们使用Adam[43]进行优化，学习率从10-4下降到10-6，因子为10-1。

B. VRF_INIT和VRF_VECNN的结果
1） VRF_INIT的性能：与HM-16.6相比，所提出的VRF_INIT方法的总体RD性能如表1所示，其中正常QPs设置为{22、27、32、37}，较大QPs设置为{27、32、37、42}。如表1所示，所提出的VRF在每个序列上都能节省相当多的比特率，在PeopleOnStreet上可以观察到高达10.1%的增益。平均而言，在正常的QPs中luma分量的比特率节省为4.5%，在较大的QPs中luma分量的比特率节省为5.6%，这表明该方法在低比特率下取得了较好的性能条件。此外一些典型的RD曲线如图8所示，这表明VRF_INIT可以获得更好的RD性能。
在这里插入图片描述

除了VRF_INIT在HM-16.6上的性能外，我们还将VRF_INIT集成到新开发的JEM-7.1中[44]。与HM软件相比，JEM-7.1采用了双向光流（BIO）、译码器侧移矢量求精（DMVR）、模式匹配运动矢量求导（PMMVD）等9种额外的交互工具。这些新的交互编码工具有效地改进了交互编码性能。In为了探索VRF_INIT与这些新的编码工具集成的有效性，我们在JEM-7.1上集成VRF_INIT，并对HEVC测试序列进行了2s测试。实验结果如表二所示，与HM-16.6上达到4.5%和5.6%比特率降低的性能相比，在正常QPs和较大QPs下，JEM-7.1上VRF_INIT的总体性能分别降低到0.7%和0.8%分别。我们实验发现，性能下降的主要原因是冲突在提出的方法和两个新增加的交互工具之间，即BIO和PMMVD。事实上，BIO和PMMVD都是B帧编码工具，它们与VRF方法密切相关，B帧预测和FRUC之间的自然联系为它们提供了一个共同的目标，即利用双向参考生成或细化预测。从这个角度来看，BIO和PMMVD降低VRF的性能就不足为奇了。虽然取得了较少的性能增益，但这些实验结果也为证明VRF_-INIT方法的有效性提供了有用的证据。
在这里插入图片描述

2） VRF_-VECNN的性能：VRF_-VECNN的仿真结果如表3所示，与VRF_-INIT相比，RD性能进一步提高了1%。VRF_-VECNN在正常QPs下的平均luma性能为5.5%，而在高QP配置下的平均luma性能为6.8%。最显著的性能改善出现在4个人身上，在较高的QPs下，比特率降低从6.0%提高到10.5%，表明所提出的VECNN在该序列中带来了超过4%的增益。另一个典型的序列是BQTerrace，其中VECNN带来额外的3.7%的增益。然而，VRF_-VECNN并不总是有利于压缩过程，因为它对少数顺序。关于在公园场景中，VRFéINIT在较高的QPs下获得了4.8%的增益，加入VECNN后，性能下降到4.1%，这可能是由于场景中动态前景的不规则模式造成的。
在这里插入图片描述

C.DVRF的性能
本小节介绍了所提出的DVRF模式的性能。值得一提的是，在DVRF中使用的VRF通过VECNN进一步增强，以提高质量。DVRF的BD速率性能如表4所示。在正常QPs中获得了2.2%的BD速率增益，在更高的QPs中获得了3.6%的增益。最好的性能以四人顺序出现，在正常Qps和高Qps下分别实现6.1%和7.8%的比特率节省。此外，为了探索DVRF的有效性在QP设置方面的变化，我们计算了DVRF在不同QP中的命中率，总体结果如图9所示。具体而言，DVRF的命中率H计算如下，H=CDVRF/CALL×100%，其中CALL表示分配了DVRF标志的ctu的数量，CDV-RF是启用了DVRF标志的ctu的数量。从图9可以看出，高达45%的CTU选择DVRF模式。由于DVRF的选择是在RDO意义上实现的，因此高命中率证明了DVRF的有效性。此外，我们还观察到，当QP变大时，命中率会增加，这表明VRF在低比特率条件下会提供更好的预测。
在这里插入图片描述

D.复杂性分析
本小节将讨论所提出算法的计算复杂性。众所周知，基于深度学习的视频编码方法给计算复杂性带来了巨大的负担，这给视频编码带来了严峻的挑战。为了减轻复杂度的问题，我们在nvidiatitanxgpu上对FRUC和VECNN进行了处理。由于CNN的执行时间取决于实验中使用的GPU的性能，我们首先比较了不考虑CNN时间开销的方法的复杂度。对于复杂度开销评估，我们计算TEnc/Dec如下，其中TEnc/Dec表示所提方法在编码器或解码器端的复杂度，TEnc/Dec表示HEVC锚HM-16.6的相应复杂度。结果如表五所示，在编码器端，RPS中附加的参考帧使VRF_INIT和VRF_VECNN的复杂度增加了16%-18%，而DVRF没有明显变化。在解码端，这三种方法都降低了复杂度，并且在DVRF上节省了高达7%的时间，这源于VRF提供的高质量预测，因此需要发送信号的残差更少。从表五可以看出，在三种方法中，DVRF的复杂度性能最好。虽然DVRF的BD速率性能比VRF_INIT和VRF_VECNN差，但其复杂性优势使其成为一种实用的利用VRF的方法。
在这里插入图片描述

我们还记录了所提出方法的复杂性，包括CNN的执行成本。如表6所示，在编码器侧观察到大约30%-45%的额外复杂性，考虑到显著的BD速率增益，这是一个合理的成本。然而，复杂度代价的主要问题在于译码器端，在VRF_INIT上观察到了40倍的译码复杂度，在VRF_-VECNN和DVRF中进一步采用VECNN时，时间开销增加到70倍。尽管CNN给时间复杂度带来了负担，但进一步优化将使CNN成本达到合理水平仍然是有希望的。最近，人们对建立小型高效的神经网络越来越感兴趣。在文献[45]中，提出了一种三级流水线结构来减少神经网络的存储量，并在保持原始数据的前提下加快处理速度准确。此外，Howard等人。[46]在他们提出的MobileNet中用可分离的深度卷积代替了标准卷积，在保持各种任务的性能的情况下，实现了显著的计算减少。今后，我们将对VRF生成网络和VECNN进行进一步的优化，使我们的方法适用于实时场景。
在这里插入图片描述
VI.结论
介绍了一种新的基于深度FRUC的VRF帧间编码方法。与现有的参考帧生成方法不同，该方法利用重建的双向帧来合成高质量的待编码帧预测帧。到为了提高VRF的质量，设计了一种称为VECNN的CNN，旨在减轻压缩伪影，提高VRF的预测精度。为了在编码效率和复杂度之间取得更好的折衷，我们进一步开发了一种CTU级的编码方式DVRF，避免了VRF上额外的ME过程。实验结果表明，该方法具有明显的优越性。在HM-16.6上加入VRF，平均BD速率增益为6.8%，基于JEM-7.1软件得到了0.8%的BD速率增益。对于DVRF模式，HM-16.6可以节省3.6%的比特率，编码复杂度较低。该方法的一个主要问题在于计算复杂度高，尤其是在译码器端。在未来，我们将研究更轻的cnn以减轻复杂性负担。同时，我们相信面向深度学习的硬件体系结构和加速技术的快速发展将在不久的将来走出复杂性困境。