LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks

代码地址：

https://sites.google.com/view/lp-3dcnn/home(400错误找不到)

关键词：

Rectified Local Phase Volume (ReLPV) block(校正局部相位体积(ReLPV)块：局部相位模块、ReLU激活函数和一组可训练线性权值组成)

ReLPV块代替3D卷积层

问题：

(1)计算量大；(2)模型尺寸大；(3)易过拟合；(4)特征学习能力有待进一步提升。

原理：

Layer 1。这一层是标准的三维卷积层，只有一个大小为1×1×1的过滤器。从上一层输入一个大小为c×d×h×w的feature map，并将其转换为一个大小为1×d×h×w的单通道feature map。

这一层为第2层计算的3D STFT操作准备输入。设f(x)为第1层的feature map输出，大小为1×d×h×w。这里，x是一个变量，表示feature map f(x)上的位置

Layer 2。第2层通过公式(1)计算f(x)在局部n×n×n邻域NxNx的每个位置处的三维短时傅里叶变换(STFT)，提取f(x)的局部相位谱。

v∈R3是一个频率变量，j=√-1，使用向量符号表示公式(1)

wv为频率变量v处三维STFT的基向量，fx为包含邻域Nx所有位置的向量。

注意，由于基函数的可分性，可以对f(x)中的所有位置使用简单的一维卷积有效地计算出三维STFT。在这项工作中，考虑了13个最低的非零频率变量，定义如下。所选频率变量如图2所示为红点。

使用低频变量是因为它们通常包含大部分信息，因此它们具有比高频分量更好的信噪比。令

这里W是一个26×n3的变换矩阵对应于13个频率变量。R{·}和ζ{·}分别返回复数的实部和虚部。13个频率点(v1,v2,…,v13)的三维STFT矢量形式：

由于Fx是对输入f(x)的所有位置x进行计算，得到的输出特征图大小为26×d×h×w

Layer 3。使用ReLU函数，对Layer2的特征进行激活。

Layer 4。标准的3D卷积层，滤波器尺寸为尺寸为1×1×1。输入特征图尺寸为26×d×h×w，输出特征图，尺寸为f×d×h×w。

Layer 2的后向传播，没有可训练的参数，训练中，只有Layer 1和4的1×1×1滤波器更新，W中的权重不变。

ReLPV块采用两个超参数作为输入：

输入特征映射的每个位置计算STFT（并且提取局部相位）的局部体积的大小；

ReLPV块输出的特征映射的数量。

STFT：属于正交变换家族，故对输入信号进行去相关

ModelNet：与最先进的技术进行比较

遵循(VRN)体系结构的思想该体系结构采用简单的inception风格的体系结构和resnet风格的跳过连接。

图(a)：连接两个具有不同局部相位体积大小(3×3×3和5×5×5)的ReLPV块的相同数量(128)的特征图

图(b)：允许网络在对前一层中的特征图的加权平均(对1×1×1卷积进行大量加权) 或者本地相位信息(通过对ReLPV块进行大量加权)之间进行选择。添加跳过连接，以使梯度更平滑地流向先前的层。

图(c)：最终模型图

优点：

降低传统三维神经网络的高时空复杂度和模型复杂度。

只使用了200万个参数，而目前最先进的VRN网络使用了1800万个参数，占用更少的磁盘空间。

由于基函数的可分性，可以通过对每个维使用简单的一维卷积有效地计算STFT，可以降低计算成本

缺点：

拥有最复杂的网络架构，多达45层，1.08亿个参数，需要近6天的时间来训练。

创新点：

1)提出了ReLPV块，有效替代了标准3D卷积层。ReLPV块显著地减少了可训练参数的数目，与标准3D卷积层相比，滤波器尺寸分别为3×3×3～13×13，至少减少了33～133倍。

2)在ModelNet10和ModelNet40数据集上实现了最先进的精度。另外，提供了在时空图像序列上的结果。另：在UCF-101 split-1动作识别数据集上，在仅使用15%的最新参数的同时，将当前的技术水平提高了5.68%。

3)改变ReLPV块的各种超参数，对其进行了消融和性能研究

实验结果：

ModelNet:与基线的比较

Conv3D：标准3D卷积；MP：最大池数；FC：全连接层，类别数

Voxnet：conv3D(5,32,2)?conv3D(3,32,1)?MP(2)?FC(128)?FC(K)

LPvoxnet：ReLPV(5,32,2)?ReLPV(3,32,1)?MP(2)?FC(128)?FC(K)

SGD作为优化器，动量为0.9，

分类交叉熵为损失，

对这些新网络进行训练，学习率从0.008开始，每次降低2倍

ModelNet：与最先进的技术进行比较

输入是ModelNet数据集中大小为32×32×32的体素，

SGD作为优化器，动量为0.9，

分类交叉熵为损失。

学习率0.008开始，如果验证损失稳定，则将其减少5倍，

正交初始化初始化所有权重

首先在Az×12增强数据上训练网络，然后以低学习速率对Az×24增强数据进行微调

LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks 论文笔记 2020-9-26

LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks

代码地址：

关键词：

问题：

原理：

优点：

缺点：

创新点：

实验结果：