文章目录
- 1 论文信息
- 2 摘要
- 3 方法论
- 3.0 网络结构
- 3.1 小卷积核与小滤波器
- 3.2 卷积堆叠
- 4 实验
- 4.1 定量分析
1 论文信息
题目:Very Deep Convolutional Networks for Large-Scale Image Recognition
代码:Tensorflow复现,Pytorch复现
2 摘要
VGGNet 是牛津大学CV组和谷歌DeepMind共同研发,取得了2014ILSVRC亚军。
主要创新在于加深了CNN,使用了小卷积核与小滤波器,卷积堆叠,通道数增多。
3 方法论
3.0 网络结构
如上图所示,VGG16包括5个卷积层和3个全连接层以及1个softmax层,即16=2+2+3+3+3+3。
3.1 小卷积核与小滤波器
VGGNet 采用多个统一的3x3的小卷积核和统一的2x2最大池化滤波器,结构简洁优美;这有利于减少参数的数量,增强非线性映射,提高网络的表达能力。
3.2 卷积堆叠
VGGNet作者提出,2个3x3卷积核堆叠的感受野相当于1个5x5卷积核的感受野,而3个3x3卷积核堆叠的感受野相当于1个7x7卷积核的感受野。如下图所示,VGGNet包含5组卷积操作,每组包含1~3个连续的卷积层,每两个卷积层之间为ReLU层。
VGGNet卷积层有以下特点:特征图的分辨率单调递减,特征图的通道数单调递增,这有利于输入图像在维度上流畅地转换到分类向量。这也是后来者遵循的规律。