一、AlexNet模型创新点总结如下:
1)使用ReLu作为激活函数,成功解决了Sigmoid的梯度弥散问题
2)训练时加入了Dropout层,防止过拟合情况发生
3)在CNN中使用重叠的最大池化,并提出步长比池化核尺寸要小,这样池化层输出之间有重叠和覆盖,提高了特征的丰富性
4)提出了LRN层,对局部神经元的活动创建竞争机制,,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力
5)使用CUDA加速深度卷积网络的训练
6)数据增强,随机从256*256图像中截取224*224大小的区域,以及水平翻转,得到(256-224)的平方X2=2048倍的数据量,大大减轻了过拟合,提高泛化能力
二、VGGNet模型创新点总结如下:
1)数据层堆叠,通过2至3个3*3卷积层堆叠来形成5*5和7*7大小的感受野。其中2个3*3的卷积层可以形成5*5大小的感受野,第一参数量更少,比1个7*7的卷积层拥有更少的参数量,只有后者的(3*3*3)/ (7*7)=55%的参数量,拥有更多的非线性变化,3个卷积层可以进行3次非线性变化,而1个卷积层只能1次
2)训练和预测时的技巧,训练时先训练级别A的简单网络,再复用A网络的权重来初始化后面的几个复杂模型,这样训练收敛的速度更快。预测时采用Multi-Scale的方法,同时还再训练时VGGNet也使用了Multi-Scale的方法做数据增强
3)得出LRN层作用不大,越深的网络效果越好。1*1的卷积也是很有效的,但是没有3*3的好,大一些的卷积核可以学习更大的空间特征
三、GoogleNet模型创新点总结如下:
Googlenet参数量更少效果更好。除了因为模型层数加深,表达能力更强,还有两点:1、去除了最后的全连接层,用全局平均池化层(即将图片尺寸变为1*1)来取代它,全连接层几乎占据了AlexNet和VGGNet的90%的参数量,所以去了后不仅减少了参数,而且减轻了过拟合;2、Inception Module提高了参数的利用率。
主要创新点如下:
1)Factorization into small convolution的思想,很有效,可以降低参数量,减轻过拟合,增加网络非线性的表达能力。如:将7*7的卷积拆分成1*7卷积和7*1卷积,比拆分成3个3*3卷积更节约参数,同时比7*7卷积多了一层非线性扩展模型表达能力
2)Inception Module模块,用多个分支提取不同抽象程度的高阶特征的思路很有效,可以丰富网络的表达能力。这些Inception Module的结构只在网络的后便出现,前面还是普通的卷积层
3)卷积网络从输入到输出,应该让图片尺寸逐渐减小,输出通道数逐渐增加,即让空间结构简化,将空间信息转化为高阶抽象的特征信息。
4)去除了最后的全连接层,用1*1卷积来取代,这样大大减少了参数量,并且减轻了过拟合。