原文链接:https://www.cnblogs.com/llfctt/p/10938704.html
选取微调形式的两个重要因素:新数据集的大小(size)和相似性(与预训练的数据集相比)。牢记卷积网络在提取特征时,前面的层所提取的更具一般性,后面的层更加具体,更倾向于原始的数据集(more original-dataset-specific)。
四个基本原则:
1、新数据集小而且相似时,不建议进行微调,以防止过拟合。最好是只训练线性分类器(只训练后面一层)。
2、新数据集大而且相似时,因为有足够的数据,所以可以对整个网络进行训练微调。
3、新数据集小而且不相似时,因为数据集不相似,所以最好不要在网络最后面的层训练分类器,最好在网络更前一点进行训练。
4、新数据集大而且不相似时,因为数据集足够大,所以有充分的信心可以训练好。随意训练
此外,注意不要随意更改预训练网络的结构,学习率最好选择一个较小的开始。