pytorch | 填一填pytorch的坑?
1. model.train() 和 model.eval()
模型中如果有 Batch Normalization 或 Dropout 层,测试时,需要加 model.eval()。主要因为在训练和测试时,Batch Normalization 和 Dropout 方法的操作不同导致的。
模型训练前加model.train()
,模型变成训练模式,启用 BatchNormalization 和 Dropout。在测试前加model.eval()
,模型变成测试模式,不启用 BatchNormalization 和 Dropout,保证Batch Normalization和Dropout不发生变化,pytorch框架会自动把BN和Dropout固定住,不会取平均,而是用训练好的值,不然的话,一旦test的batch_size过小,很容易就会被BN层影响结果。
理解
- Batch Normalization
Batch Normalization的作用主要是对网络中间的每层进行归一化处理,并且使用变换重构(Batch Normalization Transform)保证每层提取的特征分布不会被破坏。在训练时,是对每一批的训练数据进行归一化,也即用每一批数据的均值和方差。而在测试时,比如进行一个样本的预测,并没有batch的概念,这个时候用的均值和方差是全量训练数据(所有样本)的均值和方差。pytorch具体实现是采用滑动平均值方法计算,所以最后一旦整个训练阶段完成,BN层中的所有参数也就固定下来,然后直接用于测试。 - Dropout
Dropout的作用是在训练过程中以一定的概率的使神经元失活,即输出为0,以提高模型的泛化能力,减少过拟合。测试时,应该用整个训练好的模型,因此不需要Dropout。