pytorch | 填一填pytorch的坑_综合

pytorch | 填一填pytorch的坑?

1. model.train() 和 model.eval()

模型中如果有 Batch Normalization 或 Dropout 层，测试时，需要加 model.eval()。主要因为在训练和测试时，Batch Normalization 和 Dropout 方法的操作不同导致的。

模型训练前加model.train()，模型变成训练模式，启用 BatchNormalization 和 Dropout。在测试前加model.eval()，模型变成测试模式，不启用 BatchNormalization 和 Dropout，保证Batch Normalization和Dropout不发生变化，pytorch框架会自动把BN和Dropout固定住，不会取平均，而是用训练好的值，不然的话，一旦test的batch_size过小，很容易就会被BN层影响结果。

理解

Batch Normalization
Batch Normalization的作用主要是对网络中间的每层进行归一化处理，并且使用变换重构（Batch Normalization Transform）保证每层提取的特征分布不会被破坏。在训练时，是对每一批的训练数据进行归一化，也即用每一批数据的均值和方差。而在测试时，比如进行一个样本的预测，并没有batch的概念，这个时候用的均值和方差是全量训练数据（所有样本）的均值和方差。pytorch具体实现是采用滑动平均值方法计算，所以最后一旦整个训练阶段完成，BN层中的所有参数也就固定下来，然后直接用于测试。
Dropout
Dropout的作用是在训练过程中以一定的概率的使神经元失活，即输出为0，以提高模型的泛化能力，减少过拟合。测试时，应该用整个训练好的模型，因此不需要Dropout。