已知parameters代表每个神经网络的参数矩阵,lr代表学习率。
torch.optim.Adam是什么意思呢
这个算法来自https://arxiv.org/abs/1412.6980
以下黄色字体来自该文章的摘要
Adam,一种基于低阶矩的自适应估计的随机目标函数一阶梯度优化算法。该方法易于实现,计算效率高,内存要求低,对梯度的对角线重新缩放具有不变性,并且非常适用于数据和/或参数较大的问题。该方法也适用于非平稳目标和具有非常嘈杂和/或稀疏梯度的问题。超参数具有直观的解释,通常几乎不需要调整。
该方法是一个优化矩阵的方法,主要作用是提高计算效率,降低内存需求。