学习率
Momentum
Momentum(动量,冲量):结合当前梯度与上一次更新信息,用于当前更新
optim.SGD
optim.SGD(params, lr=<object object>, momentum=0,dampening=0, weight_decay=0,nesterov=False)
主要参数:
params:管理的餐胡祖
lr: 初始学习率
momentum: 动量系数,贝塔
weight_decay: L2正则化系数
nesterov: 是否采用NAG