0. 摘要
机器学习与深度学习中常用到梯度下降(Vanilla Gradient Descent)优化方法及其改进的变种(Improved Variants),不同专业书与教程中均有所涉及,但缺乏系统性与完整性.本文在参阅相关论文与教程的基础上,通过对比总结,系统性归纳并说明其各自特点,同时结合个人理解与实际使用情况,给出一定的补充,以便交流学习.
1. 梯度下降理论基础
对于机器学习与深度学习问题,虽然求解对象多样,但本质上都是优化目标函数(Objective Function)或效用函数(Utility Function)的控制参量 (一维标量、二维或高维向量),实现目标函数值的最小化(极小化)或效用函数的最大化(极大