文章目录
- 前言
- Averaged DQN
- Overestimation and Approximation Errors
-
- 目标近似误差(TAE)
- 过估计误差
- TAE方差降低
-
- DQN 方差
- Ensemble DQN 方差
- Averaged DQN方差
- 实验
前言
DRL train起来是困难的,因为存在instability和variability,这也会影响其表现。寻找合适的方式让训练变得平稳是比较关键的。以往的算法通常是在线性函数逼近的情况下分析的,其在温和的假设下保证收敛。但现实生活的问题通常包含高维输入,使得线性函数逼近方法依赖手工工程特征来表示特定问题的状态,这就降低了agent的灵活性。因此需要有表达力和灵活性的非线性函数估计,除了一小部分成功的尝试,总的来看这种结合被认为不稳定,并且即使在简单场景也显示出了发散(diverge)。DQN是第一个将非线性函数近似——DNN——成功与Q learning结合的方法,其通过将