文章目录
- Introduction
- Offline RL
- 为什么困难
- DP
- 总结
Introduction
强化学习为基于学习的控制提供了一种数学形式。通过强化学习,我们可以自动获得以策略为代表的接近最优的行为技能,以优化用户指定的奖励函数。奖励函数定义了代理应该做什么,而强化学习算法决定了如何做。几十年来,强化学习算法一直是一个活跃的研究领域,在强化学习中引入了有效的高容量函数逼近器(deep neural networks),以及有效的训练算法,使得强化学习方法在强化学习中取得了很好的效果广泛的领域。
然而,强化学习算法提供了一个基本的在线学习范式,这也是其广泛采用的最大障碍之一。强化学习的过程包括通过与环境交互反复收集经验,通常是使用最新学习的策略,然后使用这些经验来改进策略。在许多情况下,这种在线交互是不切实际的,原因可能是数据收集昂贵(例如,在机器人、教育代理或医疗保健中)和危险(例如,在自动驾驶或医疗保健中)。此外,即使在在线交互可行的领域中,我们可能仍然倾向于使用以前收集的数据,例如,如果该领域很复杂,并且有效的泛化需要大量的数据集。
事实上,在过去十年里,机器学习方法在一系列实际相关问题上的成功,在很大程度上