当前位置: 代码迷 >> 综合 >> Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems 笔记
  详细解决方案

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems 笔记

热度:40   发布时间:2023-12-12 08:53:41.0

文章目录

  • Introduction
  • Offline RL
  • 为什么困难
  • DP
  • 总结

Introduction

强化学习为基于学习的控制提供了一种数学形式。通过强化学习,我们可以自动获得以策略为代表的接近最优的行为技能,以优化用户指定的奖励函数。奖励函数定义了代理应该做什么,而强化学习算法决定了如何做。几十年来,强化学习算法一直是一个活跃的研究领域,在强化学习中引入了有效的高容量函数逼近器(deep neural networks),以及有效的训练算法,使得强化学习方法在强化学习中取得了很好的效果广泛的领域。

然而,强化学习算法提供了一个基本的在线学习范式,这也是其广泛采用的最大障碍之一。强化学习的过程包括通过与环境交互反复收集经验,通常是使用最新学习的策略,然后使用这些经验来改进策略。在许多情况下,这种在线交互是不切实际的,原因可能是数据收集昂贵(例如,在机器人、教育代理或医疗保健中)和危险(例如,在自动驾驶或医疗保健中)。此外,即使在在线交互可行的领域中,我们可能仍然倾向于使用以前收集的数据,例如,如果该领域很复杂,并且有效的泛化需要大量的数据集。

事实上,在过去十年里,机器学习方法在一系列实际相关问题上的成功,在很大程度上

  相关解决方案