文章目录
- 前言
- 方法
-
- 符号与模型
- 推理
- 结论
前言
结合图模型GM将其作为RL框架的基础,有可能解决迁移,泛化和探索问题。文中提出一种使用高效推理过程来增强泛化和迁移能力。作者展示了GM中基于互信息(mutual information)的目标,与RL包含标准的最大化奖赏目标和泛化/迁移目标的合并目标的等价性。
方法中,表示环境的隐藏空间被分解为模块:1)目的是最大化每个时间步的奖赏;2)全部模块对应关于环境更一般、时间独立的信息。这跟心理学中的层次的功能理论有点相似。推理使用高效可变推理过程,包含一个生成和一个识别模型。作者在提出的信息论目标和RL目标之间建立了一个新的类比,该RL目标同时考虑了奖赏最大化和最优的泛化与可转移性。作者提出的双重目标包括一个旨在最大化外部奖励的项,以及另一个鼓励隐藏空间的“全局”子集不太依赖于当前的奖励(以帮助泛化)。
方法
符号与模型
首先假设奖赏是非正的。提出的目标来自信息论。所提出的概率模型如图所示。