[ICML2019]TibGM A Transferable and Information-Based Graphical Model Approach for RL笔记_综合

文章目录

前言
方法
- 符号与模型
- 推理
结论

前言

结合图模型GM将其作为RL框架的基础，有可能解决迁移，泛化和探索问题。文中提出一种使用高效推理过程来增强泛化和迁移能力。作者展示了GM中基于互信息（mutual information）的目标，与RL包含标准的最大化奖赏目标和泛化/迁移目标的合并目标的等价性。
方法中，表示环境的隐藏空间被分解为模块：1）目的是最大化每个时间步的奖赏；2）全部模块对应关于环境更一般、时间独立的信息。这跟心理学中的层次的功能理论有点相似。推理使用高效可变推理过程，包含一个生成和一个识别模型。作者在提出的信息论目标和RL目标之间建立了一个新的类比，该RL目标同时考虑了奖赏最大化和最优的泛化与可转移性。作者提出的双重目标包括一个旨在最大化外部奖励的项，以及另一个鼓励隐藏空间的“全局”子集不太依赖于当前的奖励(以帮助泛化)。

方法

符号与模型

首先假设奖赏是非正的。提出的目标来自信息论。所提出的概率模型如图所示。