当前位置: 代码迷 >> 综合 >> [ICML2019]TibGM A Transferable and Information-Based Graphical Model Approach for RL笔记
  详细解决方案

[ICML2019]TibGM A Transferable and Information-Based Graphical Model Approach for RL笔记

热度:59   发布时间:2023-12-12 08:59:50.0

文章目录

  • 前言
  • 方法
    • 符号与模型
    • 推理
  • 结论

前言

结合图模型GM将其作为RL框架的基础,有可能解决迁移,泛化和探索问题。文中提出一种使用高效推理过程来增强泛化和迁移能力。作者展示了GM中基于互信息(mutual information)的目标,与RL包含标准的最大化奖赏目标和泛化/迁移目标的合并目标的等价性。
方法中,表示环境的隐藏空间被分解为模块:1)目的是最大化每个时间步的奖赏;2)全部模块对应关于环境更一般、时间独立的信息。这跟心理学中的层次的功能理论有点相似。推理使用高效可变推理过程,包含一个生成和一个识别模型。作者在提出的信息论目标和RL目标之间建立了一个新的类比,该RL目标同时考虑了奖赏最大化和最优的泛化与可转移性。作者提出的双重目标包括一个旨在最大化外部奖励的项,以及另一个鼓励隐藏空间的“全局”子集不太依赖于当前的奖励(以帮助泛化)。

方法

符号与模型

首先假设奖赏是非正的。提出的目标来自信息论。所提出的概率模型如图所示。

  相关解决方案