文章目录
- 前言
- 背景
- Method
-
- RL方法
- 输入模块
- 关系模块
- 输出模块
- 实验
-
- BOX-WORLD
- Results
前言
这是一个使用结构化特征上关系推理的机制帮助model-free的深度强化学习的方法,提高了表现、学习有效性、泛化性、可解释性。这篇文章的主要贡献就是介绍一种技术,通过关系归纳偏置来表征和推理深度强化学习中agent的状态。
背景
深度强化学习在一些具有挑战性的问题上实现非凡的效果很大程度上是因为其在如何学习和利用潜藏在观察和奖赏信号下的统计数据结构的灵活性。这样的灵活性也会带来低采样效率和除了训练环境特性之外的糟糕的迁移。相比之前在DRL中使用关系归纳偏置,作者不使用问题结构的先验知识,并且不知道需要考虑的特定关系。
Method
RL方法
使用A2C