当前位置: 代码迷 >> 综合 >> Intrinsic Motivation For Encouraging Synergistic Behavior
  详细解决方案

Intrinsic Motivation For Encouraging Synergistic Behavior

热度:49   发布时间:2023-12-15 21:56:24.0

Intrinsic Motivation For Encouraging Synergistic Behavior

  • 如有错误,欢迎指正
    • 摘要
    • 1 introduction
    • 3 approach
      • 3.1 COMPOSITIONAL PREDICTION ERROR AS AN INTRINSIC REWARD
      • 3.2 PREDICTION DISPARITY AS A DIFFERENTIABLE INTRINSIC REWARD
      • 3.3 LEARNING SPARSE-REWARD SYNERGISTIC TASKS
    • 4 实验
      • 4.1 EXPERIMENTAL SETUP
      • 4.2 IMPLEMENTATION DETAILS
      • 4.3 BASELINES
      • 4.4 RESULTS AND DISCUSSION
      • 4.5 EXTENSION: MORE THAN TWO AGENTS
    • 5 CONCLUSION
  • 总结

如有错误,欢迎指正

本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。
原文链接: https://arxiv.org/pdf/2002.05189.pdf
如有侵权,请私信本人。

摘要

我们研究了在稀疏奖励协同任务中,内在动机作为强化学习的一种探索偏向的作用。协同任务是多个主体必须协同工作才能达到各自无法达到的目标。我们的核心思想是,协同任务中内在动机的一个好的指导原则是,采取影响世界的行动,而这些动作是智能体无法自己实现的。因此,我们建议激励智能体采取(联合)行动,其效果无法通过每个单独智能体的预测效果的组合来预测。我们研究了这一思想的两个实例,一个基于遇到的真实状态,另一个基于与策略同时训练的动力学模型。前者比较简单,后者的优点是对所采取的行动具有可分析的可微性。我们验证了我们的方法在机器人双手操作和稀疏奖励的多智能体运动任务中的有效性;我们发现我们的方法比两种方法都能产生更有效的学习效果:1)仅使用稀疏奖励的训练;2)使用典型的基于惊喜的内在动机公式,该公式不偏向协同行为。项目网页上提供了视频:https://sites.google.com/view/iclr2020-synergistic.

1 introduction

考虑一个多智能体环境,比如一组机器人一起踢足球。在这样一个环境中,一个共同的策略产生协同行为是至关重要的,它允许多个智能体协同工作,以实现他们无法单独实现的目标。智能体应该如何有效地学习这种协同行为?一个初级的想法是共同学习策略,希望出现协同行为。然而,从稀疏的、二元奖励中学习策略是非常具有挑战性的——当积极的强化很少见时,探索是一个巨大的瓶颈。在协同行为至关重要的稀疏奖励多智能体环境中,由于动作空间更大,探索是一个更大的问题。

处理强化学习中探索瓶颈的一种常见方法是利用内在动机塑造奖励,这是Schmidhuber(1991)首次提出的。这已被证明可在多个领域提高性能,例如机器人控制任务(Oudeyer等人,2007)和Atari游戏(Bellemare等人,2016;Pathak等人,2017)。典型地,内在动机被描述为智能体对世界某些方面的预测误差;用这样一个误差来塑造奖励激励智能体采取“令他惊喜”的行动,直觉上是一个有益的探索启发。但这是一个鼓励多智能体环境下协同行为的好策略吗?虽然协同行为可能很难预测,但同样也很难预测某些单体行为的影响;这种将内在动机表述为“惊喜”的方式并不特别有利于协同的出现。

本文研究了在多智能体任务中利用内在动机鼓励协同行为的一种替代策略。我们的方法是基于一个简单的观点,即协同行为会产生智能体单独作用时

  相关解决方案