[AAAI2020] Deep Reinforcement Learning for General Game Playing 笔记_综合

文章目录

前言
- UCT
- AlphaZero
- 算法
- - 协作博弈
  - 非对称博弈
  - 多方同时博弈
  - Non-board games
  - 内存优化

前言

General Game Playing agents被要求仅仅在运行时看博弈规则的正式描述，比如Game Description Language，就能参与他之前从未见过的博弈，并且没有任何来自人类的额外输入。之前成功的工作基于类属启发（generic heuristics）的搜索，几乎没有使用ML的方法。这个工作扩展AlphaZero，发现其能产生有竞争力的结果。
尽管目前的AI效果非常好，但是他们都需要巨大的工作量，并且是针对特定博弈的。GCP是没有任何特定博弈具体知识的，鼓励能应用于不同领域的策略和通用的算法，通用算法使得anget可以plan和learn而不是仅仅使用人类算出的博弈特定的启发信息。缺少手工的启发信息意味着表现应该反映算法在博弈中的技能而不是编程人员的技能。
尽管AlphaZero有有限的泛化性，其算法在围棋，国际象棋和日本象棋上都达到了SOTA表现，但是它仍被限制在零和，两房，对手对