文章目录
- 前言
- Background and Related Work
- Pipeline Policy Space Response Oracles (P2SRO)
-
- Analysis
- Results
-
- Random Symmetric Normal Form Games
- Leduc Poker
- Barrage Stratego
前言
人工智能和算法博弈论的一个长期目标是开发一种通用算法,该算法能够在大型不完美信息两人零和游戏中找到近似纳什均衡。 AlphaStar和OpenAI Five这些自博弈强化学习的变体虽然在大型游戏中效果很好,但它们从博弈论的角度来看没有条理,也不能保证收敛到一个近似的纳什均衡。PSRO可以,但由于其是顺序算法,每次迭代要计算完整的最优反应,很难扩展到大型博弈。
Background and Related Work
<