文章目录
- 前言
- Introduction
-
- 多智能体马尔科夫决策过程(MMDP)
- CTDE
- Fitted Q-iteration for multi-agent Q-learning
- 使用线性值分解的多智能体Q-learning
-
- Multi-agent Fitted Q-Iteration with Linear Value Decomposition(FQI-LVD)
- LVD中的隐式信度分配
- 提高值分解的学习稳定性
-
- 离线训练中的无限发散
- 局部和全局收敛性提高
-
- 局部
- 全局
- 实验分析
-
- 闭式解更新规则与基于深度学习的实验结果一致吗
- 线性值分解在离线训练中受限吗