Partner Selection for the Emergence of Cooperation in Multi-Agent Systems Using RL 笔记_综合

文章目录

前言
简介
方法

前言

这篇文章介绍了促进协作的一种方式——partner selection，同样是最大化自私的目标函数，实验表明agent可以学习一个策略在促进协作的同时报复背叛者，最后形成亲社会。

简介

social dilemmas被描述为一个个体的短期奖赏与整体的长期利益之间的trade-off。理解协作出现的机制仍然是一个未解决的问题。建模对手和使用整体的联合动作分布可以解决agent共同学习带来的non-stationarity问题，然后扩展性问题。环境需要被设计使得即使是自习的agent学习行为也不会严重阻碍其他agent，更好的是有利于整体的社会。分布式训练agent的答案或许就在理解产生规范诱导行为（norm-introducing behaviors）的社会的动态和对于agent学习what和how的影响。

人们认为，个人自由选择自己想与之互动的人的能力，在决定人口结构以及社会成员之间形成的竞争和协作关系方面具有突出的作用。反过来，这些关系可能会导致agent学习的策略发生变化，进而影响未来的partner selection。这种发展是动态的和周期性的，被认为是合作社会出现的一个驱动因素，并可能成为利他行为的催化剂。

声誉和信号直接与partner selection的概念联系在一起。个人更喜欢合作的伙伴，并且倾向于避免与已知的自私个人建立伙伴关系。这种倾向于与有声望的人互动的趋势表明，选择的自由可能会导致agent发展出最大化回报的策略，同时也提高声誉或发出信号，以吸