Reinforcement learning in artificial and biological systems_综合

Reinforcement learning in artificial and biological systems

摘要：

生物系统和人工系统的研究之间已经有了相互联系的硕果累累的概念和想法。在人工智能领域的强化学习方面的早期的研究工作和进展都源至于Bush and Mosteller 两人在生物学方面研究的启发。最近，时序差分的强化学习对于理解多巴胺神经元的活动提供了一个有力的框架。在本文的综述中，我们将描述生物系统和人工系统在强化学习方面的最新研究工作和进展。我们主要关注两个学科之间的一些重要联系以至于能够对将来的研究有所帮助。现在生物系统的研究关注于比较简单的强化学习问题。这些简单问题都是在动态的环境中的，在动态环境中，学习的灵活性和持续性学习是非常重要的，这动态环境类似于生物所面对的实际环境的学习问题。反之，人工智能领域的强化学习则关注静态环境下的单一复杂的学习问题。总的来说，在这两个领域的研究都受益于生物系统和人工系统的交叉研究的所产生的概念和想法。

第一部分：介绍强化学习在生物系统以及人工系统的表现以及两者之间的差异

差异就是生物系统能够在动态的多时间量程的学习环境下持续性学习，而人工系统是训练与运行相互独立无法实时利用经验进行持续性学习，并且环境通常是静态的。

生物系统和人工系统的目标之一是获得继续生存或者一个有用的结果。这种目标式或者说是追求更好收益式的行为是强化学习的起源，强化学习正是根据从外界环境得到的奖赏从而为了获得最大收益而学习出如何制定决策。强化学习建立在智能体与环境的相互交互过程中的。智能体必须能够根据从环境中获得某些感知做出自己的策略并采取行动。这些过程对于生物系统来说自然而然，但是对于人工智能体也是非常重要的。

生物必须找寻食物、繁殖和避免伤害。生物所生存的自然环境是动态的而且是学习过程是多时间量程的。环境的改变可能是缓慢而持续的肯能是突然而短暂的（比如被猎食者吃掉就结束了），也可能是快速和持续的。为了适应这种环境，生物系统必须能够持续性的学习调整并且能够多时间量程的学习。生物学的认知研究主要关注于生物体是如何处理这种学习问题的尤其是动物如何理解和处理动物体做出的行动和获得的回报之间的瞬时而又动态的关系的。这些问题都类似于某些生态问题，比如学习那些东西是可以吃的、同类是否友好等等。这些例子中，回报与动作之间映射是随着经验而快速更新的因为这些映射往往都是很直接的。更具体的，双臂选择问题通常作为对动物的学习能力研究的实验，动物能够快速的学习出收益与动作的映射以及快速更新这个映射。

另一方面人工智能系统通常是一个数学模型，用来训练学习解决在静态环境下的单一复杂问题，这问题的收益与动作的映射通常是固定的。近些年，人工智能所取得巨大的成功比如神经网络都是通过大量数据的驱动达到统计学优化。这些问题的训练是需要大量数据的而且训练与实际运行是相互独立的。这种训练与运行的相互独立导致智能体无法从实际运行的经验中收益也无法进行持续性的学习调整。根据我们后面的讨论，将训练与运行这两个阶段融合起来会造成系统不稳定，因为这个融合会跟统计学习的理论相冲突。研究者们一直在尝试如何解决这个冲突包括(for example, DARPA’s Life Learning Machines (L2M) programme and DeepMind) 。

尽管生物系统和人工智能的强化学习系统存在这些区别，也正是这些区别导致了在这两个领域有很多相互交叉的概念和想法。系统神经学已经利用了强化学习的框架来理解和研究生物的认知问题。有模型和无模型的强化学习理论对生物的条件反射认知过程的理解提供了新颖的研究思路。相反，在人工神经网络方面的很多研究也受到了生物学的认知研究的推动，包括感知机、wake-sleep算法。

人工智能和生物智能的交叉正越来越受到关注。本文介绍强化学习理论以及生物的认知过程的研究之间的相互影响；接着介绍一些思路和想法，有助于更好的理解生物的认知过程以及改进人工智能使之能够处理更复杂的学习问题；最后神经仿生工程。

第二部分、生物系统的强化学习

首先是无模型的强化学习在动物认知的表现，也是目前动物认知与强化学习的关系中了解的最多的。

无模型强化学习强化了前额纹状体（这些前额纹状体从解剖学上是将前额皮质连接到中脑皮层的一个网络）的作用以及多巴胺驱动的神经可塑性的作用。根据模型，皮层表示可选动作的集合，纹状体细胞的皮层突触的强度表示着这些动作所对应的收益。更强的突触表示纹状体细胞的活力更强。因此纹状体细胞的活力就表示着皮层中所表示的动作的收益。纹状体细胞的活力驱动着选择某个动作的强度，这个驱动是通过基础的神经中枢和丘脑到皮层的下游神经环流或者映射到下游的脑干输出区域来实现的。在做出一个选择并获得环境的反馈的回报，多巴胺的强度则表示收益估计误差RPE。正是多巴胺浓度的变化驱动着前额纹状细胞突触的可塑性，这个过程就反应了如何对一个动作进行选择。多巴胺浓度增加表示突触的强度增强，减少表示突触减弱，相应的突触所代表的的动作所要选择的强度随着变化。

概括起来就是：

皮层细胞：动作
纹状体细胞：动作的收益
中脑多巴胺神经元：动作的收益估计误差

时序差分强化学习是对Rescorla–Wagner 模型的一个改进，将动作的收益改为博弈状态的收益。有研究表明多巴胺神经元能够在多种状态下表示出时序差分强化学习的这种博弈状态的收益。但是很多的具体细节还不清楚。目前清楚的是大脑的一个相互连接的区域是大脑强化学习的物质基础。这个区域由相互重叠而又独立的皮层-神经节-丘脑-皮层组织的系统组成。总体来说，一个背部相互连接的系统主导了空间认知过程，比如眼球的运动，另一个系统是腹面的纹状体组织主导着感知刺激比如灵长类的视觉刺激。这个腹面组织也接受这很多杏仁核的输入，这个杏仁核的输入在感知和学习环境的反馈、刺激方面发挥很重要作用。

第三部分，多时间量程学习

生物体能够多时间量程学习。在腹面神经组织有很多相互作用而又平行的杏仁核-纹状体结构。

有研究表明

杏仁核神经细胞的可塑性：通过活性机制表示快速学习；
纹状体结构细胞可塑性：通过多巴胺浓度表示慢速学习。

慢速学习可以适应有噪声的环境，快速学习学习的效率更高对环境更敏感。

这两者的结合需要：下游的组织进行协调将这两个学习系统的收益值进行一个权衡。这在机器学习上叫做专家交叉混合（mixture-of-expert）目前还不清楚这个组织是大脑的哪个区域。总之大脑通过多种相互连接相互影响的神经组织组成了强化学习的物质基础。大脑将强化学习问题划分成多个子问题然后运用多个相互平行又相互影响的结构解决强化学习的灵活性问题。

计算神经学表明：

（1）神经元和突触的可塑性动态过程跟多时间量程学习紧密联系。

（2）脉冲时间依赖的可塑性：权重更新的力度（权重这里指突触的可塑性）

（3）神经元活性的时间量程与可塑性的时间量程相匹配

（4）快、慢学习相结合可以提高记忆能力，改进效果加速整体学习过程

LSTM是目前快、慢多时间量程学习的人工神经网络层的单行代表

大脑神经元活性变化的连续性使得大脑能够持续性学习，参数（可塑性）能够实时更新。反之在机器学习的批量更新是在处理多个（一组）数据之后再对参数进行更新，这就需要存储这些数据。只要这些数据是独立同分布的，那么通过梯度下降方法来更新这些参数就很有优势。如果数据不是独立同分布，那么数据之间的相关性会导致灾难性干扰也就是新的数据学习之后跟新的参数会覆盖掉原来已经学习过的数据。强化学习所对应的场景下，数据通常不是独立同分布的，数据之间有相关性。解决这个问题有两种方法：

补充学习：根据数据的相关性来确定学习率；
经验回放

第四部分，学会学习（元学习）与有模型的强化学习

哺乳动物也可以进行有模型的强化学习，但相比于无模型的强化学习，这方面的了解就比较少。但是可以确信动物可以学习更复杂的有模型的学习模式。有模型的强化学习指的是对环境有认识，对环境建立了一个模型比如知道了状态之间的转移概率，状态-动作的瞬时收益等可以用来更新迭代Bellman方程的信息。

跟有模型强化学习相关大大脑区域：原来认为的前额皮质—>跟无模型强化学习都跟纹状体有关。具体的组织结构目前不清楚。

哺乳动物的有模型强化学习表现在三种形式：

学会学习：即可以从原先学习过的类似的同种类型的任务吸取经验快速学习新的任务。

在反转学习实验中：给猴子两个物体，选择其中一个物体有几率获得奖励，选择另外一个同样有几率获得奖励，但是这两个几率不一样。一旦猴子学会了哪一个几率更大，就把这两个几率对调一下。经过多次训练，猴子能够学会跟着概率的转换而转换自己的选择，并且学得越来越快。这个实验可以通过假设一个概率反转出现的先验概率的贝叶斯模型来解释：起初概率反转的先验概率比较小，猴子面对的是一个比较稳定的博弈环境，这是如果猴子采取的最优动作而获得的收益不大，它会认为是随机误差；然而如果环境变动加快也就是几率转换概率增加，猴子面对采取最优动作而获得的收益不大的时候，它就会认为是几率转换这个事件发生了。猴子学会了如何快速适应环境的变换。

在人工智能领域，学会学习的一个经典方式是迁移学习，也就是能够从类似的学习任务中获得学习经验来快速学习新的学习任务。这个学习方式是最近神经认知领域研究元强化学习方式的基础，即突触的可塑性是由多巴胺驱动从而在前额神经皮质建立起活性驱动的学习机制。

动物可以学会概率推断，状态推断。动物可以在训练过程中学习一个特殊的概率模型用来求解具体的学习问题。如果动物可以正确的学习到一个正确的概率模型，那么这个方式比起无模型的学习方式将更加有效。
动物可以学会状态转移概率矩阵，可以学会更新Bellman方程。

第五部分、人工网络的强化学习智能体

生物的认知系统与目前主流的人工学习系统的最重要一个区别是结构：

生物的神经系统内部状态：神经递质的浓度、突触的状态、细胞膜内外的势差等等都是局部参数。人工的智能系统则要求参数是全局的比如动作-收益的映射问题。神经组织之间的状态参数要全局化需要通过消息传递机制。多巴胺的通路就属于这个传递机制。研究表明适用于生物神经网络的梯度下降能够正确对多巴胺通路所反馈来的信息做出正确反应。用这个方式训练起来的模型可以达到目前主流分类学习算法类似的效果。

深度学习之所以缓慢原因之一是梯度下降，需要很多的数据。如果有领域相关的知识加入学习系统，那么可以加快学习，减少数据需求量。元学习需要用相关的类似的学习任务预训练一个神经网络。

第六部分层次强化学习

层次强化学习：将动作划分组织成子目标，针对子目标可以分别地更有效的学习出策略。目前圣体的层次强化学习了解的不多。第一个层次强化学习例子是Sutton做出的，是根据专家知识人工对动作划分，划分出子目标。另外一个例子是联邦强化学习：将一个系统分成多个子系统或者子任务，每个子系统都有一个子管理者，每个子管理者都管理本任务的完成，并最大化本子系统的收益。以上说到的这些层次强化学习层析和划分都是固定的，最近的其他一些层次强化学习比如联邦学习+选择评价，则会自动学习如何划分层次。

层次强化学习的关键在于设置即时目标或者划分子目标。通常的做法之一是好奇心驱动，增加对环境探索的几率。另外的方法包括加入监督比如模仿学习等。

第七部分、神经形态工程方法

结论：

像大脑那样，把将强化学习问题划分成多个子系统比如：状态推断、收益的估计和动作的选择等可能会使得人工智能系统能够更有效学习。