我们近些年反复听到强化学习、深度强化学习、阿尔法狗等名词,这些概念已经在人工智能领域越来越普及。由于深度强化学习越来越实用化,进而产生出了巨大的产业技术红利,越来越多的人们关注的是如何应用这些技术,而不是冷静思考这些技术深层次的理论基础;如火如荼的产业应用使研究者们对未来人工智能的未来走向尤为担忧,开始关注与联结主义的经典深度学习不同的人工智能范式探索。
2021年12月17日,焦李成教授提出:“神经网络不应该是目前的意义上进行权重调参,它的结构应该具备变化性、可塑性、学习性和动态性;在类脑感知的过程中,脑的奖惩、学习、信息表征机制,以及突触的学习记忆、再生长和发育的机制对于信息的重建及编码和处理具有重要的作用。上述特性是现有深度网络所没有重视的。”
其实在20世纪80年代,基于动物学习试错法的强化学习思想就已经被提出;另外早在20世纪60年代,强化学习的思想就在自动控制领域有了其雏形(计算机领域也是从自动控制领域分离出来的),只不过在20世纪80年代末,两者汇聚,并且与强化学习最核心的思想——时序差分方法结合,形成了现代的强化学习领域,也是现代深度强化学习的理论基础。目前,对强化学习的研究和发展仍然是基于sutton提出的强化学习理论开展的,主要是借助于GPU的算力飞跃和大数据的结合,但是对强化学习基础理论所做的贡献少之又少,这同时也是通用人工智能道路上的的瓶颈问题。
我最近拜读了sutton所著的《reinforcement learning ——an introduction second edition》一书,该书从强化学习的核心概念与算法角度提供了清晰简明的解释,并且关注了强化学习和心理学及神经科学的关系,以及深度学习与强化学习结合的最新进展和应用,为科研工作者及强化学习爱好者提供了一个严谨的学习思路和发展方向。本专栏主要是我自己的读书笔记,希望可以起到助人助己的作用。