0 摘要
2048 是一款引人入胜的单人非确定性视频益智游戏,由于简单的规则和难以掌握的游戏玩法,近年来广受欢迎。由于 2048 可以方便地嵌入到离散状态马尔可夫决策过程框架中,我们将其视为评估强化学习中现有和新方法的测试平台。为了开发一个强大的 2048 播放程序,我们采用时间差异学习和系统的 n 元组网络。我们表明,这种基本方法可以通过时间相干学习、具有权重提升的多级函数逼近器、轮播整形和冗余编码得到显着改进。此外,我们演示了如何利用 n 元组网络的特性,通过延迟(衰减)更新和应用无锁乐观并行性来轻松利用多个 CPU 内核来提高学习过程的算法有效性.通过这种方式,我们能够开发出迄今为止最著名的 2048 播放程序,这证实了所引入的离散状态马尔可夫决策问题方法的有效性。