如有错误,欢迎指正
本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。
如有侵权,请私信本人。
论文没有给源代码
原文地址:https://arxiv.org/pdf/1610.03295.pdf
参考链接:https://zhuanlan.zhihu.com/p/25673276
Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving
自动驾驶过程实际上是多智能体决策的问题
本文把机器学习的方法应用于高级驾驶策略的选择,而非我们通常意义上的局部路径规划。高级策略使用机器学习的方法可以很好地使用数据驱动,而避免精密而脆弱的人工设计。而局部路径规划模块可以根据高级策略输出进行有针对性的路径选择,所有的不安全因素都会在该层被阻断。这样的系统架构很好地避免了机器学习决策系统的不确定性所带来的危险,给增强学习的应用指出了一条可行之路。
本工作的主要贡献有三点:
- 使用策略梯度迭代的方法求解最优策略,并证明了马尔科夫假设在策略梯度法中的不必要性。同时使用baseline的方法,最小化对累积奖励估计的方差。
- 把学习目标划分为可学习与不可学习的部分,其中不可学习的部分是,对问题的硬约束,其目的是保证系统运行的最基本安全。
- 通过引入一个有向无环图(DA