[文献精读] Summit:A Simulator for Urban Driving_综合

Summit:A Simulator for Urban Driving

思维导图
摘要
I. INTRODUCTION
II. RELATED WORK
- A 现有的驾驶模拟器
- B 人群模拟算法
III. SUMMIT模拟器
- A 表示真实世界的地图
- B 人群行为模型
- C 接口
IV. 根据语境感知（CONTEXT-AWARE）制定POMDP规划
- 信念追踪
- 语境POMDP（Context-POMDP）
V. 结果
- A 真实世界的基准情景
- B 基准情景下的模拟
- 与基于规则的模拟比较
- D 模拟的效率和可扩展性
- E CONTEXT-POMDP规划器的驾驶性能
VI. 结论

思维导图

在这里插入图片描述

摘要

在不受管制（unregulated）的城市人群中进行自动驾驶是一个突出的挑战，特别是，在许多激进（aggressive）的、高速的交通参与者面前。本文介绍了SUMMIT，这是一个高保真的模拟器，有利于人群驾驶（crowd-driving）算法的开发和测试。通过利用开源的OpenStreetMap地图数据库和我们在早期工作中开发的异构多智能体运动预测模型，SUMMIT模拟了在OpenStreetMap支持的全球任何地点的异构智能体的密集、无管制的城市交通。SUMMIT是作为CARLA的扩展而构建的，并从CARLA中继承了用于自动驾驶模拟的物理学和视觉真实性。**SUMMIT支持广泛的应用，包括感知（perception）、车辆控制和规划，以及端到端学习。**我们提供了一个上下文感知的规划器以及基准场景，并展示了SUMMIT在具有挑战性的人群驾驶环境中生成复杂、真实的交通行为。

I. INTRODUCTION

利用自动驾驶来提高我们日常生活的安全性和便利性的愿景正在接近。然而，在不规范、拥挤的城市环境中驾驶，如在欠发达国家的无管制道路或无信号灯的十字路口（图1），仍然是一个有待解决的问题。在这些场景中，人类参与者可能相当具有攻击性。人们可能会无视或不了解交通规则，导致诸如紧跟、不当超车、非法转弯和横穿等行为。当涉及众多参与者时，道路状况会变得非常混乱。在无规则的城市人群中驾驶的技术挑战来自于人群行为和地图环境的复杂性。交通参与者之间可能存在显著差异。汽车、公共汽车、自行车和摩托车具有不同的几何形状（geometry）、运动学（kinematics）和动力学（dynamics）。人类参与者也有不同的行为类型–是保守的还是积极的，是专心的还是分心的，等等。从地图环境来看，城市道路可以有复杂多变的布局：多车道道路（multi-lane road）、交叉路口（intersection）、环岛（roundabout）等。道路结构极大地影响了交通行为主体的运动，从而在不同地点产生截然不同的人群行为。这样的环境给机器人车辆的感知、控制、规划和决策带来了巨大的困难。
然而，由于设备成本、法规和安全限制等原因，用于开发、训练和测试人群驾驶算法的高质量数据很难获得，且价格昂贵。虽然有KITTI[1]、BDD100K[2]、牛津RobotCar[3]等公开的数据集，提供了具有丰富传感器输入的真实世界驾驶数据，但这些数据并不是交互式（interactive）的，也就是说，人们无法模拟外面实际的智能体（exo-agent）对机器人决策的反应。然而，这样的数据对于稳健（robust）的规划和学习是极其重要的。一个有前景的交互式数据来源是驾驶模拟器，它可以提供几乎无限量的可控场景。然而，现有的驾驶模拟器并不能捕捉到不受管制的城市人群的全部复杂可能，如复杂的道路结构和交通行为，因此不足以测试或训练鲁棒驾驶算法。我们的目标是填补这一孔雀。
我们开发了一个新的模拟器，SUMMIT1 ，它可以在复杂的真实世界地图上生成高保真（high-fidelity）的，密集的城市交通互动数据。SUMMIT使用从在线资源中获取的真实世界地图来提供几乎无限的复杂环境资源。给定任意位置，模拟器自动生成具有复杂、不受约束行为的异构（heterogeneous）交通智能体人群。模拟器利用现实世界地图的道路背景，从拓扑学（topologically）和几何学（geometrically）上引导交通智能体的行为，以构建真实的交通状况。我们基于CARLA[4]实现了SUMMIT，利用高保真的物理、渲染和传感器，通过基于Pythonde API，SUMMIT将丰富的传感器数据、语义信息和道路语境提供给外部算法，实现了在感知、车辆控制和规划、端到端学习等广泛领域的应用。等广泛领域的应用。我们提供了定性和定量的结果，表明SUMMIT可以在真实的城市环境中生成复杂、真实的混合交通环境。
我们进一步提供了一个上下文感知的规划器ContextPOMDP2，作为未来人群驾驶算法的参考，该规划器（planner）明确地推理了在人类意图和驾驶类型不确定的情况下，交通智能体之间的相互作用。通过进一步根据可用的道路上下文进行规划，Context-POMDP在非常具有挑战性的场景中实现了安全和高效的驾驶。

II. RELATED WORK

A 现有的驾驶模拟器

驾驶模拟器已经被广泛地应用于促进自动驾驶系统的发展。最近的模拟器(表一)带来了逼真的视觉效果和传感器,但没有捕捉到复杂的城市环境和不规范的交通行为。
表一: SUMMIT与现有驾驶模拟器的比较
在这里插入图片描述

TORCS[7]、[13]、[14]等多车模拟器关注的是多个机器人-车辆(robot-vehicles)之间的交互。这些模拟器适合于研究智能体之间的复杂交互，但难以扩展到拥挤的城市场景。CARLA[4]、Sim4CV[9]和GTA[10]明确了详细的物理建模和逼真的渲染功能，适合端到端的学习。CARLA还提供了丰富的传感器，如摄像头、激光雷达、深度摄像头、语义分割等。但是，这些模拟器依赖于预定义的地图，限制了环境的多样性。模拟的交通也具有相对较低的密度和简单的规则行为。另一类模拟器[6]、[5]、[11]、[12]的特点是城市环境下的交通模拟和控制。其中，SUMO[6]和SimMobilityST[5]支持真实世界的地图，但使用简单的基于规则的行为，而另一类[11]、[12]则应用了更复杂的运动模型，但仅限于预定义的地图。我们的目标是在一个自动和统一（unified）的框架中对城市地图和交通行为的复杂性进行建模。

B 人群模拟算法

现有的人群模拟算法，如社会力模型（social force）和碰撞回避算法（velocity obstacles），原则上可以应用于产生城市环境中的人群行为。社会力模型[15]、[16]、[17]、[18]假设交通智能体是由人接近目的地和远离障碍物共同决定的的。社会力模型可以模拟大型人群，但交互质量受到模型简单性的限制。碰撞回避算法(VO)[19]和障碍物规避算法（Reciprocal Velocity obstacles）(RVO)[20]、[21]、[22]通过在可行的速度空间中优化来来计算无碰撞运动。GVO[23]、NH-ORCA[24]、BORCA[25]、PORCA[26]等变体明确地处理了非完整（non-holonomic）的交通智能体。一些变式模拟了人群智能体的行为类型，如耐心（patient）[26]和注意力(attention)[27]。最近的一个模型 GAMMA[28]可以在统一的速度-空间（velocity-space）框架中模拟具有不同几何形状、运动学和行为类型的异质构交通智能体。SUMMIT中的行为模型扩展了GAMMA的框架，对车道和人行道等拓扑道路上下文进行编码，以更进一步表示现实世界的场景。

III. SUMMIT模拟器

SUMMIT的专注于在复杂的现实世界地图中模拟密集的城市交通的复杂无规律行为。它旨在生成高保真的交互式数据，以促进人群驾驶算法的开发、训练和测试。SUMMIT利用拓扑道路语境（context）和基于优化的无规则人群行为，自动生成大规模混合交通场景。SUMMIT从OpenStreetMap[29]中获取真实世界的地图，并构建两个拓扑图：一个是车辆的车道网络，一个是行人的人行道网络。这些网络构成了道路语境（context）的表示。然后，我们的行为模型Context-GAMMA将道路语境作为输入，从几何和拓扑上指导交通行为。在微观层面上，Context-GAMMA使用速度空间优化来生成无规律的人群行为。SUMMIT的低层（e low-level）结构以CARLA为基础，保留了CARLA的高保真物理、逼真渲染、天气控制和丰富的传感器等特性。图2为SUMMIT的概述。
在这里插入图片描述

图2：SUMMIT的概述，它可以模拟世界上任何地点的大规模混合交通。

A 表示真实世界的地图

1）车道网络：
SUMMIT中的车道网络定义了道路结构在各个车道上的连通性。该网络由定向（directed ）车道段和它们之间的连接组成。SUMMIT依靠SUMO[6]将OSM地图自动转换为车道网络。SUMO提供的广泛的网络编辑工具套件也可以用来改进和定制地图。车道网络界面允许用户在车道网中定位交通智能体，并搜索（retrieve）连接的车道段。该界面紧跟CARLA的航点(waypoint)界面，因此CARLA用户可以很容易地适应它。

2 ) 人行道网络
SUMMIT中的人行道网络定义了行人的行为，他们通常沿着道路边缘行走，偶尔也会穿过道路。该网络包含靠近道路边缘的人行道，定义为多线（poly-lines），人行道之间的连接定义为可交叉（cross-able）的道路。人行道多线是从道路的几何形状中提取出来的。与车道网络类似，人行道网络界面允许用户在网络上定位行人，并搜索（retrieve）对面的人行道，以便行人过马路。

地图占用（Occupancy）网格
此外，我们还提供了一个Occupancy地图接口，来显示自主车辆（ego-vehicle’s）的可驾驶区域。Occupancy地图是道路几何形状的自上而下的投影，与自主车辆的位置和方向一致。它既可用于控制和规划算法中的碰撞检查，也可作为神经网络的鸟瞰输入。

4）地标性建筑
SUMMIT还利用OSM地图中的地标数据，如建筑物和森林，提供结构丰富和逼真的视觉效果。此外，我们还支持地标纹理的随机化，以生成更多的视觉输入，并实现区域随机化（domain randomization）等技术。

B 人群行为模型

SUMMIT使用Context-GAMMA，一个语境感知（context-aware）的人群行为模型，来生成复杂的交通智能体的交互行为。Context-GAMMA扩展了GAMMA[28]，将语境上下文纳入其中，并将其作为速度空间的约束条件进行建模。GAMMA的真实性和准确性已经在各种真实世界的数据集中得到了验证.为了完整起见,我们简要地介绍了GAMMA,并介绍了Context-GAMMA中的扩展内容。
在这里插入图片描述
GAMMA在一个统一的速度空间框架中处理具有不同运动学和几何学的异构交通智能体。实验证明，GAMMA能够准确预测现实世界中交通参与者的行为[28] 。
然而，由于GAMMA没有明确使用道路，因此对于复杂的城市道路，它往往不能产生真实的模拟。GAMMA智能体可能会语境积极地朝目标前进，也可能会被复杂的道路结构所困。在现实世界中，道路语境可以有效地引导和约束交通智能体的行为：当道路畅通时，车辆倾向于沿特定车道行驶，避免沿错误方向行驶。此外，由于交通智能体是异构的，他们会受到不同的静态障碍物的影响：行人认为人行道是开放空间，但车辆认为人行道是障碍物。
在这里插入图片描述

C 接口

SUMMIT的Python API扩展了CARLA的API，不仅向外部算法展示了传感器数据和智能体状态，还显示了道路语境，如车道网络、人行道网络和地图占用网格。算法还可以将车辆控制发送回模拟，包括转向、加速、制动、倒车等。因此，SUMMIT可以实现感知、基于传感器的控制、基于模型的推理和端到端学习等广泛的应用。

IV. 根据语境感知（CONTEXT-AWARE）制定POMDP规划

SUMMIT还提供了自动驾驶的专家规划。在不受管制的密集交通中进行驾驶规划是极具挑战性的。机器人必须足够聪明，才能高效进步，而不是被 "冻住"卡在人群中。同时，由于高动态性和交互性的人群的存在，使得任务的安全性至关重要。规划的失误可能导致严重甚至致命的事故。
成功的关键是明确模拟智能体之间的相互作用以及人类内心状态的不确定性。这种复杂的规划需要在信念空间（belief-space）中进行长期推理，这带来了组合的复杂性。为了使这个问题变得容易解决，我们提出了以道路语境作为规划的条件。我们将驾驶制定为一个语境感知的 POMDP，并使用在线信念决策树（belief tree）搜索[31]高效地解决它。我们将这个规划器称为Context-POMDP。
Context-POMDP以人类隐藏状态和道语境为条件进行未来的蒙特卡洛（MC）模拟.这是通过使用Context-GAMMA对外智能体（exo-agent）进行正向模拟实现的。Context-POMDP由两部分组成：一个信念跟踪器，推导出对外智能体隐藏状态的联合信念；一个在线POMDP求解器，计算出当前信念的最优驾驶动作。

信念追踪

信念跟踪器在两个维度的隐藏状态上保持一个联合信念(a joint belief)：

交通（traffic）智能体的目的。让U_i
，i∈I_exo是第i个交通智能体的路径候选集（candidates），从道路语境中提取，如车道网络和人行道网络。该智能体可以将U_i中的任何一条路径候选作为其实际目的。
交通智能体的类型。智能体可以分心（distracted），从而不与自主车辆互动，也可以专心（attentive），从而配合避免与自主车辆发生碰撞。

信念跟踪器是作为一个因子直方图（a factored histogram）滤波器来实现的[32]。每个外智能体都与可能的隐藏状态值集的概率分布相关联。在每个时间步中，我们使用 Context-GAMMA 为一个智能体生成平均运动，条件是所有可能的隐藏状态值。通过比较平均运动和实际观察到的运动，我们计算观察到的似然，并使用贝叶斯规则更新后验信念。

语境POMDP（Context-POMDP）

Context-POMDP的核心是使用最先进的信念树搜索算法(HyP-DESPOT)[31]解决的语意感知POMDP模型。我们将该模型的细节介绍如下。
在这里插入图片描述 ](https://img-blog.csdnimg.cn/20201005152752757.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3F3ZTkwMA==,size_16,color_FFFFFF,t_70#pic_center)

在这里插入图片描述

V. 结果

我们想在实验中解答以下问题。
SUMMIT能否在复杂的地图上模拟真实的密集的交通？
与模拟器中常用的基于规则（rule-based）的模型相比，SUMMIT有什么优点？
Context-POMDP能否在密集的无规则城市交通中安全高效地驾驶车辆？
我们提供定性和定量的结果来回答这些问题。

A 真实世界的基准情景

我们设计了三个真实世界的基准场景来评估SUMMIT和Context-POMDP规划器的性能。

新加坡-高速公路（图1a）新加坡的高速公路有多条车道。由于交通人员尽量开得快，因此经常进行超车。
魔法环岛（图1b）英国斯温顿的环岛，布局非常复杂。在主环岛和周边的交叉路口，交通员们必须相互协调。
Meskel-十字路口（图1c）位于亚的斯阿贝巴的Meskel广场的一个复杂的十字路口。来自不同方向的交通人员在十字路口相遇，他们开得很凶猛

从网上获取场景地图并导入SUMMIT。然后，它使用Context-GAMMA模拟这些地图上的无管制交通。所有的场景都包含120个在感兴趣的区域内行驶或行走的异构交通智能体，每个智能体都在进行攻击性和不规范的行为。一旦有智能体移出区域，我们就会在区域内用新的智能体替换，以维持高密度的交通状况。

B 基准情景下的模拟

我们基础模型GAMMA的真实性和准确性已经在[28]中得到验证。在本节中，我们对Context-GAMMA的仿真性能进行了定性研究。图1(d-f)为基准场景的定性仿真结果。图1(d-f)为基准场景的定性仿真结果，与现实世界场景的对比表明，仿真的高密度交通表现了现实状况。更多的仿真结果可以在附带的视频中找到，或者通过https://youtu.be/dNiR0z2dROg。
在这里插入图片描述

与基于规则的模拟比较

我们将Context-GAMMA与模拟器中常用的基于规则的行为进行比较，以展示行为的复杂性。特别是，我们将 Context-GAMMA 与一种反应式模型进行比较，该模型沿车道中心曲线移动智能体，并使用碰撞时间（TTC）[35]来计算智能体的速度。使用交通智能体的平均速度和拥堵系数来衡量两种模型的性能，拥堵系数定义为智能体在人群中被堵塞的百分比，这些代理在保持静止相当长的时间后被移除。这些衡量标准表明了行为模型在避免碰撞和驾驶效率方面的智能程度，而人类驾驶员擅长的就是这些。
图4显示了不同类型智能体的智能速度和拥堵系数与模拟时间的详细情况。在整个20分钟的模拟过程中，Context-GAMMA在所有基准场景中都比TTC产生更快更平稳的交通。TTC控制的交通的拥堵系数随着模拟时间的增长而快速增长，表明智能体之间未能相互协调。相比之下，Context-GAMMA对所有智能体类型始终产生较高的智能速度和较低的拥堵系数。这是因为Context-GAMMA明确地模拟了智能体之间的合作，并同时使用转向和加速来提供最好的避撞的行为。
在这里插入图片描述

D 模拟的效率和可扩展性

表二中的效率测试表明，Context-GAMMA随着人群密度的增加而有很好的扩展。即使在模拟多达400个智能体时，模拟也能高速运行，而且计算时间的增长几乎是线性的，直到地图上的智能体达到饱和。

E CONTEXT-POMDP规划器的驾驶性能

现在，我们通过比较Context-POMDP规划器与局部碰撞避免和简单规划基线的驾驶性能来验证其性能。对于局部碰撞避免，我们直接使用GAMMA来控制自主车辆；对于简单规划，我们使用了一个（roll-out）滚动算法，该算法通过使用默认策略投射多个（roll-out）滚动来规划最佳行动。默认策略适用于以下规则：当前方外智能体（exo-agent）距离较远(>4米)时加速，当外智能体处于警戒范围(2～4米)时保持半速，当外智能体距离较近(<2米)时减速。
表三提供了使用Context-POMDP、Context-GAMMA和Roll-out驾驶自主车辆时，每步碰撞率、平均车速和减速频率的测量结果。综上所述，简单的规划器的驾驶方式过于保守，而局部避撞的驾驶方式过于激进。使用Context-POMDP的复杂规划最终平衡了积极性和保守性。
表三：驱动算法的驱动性能比较。Roll-out和Context-POMDP以3HZ运行。
Context-GAMMA以20HZ运行。一个 "步长 "算作1/3s。
在这里插入图片描述
与在人群中勉强移动的Roll-out相比，Context-POMDP可以在安全平稳的前提下，以更高的速度驾驶车辆通过人群。与Context-GAMMA相比，Context-POMDP可以实现相似的驾驶速度和更安全的行为。因此，我们得出结论，复杂的长期规划对人群驾驶非常重要，而Context-POMDP确保了安全、高效、平稳的驾驶。

VI. 结论

我们介绍了SUMMIT，这是一个用于生成高保真交互数据的模拟器，用于开发、训练和测试人群驾驶算法。该模拟器使用在线地图自动构建世界上任何地点的无规则密集交通。通过将拓扑道路语境与基于优化的人群行为模型整合在一起，SUMMIT可以生成复杂而真实的人群，密切代表现实世界中的无管制交通。我们还提供了Context-POMDP作为未来发展的参考规划算法。我们设想，SUMMIT将支持在无管制的密集城市交通中驾驶的感知、控制、规划和学习等广泛的应用。