开发者说｜MapTR v2：端到端矢量地图在线构建

2023/08/18

研究成果

高精地图能够提供丰富的场景先验信息并显著降低自动驾驶的实现难度，但其固有的局限性（如鲜度、成本、拓展性、定位误差），也阻碍了更广泛的落地应用。在近几年的发展之下，自动驾驶的技术路线逐渐明朗，“轻地图、重感知” 慢慢成为业界的共识。在“去高精地图”的趋势下，2022年8月，地平线和华中科技大学提出端到端矢量地图在线构建方法MapTR^[1]（入选深度学习顶会ICLR spotlight论文）。

MapTR秉承简约高效的设计原则，实现了实时的高质量的在线地图构建，可以在轻地图算法方案中作为高精地图的代替或补充。自发表和开源以来，MapTR得到了学术界和工业界的广泛关注和应用。作为MapTR的后续工作，MapTR v2取得了远高于MapTR的建图精度和收敛速度。在MapTR 的基础上，MapTR v2成功做到了：1）实现车道级拓扑（高精地图逻辑层）的建模和学习，2）拓展至三维建图，3）采用解耦的自注意力机制，4）引入one-to-many匹配和深度/语义信息作为辅助监督。MapTR v2的源码将在近期开源，以供后续学术研究和落地应用。

MapTR v2论文：https://arxiv.org/abs/2308.05736

MapTR v1论文：https://arxiv.org/abs/2208.14437

项目主页：https://github.com/hustvl/MapTR

图一建图精度 v.s. 推理速度

图二建图精度 v.s.收敛速度

车道拓扑的建模和学习

图三车道拓扑建模 Lane Graph as Path

MapTRv2沿用了Lane Graph as Path ^[2]中对车道拓扑的建模方式，将lane graph解耦成交通流通路path（图三）。具体地，1）遍历有向无环图lane graph G的所有节点，以所有入度为0的节点作为起点进行深度优先搜索，得到path的集合 ${{V_{path}={V}_i^{path}}}_{i=1}^M$ ；2）将path作为车道拓扑的基本单位，沿用set prediction的范式，端到端地输出 $V_{path}$ 。由于每条path具有明确定义的方向，path对应的等效排列集合中仅包含唯一的排列方式。

基于path的建模方式降低了学习的难度，同时保证了车道拓扑的连续性。此外，path本身具有很强的先验信息，能够不依赖后处理，直接引导下游轨迹规划。

三维建图

MapTRv2拓展至三维建图，对每个地图元素，输出维度为 $(N_v,\ 3)$ 的节点点集（ $N_v$ 为节点数量，3对应三维空间坐标）。基于三维表示，MapTRv2可以实现图像空间（perspective view）和三维空间的精确映射（图四）。

图四三维建图

解耦的自注意力机制

图五解耦的自注意力机制

表一解耦的自注意力机制

MapTRv2采用了解耦的自注意力机制（图五），即在实例间和实例内两个维度解耦，从而显著降低显存和计算量。解耦的自注意力机制更加契合分层级的query表征，因此同时提升了建图精度（表一）。

辅助监督

在训练阶段，为了提高收敛速度，MapTRv2 引入one-to-many 匹配 ^[3]（图六），提高正样本比例；引入深度信息 ^[4][5] 作为PV特征的辅助监督，引导2D-to-3D的映射；引入语义信息，对PV和BEV特征施加辅助的前景分割监督，提高前景与背景的区分度。如表二所示，one-to-many 匹配、深度监督、PV前景分割和BEV前景分割都能够显著提升建图精度。

图六 one-to-many匹配

表二消融实验

方法对比

MapTRv2在nuScenes和Argoverse2数据集上取得了state-of-the-art的建图精度和推理速度，相比MapTR提升显著（表三、表四）。

表三 nuScenes数据集方法对比

表四 Argoverse2数据集方法对比

总结与展望

MapTRv2实现了高效高质量的矢量地图构建，可以在轻地图算法方案中作为高精地图的代替或补充，有着广泛的的应用场景。此外，如何将MapTRv2应用于下游预测规划任务或是端到端自动驾驶系统，值得进一步的探索和实践。

参考文献：

[1] Bencheng Liao*, Shaoyu Chen*, Xinggang Wang, Tianheng Cheng, Qian Zhang, Wenyu Liu, Chang Huang. MapTR: Structured Modeling and Learning for Online Vectorized HD Map Construction. In ICLR, 2023.

[2] Bencheng Liao*, Shaoyu Chen*, Bo Jiang, Tianheng Cheng, Qian Zhang, Wenyu Liu, Chang Huang, Xinggang Wang. Lane Graph as Path: Continuity-preserving Path-wise Modeling for Online Lane Graph Construction. arXiv preprint arXiv: 2303.08815.

[3] Jia, Ding* and Yuan, Yuhui* and He, Haodi* and Wu, Xiaopei and Yu, Haojun and Lin, Weihong and Sun, Lei and Zhang, Chao and Hu, Han. DETRs with Hybrid Matching. CVPR 2023.

[4] Li, Yinhao and Ge, Zheng and Yu, Guanyi and Yang, Jinrong and Wang, Zengran and Shi, Yukang and Sun, Jianjian and Li, Zeming. BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection. In AAAI, 2023.

[5] Jonah Philion and Sanja Fidler. Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d. In ECCV, 2020.

[6] Qi Li, Yue Wang, Yilun Wang, and Hang Zhao. Hdmapnet: An online hd map construction and evaluation framework. In ICRA, 2022.

[7] Yicheng Liu, Yue Wang, Yilun Wang, and Hang Zhao. Vectormapnet: End-to-end vectorized hd map learning. In ICML, 2023.

分享文章

开发者说｜MapTR v2：端到端矢量地图在线构建

相关资讯