本文首发于微信大众号 CVHub,不得以任何形式转载到其它平台,仅供学习沟通,违者必究!

本文正在参加 人工智能创作者扶持方案

CVPR 2023 | LoGoNet:优于所有最先进的 3D 目标检测方法!

Title: LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion
Paper: arxiv.org/pdf/2303.03…
Code: github.com/sankin97/Lo…

导读

3D 方针检测是自动驾驶等安全范畴中的一个必不可少的使命。经过在三维空间中对方针进行定位与分类,3D 方针检测技术能有用地进步自动驾驶汽车对周围环境的感知能力。

然而,3D 方针检测面临着许多挑战。首要,传感器数据或许存在误差和噪声,因而需求对数据进行处理和校准。其次,点云数据一般是稀少的,因而需求选用适宜的办法来处理数据。此外,传感器数据的多样性和复杂性也使得物体检测变得愈加困难。

另外,不同的传感器有其各自的长处和局限性,如 LiDAR 可以供给准确的深度和几许信息,但点云一般是稀少的,缺少足够的上下文信息,难以准确地区别方针类别;而相机输出的是 2D 图画,不具备牢靠的深度和几许信息,但可以供给丰厚的语义和纹理信息。因而,交融不同传感器的信息,弥补和互相的缺陷和缺乏,是进步 3D 方针检测功能的一个重要办法。

::: block-1

依据图画办法

依据图画的三维检测需求先进行深度估量,然后在三维空间中进行方针检测。由于从图画中准确估量深度信息十分困难,因而其功能不如依据激光雷达的办法。最近,一些研究者引入了依据 Transformer 的架构,运用 3D 方针查询和 3D-2D 对应来进步检测功能。

依据 LiDAR 办法

依据激光雷达的办法可以依据所运用的点云表明类型分为三种:点云表明办法、体素表明办法和点-体素交融办法。点云表明办法直接选用原始点云作为输入,并选用堆叠的多层感知器 (MLP) 层来提取点特征。体素表明办法将点云转换为体素并运用3D稀少卷积层来提取体素特征。点-体素交融办法运用点云和体素表明办法来提取不同的特征表明。

依据多模态交融办法

多模态 3D 检测经过交融图画和点云的特点来进步功能。其间一些办法引入了穿插注意力机制,以自习惯地对齐和交融点云和图画特征。 :::

本文提出了一种新颖的 LiDAR-相机 交融网络 LoGoNet。这是一种在部分和大局两个层面上进行 LiDAR-相机信息交融的办法。在大局交融方面,在从前作业的基础上,经过增加点质心来更准确地表明体素特征的方位,然后完成更好的跨模态对齐。在部分交融方面,首要将每个 proposal 划分为均匀的网格,然后将这些网格中心投影到图画上。围绕投影的网格点的图画特征被采样,与带有方位信息的点云特征交融,最大极限地运用 proposal 周围丰厚的上下文信息。此外,还提出了特征动态聚合模块,用于完成部分和大局交融特征之间的信息交互,然后产生更具信息量的多模态特征。

::: block-1

大局交融与部分交融的比照

CVPR 2023 | LoGoNet:优于所有最先进的 3D 目标检测方法!

大局交融办法,将整个场景中的点云特征与图画特征进行交融,缺少精准的区域级 (region-level) 信息。部分交融办法,交融了每个 proposal 上的两种模态特征,是对大局交融办法的弥补。

3D 方针检测功能比照

CVPR 2023 | LoGoNet:优于所有最先进的 3D 目标检测方法!

LoGoNet 在两个主流数据集上 (Waymo Open 和 KITTI) 的表现优于所有 3D 检测办法,并取得81.02 mAPH(L2)的检测功能。源码即将开源,这超强功能十分值得大家研究学习! :::

办法

概述

CVPR 2023 | LoGoNet:优于所有最先进的 3D 目标检测方法!

LoGoNet 输入为点云和其关联的多相机图画,输出为方针检测成果。其间,点云由空间坐标、特征和点数等信息组成;而图画经过 2D 检测器处理后,生成密集的语义图画特征。该网络包括三个主要的模块:大局交融GoF)、部分交融LoF)和特征动态聚合FDA),用于完成点云和图画的部分到大局的跨模态特征交融。

大局交融模块

CVPR 2023 | LoGoNet:优于所有最先进的 3D 目标检测方法!

传统的大局交融办法一般运用体素中心来表明每个别素特征的方位,但这种办法疏忽了每个别素内点的实际散布,质心动态交融模块 (Centroid Dynamic Fusion, CDF)运用体素内点的质心来表明非空体素特征的空间方位,并运用可变形穿插注意力模块自习惯地交融点云特征与图画特征。

具体来说,关于非空体素特征FVF_V和图画特征FIF_I,首要计算每个别素内点的质心,并将其映射到图画平面得到参考点pip_i,然后经过一组注意力头和学习的权重来自习惯地交融点云特征和图画特征,终究得到交融特征FV∗F^*_V,用于后续 proposal 的生成与精细化。

这种交融办法充分考虑了点云特征的几许形状信息,可以更好地习惯大规模点云。

部分交融模块

CVPR 2023 | LoGoNet:优于所有最先进的 3D 目标检测方法!

部分交融模块 (Local Fusion, LoF) 经过网格点动态交融Grid point Dynamic Fusion, GDF)在 proposal 等级动态交融点云特征和图画特征,用于供给更多部分和细粒度的几许信息。

关于每个鸿沟框 proposal BiB_i,将其划分为uuuu u u的规矩体素网格GjG_j,其间jj索引体素网格。然后运用方位信息编码 (Position Information Encoder, PIE)对每个别素网格特征FGjF^j_G进行编码,生成每个鸿沟框 proposal 的部分网格-ROI特征 FBpF^p_B。然后,运用 GDF 模块,将图画特征与部分 proposal 的编码网格 ROI 特征FBpF^p_B自习惯地交融起来。在交融过程中,运用穿插注意力机制将本地采样的图画特征和编码的部分 ROI 网格特征FBpF^p_B进行交融。终究,经过 FFN 对交融的部分网格特征进行处理,生成终究交融的 ROI-grid 特征 FBlF^l_B

特征动态聚合模块

CVPR 2023 | LoGoNet:优于所有最先进的 3D 目标检测方法!

特征动态聚合模块 (Feature Dynamic Aggregation, FDA)用于树立不同网格点之间的自习惯联系,然后增强特征信息。

首要,经过 LoFGoFPIE 模块取得三种特征,即FBpF^p_BFBlF^l_BFBgF^g_B。这些特征相互独立,信息交互和聚合较少。然后,选用自注意力机制树立非空网格点特征之间的交互,经过标准 Transformer 编码器层和残差衔接块 (Residual Connection Block, RCB)完成。最后,运用 FDA 模块生成的共享扁平化特征来优化鸿沟框。

丢失函数

在网络训练过程中,图画分支的权重被冻住,只有 LiDAR 分支被训练。总的训练丢失函数LL由三个部分组成:RPN 丢失 LRPNL_{RPN}、置信度猜测丢失 LconfL_{conf} 和鸿沟框回归丢失 LregL_{reg}

CVPR 2023 | LoGoNet:优于所有最先进的 3D 目标检测方法!

其间,超参数 用于平衡不同的丢失,本文试验中将其设置为1。

试验

CVPR 2023 | LoGoNet:优于所有最先进的 3D 目标检测方法!

  • LoGoNetWaymo 3D 检测挑战赛中取得了最好的成果,LoGoNet Ens完成了81.02 mAPH(L2)的检测功能。

CVPR 2023 | LoGoNet:优于所有最先进的 3D 目标检测方法!

  • 在不运用测试时数据增强和模型集成的情况下,LoGoNet 也优于所有竞赛办法,并且 LoGoNet 的多帧输入办法比单帧和多帧办法都更有用

CVPR 2023 | LoGoNet:优于所有最先进的 3D 目标检测方法!

  • 经过逐渐增加不同的组件,模型功能都取得了进一步的提高

总结

本文提出了一种新颖的多模态网络,称为 LoGoNet,选用部分到大局的跨模态特征交融,深度交融点云特征和图画特征,为准确检测供给更丰厚的信息。在 WODKITTI 数据集上进行了很多试验,LoGoNet 超过了曾经的办法,并在 Waymo 3D 检测排行榜上取得了第一名。成果表明,该结构具有很强的有用性和通用性。

写在最后

如果您也对人工智能和计算机视觉全栈范畴感兴趣,强烈推荐您重视有料、风趣、有爱的大众号『CVHub』,每日为大家带来精品原创、多范畴、有深度的前沿科技论文解读及工业成熟解决方案!欢迎增加小编微信号:cv_huber,一起探讨更多风趣的论题!