3D目标检测中点云的稀疏性问题及解决方案-六虎

前言针对点云稀少性带来3D方针检测上的困难，出现了一系列办法来缓解该问题，包括多模态数据交融、点云下采样办法的改善、依据常识蒸馏的特征学习和点云补全等。下面，本文将对当时研讨较多的解决点云稀少性的办法进行汇总和总结，期望能够给咱们带来一些启发。

本文转载自自动驾驶之心

作者 | 贫困人口

欢迎重视大众号CV技能攻略，专心于核算机视觉的技能总结、最新技能跟踪、经典论文解读、CV招聘信息。

核算机视觉入门1v3辅导班

1. 点云稀少性的界说

点云的稀少性指激光雷达的采样点掩盖相关于场景的标准来讲，具有很强的稀少性。例如，将现在主流的野外3D方针检测数据集KITTI[1]的点云投影到对应的RGB图画上，大约只有3%的像素才有对应的点云；VoxelNet[2]将获取的点云等间隔的区分到体素空间，超越90%的体素是空的。稀少性发生的原因包括远间隔、遮挡和反光等。

依然以KITTI数据集为例，KITTI数据集将不同方针的检测难度区分为”Easy”、”Moderate”和”Hard”三类，咱们统计了KITTI数据会集不同难度GT框内的点云数目散布状况，如下图所示，能够看出，”Moderate”和”Hard”方针中别离有超越47%和54%的点云数少于60个points，其对应的形状和结构是极端不完好的，进而给3D方针检测带来困难。

2. 点云稀少性给3D方针检测带来的难点

2.1 待检测方针形状不完好，语义信息缺失

关于远间隔或许遮挡的方针，点云密度跟着间隔增大而减小，当间隔增大或许发生遮挡时，获取的方针点云很少，导致方针的结构信息和语义信息不完好。如下图所示，咱们可视化了KITTI数据会集的”Car“方针在实在场景中的点云状况，能够看出：Easy难度方针的可视化形状是比较完好的，这类方针便于网络检出，SOTA办法的检测精度能够达到90%左右；而Moderate和Hard难度方针的可视化形状缺失比较严重，方针的结构信息和语义信息不完好，这类方针的检测精度较低。

2.2 待检测方针简单与布景混杂，形成误检

关于远间隔方针，传感器获取的方针点云较少，在这种状况下，待检测方针可能与场景中的布景混杂，形成误检。

如下图所示，待检测方针”Pedestrian”和直杆（布景）间隔传感器25米，获取的点云稀少，简直出现相同的几许形状。这种相似的几许表明给检测带来困难。

2.3 待检测方针的点云相较场景点云占比少

相较于整个场景点云，待检测方针的点云的占比较少。PV-RCNN[3]指出在KITTI数据会集，待检测方针的点云（point of interest）的个数大约为2K，而整体场景的点云个数大约为15K；这种间隔在后续的点云下采样过程可能会进一步扩展，进而导致可用的远景点特征少，导致检测精度下降。

3. 点云稀少性的解决方案

针对点云稀少性带来3D方针检测上的困难，出现了一系列办法来缓解该问题，包括多模态数据交融、点云下采样办法的改善、依据常识蒸馏的特征学习和点云补全等。下面，本文将对当时研讨较多的解决点云稀少性的办法进行汇总和总结，期望能够给咱们带来一些启发。

3.1 改善点云下采样办法

整个场景的点云数很多，且布景点占比较大，将整个场景的点云全部送入网络提取特征会极大的增大核算量，不能确保实时性。因而，现有的依据点云的3D方针检测办法会先对场景点云进行下采样，再将下采样后的点云送入网络提取特征和检测。例如PointRCNN[4]在处理KITTI数据时，会先将场景点云随机下采样到16384个，再处理这16384个点云，用于特征提取和检测。

可是，因为远景点在整个场景中占比较少，随机下采样点云可能会导致远景点的占比进一步较少，加剧远景点的稀少性问题，下降检测精度。因而，一些工作提出依据特征或依据语义感知的下采样等办法来缓解该问题。

论文标题：3DSSD: Point-based 3D Single Stage Object Detector （2020CVPR oral）

论文地址：arxiv.org/pdf/2002.10…

作者单位：Zetong Yang等，港中文和港科技

中心思维：作者首要剖析了依据点云的二阶段3D检测网络，榜首部分运用SA层下采样和提取点云的语义特征，FP层用于上采样，并将特征广播到下采样期间所丢弃的点，再运用3D RPN生成proposals；第二部分运用refinement模块进一步进步初始proposals的精度；而作者以为FP层和refinement模块耗时较多，能够移除；依据此，作者结合间隔下采样和特征下采样，提出了一种交融的下采样战略，然后平衡前布景点数量，确保满足的远景点。

办法简述：

为了尽可能保存远景点，删去布景点，必须一起考虑间隔信息和语义信息。而在深度学习结构中，很简单得到点云的语义信息，因而作者首要提出Feature-FPS（F-FPS），充分运用点云的特征信息进行下采样，以保存方针的远景点；一起，考虑到布景点囊括了周围的语义信息，有助于提高分类精度，因而进一步结合Distance-FPS（D-FPS），将间隔信息考虑在内，提出了Fusion-FPS，进行场景点云下采样。别离采样N/2个点；
进一步提取采样点特征，送入CG层，关于鸿沟框回归使命而言，布景点是无用的，因而仅运用F-FPS的点作为初始中心点，这些初始中心点在其相对方位的监督下移动到其相应的实例中，得到候选点。然后，将候选点作为CG层的中心点，再经过预先设置的阈值从F-FPS和D-FPS的集合点中找到他们的周围点，终究选用MLP提取它们的特征，这些特征用来猜测终究的3D鸿沟框。
该办法在确保实时性（25FPS）的一起，在KITTI数据集和nuscene数据集上获得了不错的精度。

论文标题：SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object Detection （2022 AAAI）

论文地址：arxiv.org/pdf/2201.01…

作者单位：Chen Chen等，悉尼大学等

中心思维：现有的Set Abstraction通常以间隔作为规范（如FPS），来挑选较远的点来尽可能掩盖整个场景，可是这样会导致keypoints包括过多的布景点，然后导致pedestrian等点云数较少的object漏检。针对该问题，作者对PointNet++做了两处改善：添加一个远景布景点切割模块来辨认远景点作为输入；提出S-FPS采样战略来挑选要害点。

办法简述：

给定输入点云，先提取场景点云特征，再将其送入点云切割模块，进行前布景点切割（二分类网络，经过2层MLP完结），得到远景点切割得分；前布景点的标示信息经过3D标示的检测框能够直接得到，即检测框内的点为远景点，检测外的点为布景点；
运用S-FPS（Semantics-guided Farthest Point Sampling），归纳考虑方针点的语义特征（切割得分）和间隔信息，使得下采样过程中远景点的权重比布景点更大，更简单采样到远景点，将这部分远景点作为新的要害点，送入pointnet++提取更高维的特征，再送入已有的3D检测结构完结检测使命；
S-FPS潜在区分远景方针出现的区域，有助于后续网络检出方针；此外，因为S-FPS是从切割得分最高的点开始下采样，关于点云的摆放次序不敏感；该办法在KITTI和nuscene数据集上获得了不错的精度。

3.2 依据常识蒸馏的特征搬迁

关于现实场景中的点云，因为遮挡、远间隔等原因，采集的点云是稀少的，导致模型提取的特征不完好，不利于3D检测；可是，现实场方针存在某些共性特征，例如：车是对称物体，车都有四个轮子等，关于人类而言，咱们只要看到方针的某个部分，咱们就能够知道该方针的类别和大约的方位。因而，一些工作考虑经过常识蒸馏、搬迁学习等办法，运用完好方针的完好特征辅导实在场景中残损方针的进行特征学习，或许将点云的深度信息引进到依据RGB图画的3D方针检测中。

论文标题：AGO-Net: Association-Guided 3D Point Cloud Object Detection Network （2022TPAMI）

论文地址：arxiv.org/pdf/2208.11…

作者单位：Liang Du等，复旦大学等

中心思维：作者将现实场景的不完好的稀少点云界说为感知域，将对应场景补全的完好点云界说为概念域，经过孪生网络辅助稀少点云从完好点云学习特征，然后生成更完好的特征，进行方针检测使命，且在测验阶段不会引进额定的核算。

办法简述：

AGO网络由一对孪生网络组成，包括PFE（perceptual feature encoder）和CFG（conceptual feature generator），能够选用已有的3D检测结构替换；以及SC-weight模块，辅助网络对加强场景的远景特征的学习；
首要，独自练习感知域的网络（CFG）。该网络的输入数据是实在场景的稀少点云（上图中的Perceptual）补全后的完好点云（上图中的Conceptual），经过3D BEV encoder后得到的是完好的方针特征，该特征送入检测头能够得到挨近100%的检测精度，当CFG练习完结后，冻住该网络，用于给后续PFE的练习供给完好且安稳的特征；
再练习整个AGO网络。具体而言，将实在场景的稀少点云输入PFE，经过与CFG相同结构的3D BEV encoder，抽取特征；一起，补全后的点云输入已经练习过且冻住参数的CFG，用于发生完好的特征；再运用CFG发生的完好特征辅导PFE进行特征学习，MSE丢失函数作为约束函数，促使PEF发生完好的方针特征；此外，作者还引进SC-weight模块辅助PFE 更好的学习完好特征，该模块经过远景mask将远景特征抠出来，使得网络聚集于远景特征的学习；
测验阶段，去除CFG模块，只留下PFE模块，在测验阶段不会添加额定的核算；而且，因为PFE模块在练习阶段有了CFG模块的辅导，能够生成更完好的特征，因而能够获得不错的检测成果。

论文标题：MONODISTILL: LEARNING SPATIAL FEATURES FOR MONOCULAR 3D OBJECT DETECTION （2022 ICLR）

论文地址：arxiv.org/pdf/2201.10…

作者单位：Zhiyu Chong等，大连理工大学等

中心思维：依据单目图画的3D方针检测因为缺少深度信息，其3D检测的性能一向差强人意；因而，作者考虑经过teacher-student结构，将点云的深度信息（spatial cues）引进到单目图画的3D方针检测网络，提高检测精度；关于点云和RGB图画不同的特征表明，作者将点云投影到图画平面，进行特征对齐。

办法简述：

依据单目图画的3D检测模块（即student网络）：首要，将单目图画输入到已有的3D方针检测结构，提取RGB图画特征，具体而言，选用DLA-34 作为 backbone，一些并行的 heads 用于预3d 方针检测，
依据点云的3D检测模块（即teacher网络）：为了确保点云和RGB图画的特征的一致性，运用和student相同的模型结构，只是将输入换成深度补全后的点云深度图，即先将点云输入投影到RGB图画平面，得到sparse深度图，再运用插值算法得到dense深度图，将其输入到与student相同的3D方针检测网络，提取“点云”特征，该网络作为teacher网络；
作者进一步在特征层面和成果层面提出scene-level、object-level常识蒸馏，以帮助student网络更好的从teacher学习到点云的深度信息；
同样，在测验阶段，去除teacher网络，只保存student网络，没有引进额定的核算量；且没有改动原始的单目图画的3D检测结构。

3.3 多模态数据交融

依据多模态数据交融的3D方针检测首要指运用跨模态数据提高模型的检测精度。一般来说，多模态数据包括：图画数据、激光雷达数据、毫米波雷达数据、双目深度数据等，本文首要重视当时研讨较多的图画+点云交融的3D方针检测模型。点云数据具备方针的几许信息和深度信息，但缺少方针的色彩和纹理信息，而这些信息关于方针的辨认分类十分重要；图画数据色彩和纹理信息丰富，但缺少深度信息，不能很好的定位方针。因而，一些工作考虑结合二者数据的长处，进行3D方针检测使命。

**论文标题：**CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection （2020 IROS）

论文地址：arxiv.org/pdf/2009.00…

**作者单位：**Su Pang等，Michigan State University

**中心思维：**作者以为，关于决议计划级的交融而言，多模态数据不需要与其他模态进行同步或对齐，且运用二者的检测成果排除了大部分冗余布景区域，因而更有助于网络学习；办法相对而言比较简单，CLOCs是运用检测成果进行的跨模态交融，归于决议计划级交融的范畴。

办法简述：

将RGB图画输入到已有的2D方针检测模型中，得到k个2D检测框，表明2D图画中潜在含有方针的区域；
一起将点云输入到已有的3D方针检测模型中，得到n个3D检测框，表明3D场景中潜在含有方针的区域；
关于2D和3D检测成果k和n，构建新的矩阵T，包括描述二者几许一致性的IoU（IoU=0的检测框直接去除）、2D检测框的置信度得分、3D检测框的置信度得分和3D检测框到地面的归一化间隔d；
进一步对保存的候选框进行特征提取，得到终究的检测成果。

**论文标题：**Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion （2022CVPR）

论文地址：arxiv.org/pdf/2203.09…

**作者单位：**Xiaopei Wu等，Zhejiang University

**中心思维：**作者以为现在野外点云+图画的办法没有纯点云的办法作用好的原因包括2个，（1）多模态的数据增广困难以及（2）现在办法大多是从点云找对应的图画交融特征，可是点云能对应上的像素点比较少，没有完全运用好图画的特征。因而，作者考虑多模态特征加权交融，以及跨模态对齐问题；SFD运用的是3D场景猜测出的候选框，并在不同模态数据上进行特征提取，因而归于RoI-level的交融范畴

办法简述：

先运用深度补全网络，将原始RGB图画映射到3D场景中，对图画上的像素点进行深度补全，在KITTI数据集上预练习后再练习方针检测网络时不再改动参数，进一步生成伪点云；补全后的点云就由sparse变为dense了，且每个像素都有了对应的点云；
再运用dense且包括色彩信息的伪点云进行特征提取，再和原始点云特征交融，进一步生成候选框；
在fusion模块，对每一个候选框，别离提取点云特征和伪点云特征；对点云特征和伪点云特征，运用attention进行从头加权，并输出终究的检测成果；
此外，作者还提出了一种适用于多模态的数据增强办法SynAugment，包括Manipulate Images like Point Clouds（多模态数据增强的最大应战是怎么处理像点云这样的图画。作者经过深度补全的办法，将2D图画转换为伪点云，此时伪点云承载了图画的一切信息，然后像处理原始点云相同处理伪点云），和Extract Image Features in 3D Space（行将2D图画转化为伪点云，然后在3D空间中提取伪点云特征）

**论文标题：**Pointpainting: Sequential Fusion for 3D Object Detection （2020CVPR）

论文地址：arxiv.org/pdf/1911.10…

**作者单位：**Sourabh Vora等，nuTonomy

**中心思维：**运用细粒度图画切割信息对3D点云进行补全，行将点云投影到图画语义切割网络的输出中，并将分类分数附加到每个点云上，然后添加点云的语义信息；

办法简述：

2D语义切割网络：运用一个依据图画的切割网络来核算pixel-wise切割分数；
Painting/Fusion：将2D中猜测出的切割成果投影到对应的3D point中，对原始3D信息进行补全；
3D方针检测：运用补全后的3D点云进行猜测，不需要改动原始3D方针检测结构，只需要改动输入的维度即可，由N变为N+1；

3.4 点云补全

针对稀少点云的方针，一些办法直接选用点云补全的方式，先将方针补充为较为完好的方针，再进行3D方针检测。

**论文标题：**Spatial information enhancement network for 3D object detection from point cloud （2022 PR）

论文地址：arxiv.org/pdf/2012.12…

**作者单位：**Ziyu Li等，东南大学等

**中心思维：**作者考虑到间隔传感器远近方针中点云数量的不平衡的问题，即间隔LiDAR较远的方针收集到的点数相对较少，作者以为网络是难以处理这种不平衡性；进而提出一种空间信息增强的模块，从稀少的、不完好点云猜测密集的、完好的空间表明，来缓解这种不平衡性。

办法简述：

RPN模块：首要，对输入点云体素化，运用SPConv卷积学习体素特征，然后Keypoint分支运用注意力机制动态编码体素特征，作者还提出一个辅助模块（将坐标转换为实在场景坐标，再运用PointNet++特征传播层进行插值，将每一块得到的特征进行结合用以学习结构信息）用于学习结构信息；
Spatial information enhancement（SIE）模块：来猜测完好的空间表明。首要，关于proposal中不完好的点云，将其输入到一个老练的3D补全结构（如PCN[5]），来生成完好的方针形状；然后，关于猜测的点云，运用FPS选用m个点云，运用pointnet++提出多标准特征，再运用全衔接层将其转化为大局特征；
特征交融和3D检测模块：将生成的大局特征与原始点云pooling后的特征进行加权交融，得到enhanced feature，进行检测使命，并在KITTI数据集上获得了现在最好的精度；

论文标题： Multimodal Virtual Point 3D Detection（2021 NeurIPS）

论文地址：arxiv.org/pdf/2111.06…

**作者单位：**Tianwei Yin等，UT Austin等

**中心思维：**作者结合实例切割网络，先对2D图画进行切割，运用切割成果生成虚拟点云，对原始场景补全，得到完好的方针进行3D检测。

办法简述：

首要对2D图画进行实例切割，得到切割成果，本文选用的是CenterNet2作为实例切割网络；
再将点云投影到2D图画上，每个实例上都会有一些投影的点云，如（b）所示，mask内的点云为黑色，其余的点云为灰色；
依据远景区域内点云的深度信息生成虚拟点云，生成虚拟点的办法是在2D实例切割区域中进行随机采样K个点，依据周围点云的深度插值得到这K个点的深度值；
终究再将这K个点投影到点云坐标系，得到虚拟点云，达到了对原始场景补全的意图，再进行3D检测。

4. 参考文献

A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous driving? the KITTI vision benchmark suite,” in Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2012, pp. 3354–3361.
Zhou Y, Tuzel O. Voxelnet: End-to-end learning for point cloud based 3d object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 4490-4499.
Shi S, Guo C, Jiang L, et al. Pv-rcnn: Point-voxel feature set abstraction for 3d object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 10529-10538.
S. Shi, X. Wang, and H. Li, “PointRCNN: 3D object proposal generation and detection from point cloud,” in Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2019, pp. 770–779.
W. Yuan, T. Khot, D. Held, C. Mertz, M. Hebert, PCN: point completion network, in: 3DV, 2018, pp. 728–737.

欢迎重视大众号CV技能攻略，专心于核算机视觉的技能总结、最新技能跟踪、经典论文解读、CV招聘信息。

核算机视觉入门1v3辅导班

【技能文档】《从零建立pytorch模型教程》122页PDF下载

QQ交流群：444129970。群内有大佬担任回答咱们的日常学习、科研、代码问题。

其它文章

本来Transformer就是一种图神经网络，这个概念你清楚吗？

3D方针检测中点云的稀少性问题及解决方案

一文深度剖析扩散模型究竟学到了什么？

OpenMMLab教程【零】OpenMMLab介绍与装置

代码实战：YOLOv5完结钢材外表缺陷检测

TensorRT教程（六）运用Python和C++部署YOLOv5的TensorRT模型

常识蒸馏的搬迁学习应用

超全汇总 | 核算机视觉/自动驾驶/深度学习材料合集！

高精度语义地图构建的一点考虑

一文看尽深度学习中的各种注意力机制

点云切割练习哪家强？监督，弱监督，无监督还是半监督？

姿态估计端到端新方案 | DirectMHP：用于全范围视点2D多人头部姿势估计

深度理解变分自编码器(VAE) | 从入门到精通

核算机视觉入门1v3辅导班

核算机视觉交流群

用于超大图画的练习战略：Patch Gradient Descent

CV小常识讨论与剖析（5）到底什么是Latent Space?

【免费送书活动】关于语义切割的亿点考虑

新方案：从过错中学习，点云切割中的自我规范化层次语义表明

经典文章：Transformer是怎么进军点云学习范畴的？

CVPR 2023 Workshop | 首个大规模视频全景切割比赛

怎么更好地应对下游小样本图画数据？不平衡数据集的建模的技巧和策

Transformer交流群

U-Net在2022年相关研讨的论文推荐

用少于256KB内存完结边际练习，开支不到PyTorch千分之一

PyTorch 2.0 重磅发布：一行代码提速 30%

Hinton 最新研讨：神经网络的未来是前向-前向算法

聊聊核算机视觉入门

3D目标检测中点云的稀疏性问题及解决方案

1. 点云稀少性的界说

2. 点云稀少性给3D方针检测带来的难点

2.1 待检测方针形状不完好，语义信息缺失

2.2 待检测方针简单与布景混杂，形成误检

2.3 待检测方针的点云相较场景点云占比少

3. 点云稀少性的解决方案

3.1 改善点云下采样办法

3.2 依据常识蒸馏的特征搬迁

3.3 多模态数据交融

3.4 点云补全

4. 参考文献

相关文章

AcWing 796. 子矩阵的和——算法基础课题解

Numpy中ndarray到底有什么秘密？

用Java创建可扩展的OpenAI GPT应用程序

『AIGC』ControlNet在游戏产业中能做什么?

作者信息