众所周知,实时方针检测( Real-Time Object Detection )一向由 YOLO 系列模型主导。

飞桨在上一年 3 月份推出了高精度通用方针检测模型 PP-YOLOE ,同年在 PP-YOLOE 的基础上提出了 PP-YOLOE+ 。后者在练习收敛速度、下流使命泛化能力以及高功能部署能力方面均到达了很好的效果。而继 PP-YOLOE 提出后,MT-YOLOv6、YOLOv7、DAMO-YOLO、RTMDet 等模型先后被提出,一向迭代到今年开年的 YOLOv8。

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

而咱们一向在思考,实时方针检测器除了 YOLO 是否还有其他技能道路能够探究呢?

YOLO 检测器有个较大的待改善点是需求 NMS 后处理,其通常难以优化且不够鲁棒,因而检测器的速度存在延迟。为避免该问题,咱们将目光移向了不需求 NMS 后处理的 DETR,一种基于 Transformer 的端到端方针检测器。但是,相比于 YOLO 系列检测器,DETR 系列检测器的速度要慢的多,这使得”无需 NMS “并未在速度上体现出优势。上述问题促使咱们针对实时的端到端检测器进行探究,旨在基于 DETR 的优异架构规划一个全新的实时检测器,从本源上处理 NMS 对实时检测器带来的速度延迟问题。

由此,咱们正式推出了——RT-DETR (Real-Time DEtection TRansformer) ,一种基于 DETR 架构的实时端到端检测器,其在速度和精度上取得了 SOTA 功能。

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

  • 点击文末阅读原文快速体会 RT-DETR

github.com/PaddlePaddl…

  • 论文地址:

arxiv.org/abs/2304.08…

关于PaddleDetection的技能问题欢迎咱们入群讨论,也欢迎咱们在GitHub点star 支撑咱们的工作!

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

NMS 剖析

书接上文,具体剖析 NMS 。

NMS 是方针检测范畴常用的后处理技能,用于去除检测器产生的堆叠较多的检测框,其包含两个超参数:置信度阈值和 IoU 阈值。具体来说,低于置信度阈值的框被直接过滤,而且如果两个检测框的交并比大于 IoU 阈值,那么其中置信度低的框会被滤除。该进程迭代履行,直到所有类别都被处理完毕。因而,NMS 算法的履行时间取决于猜测框数量和上述两个阈值。为了更好地说明这一点,咱们运用 YOLOv5 (anchor-based)和 YOLOv8 (anchor-free) 进行了核算和实测,测量指标包含不同置信度阈值下剩下的检测框的数量,以及在不同的超参数组合下检测器在 COCO 验证集上的精度和 NMS 的履行时间。试验成果表明,NMS不仅会延迟推理速度,而且不够鲁棒,需求挑选适宜的超参数才能到达最优精度。这一试验成果有力证明规划一种实时的端到端检测器是具有重要意义的。

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

RT-DETR结构规划

近年来,得益于研究者们在加快练习收敛和降低优化难度上做出的努力, DETR 系列模型已经获得了优异的功能。但是,DETR 与现有实时检测器在速度上存在巨大距离,因而,将其面向实时化面对巨大的挑战。咱们在剖析了 DETR 变体模型的架构中各组件对速度和精度的影响后,将主要优化方针定在编码器部分。现有的多标准 Transformer 编码器在多个标准的特征之间进行注意力运算,一起进行标准内和标准间特征交互,核算耗费较大。为了减少核算耗费,一个简略的办法是直接削减编码器层数。但是咱们以为这并不能从根本上处理问题而且必然会对精度造成较大影响,更实质的办法应该是要解耦这种标准内和标准间的一起交互,缩短输入编码器的序列长度

为此,咱们规划了一系列编码器变体来验证解耦标准内和标准间特征交互的可行性并终究演化为咱们提出的 HybridEncoder ,其包含两部分:Attention-based Intra-scale Feature Interaction (AIFI)和 CNN-based Cross-scale Feature-fusion Module (CCFM)。最后的试验成果证明了这一思路是可行的,而且能够一起在速度和精度上带来正向收益。

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

为了进一步进步 RT-DETR 的精度,咱们又将目光移向了 DETR 架构的别的两个关键组件:Query Selection 和 Decoder 。Query Selection 的作用是从 Encoder 输出的特征序列中挑选固定数量的特征作为 object queries ,其经过 Decoder 后由猜测头映射为置信度和鸿沟框。现有的 DETR 变体都是运用这些特征的分类分数直接挑选 top-K 特征。但是,因为分类分数和 IoU 分数的散布存在不一致,分类得分高的猜测框并不一定是和 GT 最接近的框,这导致高分类分数低 IoU 的框会被选中,而低分类分数高 IoU 的框会被丢掉,这将会危害检测器的功能。

为处理这一问题,咱们提出了IoU-aware Query Selection,经过在练习期间约束检测器对高IoU的特征产生高分类分数,对低IoU的特征产生低分类分数。从而使得模型根据分类分数挑选的top-K特征对应的猜测框一起具有高分类分数和高IoU分数。咱们经过可视化这些编码器特征的置信度分数以及与GT之间的IoU分数后发现,IoU-aware Query Selection(蓝色点)明显进步了被选中特征的质量(集中于右上角)。关于Decoder,咱们并没有对其结构进行调整,意图是为了方便运用高精度的DETR的大检测模型对轻量级DETR检测器进行蒸馏,咱们以为这是未来可探究的一个方向。

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

终究咱们的 RT-DETR 全体结构如下图所示:

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

关于 backbone 部分,咱们采用了经典的 ResNet 和可缩放的 HGNetv2 两种,咱们本次运用两种 backbone 各练习了两个版别的 RT-DETR ,以 HGNetv2 为 backbone 的 RT-DETR 包含 L 和 X 版别,以 ResNet 为 backbone 的 RT-DETR 则包含 RT-DETR-R50 和 RT-DETR-R101 。RT-DETR-R50 / 101 方便和现有的 DETR 变体进行比照,而 RT-DETR-L / X 则用来和现有的实时检测器( YOLO 系列模型)进行比照。

关于数据增强和练习战略部分,咱们的数据增强采用的是基础的随机颜色颤动、随机翻转、裁剪和 Resize ,而且在验证和推理时图画的输入尺寸一致为 640 ,与 DETR 系列的处理方式有较大的不同,主要是为了满意实时性的要求。咱们的练习战略则是和 DETR 系列基本相同,优化器相同采用 AdamW ,默认在 COCO train2017 上练习 6x ,即 72 个 epoch 。

别的,考虑到多样化的应用场景,实时检测器通常会供给多个不同标准的模型,RT-DETR 相同能够进行缩放,咱们经过调整 CCFM 中 RepBlock 的数量和 Encoder 的编码维度分别控制 Hybrid Encoder 的深度和宽度,一起对 backbone 进行相应的调整即可完成检测器的缩放。

试验成果

和实时检测器比照

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

RT-DETR-L 在 COCO val2017 上的精度为 53.0% AP ,在 T4 GPU 上的 FPS 为 114,RT-DETR-X 的精度为 54.8% AP,FPS 为 74。相同标准的版别下,RT-DETR 比 YOLO 系列检测器的精度都更高一些,端到端速度都更快一些。

和端到端检测器比照

RT-DETR-R50 在 COCO val2017 上的精度为 53.1% AP,在 T4 GPU 上的 FPS 为 108,RT-DETR-R101 的精度为 54.3% AP,FPS 为 74。总结来说,RT-DETR 比具有相同 backbone 的 DETR 系列检测器有比较明显的精度进步和速度进步。具体的试验数据见下表:

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

Decoder 消融试验

咱们还对 Decoder 不同层的输出评估了精度,并测试了对应的检测器推理时间。RT-DETR 经过在推理时运用不同层数的 Decoder ,能够灵活的调整推理速度而不需求从头练习。咱们发现减少少量的层( 1~2 )对精度产生的影响很小,而且能够明显进步推理速度,这为供给更轻量级的 RT-DETR(S or M) 供给了可行计划。

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

总结

在本文中,咱们提出了一个实时的端到端检测器 RT-DETR ,克服了 NMS 对实时检测器推理速度的延迟和对精度的影响,对 DETR 的实时化进行了初步的探究和尝试,并供给了一种可行的处理计划。咱们以为 RT-DETR 还有许多能够改善的地方,例如在小方针上的功能指标尚不如 YOLO 系列的部分检测器。在今后的研究中还能够继续优化,从而为实时方针检测这一范畴供给更优的处理计划,为实践应用带来更好的体会。预练习模型、部署等运用教程已全面发布,欢迎咱们试用!具体链接可点击文末阅读原文快速体会!