欢迎重视『CVHub』官方微信公众号!

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

Title: Lite-Mono: A Lightweight CNN and Transformer Architecture for

Self-Supervised Monocular Depth Estimation

Paper: arxiv.org/pdf/2211.13…
Code: github.com/noahzn/Lite…

导读

自监督单目深度估量近年来引起了人们的重视。规划轻量但有效的模型,使它们能够布置在边际设备上对错常风趣的。许多现有的架构受益于运用heavier的backbones,为了深度功能而献身了模型的巨细。在本文中,研究者运用一个轻量级的体系结构来完成了具有竞争力的成果。具体来说,论文研究了CNN和Transformer的有效组合,并规划了一个混合结构Lite-Mono。提出了一种接连扩张卷积(CDC)模块和一个部分-大局特征交互(LGFI)模块。前者用于提取丰厚的多标准部分特征,后者运用自注意机制将随机的大局信息编码到部分特征中。试验表明,论文的完整模型在精度上大大优于Monodepth2,模型参数减少了约80%。

动机

  • 由于缺乏大规划准确的ground truth深度数据集,从单目视频中寻找监督信号的自监督办法是有利的。
  • CNN中的卷积操作有一个部分承受域,不能捕获长时刻的大局信息,更深的骨干或更杂乱的架构导致更大的模型规划
  • 最近引入的Vision Transformer能够建模大局上下文进行单目深度估量,以取得更好的成果。然而,与CNN模型比较,Transformer中多头自注意力模块的贵重核算阻碍了轻量级和快速推理模型的规划

奉献

本文提出了一个寻求轻量级和高效的混合CNN和Transformer自监督单目深度估量模型。在该编码器的每个阶段,都采用了一个接连扩张卷积模块来捕获增强的多标准部分特征。然后,论文运用一个部分-大局特征交互模块来核算多头注意力,并将大局上下文编码到特征中。为了下降核算杂乱度,论文还核算了信道维数而不是空间维数上的交叉协方差注意。该办法的奉献能够分为三个方面:

  1. 论文提出了一种新的轻量级架构,称为Lite-mono,同时运用CNN和Transformer用于自监督单目深度估量。论文证明了它对模型巨细和FLOPs的有效性。
  2. 与更大的模型比较,Lite-mono在KITTI数据集上显现出更高的精度。它以最少的可训练参数达到了最先进的水平。在Make3D数据集进步一步验证了该模型的泛化才能。论文还进行了额外的笑脸试验来验证不同规划挑选的有效性。
  3. 在Nvidia Titan XP和Jetson Xavier平台上测试了该办法的推理时刻,证明了该办法在模型杂乱性和推理速度之间的良好权衡

办法

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

上图显现了Lite-Mono的体系结构。它由一个encoder-decoder DepthNet和一个PoseNet组成。DepthNet估量输入图画的多标准深度图,而PoseNet估量两个相邻帧之间的摄像机运动。然后,生成一个重建的方针图画,并核算丢失以优化模型。

Low-computation global information

DepthNet

Depth encoder

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

上图显现了本文提出的depth encoder的不同变体,Lite-Mono聚合了四个阶段的多标准特征,[33,C]N[33,C]N意味着一个CDC块运用33内核巨细来输出C通道,并重复N次

Consecutive Dilated Convolutions (CDC)

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

浅层CNN的感触域十分有限,而运用扩张卷积有助于扩展感触域。如上图所示,经过叠加所提出的接连扩张卷积(CDC),网络能够在更大的区域内“调查”输入,而不引入额外的训练参数。

论文所提出的CDC模块运用扩张卷积来提取多标准的部分特征,在每个阶段刺进几个具有不同扩张率的接连扩张卷积,以完成满足的多标准上下文聚合.

Local-Global Features Interaction (LGFI)

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

论文选用Transformer进一步增强大局信息。可是原始的Transformer中的Attention是每个特征间做自相关,因此杂乱度与特征数量的平方成正比,这样做会对使大图片显存耗费翻倍添加。论文所提出的部分-大局特征交互(LGFI)模块参照XCiT的做法,不核算跨token的注意力,而是核算跨特征通道的注意力,其间交互根据KQ之间的交叉协方差矩阵,称为互协方差注意力(XCA,cross-covariance attention):

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

如上面的LGFI示意图所示,与原始的自注意力比较,它将空间杂乱度O(hN2+Nd)\mathcal{O}\left(h N^2+N d\right)下降到O(d2/h+Nd)\mathcal{O}\left(d^2/h+N d\right)时刻杂乱度O(N2d)\mathcal{O}\left(N^2 d\right)下降到到O(Nd2/h)\mathcal{O}\left(N d^2/h\right),其间hh为注意头数量。

Depth decoder

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

深度解码器部分,论文运用双线性上采样来添加空间维度,并运用卷积层来衔接来自编码器的三个阶段的特征。每个上采样块跟着一个预测头,别离以全分辨率1/21/21/41/4的分辨率输出逆深度图。

PoseNet

论文运用一个预先训练过的ResNet18被用作姿势编码器,而且它接纳一对五颜六色图画作为输入。运用具有四个卷积层的姿势解码器来估量相邻图画之间对应的6自由度相对姿势

Self-supervised learning

论文运用单目深度估量使命中常见的办法:将深度估量使命转换为图画重建的使命,学习方针被建模为最小化方针图画ItI_t与重构方针图画It\hat{I}_t之间的图画重建丢失Lr\mathcal{L}_{r},以及束缚在预测深度图上的边际感知滑润丢失Lsmooth\mathcal{L}_{smooth}

Image reconstruction loss

光度重投影丢失的界说为:

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

上面公式相当于两个相机坐标系下的转换,即源图画Is\hat{I}_s(一般为前后帧)先用内参的反转换到它的相机坐标系,再用旋转平移矩阵转到方针图画相机坐标系,再用内参转到方针图画的图画坐标系得到重构的方针图画,核算方针图画重构方针图画之间的丢失:

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

Edge-aware smoothness loss

为了滑润生成的逆深度图,论文核算一个边际感知的滑润丢失

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

其间dt∗=dt/dtd_{t}^{*}=d_{t} / \hat{d}_{t}表明mean-normalized的逆深度。总丢失可表明为:

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

其间s为深度解码器输出的不同份额输出。

试验

KITTI results

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

论文将所提出的结构与其他模型尺度小于35M的代表性办法在KITTI benchmark进行了比较,成果如表2所示。完整模型的Lite-Mono作用最好,论文的其他两个较小的模型也取得了令人满意的成果。

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

上图显现,所提出的Lite-Mono取得了令人满意的成果,即使是在移动物体靠近相机的具有挑战性的图画上(列1)。

Make3D results

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

论文还在Make3D数据集进步行了评估,以显现所提办法在不同室外场景中的泛化才能。表3显现了Lite-Mono与其他三种办法的比较,其间Lite-Mono表现最好

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

上图显现了一些定性的成果。由于所提出的特征提取模块,Lite-Mono能够建模部分和大局上下文,并感知不同巨细的目标。

Complexity and speed evaluation

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

论文在Nvidia Titan XP和Jetson Xavier上对该模型的参数、FLOPs(浮点运算)和推理时刻进行了评估,并与Monodepth2和R-MSFM进行了比较。表4显现,Lite-Mono规划在模型尺度和速度之间有很好的平衡。尽管R-MSFM是一个轻量级的模型,但它是最慢的。论文的模型还能够在Jetson Xavier快速推理,这使得将它们布置在边际设备上成为可能。

融化试验

CVPR‘2023 | Lite-Mono: 一种新的轻量级自监督单目深度估计方

论文删去或调整了网络中的一些模块来进行融化试验,并在KITTI上报告了它们的成果,如表5所示。

总结

本文提出了一种新的轻量级单目自监督单目深度估量办法。规划了一种混合的CNN和Transformer架构来建模多标准增强部分特征大局上下文信息。在8个KITTI数据集上的试验成果证明了该办法的优越性。经过在提出的CDC块中设置优化的扩张率,并刺进LGFI模块来取得部分-大局特征相关性,Lite-Mono能够感知不同标准的物体,甚至是对靠近摄像机的移动物体。论文还验证了该模型在Make3D数据集上的泛化才能。此外,Lite-Mono在模型杂乱性和推理速度之间完成了良好的权衡


假如您也对人工智能和核算机视觉全栈领域感兴趣,强烈推荐您重视有料、风趣、有爱的公众号『CVHub』,每日为我们带来精品原创、多领域、有深度的前沿科技论文解读及工业老练解决方案!欢迎添加小编微信号: cv_huber,补白””,加入 CVHub 官方学术&技术交流群,一同探讨更多风趣的话题!