导读
本文的主题是多模态交融和图文了解,文中提出了一种名为RegionSpot
的新颖区域辨认架构,旨在处理核算机视觉中的一个关键问题:了解无约束图画中的各个区域或patch
的语义。这在敞开国际方针检测等范畴是一个具有挑战性的使命。
关于这一块,咱们所熟知的大都是根据图画等级的视觉-语言(ViL)模型(如CLIP),以及运用区域标签对的比照模型的练习等办法。然而,这些办法存在一些问题,包括:
- 核算资源要求高;
- 容易遭到数据噪音的干扰;
- 对上下文信息的缺乏;
为了处理这些问题,作者门提出了RegionSpot
,其间心思维是将来自部分根底模型的方位感知信息与来自ViL模型的语义信息相结合。这种办法的优势在于能够充分运用预练习的常识,一起最小化练习的开支。此外,文中还介绍了一种轻量级的根据注意力机制的常识集成模块,以优化模型功能。
图1展示了区域级视觉了解架构:
(a)表明经过从裁剪区域中提取图画级 ViL 表明并将其合并到检测模型中来学习区域辨认模型。
(b)表明运用很多区域标签对数据集完全微调视觉和文本模型。
(c)表明本文办法,其集成了预练习(冻住)定位和 ViL 模型,着重学习它们的表征相关性。
经过在敞开国际物体辨认的布景下进行的很多试验表明,所提办法相对于曾经的办法取得了显着的功能改善,一起节省了很多的核算资源。例如,运用8个V100 GPU,仅在一天内便可对300万数据对进行training
。终究,该模型在mAP
指标上比GLIP
还要高出6.5%,尤其是在更具挑战性和罕见的类别方面,提高高达14.8%!
办法
如上所述,RegionSpot
旨在运用预练习的ViL模型和部分模型来获取区域等级的表明,以完成鲁棒的物体概念化,特别是在敞开国际的区域辨认中。下面咱们为咱们详细地介绍下。
预备常识
-
Vision-language foundation models
:这些模型运用比照学习的技能将视觉和文本数据映射到一个共享的嵌入空间,以最小化图画和其文本描述之间的间隔,并最大化无关对之间的间隔,例如CLIP
和ALIGN
。 -
Localization foundation models
:这些模型旨在进行图画的部分了解,特别是在方针检测和分割使命中。比如Meta开源的SAM
模型,它是一个里程碑式的工作,已经在大规模数据集进步行了练习,包括超过10亿自动生成的掩模,以及1100万张图画。
运用冻住根底模型的区域文本对齐
这一部分咱们要点关注下怎么获取方位感知符号和图画级语义特征,并经过穿插注意力机制进行区域文本对齐。
-
区域等级的方位感知符号:作者运用手动标示的方针鸿沟框来表明图画的爱好区域。对于这些区域,文中是运用
SAM
模型来提取方位感知符号。这些符号经过一个Transformer
解码器生成,这个进程有点像DETR
的架构,生成一个称为“方位感知”的符号,它包括了有关方针的重要信息,包括其纹路和方位。 -
图画级语义特征图:一幅图画能够包括多个目标和多个类别,捕捉了综合的上下文信息。为了充分运用 ViL 模型,作者将输入图画调整到所需的尺寸,然后输入到 ViL 模型中,取得图画级语义特征图。
-
关联方位感知符号和语义特征图:
RegionSpot
中运用了穿插注意力机制来树立区域等级的方位感知符号和图画级语义特征图之间的联络。在这个机制中,方位感知符号充任查询,而语义特征图充任键和值。这种联系能够经过公式表明:
其间 SS 是得分,FpF_{p} 是方位感知符号的转换,KvK_{v} 和 VvV_{v} 是来自 VV 的线性投影,CC 则是投影特征维度。其实就是常规的 QKV
操作,能够有效地完成信息交融,至于交融的 gap
或许只有天主知道。
-
丢失函数:最终就是生成文本嵌入,经过处理类别特定的文本和提示模板,例如场景中类别的照片,运用文本编码器。然后,履行每个语义符号和其相应文本特征的点积操作,以核算匹配分数。这些分数能够运用
Focal loss
进行监督。
整体来说,办法部分的中心就是怎么从两个不同的根底模型中提取信息,并经过穿插注意力机制完成区域文本对齐,以取得区域等级的语义表明。经过下面的试验部分咱们能够直观感遭到该办法在处理敞开国际的物体辨认问题中体现出色,其提供了丰厚的细节来支撑RegionSpot
。
试验
练习数据
RegionSpot 模型采用了多个包括不同类别标签的数据集,以构建强大的练习环境。这种灵敏的架构答应咱们将独热标签(one-hot labels)替换为类别称号字符串。其间,作者提到了运用了公开可用的检测数据集,一共包括大约300万张图画。这些数据集包括 Objects 365 (O365)、OpenImages (OI) 和 V3Det (V3D)。
-
Objects 365
:大规模的方针检测数据集,包括了365个不同的目标类别,一共有约66万张图画。文中是运用一个经过优化的版别,其间包括超过1000万个鸿沟框,每张图画平均约15.8个注释。 -
OpenImages
:这是现在最大的公共目标检测数据集,包括约1460万个鸿沟框注释,每张图画平均约8个注释。 -
V3Det
:这个数据集经过详细的安排,在类别树中构建了多达13,029个类别。
基线设置
Benchmark
运用了LVIS
检测数据集,该数据集包括1203个类别和19809张图画用于验证。作者着重不仅仅优化在COCO数据集上体现的功能,因为COCO只包括Objects365练习数据集中的80个常见类别,这不能充分评价模型在敞开国际环境中的泛化才能。
完成细节
- 优化器:
AdamW
,初始学习率为2.5 x 10^-5 - 硬件资源:8个GPU上,batchsize 设置为 16
- 超参数:450,000 iters,学习率在350,000次和420,000次迭代时除以10
- 练习战略:
- 第一阶段是运用Objects365来启动区域-词对齐的学习;
- 第二阶段是高档学习,运用来自三个不同的目标检测数据集的丰厚信息来进行区域-词对齐的学习。
效果
能够看出,相对于 GLIP
,RegionSpot
的区域级语义了解才能更强。
总结
简略来说,今日介绍的这篇文章首要奉献是提出了一种有效的多模态交融办法,用于改善图画中区域的语义了解,具有潜在的广泛应用前景。文中提出了将预练习的ViL模型与部分模型相结合的 RegionSpot 架构,以改善区域等级的视觉了解。RegionSpot 的办法旨在优化效率和数据运用方面具有卓越性,避免了从头开始练习的必要。经过很多试验证明,RegionSpot 在敞开国际物体了解范畴的功能显着优于 GLIP 等现有办法。