ICCV2021|你以为这是一个填色模型?其实我是检索模型!

【写在前面】

言语引导的人称查找的关键是在视觉输入和文本输入之间树立跨模态相关。现有办法侧重于规划多模态留意机制和新的跨模态丢失函数来隐式学习这种相关。作者提出了一种根据色彩推理(LapsCore)的言语引导人查找表明学习办法。它能够清晰地双向树立细粒度跨模态相关。具体来说,规划了一对双子使命,图画上色和文本完结。在前一个使命中,学习富文本信息以对灰度图画进行上色,后一个使命要求模型了解图画并完结标题中的五颜六色文字空缺。这两个子使命使模型能够学习文本短语和图画区域之间的正确对齐,然后能够学习丰厚的多模态表明。在多个数据集上的很多试验证明了该办法的有效性和优越性。

1. 论文和代码地址

ICCV2021|你以为这是一个填色模型?其实我是检索模型!

LapsCore: Language-guided Person Search via Color Reasoning

论文地址:ieeexplore.ieee.org/document/97…

代码地址:未开源

2. Motivation

ICCV2021|你以为这是一个填色模型?其实我是检索模型!

言语引导的人查找在智能监控中有着宽广的运用远景,因而引起了人们的广泛关注。如上图所示,它旨在从与自然言语描绘查询最匹配的大型图画数据库中检索人物。与根据图画和根据特点的person ReID比较,言语查询比图画查询更简略获得,而且供给了比特点更全面和准确的描绘。

在言语引导的人员查找使命中存在两个首要应战。首要,由于跨模态间隙,很难核算视觉文本的真实性并构建图画-文本对齐。其次,人员查找是一项细粒度的检索使命:(1)文本为方针人供给非常具体的描绘;(2)人物形象在外观上存在明显的跨类差异。

在言语引导人查找的开创性作业之后,人们投入了很多精力来应对这项使命的应战。一些作业规划高档模型,学习更好的图画和文本表明。另一些作业中开发了留意力机制,以树立部分图画-文本相关。还有一些作业提出了新的丢失函数来缩小视觉和文本特征之间的间隔。然而,一切这些办法都隐含地学习了跨模态部分相关,这对模型的学习能力留下了严厉的测验。从很多的言语引导人查找试验中,作者观察到色彩在检索中起着重要作用。面对个人图画,人类倾向于承受视觉色彩来提取外观信息,然后了解与这些色彩相关的衣服或装饰品。因而,作者遭到启示,提出了一种新的表明学习办法LapsCore,经过求解色彩推理子使命,引导模型清晰学习细粒度跨模态相关。

如上图所示,榜首个子使命,文本引导图画上色(IC),是根据其文本描绘对灰度图画进行上色。在该使命中,模型能够正确勘探文本中丰厚的色彩信息,并将其与相应的图画区域对齐。例如,在上图中,不只需求提取单词“red”,还需求将“shirt”的语义与“red”配对,而且图画中表明“shirt”的空间区域应为红色。因而,能够构造文本到图画的部分相关。关于相反方向的图画到文本,规划了另一个子使命图画引导文本完结(TC)。具体来说,在每个描绘语句中,删去一切色彩词,这些空缺需求运用成对的五颜六色图画来完结。这样,有效的图画区域能够明显地表明,然后与相关的文本短语相相关。尽管色彩推理使命关于人类来说并不杂乱,但它们需求模型的全面跨模态了解来处理。经过运用这两个子使命,能够在主使命图画文本匹配中运用更好的多模态表明。此外,作者提出了另一个“色彩”推理子使命ICf\mathrm{IC}_{f},旨在运用字幕完结缺失通道的图画特征,该使命将IC使命从图画色彩通道完结推广到特征语义通道完结。给定输入图画的特征表明,作者部分屏蔽了一些通道,并运用标题来康复它们。在此过程中,能够勘探和运用包含色彩在内的一般文本信息。因而,在色彩不是标题中的首要信息的情况下,它赋予了本文的办法鲁棒性。

为了处理榜首个子使命IC,作者将其转化为像素回归问题。将原始图画处理为灰度图画作为输入,并运用成对字幕康复原始图画。TC使命能够被视为视觉问答问题,其间问题是一个带有色彩词空缺的语句,答案是候选色彩之一。在图画特征通道完结子使命中,作者首要在个人ID分类使命上预练习特征提取器,然后屏蔽视觉特征图,以便运用字幕进行康复。作者在言语辅导的人员查找数据集cuhk-pedes进步行了广泛的试验。试验证明,该办法能够明显进步功能。对通用图画文本检索数据集的验证也证实了其有效性,包含加州理工大学UCSD Birds、Oxford-102 Flowers、Flickr30k和MSCOCO。

综上所述,本文作业的首要贡献包含:

1)提出了一种新的表明学习办法LapsCore,以便于清晰学习细粒度跨形式相关。它经过求解色彩来作业推理子使命、图画上色、文本完结和图画特征通道完结。

2)在具有应战性的言语辅导的人员查找数据集CUHK-PEDES进步行了广泛的试验。事实证明,LapsCore能够有效地带来可观的功能提升并完成最先进的成果。

3)所提出的办法被证明是通用的,能够归入不同的基线并带来改进。在其他跨模态检索使命中也证实了该办法的有效性。

3. 办法

ICCV2021|你以为这是一个填色模型?其实我是检索模型!

在本节中,将介绍所提出的办法LapsCore。如上图(左部分)所示,LapsCore经过两个色彩推理子使命(文本引导图画上色(IC)和图画引导文本完结(TC))生成代表性的多模态特征。

3.1. Text-guided Image Colorization

IC使命旨在运用文本描绘对灰度图画进行上色,这些灰度图画从原始图画处理为灰度图画。在此使命中,模型努力了解标题,并探索用于上色的有效信息。因而,能够构建文本到图画的相关。

整个使命能够转化为像素回归问题。多模态回归模型表明为ficf_{i c},以灰色图画IgrayI_{g r a y}和描绘语句TcolorT_{\text {color }}对作为输入,并输出康复的图画。将原始五颜六色图画I设置为方针,并运用像素均方误差丢失Lic\mathcal{L}_{i c}

Lic=∥fic(Igray,Tcolor)−Icolor∥22\mathcal{L}_{i c}=\left\|f_{i c}\left(I_{g r a y}, T_{c o l o r}\right)-I_{\text {color }}\right\|_{2}^{2}

为了处理这项使命,作者选用了U-Net结构,该结构对灰色图画进行编码,并经过交融文本信息将其解码为五颜六色图画,如上图(左上角)所示。在编码阶段,咱们从输入中提取多尺度视觉特征。将比例为s的特征图表明为Ys∈Rhswscs\mathbf{Y}^{s} \in \mathbb{R}^{h_{s} \times w_{s} \times c_{s}},其间h、w、c别离表明高度、宽度和通道。在文本分支中,描绘语句被符号并输入到嵌入层。然后,LSTM提取文本特征X∈RN\mathbf{X} \in \mathbb{R}^{N}

在解码阶段,视觉特征应与文本特征交融以进行上色。因而,咱们规划了多模态SE块,运用通道留意机制,以便文本信息能够影响图画特征通道。多模SE块中的操作如上图所示(右上角的灰色虚线框)。首要,视觉特征图Y经过全局池化被紧缩为特征向量vs∈Rcs\mathbf{v}^{s} \in \mathbb{R}^{c_{s}}。与文本特征向量X concat,然后将Vs\mathbf{V}_{s}馈入两层多层感知器和softmax层以生成留意向量As∈Rcs\mathcal{A}^{s} \in \mathbb{R}^{c_{s}}。最后,运用As\mathcal{A}^{s}Ys\mathbf{Y}^{s}更新为多形式表明Zs\mathbf{Z}^{s}

Zis=Yis⋅Ais\mathbf{Z}_{i}^{s}=\mathbf{Y}_{i}^{s} \cdot \mathcal{A}_{i}^{s}

其间下标i∈{1,2,…,cs}i \in\left\{1,2, \ldots, c_{s}\right\}表明通道的索引,Zis,Yis∈Rhsws,Ais\mathbf{Z}_{i}^{s}, \mathbf{Y}_{i}^{s} \in \mathbb{R}^{h_{s} \times w_{s}}, \mathcal{A}_{i}^{s}是标量。

U-Net的解码器由几个反卷积层组成。首要,编码器中的最后一个Ys\mathbf{Y}^{s}穿过榜首个反卷积层,以生成特征映射Ws∈Rhsws\mathbf{W}^{s} \in \mathbb{R}^{h_{s} \times w_{s}}。每个Ws\mathbf{W}^{s}与SE块输出Zs\mathbf{Z}^{s}串联,并经过反卷积层生成更大的Ws\mathbf{W}^{s}。作为最后一步,给定最后一个反卷积层中的Ws\mathbf{W}^{s},运用简略的上采样和卷积来预测方针。

3.2. Image-guided Text Completion

双重使命TC需求运用五颜六色图画来完结带有五颜六色单词空缺的文本描绘。关于每个语句,删去一切色彩单词以创立 “无色” 描绘。这些空位应该经过分析不同图画区域的远景色来填充。这样,能够桥接图画到文本的关系。

此使命能够视为VQA问题。VQA模型,表明为ftcf_{t c},以五颜六色图画,IcolorI_{\text {color }}和带有空缺的文本语句TqT_{q}作为输入,并输出缺少的色彩单词。方针答案是从原始描绘中删去的色彩单词TaT_{a}。选用典型的交叉丢失Ltc\mathcal{L}_{t c},公式为:

Ltc=CrossEntropy(ftc(Icolor,Tq),Ta)\mathcal{L}_{t c}= CrossEntropy \left(f_{t c}\left(I_{c o l o r}, T_{q}\right), T_{a}\right)

作者参阅了盛行的VQA模型 (双线性留意网络 (BAN)) 的结构来处理TC使命。见上图(右下角),视觉和文本特征由MobileNet和LSTM从输入数据中提取。将文本特征表明为X∈RN\mathbf{X} \in \mathbb{R}^{N \times \rho}和视觉特征为Y∈RM\mathbf{Y} \in \mathbb{R}^{M \times \phi},其间N是序列长度,是LSTM输出维度,表明MobileNet输出的通道号,M=hw是空间维度的乘积。给定两个模态特征X和Y,经过核算特征patch之间的含糊度分数生成若干双线性留意力求Ag\mathcal{A}_{g},公式如下:

Ag=softmax⁡(((1⋅pg⊤)∘X⊤U)V⊤Y)\mathcal{A}_{g}=\operatorname{softmax}\left(\left(\left(\mathbf{1} \cdot \mathbf{p}_{g}^{\top}\right) \circ \mathbf{X}^{\top} \mathbf{U}\right) \mathbf{V}^{\top} \mathbf{Y}\right)

其间U∈RNK\mathbf{U} \in \mathbb{R}^{N \times K}V∈RMK\mathbf{V} \in \mathbb{R}^{M \times K}是投影矩阵,1∈R\mathbf{1} \in \mathbb{R}^{\rho}是一个全一向量,pg∈RK\mathbf{p}_{g} \in \mathbb{R}^{K},其间g表明留意力求索引,Ag∈R\mathcal{A}_{g} \in \mathbb{R}^{\rho \times \phi}00表明Hadamard积。

在留意力求的协助下,X和Y交融成联合表明。残差学习办法用于进步表征能力。在第g个残差块中,输出Fg+1∈RK\mathbf{F}_{g+1} \in \mathbb{R}^{K \times \rho}的核算公式为:

Fg+1=P⊤BAN⁡g(Fg,Y;Ag)⋅1⊤+Fg\mathbf{F}_{g+1}=\mathbf{P}^{\top} \operatorname{BAN}_{g}\left(\mathbf{F}_{g}, \mathbf{Y} ; \mathcal{A}_{g}\right) \cdot \mathbf{1}^{\top}+\mathbf{F}_{g}

其间1∈R\mathbf{1} \in \mathbb{R}^{\rho}是一个全一向量,投影矩阵为P∈RKC\mathbf{P} \in \mathbb{R}^{K \times C}。经过将N设置为K,将X用作初始输入F0\mathbf{F}_{0}。生成中心表明的函数,定义为fg=BANg(Fg,Y;Ag)\mathbf{f}_{g}=\mathbf{B A N}_{g}\left(\mathbf{F}_{g}, \mathbf{Y} ; \mathcal{A}_{g}\right),其间fg∈RC\mathbf{f}_{g} \in \mathbb{R}^{C},其第k个元素核算为:

fg,k=(Fg⊤U′)k⊤Ag(Y⊤V′)k\mathbf{f}_{g, k}=\left(\mathbf{F}_{g}^{\top} \mathbf{U}^{\prime}\right)_{k}^{\top} \mathcal{A}_{g}\left(\mathbf{Y}^{\top} \mathbf{V}^{\prime}\right)_{k}

其间U′∈RNK,V′∈RMK,(X⊤U′)k∈R,(Y⊤V′)k∈R\mathbf{U}^{\prime} \in \mathbb{R}^{N \times K}, \mathbf{V}^{\prime} \in \mathbb{R}^{M \times K},\left(\mathbf{X}^{\top} \mathbf{U}^{\prime}\right)_{k} \in \mathbb{R}^{\rho},\left(\mathbf{Y}^{\top} \mathbf{V}^{\prime}\right)_{k} \in \mathbb{R}^{\phi},矩阵的下标k表明列的索引。

给定最后一个残差块输出的联合特征表明,选用多层感知器(MLP)分类器预测每个单词空缺的色彩类别。

3.3. Generalized IC: Feature Channel Completion

ICCV2021|你以为这是一个填色模型?其实我是检索模型!

五颜六色图画由3个通道“YCbCr”组成,灰度图画是删去两个色彩通道“Cb”和“Cr”的成果。重新考虑IC使命,其目的是运用文本色彩信息来康复两个缺失的通道。尽管这种办法能够经过色彩桥接跨模态相关,但当色彩在描绘中很小时(例如,在MSCOCO数据会集),可能无法有效地学习文本信息。因而,咱们提出了一种广义的IC,表明为ICf\mathrm{IC}_{f},它运用文本来完结图画特征的缺失通道。

如上图所示,ResNet18在辨认使命中预练习,以从图画中提取丰厚的表明,然后“冻结”为特征生成器。作者屏蔽了图画特征的一些通道,并将屏蔽后的特征输入到完结模型中,以完好的特征为方针。ICf\mathrm{IC}_{f}中的完井模型和丢失函数与IC中的相同,只是输入和输出比例相应地调整。

3.4. Incorporation

该办法能够作为一种多模态表明学习办法归入盛行的图画文本匹配算法。交叉模态投影匹配和分类(CMPM/C)模型选用了通用结构,该结构别离选用LSTM和MobileNet作为文本和视觉特征提取器。在这里选择CMPM/C作为跨形式匹配模块来完成LapsCore,而且它能够很简略地推广到该结构的其他办法。为了兼并,作者删去了CMPM/C中的特征提取层,替换为IC和TC模块的表明层,如图2的左部分所示。将CMPM/C中的匹配丢失定义为Lcmp\mathcal{L}_{c m p},然后将/总体多使命丢失L核算为:

L=Lcmp+1Lic+2Ltc\mathcal{L}=\mathcal{L}_{c m p}+\lambda_{1} \mathcal{L}_{i c}+\lambda_{2} \mathcal{L}_{t c}

其间1,2∈R+\lambda_{1}, \lambda_{2} \in \mathbb{R}^{+}是平衡每个子使命重要性的标量因子。将ICf\mathrm{IC}_{f}兼并到CMPM/C的方式类似,多使命丢失写为:

L=Lcmp+3Licf\mathcal{L}=\mathcal{L}_{c m p}+\lambda_{3} \mathcal{L}_{i c_{f}}

其间3∈R+\lambda_{3} \in \mathbb{R}^{+}是一个平衡因子。

4.试验

ICCV2021|你以为这是一个填色模型?其实我是检索模型!

上表展现了本文办法和SOTA成果的比照成果。

ICCV2021|你以为这是一个填色模型?其实我是检索模型!

上表展现了本文提出的不同模块对试验成果的影响。

ICCV2021|你以为这是一个填色模型?其实我是检索模型!

给定相同的言语查询,基线(CMPM/C)和本文的办法(CMP+IC&TC)的检索成果如上图所示。比较之下,本文的办法更有效地检索匹配的人(榜首行)。它还提醒了LapsCore使模型对色彩更敏感,然后使检索成果更合理。

ICCV2021|你以为这是一个填色模型?其实我是检索模型!

上图展现了本文办法对不同的图片进行上色的成果。

ICCV2021|你以为这是一个填色模型?其实我是检索模型!

上图展现了对上色模块改为其他办法的可视化。

ICCV2021|你以为这是一个填色模型?其实我是检索模型!

上表展现了这些变体的功能。

ICCV2021|你以为这是一个填色模型?其实我是检索模型!

ICCV2021|你以为这是一个填色模型?其实我是检索模型!

上表展现了在其他图文检索数据集进步行检索的试验成果。

5. 总结

在本文中,作者提出了LapsCore,它运用两个色彩推理子使命来改进言语引导的人查找的表明学习。榜首种办法旨在运用文本信息对灰度图画进行上色。在双向上,运用五颜六色图画来完结标题中的五颜六色文字空缺。此外,作者提出了完好的视觉特征通道,适用于一般的图画文本匹配使命,其间色彩在标题中不占主导地位。定量和定性试验成果以及广泛的融化研讨表明了该办法的优越性。


已树立深度学习大众号——FightingCV,关注于最新论文解读、基础知识稳固、科技新闻速递,欢迎大家关注!!!

FightingCV沟通群里每日会发送论文解析,进行学术沟通,加群请添加小帮手wx:FightngCV666,备注:区域-学校(公司)-称号

面向小白的顶会论文核心代码学习:github.com/xmu-xiaoma6…

本文由mdnice多平台发布