前语 作为全球核算机范畴尖端的学术会议之一,ICCV2023(International Conference on Computer Vision)世界核算机视觉大会将于本年10月在法国巴黎举办。近来,ICCV发布了论文选用成果,本届会议共有8068篇投稿,接收率为26.8%。
本年,腾讯优图试验室共有16篇论文入选,研讨方向含轻量化模型结构规划、文档了解、深度假造溯源、掌纹生成、人脸隐私维护、无监督反常检测、图画调和化、小样本分散模型范畴自习惯、增量辨认、3D形状生成等研讨方向。
本文转载自腾讯优图
仅用于学术分享,若侵权请联络删除
欢迎重视大众号CV技能攻略,专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。
CV各大方向专栏与各个布置结构最全教程收拾
【CV技能攻略】CV全栈辅导班、根底入门班、论文辅导班 全面上线!!
以下为腾讯优图试验室入选论文概览:
01
从头考虑依据留意力机制的高效模型中的移动模块规划
Rethinking Mobile Block for Efficient Attention-based Models
本文专心于开发现代化、高效且轻量级的模型以用于密集猜测,一起在参数量、核算量和功能之间进行权衡。轻量级CNN模型有倒残差模块(Inverted Residual Block,IRB)作为根底结构,但依据留意力的对应根底模块研讨尚未得到认可。
本文从统一的视点从头考虑了高效的IRB模块和Transformer中的有用组件,将依据CNN的IRB扩展到依据留意力的模型,并抽象出一个残差元移动块(Meta Mobile Block,MMB)用于轻量级模型规划。遵循简略但有用的规划原则,咱们推导出一个现代的倒残差移动模块(Inverted Residual Mobile Block,iRMB),并仅运用iRMB构建一个类似ResNet的高效模型(EMO)用于下流使命。在ImageNet-1K、COCO2017和ADE20K基准测试上的很多试验证明了提出办法的优越性。例如,EMO-1M/2M/5M在ImageNet-1K上达到了71.5、75.1和78.4的Top-1,超过了一起代依据CNN/Attention的模型,一起在参数、功率和准确性上得到了良好的权衡。
论文下载地址:
arxiv.org/pdf/2301.01…
02
一种挑选性区域重视的端到端文档了解模型
Attention Where It Matters: Rethinking Visual Document Understanding
with Selective Region Concentration
本文提出了一种新颖的端到端文档了解模型SeRum,用于从文档图画中提取有价值的要害信息,可用于文档剖析、检索和办公自动化等场景。不同于惯例的多阶段技能计划,SeRum将文档图画了解和图画文字辨认使命统一转换为对感兴趣区域视觉Token集合的部分解码进程,并提出内容感知的Token-Merge模块。
这种机制使模型能够更加重视由查询解码器生成的感兴趣区域,进步了模型辨认的准确性,并加速生成模型的解码速度。文章中还规划了多个针对性的预练习使命,以增强模型对图片内容了解和区域感知才能。试验成果表明,SeRum在文档了解使命上完成了sota功能,并在文本辨认使命上取得了有竞争力的成果。
03
从粗到细:一种学习紧凑型判别表征的单阶段图画检索
Coarse-to-Fine: Learning Compact Discriminative Representation for Single-Stage Image Retrieval
图画检索是从数据库中找到与查询图画视觉类似的图画,依据检索-排序范式的两阶段办法取得了优越的功能,但其需要额定的部分和大局模块,在实际运用中功率低下。为了更好地权衡检索功率和准确性,现有的办法将大局和部分特征交融为一个联合表征以履行单阶段图画检索。但是,遭到复杂的环境影响如布景、遮挡和视角等,这些办法仍具有应战性。
在这项作业中,咱们规划了一个由粗到细的结构CFCD来学习紧凑的特征,用于端到端的单阶段图画检索–只需要图画级标签。本文首要规划了一种新颖的自习惯丢失函数,可在每个小批量样本内动态调整其特征的标准和视点,经过由小到大逐步增加来加强练习进程中的监督和类内紧凑性。此外,咱们还提出了一种比照学习机制,经过困难负采样战略以及挑选杰出的部分描述符来将细粒度语义联系注入大局表明,然后优化大局范围内的类间显著性。广泛的试验成果证明了咱们办法的有用性,咱们的办法在 Revisited Oxford 和 Revisited Oxford 等基准测试中完成了最先进的单阶段图画检索功能。
04
D3G:依据单帧标示探索高斯先验用于视频片段定位
D3G: Exploring Gaussian Prior for Temporal Sentence Grounding with Glance
Annotation
依据文本的视频片段定位使命(Temporal sentence grounding, TSG)旨在给定自然言语查询从未经过修剪的视频中定位出对应的特定片段。最近,弱监督办法与全监督办法比较仍有较大功能差距,而后者需要费力的时间戳标示。在本研讨,咱们致力于减少TSG使命的标示本钱并与全监督办法比较仍坚持具有竞争力的功能。为了完成这个方针,咱们研讨了最近提出的依据单帧标示的TSG使命,其关于每个文本查询,只需要对应的单帧标示信息。
在此设定下,咱们提出了依据单帧标示和动态高斯先验的视频片段定位结构(D3G),其首要由语义对齐组比照学习模块 (SA-GCL) 和动态高斯先验调整模块(DGA)组成。详细来说,SA-GCL模块经过联合运用高斯先验和语义一致性从2D时序图中采样可靠的正样本片段,这有助于对齐文本-视频片段对在联合嵌入空间的表征。此外,为了缓解由单帧标示带来的标示偏置问题并有用建模由多个事件组成的复杂文本查询,咱们进一步提出了DGA模块,其首要担任动态调整高斯先验散布来迫临实在方针片段。咱们在三个具有应战性的基准上广泛的试验验证所提出的D3G的有用性。D3G的功能明显优于最先进的弱监督办法并缩小与彻底监督的办法比较的功能差距。
05
依据比照式伪标签学习的敞开场景深伪溯源办法
Contrastive Pseudo Learning for Open-world Deepfake Attribution
*本文由腾讯优图试验室、上海交通大学一起完成
跟着生成技能的快速开展,关于深度假造人脸的进犯类型溯源问题已经引起了广泛重视。现有的诸多研讨在GAN溯源使命上有了一些进展,但忽略了更具要挟性的人脸替换或表情驱动等进犯类型。此外,敞开场景下存在着很多没有进犯类型标示的假造人脸数据,这部分数据也尚未被充沛运用起来。为了应对这些应战,本文构建了一个名为“敞开场景下深度假造溯源”(OpenWorld-DeepFake Attribution,OW-DFA)的新基准,涵盖了人脸替换、表情驱动、特点修改、人脸替换等20多种干流假造技能,以评估敞开场景下不同假造人脸类型的溯源功能。
一起,本文针对OW-DFA使命提出了一个比照式伪标签学习(Contrastive Pseudo Learning,CPL)算法,包含以下两个部分:1)引进大局-部分投票模块,以修正不同进犯类型发生的假造区域巨细差异;2)规划依据概率的伪标签战略,以缓解在运用无标签数据时类似进犯办法所引起的噪声。此外,本文还将CPL算法进一步与目前广泛运用的预练习和迭代学习技能结合在一起,进一步进步了溯源功能。本文经过很多的试验证明了所提出的CPL办法在OW-DFA基准测试上的优越性,有用促进了深度假造溯源使命的可解释性和安全性,并对深度假造检测范畴有着积极影响。
06
面向掌纹辨认的拟真掌纹生成
RPG-Palm: Realistic Pseudo-data Generation for Palmprint Recognition
*本文由腾讯优图试验室、腾讯微信付出33号试验室、合肥工业大学一起完成
掌纹作为一种安稳且隐私友好的生物特征辨认技能,最近在辨认运用中显示出巨大的潜力。但是,大规划揭露掌纹数据集的缺乏限制了掌纹辨认技能的进一步研讨和开展。在本文中,咱们提出了一种ID可控的拟真掌纹生成模型。第一,咱们引进条件调制模块来进步类内多样性;第二,提出身份感知丢失,以确保不配对练习下生成样本的身份一致性。
一起, 咱们进一步改善了Bezier掌纹线生成战略以确保身份间可区别性。很多的试验成果表明,运用生成掌纹数据预练习能够明显进步辨认模型的功能。例如,咱们的模型在练习/测试 1:1 和 1:3设定下,相较最先进的 BezierPalm经过率进步了 5% 和 14% @FAR=1e-6。当仅运用 10% 的实在数据练习时,咱们的办法仍优于依据ArcFace运用100% 实在数据练习的模型,这表明咱们的办法向无需运用实在数据进行模型练习的掌纹辨认更进了一步。
论文下载地址:
github.com/RayshenSL/R…
07
PartialFace:依据随机频率重量的人脸辨认隐私维护办法
Privacy-Preserving Face Recognition Using Random Frequency Components
*本文由腾讯优图试验室、复旦大学一起完成
本文对躲藏人脸图画视觉特征和改善抗重建进犯才能进行了讨论,并提出一种可供给练习、推理阶段隐私维护的人脸辨认办法PartialFace。本文首要运用人类和模型对不同频域重量的感知差异,经过修剪肉眼可感知的低频重量躲藏图画视觉信息。其次,本文留意到同类办法的隐私维护缺点,即辨认模型精度依靠较大规划的高频重量,而这些重量搭载的冗余信息可能使模型暴露于重建进犯。
为应对这一问题,本文观察到模型留意力在不同频域重量上存在差异,提出在随机挑选的重量组合上练习模型,使模型建立从部分频域信息到整体人脸信息的映射。然后,本文在维持辨认精度的一起,将所需高频重量规划降低到同类办法的1/6,进步了隐私维护功能。经广泛试验验证,本文所提办法可供给显著优于当时先进办法的抗重建才能,一起坚持有竞争力的使命功能。
08
记住正常性:记忆力机制扩大的常识蒸馏无监督反常检测
Remembering Normality: Memory-guided Knowledge Distillation for Unsupervised Anomaly Detection
*本文由腾讯优图试验室、上海交通大学一起完成
本文提出了一种新的无监督反常检测办法,称为Memory-guided Knowledge Distillation (MemKD)。传统依据常识蒸馏的反常检测办法在学习进程中会呈现“正常性忘记”问题,即在仅运用正常数据练习前提下,学生模型却会重构反常特征,且对正常数据中包含的纹路细节很敏感。
为了处理这个问题,MemKD引进了一种新的记忆机制,即正常常识召回模块 (NRM),经过存储正常数据的信息来加强学生模型生成的特征的正常性。一起,MemKD还选用了正常性表明学习战略,构建了一个正常样本集,使NRM能够记忆无反常数据的先验常识,并在后续的查询中进行回想。试验成果表明,MemKD在MVTec AD、VisA、MPDD、MVTec 3D-AD和Eyecandies等五个数据集上取得了良好的作用。
09
学习大局感知核的图画调和化
Learning Global-aware Kernel for Image Harmonization
*本文由腾讯优图试验室、浙江大学一起完成
图画调和化旨在经过以布景为参阅自习惯调整远景色彩来处理组成图画中的视觉不连续问题。现有办法选用远景和布景之间的部分色彩变换或区域匹配战略,忽略邻近先验并将远景/布景独立区别以完成调和化。由此在多样化的远景物体和复杂场景中依然表现有限功能。为处理这个问题,咱们提出了一种新颖的大局感知内核网络(GKNet)完成归纳考虑远距离布景信息的部分区域调和化。
详细来说,GKNet包含调和化核猜测和调和化调制两部分。前者包含用于获取长距离参阅提取器(LRE)和用于交融大局信息与部分特征的多层级调和化核猜测模块(KPB);为了完成更好地挑选相关的长距离布景参阅以进行部分调和化这一方针,咱们在其中还提出了一种新颖的挑选性相关交融(SCF)模块。后者运用猜测得到的调和化核进行远景区域调和化。很多试验证明了咱们的图画调和化办法相关于最先进办法的优越性,例如,完成了 39.53dB PSNR,比相关最佳办法提高+0.78dB;并与 SoTA 办法比较,fMSE/MSE 降低了 11.5%和6.7%。
论文下载地址:
arxiv.org/pdf/2305.11…
10
依据分段内容交融与有向散布一致性的小样本分散模型范畴自习惯
Phasic Content Fusing Diffusion Model with Directional Distribution Consistency for Few-Shot Model Adaption
*本文由腾讯优图试验室、上海交通大学一起完成
在有限样本下练习生成模型是一项具有应战性的使命,现有的办法首要运用小样本模型范畴自习惯来练习网络。但是,在数据极度稀缺的场景下(少于10个样本),生成模型很容易呈现过拟合与内容退化的现象。
为了处理这些问题,咱们提出了一种新颖的依据分段内容交融的小样本分散模型,并提出有向散布一致性丢失,使得分散模型在不同练习阶段学习到不同的方针域信息。详细而言,咱们规划了一种分段练习战略,经过分段的内容交融协助模型在加噪步数较大时坚持源域的内容并学习方针域的风格信息,在加噪步数较小时学习方针域的部分细节信息,然后进步模型对内容、风格和部分细节的把控才能。
此外,咱们引进了一种新的有向散布一致性丢失,能够高效、安稳地确保生成域散布和源域散布的一致性,防止模型过拟合。最终,咱们还提出了一种跨域结构引导战略,在域习惯进程中增强生成图画与原图画结构的一致性。咱们从理论剖析、定性和定量的试验三个方面,有用地证明了所提出办法相较于以往小样本模型自习惯办法的优越性。
11
依据实例及类别监督替换学习的增量辨认
Instance and Category Supervision are Alternate Learners for Continual Learning
*本文由腾讯优图试验室、华东师范大学一起完成
继续学习CL(增量学习)是在从前习得的根底上不断开展复杂行为技能。但是,当时的CL算法往往会导致类级忘记,因为标签信息经常被新常识快速覆盖。这促使人们试图经过最近的自我监督学习(SSL)技能来发掘实例等级的轻视。但是,从前的作业指出,自监督学习方针本质上是在对失真的不变性和保留样本信息之间的权衡,这严峻阻止了作用提高,咱们从信息论的视点从头表述了SSL,经过解开实例级区别的方针,并处理了这种权衡,以促进对失真具有最大程度不变的紧凑表明。
在此根底上,咱们开发了一种新的替换学习范式,以享用实例级和类别级监督的互补优势,然后进步了对忘记的鲁棒性,并更好地习惯每项使命。为了验证所提出的办法,咱们运用类增量和使命增量设置在四个不同的基准进步行了广泛的试验,其中功能的腾跃和彻底的融化研讨证明了咱们建模战略的有用性和功率。
12
依据改善自回归模型的多样3D形状生成模型
Learning Versatile 3D Shape Generation with Improved AR Models
*本文由腾讯优图试验室、清华大学、复旦大学一起完成
我自回归(Auto-Regressive,AR)模型经过对网格空间中的联合散布进行建模,在2D图画生成方面取得了令人瞩目的成果。虽然这种办法已经扩展到3D范畴以完成强大的形状生成,但仍存在两个限制:在体积网格进步行昂贵的核算和网格维度上的含糊自回归次序。
为了战胜这些限制,咱们提出了改善的自回归模型(Improved Auto-regressive Model,ImAM)用于3D形状生成,该模型运用依据潜在向量的离散表明学习,而不是运用体积网格。咱们的办法不仅降低了核算本钱,还经过在更易处理的次序中学习联合散布来保留根本的几何细节。此外,因为咱们模型架构的简略性,咱们能够经过衔接各种条件输入(如点云、类别、图画和文本)将其自然地从无条件生成扩展为条件生成。很多试验证明,ImAM能够组成多个类别的多样化且实在的形状,并达到了最先进的功能水平。
论文下载地址:
arxiv.org/pdf/2303.14…
13
用于弱监督方针定位的类别感知分配变换器
Category-aware Allocation Transformer for Weakly Supervised Object Localization
*本文由腾讯优图试验室、厦门大学一起完成
弱监督方针定位(WSOL)旨在完成,仅给定图画级标签的前提下学习一个方针定位器。最近,依据自留意力机制和多层感知器结构的变换神经网络(Transformer)因其能够捕获长距离特征依靠而在WSOL中崭露头角。美中不足的是,依据Transformer的办法运用类别不可知的留意力求来猜测鸿沟框,然后容易导致混乱和喧闹的方针定位。
本文提出了一个依据Transformer的新颖结构——CATR(类别感知Transformer),该结构在Transformer中学习特定方针的类别感知表明,并为方针定位生成相应的类别感知留意力映射。详细来说,本文提出了一个类别感知模块来引导自留意力特征图学习类别误差,而且供给类别监督信息来辅导其学习更有用的特征表明。此外,本文还规划了一个方针束缚模块,以自我监督的办法细化类别感知留意力求的方针区域。最终,在两大揭露数据集CUB-200-2011和ILSVRC进步行了充沛的试验,验证了本文办法的有用性。
14
SLAN: 用于视觉言语了解的自定位辅助网络
SLAN: Self-Locator Aided Network for Vision-language Understanding
*本文由腾讯优图试验室、南开大学一起完成
学习视觉和言语之间的细粒度交互有助于模型更准确地了解视觉言语使命。但是,依据文本提取要害图画区域进行语义对齐依然具有应战性。大多数现有作业要么运用冻住检测器获得冗余区的方针区域,且提取到的方针区域大多与文本的语义信息无关,要么因为严峻依靠标示数据来预练习检测器而无法进一步扩展。
为了处理这些问题,咱们提出了自定位辅助网络(SLAN),用于视觉言语了解使命,无需任何额定的方针数据。SLAN 由区域过滤器和区域适配器组成,用于依据不同文本定位感兴趣的区域。经过聚合视觉言语信息,区域过滤器挑选要害区域,区域适配器经过文本辅导更新其坐标。经过细粒度的区域-文本对齐,SLAN 能够轻松推行到许多下流使命。它在五个视觉言语了解使命上取得了适当有竞争力的成果(例如,在 COCO 图画到文本和文本到图画检索上分别为 85.7% 和 69.2%,逾越了之前的 SOTA 办法)。SLAM 还展现了对两个方针定位使命的强大的零样本和微调可迁移性。
15
掩码自编码器是高效的类增量学习器
Masked Autoencoders are Efficient Class Incremental Learners
*本文由腾讯优图试验室、南开大学一起完成
类增量学习(CIL)旨在次序学习新类别,一起防止对之前常识的灾难性忘记。在本研讨中,咱们提出运用掩码自编码器(MAEs)作为CIL的高效学习器。MAEs开始是为了经过重构无监督学习来学习有用的表明,它们能够很容易地与监督丢失集成以进行分类。此外,MAEs能够可靠地从随机挑选的补丁中重建原始输入图画,咱们运用这一点更有用地存储曩昔使命的样本以供CIL运用。咱们还提出了双边MAE结构,以从图画等级和嵌入等级交融中学习,然后发生更好的重建图画和更安稳的表明。咱们的试验证实,与CIFAR-100、ImageNet-Subset和ImageNet-Full的最新技能比较,咱们的办法完成了更优越的功能。
16
SMMix:视觉 Transformer 的自驱动图画混合
SMMix: Self-Motivated Image Mixing for Vision Transformers
*本文由腾讯优图试验室、南开大学一起完成
CutMix 是一种重要的增强战略,决议了视觉变换器 (ViT) 的功能和泛化才能。但是,混合图画与相应标签之间的不一致损害了其作用。现有的 CutMix 变体经过生成更一致的混合图画或更准确的混合标签来处理这个问题,但不可防止地会带来深重的练习开支或需要额定的信息,然后破坏了易用性。为此,咱们提出了一种新颖且有用的自鼓励图画混合办法(SMMix),该办法经过练习自身的模型来鼓励图画和标签增强。详细来说,咱们提出了一种最大-最小留意力区域混合办法,该办法丰富了混合图画中的留意力集中对象。然后,咱们引进了一种细粒度的标签分配技能,该技能经过细粒度的监督来一起练习混合图画的输出符号。此外,咱们规划了一种新颖的特征一致性束缚来对齐混合和非混合图画的特征。因为自我鼓励典范的微妙规划,咱们的 SMMix 的明显特点是比其他 CutMix 变体具有更小的练习开支和更好的功能。特别是,SMMix 在 ImageNet-1k 大将 DeiT-T/S/B、CaiT-XXS-24/36 和 PVT-T/S/M/L 的准确率进步了 +1% 以上。咱们的办法的泛化才能也在下流使命和散布外数据集上得到了证明。
论文下载地址:
arxiv.org/abs/2212.12…
欢迎重视大众号CV技能攻略,专心于核算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。
核算机视觉入门1v3辅导班
【技能文档】《从零建立pytorch模型教程》122页PDF下载
QQ沟通群:470899183。群内有大佬担任回答大家的日常学习、科研、代码问题。
其它文章
CV的未来开展方向?平时最喜欢逛的几个地方
练习网络loss呈现Nan处理办法
比Meta「切割一切AI」更万能!港科大版图画切割AI来了:完成更强粒度和语义功能
Segment Anything项目收拾汇总
Meta Segment Anything会让CV没前途吗?
CVPR’2023年AQTC应战赛第一名处理计划:以功能-交互为中心的时空视觉言语对齐办法
6万字!30个方向130篇 | CVPR 2023 最全 AIGC 论文汇总
常识蒸馏最新进展
ICCV2023 | 当标准感知调制遇上Transformer,会碰撞出怎样的火花?
CVPR 2023 | 彻底无监督的视频物体切割 RCF
新加坡国立大学提出最新优化器:CAME,大模型练习本钱降低近一半!
SegNetr来啦 | 逾越UNeXit/U-Net/U-Net++/SegNet,精度更高模型更小的UNet宗族
ReID专栏(二)多标准规划与运用
ReID专栏(一) 使命与数据集概述
libtorch教程(三)简略模型建立
libtorch教程(二)张量的惯例操作
libtorch教程(一)开发环境建立:VS+libtorch和Qt+libtorch
NeRF与三维重建专栏(三)nerf_pl源码部分解读与colmap、cuda算子运用
NeRF与三维重建专栏(二)NeRF原文解读与体烘托物理模型
NeRF与三维重建专栏(一)范畴布景、难点与数据集介绍
反常检测专栏(三)传统的反常检测算法——上
反常检测专栏(二):点评方针及常用数据集
反常检测专栏(一)反常检测概述
BEV专栏(二)从BEVFormer看BEV流程(下篇)
BEV专栏(一)从BEVFormer深化探求BEV流程(上篇)
可见光遥感图画方针检测(三)文字场景检测之Arbitrary
可见光遥感方针检测(二)首要难点与研讨办法概述
可见光遥感方针检测(一)使命概要介绍
TensorRT教程(三)TensorRT的安装教程
TensorRT教程(二)TensorRT进阶介绍
TensorRT教程(一)初度介绍TensorRT
AI最全材料汇总 | 根底入门、技能前沿、工业运用、布置结构、实战教程学习
核算机视觉入门1v3辅导班
核算机视觉沟通群
聊聊核算机视觉入门