计算机视觉范畴三大顶会之一的 CVPR 本年现已开奖啦。
本年的 CVPR 将于六月在加拿大温哥华举行,和从前一样,字节跳动技能团队的同学们收成了不少中选论文,掩盖文本生成图画、语义切割、方针检测、自监督学习等多个范畴,其间不少作用在所属范畴达到了 SOTA(当前最高水平)。
一起来看看这些作用吧~
一个简练的文本监督语义切割结构
A Simple Framework for Text-Supervised Semantic Segmentation
这项作业由字节跳动商业化技能团队与上海交通大学、早稻田大学协作完结。
文本监督语义切割是一个新颖的研讨课题,它能够经过图画-文本比照学习的办法取得语义切割成果。可是,该范畴之前的办法运用了专门规划的网络结构(而非通用的主干网络)。
本文标明了最基本的图文预练习模型 CLIP 自身就具有文本监督语义切割才能。首要,咱们揭示了原版 CLIP 模型在定位和切割上的缺失,由于它的优化是由密布对齐的视觉和言语特征驱动的。其次,咱们提出部分对齐(LoDA)的学习办法来处理这个问题,让 CLIP 的优化由稀少的部分标明进行驱动。终究,咱们提出了一个简略的切割结构(SimSeg)。LoDA 和 SimSeg 共同改进了 CLIP,然后得到精密精确的语义切割成果。
咱们的办法在 PASCAL VOC 2012、PASCAL Context 和 COCO 数据集上的体现显着优于之前最先进的办法。
Project page:
github.com/muyangyi/SimSeg
Clover: 共同的视频-文本对齐及交融预练习模型
Clover: Towards A Unified Video-Language Alignment and Fusion Model
这项作业由字节跳动智能创造团队与厦门大学协作共同完结。
适用于多种视频了解下流使命(如文本检索视频、视频问答等)的视频-文本预练习模型是一个重要研讨问题。近期的首要研讨作业都选用单模态特征编码器上堆叠一个跨模态特征编码模块的结构,并经过比照式预练习使命进行模型练习。这些计划具有较好的通用性,可是,作者研讨发现这些模型不能一起较好地对齐各模态特征且对跨模态特征较好地交融。
因而,作者团队提出了Clover 视频文本预练习计划来进行优化。沿袭单模态特征编码器+跨模态特征编码模块的结构,本文在 Clover 中引入了一种三模态对齐的预练习使命,行将视频模态,文本模态以及视频文本交融模态在特征空间进行对齐。作者借助对练习样本的语义 masking 策略来增强三模态对齐练习的作用,一起引入了 pair-wise ranking loss 来辅佐更精密的 pair-wise 特征对齐。此外,Masking Language Modeling 的练习思维被用于对跨模态特征交融模块的练习。
经过一系列视频了解下流使命上的作用评估,Clover 视频-文本预练习模型在 DiDeMo、MSRVTT 和 LSMDC 三个文本-视频检索使命上取得了 zero-shot 及 finetune performance 的最佳体现;在 8 个主流的视频问答 benchmark 上也达到了新的 state-of-the-art。
arXiv:
arxiv.org/pdf/2207.07…
Github:
github.com/LeeYN-43/Cl…
FreeSeg:共同、通用、开域的图画切割
FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation
这篇作业由字节跳动智能创造团队和中科院自动化所共同完结。
最近,开域图画切割能够完结恣意类别的依据文本的描绘的切割,将切割系统推广到更通用的使用场景。可是,现有的办法致力于为特定的切割使命规划专门的架构或参数。这些定制的规划范式导致各种切割使命之间的碎片化,然后阻止了切割模型的共同性。
因而,在本文中,作者团队提出了通用结构 FreeSeg,用于完结共同、通用、开域的图画切割。FreeSeg 经过 One-Shot Learning 优化了一个 All-in-One 网络,并选用相同的架构和参数在推理过程中无缝处理不同的切割使命,包含语义,实例和全景切割。
此外,自适应提示学习有助于共同模型捕获使命感知和类别灵敏概念,进步了多使命和多种场景中的模型鲁棒性。
在 COCO、ADE 等数据集上的广泛试验成果标明,FreeSeg 在三个开域切割使命的功能和泛化方面完结了新的最先进的成果。
arXiv:
arxiv.org/abs/2303.17…
project page:
FreeSeg.github.io
InstMove:以方针为中心的视频切割的实例运动
InstMove: Instance Motion for Object-centric Video Segmentation
这篇作业由字节跳动商业化技能团队与约翰霍普金斯大学、华中科技大学协作完结。
这篇论文首要研讨如安在以物体为中心的视频切割使命(包含 VIS、VOS、MOTS)中运用物体运动信息。
现有的视频切割算法一般依靠方针的外观特征进行盯梢和切割,关于被遮挡或快速移动的物体十分灵敏。物体的运动信息可用于处理这个问题,但之前依据光流的运动模型在物体遮挡或快速移动时体现欠安,而常用于 MOT 使命中的恒速或卡尔曼滤波模型过于简化了物体的运动,忽略了物体的形状和形变信息。
为此,作者提出了运用 InstMove,一个依据 memory bank 的实例等级(instance-level)运动猜测模型来猜测方针对象的方位和形状。这个运动猜测模型能够直接刺进大部分实例等级的视频切割使命,帮助已有视频切割模型取得更好的体现,尤其是在遮挡和快速运动的场景下。
试验证明,在 VIS、VOS、MOTS 三个下流视频切割使命的五个数据集上,将 InstMove 刺进到现有 SOTA 模型能够进一步带来 1~5 个点的进步。
arXiv:
arxiv.org/abs/2303.08…
code:
github.com/wjf5203/VNe…
文本驱动的敞开词汇三维场景了解
Language-driven Open-Vocabulary 3D Scene Understanding
这篇作业由字节跳动商业化技能团队与香港大学 CVMI Lab 协作完结。
敞开词汇三维场景了解旨在辨认未标示的新颖类别。现在 2D 敞开词汇检测现已有成功的办法,可是他们都依靠爬取互联网上海量成对的图片和文字进行练习,或许使用已有的 2D 大模型。可是成对的 3D 数据和自然言语并不能直接从互联网上免费获取,需求昂贵的人工标示,然后也难以练习大模型。
为处理该问题,作者团队提出了一种结合点云和自然言语的新范式PLA (Point-Language Assocation),经过图片提取 2D 多模态大模型的常识并赋予 3D 点云,让 3D 模型也能够了解自然言语并辨认数据集标示以外的类别。PLA 首要经过用 3D 点云对应的 2D 图画作为 2D 多模态大模型的输入,抽取关于图画的言语描绘,然后使用图片和点云之间的投影联系,将图片的描绘相关到 3D 点云。特别的,为了提供关于 3D 点云不同粒度的言语描绘,作者团队提出了场景级,视角级和实例级三种多粒度的 3D 点云-自然言语相关的办法。
PLA 在敞开词汇三维语义切割和实例切割使命上大幅度超过曾经的基线办法,显着进步了已有模型在未标示类别的语义了解和定位才能,促进达到敞开国际检测的意图,分享来自多模态大模型范畴的发展。
arXiv:
arxiv.org/pdf/2211.16…
code:
github.com/CVMI-Lab/PL…
project page:
dingry.github.io/projects/PL…
面向产品实体级标明的多模态预练习办法
Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce
这篇作业由字节跳动商业化技能团队与北京大学协作完结。
文章提出了一种旨在学习产品实体级标明(Instance-Level Representation)的多模态模型ECLIP,在电商范畴的许多下流使命中功能超过了传统的多模态学习办法。
现在在自然图画中的视觉言语学习中,现已出现类似 CLIP 这样的基础模型。其依据大规划的图画-文本对来学习一个通用多模态标明,然后在不同的视觉言语使命中取得了显着的进步。可是,咱们却不能直接在电子商务范畴中运用这些模型。下图显现了自然图画和电商范畴的产品图片的不同特性:
关于自然图画,一般其大多数像素与文本的语义内容相关。可是,在电子商务范畴中,这种相关性并不显着。例如,“煎锅”或“咖啡机”只占整个图画的一小部分, 图画中的前景物体是由它所附带的文本指定的。因而,要为产品图片学习到一个比较鲁棒和通用的标明,咱们必须使得模型能够依据产品的文本描绘,定位到特定的图画区域(产品实例)上。
因而,本文提出了 ECLIP,其引入了一个 instance decoder 结构来提取图画中和产品实体相关的标明。Decoder 中包含了由用户指定的 instance query,用于寻觅一张图片中和 query 相关的 prompt 内容相关的产品实体。
另外,作者团队注意到在电商范畴中,一个产品的图片一般来自不同的源头。例如产品详情页、产品广告视频,以及买家的评论等等。这些图片因相机视角或场景的改动而有所不同,可是他们都包含相同的产品实例。本文据此规划了 inter-product 和 intra-product learning 两个特别的预练习代理使命。
经过在 100M 的电商数据中进行预练习,ECLIP 在多个电商下流使命中超过了传统的多模态学习办法。
依据 Mano 参数和 Mesh 交互的单图画双手 3D 重建
MeMaHand: Exploiting Mesh-Mano Interaction for Single Image Two-Hand Reconstruction
本篇论文由字节跳动智能创造团队独立完结,文章提出了一种包含手部参数和非参数交互的双手重建网络结构,在双手数据集上达到了 SOTA 作用。
针对手重建使命提出的现有办法一般参数化通用 3D 手模型或直接猜测手部顶点方位。由手形状和旋转姿势组成的 MANO 参数标明更稳定,而非参数办法能够猜测更精确的顶点方位。
在本文中,咱们一起从单个 RGB 图画重建手部定点并估量两只手的 MANO 参数,以充分使用两种手标明的优点。为了完结这一方针,咱们提出了新颖的 Mesh-Mano 交互块 (MMIB),它将顶点方位和 MANO 参数作为两种查询符号。
MMIB 由一个用于聚合部分信息的图卷积残差块和两个具有远程依靠联系建模才能的 Transformer 编码器组成。Transformer 编码器装备了不同的非对称注意力掩码,别离对两只手内部和它们之间进行注意力建模。此外,咱们引入了网格对齐修正模块以进一步增强手部网格与图画之间的对齐。
在 InterHand2.6M 数据基准上进行的许多试验证明了咱们的办法能达到 SOTA 作用。
arXiv:
arxiv.org/abs/2303.15…
依据元学习的对未见组合健壮的参阅图片方针切割结构
Meta Compositional Referring Expression Segmentation
这篇作业由字节跳动商业化技能团队与新加坡科技与规划大学协作完结。
文章提出了在参阅图片方针切割(Referring Expression Segmentation, RES) 范畴关于进步模型对言语元素可组合性(Language Compositionality)健壮性的处理计划。
参阅图片方针切割这个使命是指在给定图片中依据文字表述猜测出对应物体的 mask. 尽管这个使命现已有不少的作业, 但现在的作业都没有关注言语元素可组合性这个问题。这个问题指的是模型在练习会集见过原子的言语元素,没有见过对应的组合,在测验集遇到这种未见组合无法精确了解的问题。
如下图中的比方所示,模型在在练习会集见过 dark 和 coffee 这两个单词,但没见过 dark coffee 这个组合。当模型在测验时遇到这个组合,出现无法了解的状况,然后猜测失利。
因而在这项作业中,为了进步模型对这种未见组合的体现,作者团队从元学习的视点提出了一个新颖的结构, 这个结构只改动模型的练习办法,因而能够无缝的和现有模型结合起来去进步他们的体现。
首要作者剖析了这个使命中现有文字表达首要的三种组合办法,即单词与单词的组合,单词与词组的组合,词组与词组的组合,可见下图中的比方。
为了进步模型对这三种未见组合的体现,作者的结构做了如下规划:
先将练习集分成四个部分,其间一个子集是随机区分的。依据这个子集,使得剩余三个子会集,每个子集对应于随机区分的子集都含有一种未见的组合办法。将模型在随机区分的子集上先做练习, 然后在剩余三个子集上做测验,依据测验成果去更新模型,使得模型去学习泛化的常识,然后能够更好的处理的未见的言语组合。
经过这样改动模型的练习办法,作者团队有用的进步了模型对未见组合的体现,而且在现有的数据集上取得了显着的进步。
可驱动的 3D 头像生成
OmniAvatar: Geometry-Guided Controllable 3D Head Synthesis
这篇作业由字节跳动智能创造团队和新加坡国立大学协作完结。
这篇作业提出了一个全新的几许引导的 3D 头像组成模型 OmniAvatar。咱们的网络练习只需求单视角图片就能够组成多样的外观以及丰厚可信的动态细节,在坚持人物共同的一起,自由操控烘托视点,头型,表情以及脖子和下巴的视点。
为了达到这样的解偶操控,咱们首要依据参数化的 3D 人头模型 FLAME,界说了一个隐式的带语义的符号间隔函数(SDF, signed distance function)。这个函数建立了观察空间和正则空间的可微分的 3D 点到点映射。由此咱们可先使用 3D GAN(EG3D)的模型结构,在正则空间下生成契合预界说表情和头型的 3D 人头几许和外观,然后再依据咱们的隐式映射函数形变到观察空间下,生成方针表情和头型。为进步操控的精确度,咱们练习网络的时候要求生成的几许和底层的 FLAME SDF 尽量接近,一起生成图画里猜测出来的表情系数需求契合咱们输入的方针表情参数。在此基础上,咱们还提出了依据表情的动态细节组成,进一步进步了动画的传神度。
咱们的模型定性和定量都超越了从前的 2D/3D 可控图画生成网络,不仅能够生成许多传神的 3D 头像动画,也支撑从单视角图画或许视频里重建可驱动的个性化 3D 头像。
arxiv:
arxiv.org/abs/2303.15…
360 卡通人物生成
PAniC-3D: Stylized Single-view 3D Reconstruction from Portraits of Anime Characters
这篇作业由字节跳动智能创造团队和马里兰大学协作完结。
传统的 3D 人像重建作业一般只适用于真人的图片,而在动漫人物的 3D 重建方向的探究较少。在这篇文章中,研讨者们探究了第一个依据 3D GAN 的 2D-3D 动漫人物重建模型。作者们贡献了两个卡通人物练习集(1) Vtuber Illustrations Dataset和(2) Vroid 3D Models Dataset。
第一个数据集用于练习 image translation 模型做 2D 卡通到 3D 动漫烘托风格的转化。由于卡通草稿图与 3D 烘托图存在风格上的不共同(例如草稿图中存在描边),作者们发现这一风格转化的步骤是后续的 3D 重建所必要的。
第二个数据集用于练习一个烘托图到 3D 模型的重建模型。该重建模型为一个条件 3D GAN (依据 EG3D)。其输入为一张正面的烘托图,输出则为一个 feature volume grid(和 PanoHead 相同的自研 tri-grid 表征)。
arXiv:
arxiv.org/abs/2303.14…
code:
github.com/ShuhongChen…
3D 全头 360 度图画组成
PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360◦
这篇作业由字节跳动智能创造团队和威斯康辛麦迪逊大学协作完结。
3D GAN 网络能够组成高质量的人物头像,一起能够操控视角坚持人物的共同性。但从前的 3D GAN 一般只能生成前脸,而且无法在大视点烘托下坚持头像共同性。
这篇作业提出了PanoHead, 初次完结了能 360 度全视点组成人头的 3D GAN 网络。咱们的网络练习只需求单视角图片就能够组成多样的外观(比方波浪发,爆炸头)以及 3D 全头几许,一起坚持360度的烘托共同性。为此,咱们在之前的 3D GAN (EG3D)结构的基础上,提出了 3 个立异性的拓展。
首要,咱们对练习图画集弥补了大视点包含后脑勺的图画,一起提出了自适应的图画对齐(image alignment)模块,使得大视点图片在无法有用检测出人脸关键点的状况下也能和前脸图画对齐用于 GAN 网络练习。其次,咱们提出了 tri-grid 的空间标明,比从前的 tri-plane 更能有用的对前脸和后脑特征解耦。终究咱们还对练习图画进行了前景切割,并练习网络让其能够组成 RGB 图画的一起生成前景的切割。
PanoHead 支撑恣意视点烘托,而且也能从一张单视角图片中重建出 3D 全头,包含它的几许以及外观。
arxiv:
arxiv.org/abs/2303.13…
PlenVDB:一种用于快速练习和烘托的、内存高效的依据 VDB 的辐射场
PlenVDB: A Memory Efficient VDB-Based Radiance Fields for Fast Training and Rendering
这篇作业由字节跳动智能创造团队与上海交通大学协作完结。
论文提出了一种新的神经辐射场标明办法,使用了 VDB 这种分层稀少体数据结构,以加速 NeRF 模型的练习和推断过程。VDB 是一种兼具稀少和密布体积优点的数据结构,既能够紧凑地标明数据,又能够高效地拜访随机和空间相关数据,因而十分适合用于 NeRF 模型的数据插值和射线投射。
Plenoptic VDB(PlenVDB),选用一种新颖的练习策略,能够直接从一组已知姿势的图画中学习 VDB 数据结构,并在实时烘托中运用。
试验成果标明,相较于之前的办法,PlenVDB 办法具有更高的功率和更好的作用。
首要,它在练习过程中收敛速度更快;其次,它提供了更紧凑的 NeRF 数据呈现格局;终究,它能够在普通的图形硬件上愈加高效地进行烘托。PlenVDB 在移动端也能实时烘托,在 iPhone12 手机上达到了关于输出 1280×720 分辨率的画面每秒 30 帧的速率。
Project page:
plenvdb.github.io/
用于地点辨认的共同检索和重排序Transformer
R2Former: Unified Retrieval and Reranking Transformer for Place Recognition
这篇作业由字节跳动智能创造团队和中佛罗里达大学协作完结。
视觉方位辨认(VPR)经过将查询图画与参阅数据库中的图画进行匹配来估量查询图画的方位。传统办法一般选用聚合 CNN 特征进行大局检索,并选用依据 RANSAC 的几许验证进行从头排序。可是,RANSAC 只考虑几许信息,但忽略了其他或许对从头排序有用的信息,例如部分特征相关性和注意力值。
在本文中,咱们提出了一个共同的方位辨认结构,该结构运用一种新颖的转化器模型处理检索和从头排序,名为 R2Former。所提出的从头排序模块考虑了特征相关性、注意力值和 xy 坐标,并学习确认图画对是否来自同一方位。整个办法是端到端可练习的,独自的从头排序模块也能够作为通用组件在其他 CNN 或 Transformer 主干上选用。
值得注意的是,R2Former 在首要 VPR 数据集上取得了显着优于最先进的办法的精确度和更少的推理时刻与内存消耗。现在在 MSLS 挑战集上排名第一,并能够作为实际国际大规划使用的简略而强壮的处理计划。试验还标明,视觉 Transformer 的 token 拥有与 CNN 部分特征相似的部分信息,有时在图画部分匹配上会优于 CNN 部分特征。
arXiv:
arxiv.org/pdf/2304.03…
粒度对齐的多模态模型练习
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens
这篇作业由字节跳动智能创造团队和罗格斯大学协作完结。
传统办法在练习图片-文本模型时别离从视觉和文本 transformer 提取特征,再经过丢失函数对齐两种模态的语义。可是视觉和文本信息本质上的信息粒度和尺度不同会形成学习的困难。本篇论文提出了使用共享的离散 token (Finite Discrete Tokens, FDT) 来作为共同粒度的多模态表征,然后加强图片-文本模型的语义对齐。比照 VQ 等传统办法,整个 FDT 模型是端到端可练习的,单模态 transformer 学习到的特征可经过 FDT 及穿插注意力机制得到更好的对齐,一起 FDT 从丢失函数中学到好的语义信息表达。咱们在图画分类和图文检索的多个数据集的试验标明,FDT 能够改进传统多模态办法(CLIP, DeCLIP)的语义对齐问题,并得到愈加精确的可视化成果。
arXiv:
arxiv.org/abs/2303.14…
STAN:CLIP 图文预练习模型常识中的时序建模
Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring
这项作业由字节跳动智能创造团队和北京大学团队共同完结。
以 CLIP 为代表的图画-文本预练习模型得益于从大规划图画-文本数据对中所学习到的图文多模态通用常识,在各类图画视觉使命中都取得了优越的功能。这些名贵的跨模态常识是能够搬迁至视频-文本范畴的,并关于进步视频范畴的视觉表征学习有着极大的潜在价值。为了完结图文模型的搬迁,如何赋予图文模型在处理视频数据时所需的时空建模才能是其间关键的一环。
经过对过往图文模型搬迁算法中时空建模办法的回顾和研讨,本作业提出了一种新的旁枝结构并以此为基础构建了时空辅佐网络(STAN)用于强化 CLIP 模型的时空建模才能。这种时空建模机制在不破坏图文预练习模型的高层语义常识的状况下一起使用好模型的低层视觉形式常识,然后在高层语义主导使命(如检索)和初级视觉形式主导使命(如辨认)上均取得了显着的功能增益。
经过一系列视频了解下流使命上的作用评估,此办法在 DiDeMo、MSRVTT 和 LSMDC 三个文本-视频检索使命上的 finetune performance 取得了同等模型规划下最佳的功能体现;并在 Kinetics-400 和 Something-Something-v2 两个视频行为辨认 benchmark 上也达到了新的 state-of-the-art.
arXiv:
arxiv.org/pdf/2301.11…
Github:
github.com/farewellthr…
偏移扩散模型在文本生成图画的使用
Shifted Diffusion for Text-to-image Generation
本篇论文由字节跳动智能创造团队和纽约州立大学布法罗分校共同完结。文章提出了偏移扩散模型(Shifted Diffusion)并探讨了其在文本生成图画(Text-to-image Generation)使命上的使用。
本篇论文提出了一个全新的扩散模型,能够从文本数据推断与文本配对的、不知道图画的嵌入特征(Image Embedding)。和此前的作业(DALL-E 2)相比,本文提出的偏移扩散模型从多模态预练习模型CLIP的模态差异(Modality Gap)出发,能够更有用率地生成更高质量的图画嵌入特征。当将生成的嵌入特征使用在下流的文本生成图画模型上时,咱们能够得到图片质量以及精确性上的进步。
除此之外,使用偏移扩散模型,作者提出了在短少文本数据的状况下练习或微调文字生成图画模型的新办法。和需求文本-图画配对数据集的办法不同,本文的办法能够在只有下流图画数据的状况下练习或微调文字生成图画模型。使用预练习的偏移扩散模型,咱们能够节省构造下流高质量数据集的时刻和金钱本钱。作者在试验中取得了相同条件下最优的成果,大幅超越了从前的作业(LAFITE)。
arxiv:
arxiv.org/abs/2211.15…
github:
github.com/drboog/Shif…
从理论视点处理后练习量化的振动问题
Solving Oscillation Problem in Post-Training Quantization Through a Theoretical Perspective
这篇作业由字节跳动智能创造团队和厦门大学共同完结。
这篇论文初次发现了以往后练习量化算法中共同存在的振动问题。论文经过一系列理论剖析发现这种震动现象与相邻模块才能的差异有关。作者随机采样了许多重构计划,经过 PTQ 算法得到重构计划精度而且观察到震动程度与后练习量化精度呈相相联系。
作者提出了混合重构粒度算法 MRECG。经过估量相邻模块的才能差异,排序并挑选 Top-k 差异较大的邻接模块在量化过程中进行联合优化来抹平这种振动。此外,作者在有数据和无数据两种场景别离提供了依据 loss 和依据 ModCap 指标的两种模块才能估量办法。
在抹平震动的一起,MRECG 在不同模型广泛的比特配置下取得了后练习量化的 SOTA 功能。特别的,在小模型或低比特的配置下,重构丢失震动的愈加剧烈。与此一起,作者团队的算法在抹平这种振动的一起带来了显着的精度收益(3-6% 精度进步)。
arXiv:
arxiv.org/abs/2303.11…
code:
github.com/bytedance/M…
用文本信息和常识图谱来辅佐 Transformer 做视频描绘使命
Text with Knowledge Graph Augmented Transformer for Video Captioning
这篇作业由字节跳动和中科院协作完结。
视频描绘使命的意图是用自然言语来描绘视频内容。尽管近年来该使命发展显着,可是由于长尾词等难题,在实际国际的使用中仍有很大的进步空间。
在这篇作业中咱们提出了TextKG,它是使用文本信息和常识图谱来扩充 transformer 以用于视频描绘的办法。TextKG 是一个由外部流和内部流组成的双流 transformer。外部流为额定的常识(例如预先构建的常识图谱等)和视频内部信息(例如显着物体区域、语音台词、视频描绘)之间的交互做了建模,用于抽取额定的常识来缓解长尾词难题。而内部流用于使用视频的多模态信息(例如视频的外观、语音台词、视频描绘等)来确保终究描绘成果的质量。此外两个流之间还用穿插关注机制来共享信息。经过这种办法,两个流能够互相帮助以取得更精确的成果。
咱们在四个视频描绘数据集上进行的许多试验标明,本篇作业所提出的 TextKG 功能优于 SOTA,特别是在 YouCook2 数据集上将 CIDEr 分数进步了 18.7%。
arXiv:
arxiv.org/pdf/2303.12…
依据强化 Token 的自注意力网络的鲁棒自监督预练习
Token Boosting for Robust Self-Supervised Visual Transformer Pre-training
这篇作业由字节跳动商业化技能团队与新加坡科技与规划大学协作完结。
文章提出了在一种经过增强自注意力网络(Transformer)中 Token 表征才能然后使得自注意力网络在预练习的过程中能够有用的对立输入数据的噪声, 然后进步在下流使命中自注意力网络的体现。
近些年来,依据自监督练习的自注意力网络(Transformer)在许多范畴取得了很好的体现,这得益于许多符号数据的预练习。自注意力网络经过自监督学习,重构被掩码的(masking)部分,使得自身能够提取具有丰厚语义信息的特征。可是在实际国际的使用场景中,自注意力网络的输入数据往往包含各种类型的噪声(如下图所示),然后导致输入数据的不可靠,影响自监督预练习的作用。
因而在本文中,作者团队提出经过强化自注意力网络中 Token 的表征才能,使得自注意力网络在面临不可靠的噪声输入数据时依然能够自动适应,学习到更为鲁棒的特征。值得注意的是,在自监督预练习的过程中,咱们无需使用无噪声的数据来指导网络的学习。经过理论推导咱们得出结论,在仅依靠噪声数据的状况下,咱们的办法依然能够提取相对鲁棒的特征,然后进步自注意力网络在噪声数据上的体现。
在本文中,作者为自注意力网络提出了 Token 强化模块 TBM(Token Boosting Module)。该模块由一个小型的自编码器网络 g 以及可学习参数 构成,能够将之放置在恣意自注意力网络模块后。该自编码器网络的输入特征由两部分 F、Q 构成。F 标明前级网络输出的含噪特征,Q 标明可控噪声(由 调理),两者相加构成输入特征。输入特征 I 送入自编码器网络 g 进行重构,得到的重构特征 F^ 经由公式(1)的计算得到模块输出 R^ 并送入自注意力网络的下一层。作者在文中进行了相应的理论推导得出结论,经过 TBM 的处理,模块的输出特征在保留表征才能的基础上具有了对噪声输入的鲁棒性,并进行了翔实的试验验证。
UNINEXT: 依据方针检测和检索的共同实例感知结构
Universal Instance Perception as Object Discovery and Retrieval
这篇作业由字节跳动商业化技能团队与大连理工大学、香港大学协作完结。
文章将 10 项常见的实例感知使命共同成了一种提示词引导的物体发现与检索范式,并练习了一个共同模型在来自 10 项使命的 20 个赋有挑战性的数据集上取得了优异的功能。
常见的 10 项实例感知使命本质上都是要找到具有特定属性的实例。可是,当前大多数实例感知办法都是为单一或许部分子使命规划,而且只在特定使命的数据上练习的。这一分裂的规划理念带来了以下缺点:
(1)不同使命上学习到的常识难以共享,导致学习到的表征的泛化才能不足且参数冗余
(2)忽视了不同使命之间相互帮助的或许性。
本文中,作者团队提出了UNINEXT:下一代通用实例感知模型。UNINEXT 将 10 项实例感知使命共同成了一种提示词引导的物体发现与检索范式。具体来说,在提示词的引导下,UNINEXT 首要发现 N 个物体,之后依据实例-提示匹配度分数检索出终究的实例猜测成果。依据这一共同的建模办法,经过改动输入的提示词(例如类别名称,言语描绘,物体标示),UNINEXT 即可灵活地感知不同属性的实例。
依据这一共同的模型结构,UNINEXT 能够从来自 10 项使命的许多数据中学习通用的物体标明,并用一个模型一套参数一起处理 10 项实例感知使命。许多的试验标明,UNINEXT 在 20 个赋有挑战性的数据集上取得了优异的功能。
arXiv:
arxiv.org/abs/2303.06…
code:
github.com/MasterBin-I…