前语 本文回忆了深度多模态学习办法的演化,并评论了使骨干对各种下流使命具有鲁棒性所需的预练习的类型和方针。

本文转载自专知

欢迎重视大众号CV技能攻略,专注于核算机视觉的技能总结、最新技能跟踪、经典论文解读、CV招聘信息。

核算机视觉入门1v3辅导班

多模态表明学习是一种学习从不同模态及其相关性中嵌入信息的技能,现已在视觉问答(Visual Question Answering, VQA)、视觉推理自然言语(Natural Language for Visual Reasoning, NLVR)和视觉言语检索(Vision Language Retrieval, VLR)等范畴取得了明显的成功。在这些运用中,来自不同模态的跨模态交互和互补信息关于高档模型执行任何多模态使命至关重要,如了解、辨认、检索或优化生成。研讨人员提出了不同的办法来处理这些使命。

多模态学习有哪些架构?MBZUAI最新《多模态表示学习》综述,29页详述多模态表示学习的演化、预训练及其应用综述

www.zhuanzhi.ai/paper/e3547…

根据transformer的架构的不同变体在多种模态上表现出色。本总述介绍了关于深度学习多模态架构的进化和增强,以处理各种跨模态和现代多模态使命的文本、视觉和音频特征的全面文献。本文总结了(i)最近使命特定的深度学习办法,(ii)预练习类型和多模态预练习方针,(iii)从最先进的预练习多模态办法到一致架构,以及(iv)多模态使命类别和未来或许的改进,能够规划出更好的多模态学习。为新研讨人员预备了一个数据集部分,涵盖了预练习和微调的大多数基准。终究,探讨了面对的首要应战、距离和潜在的研讨方向。与咱们的总述相关的不断更新的论文列表保存在github.com/marslanm/mu…

1. 引言

多模态体系运用两个或多个输入模态,如音频、文本、图画或视频,来发生与输入不同的输出模态。跨模态体系是多模态体系的一个分支,它运用一种模态的信息来增强另一种模态的功能。例如,多模态体系将运用图画和文本模态来评价状况并执行使命,而跨模态体系将运用图画模态来输出文本模态[1,2]。视听语音辨认(AVSR)[3]、检测模因[4]中的宣扬和视觉问答(VQA)[5]都是多模态体系的比如。多模态表明学习技能经过分层处理原始异构数据来缩小不同模态之间的异构距离。来自不同模态的异构特征以上下文信息[6]的形式提供额定的语义。因此,互补信息能够经过多种模态学习到。例如,视觉模态能够经过在AVSR中提供[7]唇动来协助语音辨认。最近的深度学习办法的高档变体经过在表明空间中映射不同的模态,处理了经典的多模态应战(相关性、翻译、对齐、融合)。

近年来,很多针对特定使命的深度学习办法提升了不同多模态使命的功能[8]。最近,由于语义丰厚的表明和大规模揭露可用模型[9],自然言语处理(NLP)和核算机视觉(CV)的预练习和微调的完成得到了最大的重视。本文回忆了深度多模态学习办法的演化,并评论了使骨干对各种下流使命具有鲁棒性所需的预练习的类型和方针。大多数预练习办法都根据Transformer,这提出了一致架构的想法,以处理一切下流使命的一切模态[10]。本总述全面介绍了最近几种预练习和一致架构的办法,以及它们在基准、运用和下流使命评价上的功能。

多模态学习有哪些架构?MBZUAI最新《多模态表示学习》综述,29页详述多模态表示学习的演化、预训练及其应用综述

上一年,现已宣布了一些关于视觉言语预练习的研讨[11,12]。相比之下,咱们涵盖了在最近的工作[13]中展现的视觉、言语和音频预练习模型的架构细节。除了评论预练习类型外,咱们还回忆了预练习方针的通用和多模态版别。此外,咱们总结了最近的一致架构(通用模型),这些架构消除了对不同下流使命的微调,终究减少了时刻和核算复杂性。与最近的调研相反,咱们更重视由视觉和音频形式增强的NLP运用,例如情感剖析、文档了解、假新闻检测、检索、翻译和其他推理运用。图1展现了本次调研中包含的深度学习多模态论文的分类百分比。该柱状图显现了每年互联网上深度学习多模态办法的开展和可用性。本次调研的贡献如下:

咱们对多模态表明学习技能进行了全面的调研,以有效的方式弥合言语、视觉和音频输入之间的距离。

  • 处理多模态的特定使命和根据transformer的预练习架构的开展。

  • 具体阐述了预练习类型、多模态学习的高档预练习方针、具体的架构评论和比较。

  • 一致架构的开发,以处理一切下流使命的多种形式进行调研。

  • 咱们开发了深度多模态架构和复杂多模态运用的分类。

  • 数据集部分描述了用于预练习、微谐和评价多模态办法的一切基准的综合信息,为初学者提供了现成的具体信息。

  • 终究,阐述了该范畴的首要应战、敞开缺口和或许的未来预测。

多模态学习有哪些架构?MBZUAI最新《多模态表示学习》综述,29页详述多模态表示学习的演化、预训练及其应用综述

2. 多模态深度学习办法

本节介绍了多模态架构的众多变体,首要分为特定使命架构和预练习-微调架构(管道如图2所示)。图3展现了第3节的分类。第3.1节是本研讨中提到的使命的首字母缩略词。第3.2节全面总结了特定使命的办法,这些办法是近年来转变为大规模预练习办法的先进多模态办法的基础。第3.3节演示了在多模态数据集上练习的预练习进程、类型、方针和SOTA结构,以执行增强的NLP和跨模态使命。此外,本文终究还具体介绍了最近取得重视的一致体系结构。第3.4末节对SOTA办法在各种多模态使命上发生的成果进行了比较评论。

多模态学习有哪些架构?MBZUAI最新《多模态表示学习》综述,29页详述多模态表示学习的演化、预训练及其应用综述

多模态学习有哪些架构?MBZUAI最新《多模态表示学习》综述,29页详述多模态表示学习的演化、预训练及其应用综述

3. 多模态运用

本节展现了由深度学习架构增强的多模态运用程序的分类细节,如图4所示。多模态使命分为首要类别:了解、分类、检索和生成。针对每个多模态运用,评论了最佳功能架构的基准、评价目标、描述和比较。

多模态学习有哪些架构?MBZUAI最新《多模态表示学习》综述,29页详述多模态表示学习的演化、预训练及其应用综述

欢迎重视大众号CV技能攻略,专注于核算机视觉的技能总结、最新技能跟踪、经典论文解读、CV招聘信息。

【技能文档】《从零建立pytorch模型教程》122页PDF下载

QQ沟通群:444129970。群内有大佬担任回答大家的日常学习、科研、代码问题。

模型布置沟通群:732145323。用于核算机视觉方面的模型布置、高功能核算、优化加速、技能学习等方面的沟通。

其它文章

深度了解变分自编码器(VAE) | 从入门到精通

核算机视觉入门1v3辅导班

核算机视觉沟通群

用于超大图画的练习战略:Patch Gradient Descent

CV小常识评论与剖析(5)到底什么是Latent Space?

【免费送书活动】关于语义切割的亿点思考

新方案:从错误中学习,点云切割中的自我规范化层次语义表明

经典文章:Transformer是怎么进军点云学习范畴的?

CVPR 2023 Workshop | 首个大规模视频全景切割竞赛

怎么更好地应对下流小样本图画数据?不平衡数据集的建模的技巧和策

Transformer沟通群

经典文章:Transformer是怎么进军点云学习范畴的?

CVPR 2023 Workshop | 首个大规模视频全景切割竞赛

怎么更好地应对下流小样本图画数据?不平衡数据集的建模的技巧和策

U-Net在2022年相关研讨的论文引荐

用少于256KB内存完成边际练习,开支不到PyTorch千分之一

PyTorch 2.0 重磅发布:一行代码提速 30%

Hinton 最新研讨:神经网络的未来是前向-前向算法

聊聊核算机视觉入门

FRNet:上下文感知的特征强化模块

DAMO-YOLO | 逾越一切YOLO,兼顾模型速度与精度

《医学图画切割》总述,胪陈六大类100多个算法

怎么高效完成矩阵乘?万文长字带你从CUDA初学者的角度入门

近似乘法对卷积神经网络的影响

BT-Unet:医学图画切割的自监督学习结构

语义切割该怎么走下去?

轻量级模型规划与布置总结

从CVPR22动身,聊聊CAM是怎么激活咱们文章的热度!

入门必读系列(十六)经典CNN规划演化的要害总结:从VGGNet到EfficientNet

入门必读系列(十五)神经网络不work的原因总结

入门必读系列(十四)CV论文常见英语单词总结

入门必读系列(十三)高效阅览论文的办法

入门必读系列(十二)池化各要点与各办法总结

TensorRT教程(三)TensorRT的装置教程

TensorRT教程(一)初次介绍TensorRT

TensorRT教程(二)TensorRT进阶介绍