Valley: Video Assistant with Large Language model Enhanced abilitY

LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

咱们好,我是卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」~ 担任某大厂的算法工程师,带来最新的前沿AI知识和东西,包括AI相关技能、ChatGPT、AI绘图等, 欢迎咱们沟通~。

近期依据LLaMA微调的模型有许多,Alpaca,Vicuna都是依据ChatGPT等数据进行文本场景指令微调,LLaVA也运用图文对数据进行了图文场景多模态能力的扩展(这几个模型往期文章都有涉及,不清楚/感兴趣的能够看)。

而本文说到的Valley则是字节发布的视频场景多模态指令微调LLaMA模型

其间这几个指令微调版本的模型都大差不差,主要仍是数据与练习的差异。本文描绘Valley当然对标的是其相似模型LLaVA,原文introduction部分翻译修改后如下:

在Valley中,咱们遵循 LLaVA 的先预练习然后指令调整的流程,采用一个简略的投影模块作为视频、图画和言语模式之间的桥梁。 咱们采用 CLIP (Radford et al., 2021) 的 ViT-L/14 (Dosovitskiy et al., 2021) 作为视觉编码器(与LLaVA一致),然后提出一种时空池化操作来统一视频和图画输入的视觉编码(模型差异点)。 经过更新投影模块进行预练习,以使统一的视觉嵌入与 LLM 保持一致,其间 Stable-Vicuna (Chiang et al., 2023) 由于其多言语能力而成为挑选的 LLM。 此外,咱们引入了从各种视频使命中搜集的多模态指令盯梢数据集,包括视频问答、长描绘、随意关系推理和动作辨认。 经过指令微调,终究提出了咱们的视频了解谷多模态根底模型。 作为人工智能助手,咱们预计Valley将在各种视频相关使命中得到广泛的应用,并帮助用户以相似于在实际世界中与人聊天的办法更好地了解和解释杂乱的视频。

结合论文内容,我对Valley的奉献作了归纳:

  • 模型:依据LLaVA的办法,添加了时空池化模块应对视频(多帧)场景,将LLaVA从单图扩展为多图(动态长度),一起将LLaVA的Vicuna言语模型换为Stable-Vicuna模型。;
  • 数据:搞了多模态的instruction-following数据集,聚焦于视频了解、比较多样的使命(包括multi-short captions,带时刻戳的时刻性描绘、长视频的杂乱陈述。一起运用了ChatGPT生成对话人和视频内容的对话,进一步增强数据集的质量和多样性。
  • 开源:LLM时代,开源也是奉献~

Related Work

感兴趣的能够经过 相关作业来了解一下LLM的现状,以下为部分机翻:

现有的办法能够分为两种技能路线,一种是运用LLM作为调度器来调度现有的多模态模型,另一种是依据LLM来练习多模态模型。 前者在接收到用户指令和各个根底模型的功用后,将LLM作为控制器逐步调用相应的模型,并整合各个模型的输出内容生成成果(Wu等,2023;Shen等,2023)。 ,2023;Yang 等人,2023)。 例如,HuggingGPT(Shen et al., 2023)运用ChatGPT依据其功用描绘在Hugging Face1中挑选适宜的模型并总结其履行成果。 后者为法学硕士配备辅佐模块,帮助他们经过端到端练习了解多模态内容(Li et al., 2023c; Zhu et al., 2023; Zhu et al., 2023; Zhu et al., 2023; Liu et al., 2023; Su 等人,2023;戴等人,2023)。 例如,LLaVA (Liu et al., 2023) 和 MiniGPT-4 (Zhu et al., 2023) 经过投影层将 LLaMA (Touvron et al., 2023) 与视觉编码器连接起来,赋予其了解图画的能力 。 Video-LLaMA (Zhang et al., 2023) 经过 Q-Former 为 LLaMA (Touvron et al., 2023) 供给视觉和音频信息,赋予其依据视频的对话能力。

办法部分

网络结构

LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

在LLaVA(如上图)根底上进行了扩展,将其单图扩展为多图(视频),如下图:

LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

多帧的处理经过时空池化模块,具体:

  1. 有T个图,每个图的特征为 Vcls + 256 个patch token;

LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

  1. 在patch token上做时刻维度的均匀,即T个图均匀,则剩余特征为 T个Vcls + 256个均匀后的patch token,下图为patch token的均匀;

LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

  1. 由于patch token的时刻均匀会损失时刻信息(保留空间信息),所以将Vcls token 拼接在patch token后面,终究得到 T+256个视觉Token的输入,下图的V均匀便是patch token;

LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

空间tokens:256 patch(均匀),时序tokens:T个CLS Token;这两个Token终究会经过映射层(Projection)与Text tokens衔接在一起送给大模型;

指令微调数据搜集

作者依据MSRVTT(10k)、VATEX(22k)、AativityNet(10k)、VIOLIN(5.8k)共多个数据集构建了视频中心多模态指令数据,包括3种上下文类型,这些对应的问答对生成经过stable-vicuna生成,如下图

LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

参阅LLaVA和VideoChat中生成Prompt的办法,作者也用了上面的3种上下文文本和Stable-Vicuna生成了指令微调数据,如下图。累积42k对话5.8k的问答对,其间对话数据涵盖根底视频内容描绘(方针信息等)、时刻内容了解。问答数据包括因果推理、字符辨认和视频杂乱内容了解。

LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

练习

同LLaVA相似的两阶段练习办法,第一阶段经过预练习映射层来进行特征对齐第二阶段微调言语模型映射层

映射层预练习

运用图文对、视频文本对两种数据进行预练习,其间图文对为LLaVA的595k CC3M数据,视频文本对为参阅LLaVA过滤办法进行过滤的 702K WebVid2M 数据。两种类型数据的Prompt安排办法一致,均为:

LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

假如输入单个图画,则帧数为1。图画-文本对和视频-文本对构建为单轮对话,运用各种问题问询视频内容,并运用相应的标题进行回答。

微调

不止上面说到的42k对话和5.8k的问答对,为了增强对视觉内容的强调,还从LLaVA中搜集了150k的图片指令数据、以及VideoChat搜集的11k视频指令。

试验部分

没有什么指标,给了几个case咱们感受下功能就行

LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

LLaMA模型指令微调 字节跳动多模态视频大模型 Valley 论文详解

Limitation

  1. 参加音频信息,构建 音、画、文三种模态可感知的多模态模型;

  2. 供给中文感知能力,构建更多的中文多模态数据来增强模型;

  3. 存在LLM固有的幻觉问题(hallucination problem)需求处理。幻觉问题指大模型的输出是过错的、无意义的、输出与输入是明显不符合的(比如在摘要生成使命上)等状况,具体可参阅:

    1. GPT-4的“hallucination”(幻觉)相关对策
    2. 对话大模型中的现实过错:ChatGPT 的缺点文本使命_问题
    3. Survey of Hallucination in Natural Language Generation arXiv:2202.03629v5