介绍

ChatGPT 正在招引跨范畴的爱好,因为它供给了一种言语界面,具有跨多个范畴的卓越对话能力和推理能力。但是,因为 ChatGPT 是用言语练习的,它现在无法处理或生成来自视觉世界的图画。

相比较而言,视觉根底模型(VFM,Visual Foundation Models)在计算机视觉方面潜力巨大,因而能够了解和生成杂乱的图画。例如,BLIP 模型是了解和供给图画描述的专家;大热的 Stable Diffusion 能够依据文本提示合成图画。但是因为 VFM 模型对输入 – 输出格局的苛求和固定限制,使得其在人机交互方面不如会话言语模型灵敏。

为此,微软亲自构建和开源了一个名为 Visual ChatGPT 的体系(3 月 10 日发布),其间包含不同的视觉根底模型,运用户能够经过以下方法与 ChatGPT 进行交互:

  1. ChatGPT(或 LLM)充任通用界面,供给对图画的了解和用户的交互功用。
  2. 根底图画模型经过供给特定范畴的深化常识来充任背后的技能专家。
  3. 不仅发送和接纳言语,还发送和接纳图画。
  4. 供给杂乱的视觉问题或视觉编辑指令,需要多个 AI 模型进行多步骤协作。
  5. 供给反应并要求更正成果。咱们设计了一系列提示将视觉模型信息注入 ChatGPT,考虑到多个输入/输出的模型和需要视觉反应的模型。

技能架构

论文地址:arxiv.org/pdf/2303.04…

他们不是从头开始练习一个新的多模态 ChatGPT,而是直接依据 ChatGPT 构建 Visual ChatGPT,并结合了各种 VFM。为了弥合 ChatGPT 和这些 VFM 之间的距离,该研究提出了一个 Prompt Manager,其支撑以下功用:

  1. 明确告诉 ChatGPT 每个 VFM 的功用并指定输入输出格局;
  2. 将不同的视觉信息,例如 png 图画、深度图画和 mask 矩阵,转化为言语格局以协助 ChatGPT 了解;
  3. 处理不同 VFM 的历史、优先级和抵触。

在 Prompt Manager 的协助下,ChatGPT 能够使用这些 VFM,并以迭代的方法接纳它们的反应,直到满意用户的需求或到达结束条件。

总结而言,本文贡献如下:

  • 提出 Visual ChatGPT,打开了 ChatGPT 和 VFM 连接的大门,使 ChatGPT 能够处理杂乱的视觉任务;
  • 设计了一个 Prompt Manager,其间涉及 22 个不同的 VFM,并定义了它们之间的内在相关,以便更好地交互和组合;
  • 进行了很多的零样本实验,并展现了很多的事例来验证 Visual ChatGPT 的了解和生成能力。

库房中列出了技能架构及原理图

Visual ChatGPT - 用图像交互的方式,跟 ChatGPT 聊天

上面这张图片,拆分为左、中、右三部分:

  1. 左:

    项目 Demo 示例,在该 Demo 中,用户与 ChatGPT 进行了三次沟通。

    第一次沟通(Q1 & A1):用户发送了一张沙发图片,ChatGPT 回复「收到」。

    第2次沟通(Q2 & A2):用户让 ChatGPT 将图片中的沙发替换为桌子,并让其看起来像一幅水墨画。ChatGPT 收到指令并生成了两幅示例图。

    第三次沟通(Q3 & A3):用户问 ChatGPT,图画中墙面的色彩,ChatGPT 回答「蓝色」。

  2. 中:代表的是 Visual ChatGPT 的作业流程,在模型接纳到发问(Query)后,会判断是否需要运用 VFM 进行处理并供给答案。

  3. 右:代表的是 VFM 详细处理阐明,别离表示模型在接到不同消息指令时,具体的处理与答复流程。

使用

  1. 图画描述:依据供给的图片,生成描述图片内容的文本。
  2. 问答体系:用户能够依据图片向 Visual ChatGPT 发问,模型会生成与图片内容相关的答案。
  3. 图画标注和分类:Visual ChatGPT 能够依据图片内容生成相应的标签或类别。
  4. 辅佐创造:依据图片元素,Visual ChatGPT 能够协助创造者生成构思文本、广告语或其他相关内容。
  5. 教育教导:Visual ChatGPT 能够协助学生经过沟通更好地了解图片中的概念或常识点。

示例

Visual ChatGPT 的呈现,就像在以文字沟通的 APP 中首次添加了表情包功用,而且还是依据用户输入的文本主动生成的 “定制化表情包”,大大提升了 ChatGPT 的趣味性和使用范畴。

Visual ChatGPT - 用图像交互的方式,跟 ChatGPT 聊天

如图所示,用户上传了一张黄色花朵的图画,并输入一条杂乱的言语指令「请依据该图画生成的深度图在生成一朵赤色花朵,然后逐步将其制作成卡通图片。」在 Prompt Manager 协助下,Visual ChatGPT 启动了和 VFM 相关的履行链。

其履行进程是这样的:

  1. 首先是深度估量模型,用来检测图画深度信息;
  2. 然后是深度 – 图画模型,用来生成具有深度信息的红花图画;
  3. 最终使用依据 Stable Diffusion 的风格搬迁 VFM 将该图画风格转化为卡通图画。

在上述 pipeline 中,Prompt Manager 作为 ChatGPT 的调度器,供给可视化格局的类型并记载信息转化的进程。最终,当 Visual ChatGPT 从 Prompt Manager 获得卡通提示时,它将结束履行 pipeline 并显现最终成果。

Visual ChatGPT - 用图像交互的方式,跟 ChatGPT 聊天

在接下来的示例中:

  1. 用户输入提示:你能帮我生成一张猫的图画吗?收到指示后,Visual ChatGPT 生成一张正在看书的猫的图画。
  2. 然后,用户要求 Visual ChatGPT 将图画中的猫换成狗,然后把书删除。
  3. 然后,要求 Visual ChatGPT 生成 canny 边际检测,然后依据此生成另一张图画。

本文正在参与 人工智能创造者扶持计划