介绍
ChatGPT 正在招引跨范畴的爱好,因为它供给了一种言语界面,具有跨多个范畴的卓越对话能力和推理能力。但是,因为 ChatGPT 是用言语练习的,它现在无法处理或生成来自视觉世界的图画。
相比较而言,视觉根底模型(VFM,Visual Foundation Models)在计算机视觉方面潜力巨大,因而能够了解和生成杂乱的图画。例如,BLIP 模型是了解和供给图画描述的专家;大热的 Stable Diffusion 能够依据文本提示合成图画。但是因为 VFM 模型对输入 – 输出格局的苛求和固定限制,使得其在人机交互方面不如会话言语模型灵敏。
为此,微软亲自构建和开源了一个名为 Visual ChatGPT 的体系(3 月 10 日发布),其间包含不同的视觉根底模型,运用户能够经过以下方法与 ChatGPT 进行交互:
- ChatGPT(或 LLM)充任通用界面,供给对图画的了解和用户的交互功用。
- 根底图画模型经过供给特定范畴的深化常识来充任背后的技能专家。
- 不仅发送和接纳言语,还发送和接纳图画。
- 供给杂乱的视觉问题或视觉编辑指令,需要多个 AI 模型进行多步骤协作。
- 供给反应并要求更正成果。咱们设计了一系列提示将视觉模型信息注入 ChatGPT,考虑到多个输入/输出的模型和需要视觉反应的模型。
技能架构
论文地址:arxiv.org/pdf/2303.04…
他们不是从头开始练习一个新的多模态 ChatGPT,而是直接依据 ChatGPT 构建 Visual ChatGPT,并结合了各种 VFM。为了弥合 ChatGPT 和这些 VFM 之间的距离,该研究提出了一个 Prompt Manager,其支撑以下功用:
- 明确告诉 ChatGPT 每个 VFM 的功用并指定输入输出格局;
- 将不同的视觉信息,例如 png 图画、深度图画和 mask 矩阵,转化为言语格局以协助 ChatGPT 了解;
- 处理不同 VFM 的历史、优先级和抵触。
在 Prompt Manager 的协助下,ChatGPT 能够使用这些 VFM,并以迭代的方法接纳它们的反应,直到满意用户的需求或到达结束条件。
总结而言,本文贡献如下:
- 提出 Visual ChatGPT,打开了 ChatGPT 和 VFM 连接的大门,使 ChatGPT 能够处理杂乱的视觉任务;
- 设计了一个 Prompt Manager,其间涉及 22 个不同的 VFM,并定义了它们之间的内在相关,以便更好地交互和组合;
- 进行了很多的零样本实验,并展现了很多的事例来验证 Visual ChatGPT 的了解和生成能力。
库房中列出了技能架构及原理图:
上面这张图片,拆分为左、中、右三部分:
-
左:
项目 Demo 示例,在该 Demo 中,用户与 ChatGPT 进行了三次沟通。
第一次沟通(Q1 & A1):用户发送了一张沙发图片,ChatGPT 回复「收到」。
第2次沟通(Q2 & A2):用户让 ChatGPT 将图片中的沙发替换为桌子,并让其看起来像一幅水墨画。ChatGPT 收到指令并生成了两幅示例图。
第三次沟通(Q3 & A3):用户问 ChatGPT,图画中墙面的色彩,ChatGPT 回答「蓝色」。
-
中:代表的是 Visual ChatGPT 的作业流程,在模型接纳到发问(Query)后,会判断是否需要运用 VFM 进行处理并供给答案。
-
右:代表的是 VFM 详细处理阐明,别离表示模型在接到不同消息指令时,具体的处理与答复流程。
使用
- 图画描述:依据供给的图片,生成描述图片内容的文本。
- 问答体系:用户能够依据图片向 Visual ChatGPT 发问,模型会生成与图片内容相关的答案。
- 图画标注和分类:Visual ChatGPT 能够依据图片内容生成相应的标签或类别。
- 辅佐创造:依据图片元素,Visual ChatGPT 能够协助创造者生成构思文本、广告语或其他相关内容。
- 教育教导:Visual ChatGPT 能够协助学生经过沟通更好地了解图片中的概念或常识点。
示例
Visual ChatGPT 的呈现,就像在以文字沟通的 APP 中首次添加了表情包功用,而且还是依据用户输入的文本主动生成的 “定制化表情包”,大大提升了 ChatGPT 的趣味性和使用范畴。
如图所示,用户上传了一张黄色花朵的图画,并输入一条杂乱的言语指令「请依据该图画生成的深度图在生成一朵赤色花朵,然后逐步将其制作成卡通图片。」在 Prompt Manager 协助下,Visual ChatGPT 启动了和 VFM 相关的履行链。
其履行进程是这样的:
- 首先是深度估量模型,用来检测图画深度信息;
- 然后是深度 – 图画模型,用来生成具有深度信息的红花图画;
- 最终使用依据 Stable Diffusion 的风格搬迁 VFM 将该图画风格转化为卡通图画。
在上述 pipeline 中,Prompt Manager 作为 ChatGPT 的调度器,供给可视化格局的类型并记载信息转化的进程。最终,当 Visual ChatGPT 从 Prompt Manager 获得卡通提示时,它将结束履行 pipeline 并显现最终成果。
在接下来的示例中:
- 用户输入提示:你能帮我生成一张猫的图画吗?收到指示后,Visual ChatGPT 生成一张正在看书的猫的图画。
- 然后,用户要求 Visual ChatGPT 将图画中的猫换成狗,然后把书删除。
- 然后,要求 Visual ChatGPT 生成 canny 边际检测,然后依据此生成另一张图画。
本文正在参与 人工智能创造者扶持计划