Visual ChatGPT – 用图像交互的方式，跟 ChatGPT 聊天-六虎

介绍

ChatGPT 正在招引跨范畴的爱好，因为它供给了一种言语界面，具有跨多个范畴的卓越对话能力和推理能力。但是，因为 ChatGPT 是用言语练习的，它现在无法处理或生成来自视觉世界的图画。

相比较而言，视觉根底模型（VFM，Visual Foundation Models）在计算机视觉方面潜力巨大，因而能够了解和生成杂乱的图画。例如，BLIP 模型是了解和供给图画描述的专家；大热的 Stable Diffusion 能够依据文本提示合成图画。但是因为 VFM 模型对输入 – 输出格局的苛求和固定限制，使得其在人机交互方面不如会话言语模型灵敏。

为此，微软亲自构建和开源了一个名为 Visual ChatGPT 的体系（3 月 10 日发布），其间包含不同的视觉根底模型，运用户能够经过以下方法与 ChatGPT 进行交互：

ChatGPT（或 LLM）充任通用界面，供给对图画的了解和用户的交互功用。
根底图画模型经过供给特定范畴的深化常识来充任背后的技能专家。
不仅发送和接纳言语，还发送和接纳图画。
供给杂乱的视觉问题或视觉编辑指令，需要多个 AI 模型进行多步骤协作。
供给反应并要求更正成果。咱们设计了一系列提示将视觉模型信息注入 ChatGPT，考虑到多个输入/输出的模型和需要视觉反应的模型。

技能架构

论文地址：arxiv.org/pdf/2303.04…

他们不是从头开始练习一个新的多模态 ChatGPT，而是直接依据 ChatGPT 构建 Visual ChatGPT，并结合了各种 VFM。为了弥合 ChatGPT 和这些 VFM 之间的距离，该研究提出了一个 Prompt Manager，其支撑以下功用：

明确告诉 ChatGPT 每个 VFM 的功用并指定输入输出格局；
将不同的视觉信息，例如 png 图画、深度图画和 mask 矩阵，转化为言语格局以协助 ChatGPT 了解；
处理不同 VFM 的历史、优先级和抵触。

在 Prompt Manager 的协助下，ChatGPT 能够使用这些 VFM，并以迭代的方法接纳它们的反应，直到满意用户的需求或到达结束条件。

总结而言，本文贡献如下：

提出 Visual ChatGPT，打开了 ChatGPT 和 VFM 连接的大门，使 ChatGPT 能够处理杂乱的视觉任务；
设计了一个 Prompt Manager，其间涉及 22 个不同的 VFM，并定义了它们之间的内在相关，以便更好地交互和组合；
进行了很多的零样本实验，并展现了很多的事例来验证 Visual ChatGPT 的了解和生成能力。

库房中列出了技能架构及原理图：

上面这张图片，拆分为左、中、右三部分：

左：

项目 Demo 示例，在该 Demo 中，用户与 ChatGPT 进行了三次沟通。

第一次沟通（Q1 & A1）：用户发送了一张沙发图片，ChatGPT 回复「收到」。

第2次沟通（Q2 & A2）：用户让 ChatGPT 将图片中的沙发替换为桌子，并让其看起来像一幅水墨画。ChatGPT 收到指令并生成了两幅示例图。

第三次沟通（Q3 & A3）：用户问 ChatGPT，图画中墙面的色彩，ChatGPT 回答「蓝色」。
中：代表的是 Visual ChatGPT 的作业流程，在模型接纳到发问（Query）后，会判断是否需要运用 VFM 进行处理并供给答案。
右：代表的是 VFM 详细处理阐明，别离表示模型在接到不同消息指令时，具体的处理与答复流程。

使用

图画描述：依据供给的图片，生成描述图片内容的文本。
问答体系：用户能够依据图片向 Visual ChatGPT 发问，模型会生成与图片内容相关的答案。
图画标注和分类：Visual ChatGPT 能够依据图片内容生成相应的标签或类别。
辅佐创造：依据图片元素，Visual ChatGPT 能够协助创造者生成构思文本、广告语或其他相关内容。
教育教导：Visual ChatGPT 能够协助学生经过沟通更好地了解图片中的概念或常识点。

示例

Visual ChatGPT 的呈现，就像在以文字沟通的 APP 中首次添加了表情包功用，而且还是依据用户输入的文本主动生成的 “定制化表情包”，大大提升了 ChatGPT 的趣味性和使用范畴。

如图所示，用户上传了一张黄色花朵的图画，并输入一条杂乱的言语指令「请依据该图画生成的深度图在生成一朵赤色花朵，然后逐步将其制作成卡通图片。」在 Prompt Manager 协助下，Visual ChatGPT 启动了和 VFM 相关的履行链。

其履行进程是这样的：

首先是深度估量模型，用来检测图画深度信息；
然后是深度 – 图画模型，用来生成具有深度信息的红花图画；
最终使用依据 Stable Diffusion 的风格搬迁 VFM 将该图画风格转化为卡通图画。

在上述 pipeline 中，Prompt Manager 作为 ChatGPT 的调度器，供给可视化格局的类型并记载信息转化的进程。最终，当 Visual ChatGPT 从 Prompt Manager 获得卡通提示时，它将结束履行 pipeline 并显现最终成果。

在接下来的示例中：

用户输入提示：你能帮我生成一张猫的图画吗？收到指示后，Visual ChatGPT 生成一张正在看书的猫的图画。
然后，用户要求 Visual ChatGPT 将图画中的猫换成狗，然后把书删除。
然后，要求 Visual ChatGPT 生成 canny 边际检测，然后依据此生成另一张图画。

本文正在参与人工智能创造者扶持计划

Visual ChatGPT – 用图像交互的方式，跟 ChatGPT 聊天

介绍

技能架构

使用

示例

相关文章

人民的人工智能——大语言模型StableLM完全开源

OpenCV 笔记(22)：图像的缩放——最近邻插值、双线性插值算法

Android 内存分析命令

使用 Docker Compose 构建 NestJS 应用并与 MySQL 和 Redis 服务集成

作者信息