机器之心报道
机器之心编辑部
CV 范畴已经卷到了一个新的高度。
本月初,Meta 发布「切割全部」AI 模型 ——Segment Anything Model(SAM)。SAM 被认为是一个通用的图画切割根底模型,它学会了关于物体的一般概念,可认为任何图画或视频中的任何物体生成 mask,包含在练习过程中没有遇到过的物体和图画类型。这种「零样本迁移」的才能令人惊叹,乃至有人称 CV 范畴迎来了「GPT-3 时间」。
最近,一篇「一次性切割全部」的新论文《Segment Everything Everywhere All at Once》再次引起关注。在该论文中,来自威斯康星大学麦迪逊分校、微软、香港科技大学的几位华人研讨者提出了一种基于 prompt 的新式交互模型 SEEM。SEEM 能够依据用户给出的各种模态的输入(包含文本、图画、涂鸦等等),一次性切割图画或视频中的一切内容,并识别出物体类别。该项目已经开源,并供给了试玩地址供咱们体会。
论文链接:arxiv.org/pdf/2304.06…
项目链接:github.com/UX-Decoder/…
试玩地址:huggingface.co/spaces/xdec…
该研讨经过全面的试验验证了 SEEM 在各种切割使命上的有效性。即便 SEEM 不具有了解用户意图的才能,但它表现出强壮的泛化才能,由于它学会了在统一的表征空间中编写不同类型的 prompt。此外,SEEM 能够经过轻量级的 prompt 解码器有效地处理多轮交互。
先来看一下切割作用:
在变形金刚的合影中把「擎天柱」切割出来:
还能对一类物体做切割,比如在一张景象图片中切割出一切建筑物:
SEEM 也能轻松切割出视频中移动的物体:
这个切割作用能够说是十分丝滑了。咱们来看一下该研讨提出的办法。
**办法概述
**
该研讨旨在提出一个通用接口,以凭借多模态 prompt 进行图画切割。为了完成这一方针,他们提出了一种包含 4 个属性的新方案,包含多功能性(versatility)、组合性(compositionality)、交互性(interactivity)和语义感知才能(semantic-awareness),具体包含
1)多功能性该研讨提出将点、掩码、文本、检测框(box)乃至是另一个图画的参阅区域(referred region)这些异构的元素,编码成同一个联合视觉语义空间中的 prompt。
2)组合性经过学习视觉和文本 prompt 的联合视觉语义空间来即时编写查询以进行推理。SEEM 能够处理输入 prompt 的恣意组合。
3)交互性:该研讨引入了经过结合可学习的回忆(memory) prompt,并经过掩码指导的穿插注意力保留对话历史信息。
4)语义感知才能:运用文本编码器对文本查询和掩码标签进行编码,从而为一切输出切割成果供给了敞开集语义。
架构方面,SEEM 遵循一个简略的 Transformer 编码器 – 解码器架构,并额外添加了一个文本编码器。在 SEEM 中,解码过程类似于生成式 LLM,但具有多模态输入和多模态输出。一切查询都作为 prompt 反馈到解码器,图画和文本编码器用作 prompt 编码器来编码一切类型的查询。
具体来说,该研讨将一切查询(如点、框和掩码)编码为视觉 prompt,同时运用文本编码器将文本查询转换为文本 prompt,这样视觉和文本 prompt 就能坚持对齐。5 种不同类型的 prompt 都能都映射到联合视觉语义空间中,经过零样本习惯来处理未见过的用户 prompt。经过对不同的切割使命进行练习,模型具有处理各种 prompt 的才能。此外,不同类型的 prompt 能够凭借穿插注意力互相辅佐。终究,SEEM 模型能够运用各种 prompt 来取得杰出的切割成果。
除了强壮的泛化才能,SEEM 在运转方面也很高效。研讨人员将 prompt 作为解码器的输入,因此在与人类进行多轮交互时,SEEM 只需要在最开始运转一次特征提取器。在每次迭代中,只需要运用新的 prompt 再次运转一个轻量级的解码器。因此,在布置模型时,参数量大运转负担重的特征提取器能够在服务器上运转,而在用户的机器上仅运转相对轻量级的解码器,以缓解多次远程调用中的网络推迟问题。
如上图 3(b)所示,在多轮交互中,每次交互包含一个人工循环和一个模型循环。在人工循环中,人接纳上一次迭代的掩码输出,并经过视觉 prompt 给出下一轮解码的正反馈或负反馈。在模型循环中,模型接纳并更新回忆 prompt 供未来的猜测。
试验成果
该研讨将 SEEM 模型与 SOTA 交互式切割模型进行了试验比较,成果如下表 1 所示。
作为一个通用模型,SEEM 完成了与 RITM,SimpleClick 等模型适当的性能,并且与 SAM 的性能十分接近,而 SAM 用于练习的切割数据是 SEEM 的 50 倍之多。
与现有的交互式模型不同,SEEM 是第一个不只支撑经典切割使命,还支撑各种用户输入类型的通用接口,包含文本、点、涂鸦、框和图画,供给强壮的组合功能。如下表 2 所示,经过添加可组合的 prompt,SEEM 在 cIoU,mIoU 等目标上有了显著的切割性能提升。
咱们再来看一下交互式图画切割的可视化成果。用户只需要画出一个点或简略涂鸦,SEEM 就能供给十分好的切割成果
也能够输入文本,让 SEEM 进行图画切割
还能直接输入参阅图画并指出参阅区域,对其他图画进行切割,找出与参阅区域一致的物体:
该项目已经能够线上试玩,感兴趣的读者快去试试吧。