前些日子,Meta放出了他们在CV范畴最新的项目——Segment Anything Project,涉及到了图画切割范畴的新使命、模型、数据集。而这三个点,就是对应文章——Segment Anything的三个亮点。

新使命

项目提出的新使命的姓名叫做可提示的图画切割使命(the promptable segmentation task),即给定图片和一些提示词——点的位置、方框、mask、文字等等,回来图画切割结果。

详细如下图:

Meta提出的SAM是什么?

模型

模型需求满意几个条件:

  • 支持灵敏的prompt
  • 切割掩码的生成满意交互的实时性
  • 可以处理歧义的情况(同一个位置不同粒度的切割)

Meta提出的SAM是什么?

为了满意上面三个条件,文章提出了如下模型:

  • 一个根据ViT的图画编码器
  • 一个prompt编码器
  • 一个轻量级的掩码解码器

详细结构如下:

Meta提出的SAM是什么?

数据集

文章提出了一个10亿级的图画切割数据集,数据集的生成办法首要是经过模型在环的数据集标示(model-in-the-loop dataset annotation)进程,实现了标示进程从纯人工、半自动到全自动的进程。

数据集的构建进程其实是一个特别有意思的进程,详细可以参阅知乎上的回答——如何点评Meta/FAIR 最新作业Segment Anything? – 一堆废纸的回答。这个回答将SAM的数据集构造进程与ChatGPT等大语言模型的RLHF的进程做了类比,引出了Data Centric AI的概念。

效果与不足

模型的效果相当惊艳,这里摘抄Segment Anything官网上的一些比如。

Meta提出的SAM是什么?

Meta提出的SAM是什么?

Meta提出的SAM是什么?

目前首要的不足是生成的掩码不包含标签。

重视算法工程笔记,获取更多内容。