前些日子,Meta放出了他们在CV范畴最新的项目——Segment Anything Project,涉及到了图画切割范畴的新使命、模型、数据集。而这三个点,就是对应文章——Segment Anything的三个亮点。
新使命
项目提出的新使命的姓名叫做可提示的图画切割使命(the promptable segmentation task),即给定图片和一些提示词——点的位置、方框、mask、文字等等,回来图画切割结果。
详细如下图:
模型
模型需求满意几个条件:
- 支持灵敏的prompt
- 切割掩码的生成满意交互的实时性
- 可以处理歧义的情况(同一个位置不同粒度的切割)
为了满意上面三个条件,文章提出了如下模型:
- 一个根据ViT的图画编码器
- 一个prompt编码器
- 一个轻量级的掩码解码器
详细结构如下:
数据集
文章提出了一个10亿级的图画切割数据集,数据集的生成办法首要是经过模型在环的数据集标示(model-in-the-loop dataset annotation)进程,实现了标示进程从纯人工、半自动到全自动的进程。
数据集的构建进程其实是一个特别有意思的进程,详细可以参阅知乎上的回答——如何点评Meta/FAIR 最新作业Segment Anything? – 一堆废纸的回答。这个回答将SAM的数据集构造进程与ChatGPT等大语言模型的RLHF的进程做了类比,引出了Data Centric AI的概念。
效果与不足
模型的效果相当惊艳,这里摘抄Segment Anything官网上的一些比如。
目前首要的不足是生成的掩码不包含标签。