前些日子，Meta放出了他们在CV范畴最新的项目——Segment Anything Project，涉及到了图画切割范畴的新使命、模型、数据集。而这三个点，就是对应文章——Segment Anything的三个亮点。

新使命

项目提出的新使命的姓名叫做可提示的图画切割使命（the promptable segmentation task），即给定图片和一些提示词——点的位置、方框、mask、文字等等，回来图画切割结果。

详细如下图：

模型

模型需求满意几个条件：

支持灵敏的prompt
切割掩码的生成满意交互的实时性
可以处理歧义的情况（同一个位置不同粒度的切割）

为了满意上面三个条件，文章提出了如下模型：

一个根据ViT的图画编码器
一个prompt编码器
一个轻量级的掩码解码器

详细结构如下：

数据集

文章提出了一个10亿级的图画切割数据集，数据集的生成办法首要是经过模型在环的数据集标示（model-in-the-loop dataset annotation）进程，实现了标示进程从纯人工、半自动到全自动的进程。

数据集的构建进程其实是一个特别有意思的进程，详细可以参阅知乎上的回答——如何点评Meta/FAIR 最新作业Segment Anything？ – 一堆废纸的回答。这个回答将SAM的数据集构造进程与ChatGPT等大语言模型的RLHF的进程做了类比，引出了Data Centric AI的概念。

效果与不足

模型的效果相当惊艳，这里摘抄Segment Anything官网上的一些比如。

目前首要的不足是生成的掩码不包含标签。

重视算法工程笔记，获取更多内容。

Meta提出的SAM是什么？

新使命

模型

数据集

效果与不足

作者信息

Meta提出的SAM是什么？

新使命

模型

数据集

效果与不足

相关文章

养发神器：重复代码一键生成，从此远离加班，告别秃头!

深度学习｜不只是让电脑变”聪明”的魔法 还是”烧脑”的好玩游戏！

图像生成模型简介

Android TextView中那些冷门好用的用法

作者信息

深度学习｜不只是让电脑变”聪明”的魔法还是”烧脑”的好玩游戏！