前言 作为首个全面介绍基于 SAM 根底模型发展的研讨,本文聚集于 SAM 在各种使命和数据类型上的运用,并评论了其历史开展、近期发展,以及对广泛运用的深远影响。
本文转载自机器之心
仅用于学术分享,若侵权请联系删除
欢迎重视公众号CV技能攻略,专注于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。
CV各大方向专栏与各个布置结构最全教程收拾
【CV技能攻略】CV全栈辅导班、根底入门班、论文辅导班 全面上线!!
人工智能(AI)正在向 AGI 方向开展,这是指人工智能系统能够执行广泛的使命,并能够表现出相似于人类的智能水平,狭义上的 AI 就与之形成了比照,因为专业化的 AI 旨在高效执行特定使命。可见,规划通用的根底模型火烧眉毛。根底模型在广泛的数据上练习,因而能够适应各种下流使命。最近 Meta 提出的切割全部模型(Segment Anything Model,SAM)突破了切割边界,极大地促进了计算机视觉根底模型的开展。
SAM 是一个提示型模型,其在 1100 万张图画上练习了超过 10 亿个掩码,完成了强壮的零样本泛化。许多研讨人员认为「这是 CV 的 GPT-3 时刻,因为 SAM 现已学会了物体是什么的一般概念,乃至是不知道的物体、不熟悉的场景(如水下、细胞显微镜)和模糊的状况」,并展示了作为 CV 根本模型的巨大潜力。
为了充沛了解 SAM,来自香港科技大学(广州)、上海交大等机构的研讨者对其进行了深化研讨并联合宣布论文《 A Comprehensive Survey on Segment Anything Model for Vision and Beyond 》。
论文地址:arxiv.org/pdf/2305.08…
作为首个全面介绍基于 SAM 根底模型发展的研讨,该论文聚集于 SAM 在各种使命和数据类型上的运用,并评论了其历史开展、近期发展,以及对广泛运用的深远影响。
本文首要介绍了包括 SAM 在内的根底模型的布景和术语,以及对切割使命有重要意义的最新办法;
然后,该研讨剖析并总结了 SAM 在各种图画处理运用中的优势和约束,包括软件场景、实在国际场景和杂乱场景,重要的是,该研讨得出了一些洞悉,以辅导未来的研讨开展更多用处广泛的根底模型并改善 SAM 的架构;
最终该研讨还总结了 SAM 在视觉及其他范畴的运用。
下面咱们看看论文具体内容。
SAM 模型概览
SAM 源自于 2023 年 Meta 的 Segment Anything (SA) 项目。该项目发现在 NLP 和 CV 范畴中出现的根底模型表现出较强的功能,研讨人员试图树立一个相似的模型来一致整个图画切割使命。但是,在切割范畴的可用数据较为缺少,这与他们的规划意图不同。因而,如图 1 所示,研讨者将路径分为使命、模型和数据三个步骤。
SAM 架构如下所示,首要包括三个部分:图画编码器;提示编码器;以及掩码解码器。
在对 SAM 有了初步认知后,接下来该研讨介绍了 SAM 用于图画处理。
SAM 用于图画处理
这部分首要分场景进行介绍,包括:软件场景、实在场景以及杂乱场景。
软件场景
软件场景需要对图画修改和修正进行操作,例如移除方针、填充方针和替换方针。但是,现有的修正作业,如 [99]、[100]、[101]、[102],需要对每个掩码进行精密的注释以到达良好的功能,这是一项劳动密集型的作业。SAM [20] 能够经过简略的提示如点或框来生成准确的掩码,能够帮助辅佐图画修改场景。
Inpaint Anything (IA) [39] 规划了一个流程,经过结合 SAM 的优势、最先进的图画修正器 [99],以及 AI 生成的内容模型 [103],来处理与修正相关的问题。这个流程如图 3 所示。对于方针移除,该流程由 SAM 和最先进的修正器组成,如 LaMa [99]。用户的点击操作被用作 SAM 的提示,以生成方针区域的掩码,然后 LaMa 运用 corrosion 和 dilation 操作进行填充。对于方针的填充和替换,第二步运用像 Stable Diffusion (SD) [103] 这样的 AI 生成的内容模型,经过文本提示用新生成的方针填充选定的方针。
一个相似的主意也能够在 Edit Everything [40] 中看到,如图 4 所示,该办法允许用户运用简略的文本指令修改图画。
实在场景
研讨者表明 SAM 具有帮忙处理许多实在国际场景的才能,例如实在国际的物体检测、物体计数以及移动物体检测场景。最近,[108] 对 SAM 在多种实在国际切割场景(例如,自然图画、农业、制造业、遥感和医疗健康场景)中的功能进行了点评。该论文发现,在像自然图画这样的常见场景中,它具有优异的泛化才能,而在低比照度的场景中,它的效果较差,并且在杂乱场景中需要强壮的先验常识。
例如,在民用根底设施缺点点评的运用中,[42] 运用 SAM 来检测混凝土结构中的裂缝,并将其功能与基线 U-Net [109] 进行比较。裂缝检测进程如图 6 所示。效果显现,SAM 在检测纵向裂缝方面表现优于 UNet,这些裂缝更可能在正常场景中找到相似的练习图画,而在不常见的场景,即脱落裂缝方面,SAM 的表现不如 U-Net。
运用 SAM 和 U-Net 进行裂纹检测的进程。图摘自原论文 [42]。
与裂缝检测中的杂乱图画事例不同,因为陨石坑的形状首要集中在圆形或椭圆形,所以运用 SAM 作为检测东西来进行陨石坑检测更为合适。陨石坑是行星探求中最重要的形态特征之一,检测和计数它们是行星科学中一个重要但耗时的使命。尽管现有的机器学习和计算机视觉作业成功地处理了陨石坑检测中的一些特定问题,但它们依赖于特定类型的数据,因而在不同的数据源中无法很好地作业。
在 [110] 中,研讨者提出了一种运用 SAM 对不熟悉方针进行零样本泛化的通用陨石坑检测方案。这个流程运用 SAM 来切割输入图画,对数据类型和分辨率没有约束。然后,它运用圆形 – 椭圆形指数来过滤不是圆形 – 椭圆形的切割掩码。最终,运用一个后处理过滤器来去除重复的、人为的和假阳性的部分。这个流程在当前范畴显现出其作为通用东西的巨大潜力,并且作者还评论了只能识别特定形状的缺点。
杂乱场景
除了上述的常规场景,SAM 是否能处理杂乱场景(如低比照度场景)中的切割问题,也是一个有意义的问题,能够扩展其运用规模。为了探求 SAM 在更杂乱场景中的泛化才能,Ji 等人 [22] 在三种场景,即假装动物、工业缺点和医学病变中,定量地将其与尖端模型进行比较。他们在三个假装物体切割(COS)数据集上进行实验,即具有 250 个样本的 CAMO [116],具有 2026 个样本的 COD10K [117],以及具有 4121 个样本的 NC4K [118]。并将其与基于 Transformer 的模型 CamoFormer-P/S [119] 和 HitNet [120] 进行比较。效果表明,SAM 在荫蔽场景中的技巧缺乏,并指出,潜在的处理方案可能依赖于在特定范畴的先验常识的支持。在 [29] 中也能够得出相同的结论,作者在上述相同的三个数据集上,将 SAM 与 22 个最先进的办法在假装物体检测上进行比较。
Cao 等人 [115] 提出了一个新的结构,名为 Segment Any Anomaly + (SAA+),用于零样本反常切割,如图 7 所示。该结构运用混合提示规范化来进步现代根底模型的适应性,然后无需范畴特定的微调就能进行更准确的反常切割。作者在四个反常切割基准上进行了具体的实验,即 VisA [122],MVTecAD [123],MTD [124] 和 KSDD2 [125],并取得了最先进的功能。
He 等人 [126] 提出了榜首种办法(WSSAM),运用 SAM 进行弱监督荫蔽物体切割,处理了运用稀少注释数据切割与周围环境融为一体的物体的挑战(参见图 8)。所提出的 WSSAM 包括基于 SAM 的伪符号和多标准特征分组,以进步模型学习和区别荫蔽物体和布景。作者发现,仅运用 scribble 监督 [127],SAM 就能够生成足够好的切割掩码,以练习切割器。
更多模型和运用:视觉及其他
视觉相关
首要是医疗成像。医疗图画切割的意图是展示相应安排的解剖或病理结构,能够用于计算机辅佐确诊和智能临床手术。
下图 10 为医疗图画 SAM 概览,包括了计算机断层扫描(CT)图画、磁共振成像(MRI)图画、结肠镜检查图画、多格式图画、H&E 染色安排切片图画等。
其次是视频。在计算机视觉范畴,视频方针盯梢(VOT)和视频切割被认为是至关重要且不可或缺的使命。VOT 涉及在视频帧中定位特定方针,然后在整个视频的其余部分对其进行盯梢。因而,VOT 具有各种实践运用,例如监督和机器人技能。
SAM 在 VOT 范畴做出了杰出贡献。参考文献 [46] 中引进了盯梢全部模型(Track Anything Model, TAM),高效地在视频中完成了出色的交互式盯梢和切割。下图 11 为 TAM pipeline。
此外另一个盯梢模型为 SAMTrack,详见参考文献 [172]。SAMTrack 是一种视频切割结构,可经过交互和主动的办法完成方针盯梢和切割。下图 12 为 SAMTrack 的 pipeline。
下图 13 为一个轻量级 SAM 辅导的优化模块(SAM-guided refinement module, SEEM),用于提高现有办法的功能。
接着是数据注释。SAMText [180] 是一种用于视频中场景文本掩码注释的可扩展 pipeline。它运用 SAM 在大型数据集 SAMText-9M 上生成掩码注释,该数据集包括超过 2,400 个视频片段和超过 900 万个掩码注释。
此外参考文献 [143] 运用现有遥感方针检测数据集和以数据为中心的机器学习模型 SAM,构建了一个大规模遥感图画切割数据集 SAMRS,包括方针分类、方位和实例信息,能够用于语义切割、实例切割和方针检测研讨。
视觉之外
首要是 3D 重建。除了完成细粒度的 3D 切割,SA3D [183] 能够用于 3D 重建。运用 3D 掩码网格,研讨者能够确定物体在 3D 中的占用空间,并以各种方式重建。下图 14 为 SA3D 的全体 pipeline。
参考文献 [186] 提出了一种新的方针移除 pipeline ORNeRF,它运用单个视图上的点或文本 prompt 从 3D 场景中移除方针。经过运用点投影战略将用户注释快速传播给一切视图,该办法运用比以往作业更少的时刻完成了更好的功能。下图 15 为 ORNeRF 的结构。
其次对错欧式域。为了为不同使命处理不同特征维度,下图 16 中所示的 SNA 办法引进了一个专门的可精简图卷积层。该层能够根据输入的特征维度进行通道的动态激活或停用。
然后是机器人。下图 17 展示了 Instruct2Act [190] 的全体流程。在感知部分,预定义的 API 用于拜访多个根底模型。SAM [20] 准确定位候选方针,CLIP [13] 对它们进行分类。该结构运用根底模型的专业常识和机器人才能将杂乱的高档指令转换为准确的战略代码。
接着是视频文本定位。下图 18 展示了一种为视频文本定位使命生成掩码注释的可扩展高效处理方案 SAMText [180]。经过将 SAM 模型运用于边界框注释,它能够为大规模视频文本数据集生成掩码注释。
此外还有图画字幕。Wang et al. [44] 提出了一种用于可控图画字幕的办法 Caption Anything(CAT),如下图 20 所示,CAT 的结构将多模态控制引进图画字幕,出现契合人类意图的各种视觉焦点和言语风格。
视听也有涉及。参考文献 [45] 的视听定位和切割办法用于学习能够对齐音频和视觉信息的跨模态表明,具体如下图 21 所示。AV-SAM 运用预练习音频编码器和图画编码器中跨音频和视觉特征的像素级视听交融来聚合跨模态表明。然后将聚合的跨模态特征输入 prompt 编码器和掩码解码器,生成最终的视听切割掩码。
最终是多模态视觉和敞开词汇交互切割。参考文献 [44] 的办法如下图 22 所示,旨在运用仅文本输入的 CLIP 战略来完全取代手动点(manual point)。这种办法供给来自文本输入的像素级效果,能够很容易地转换为 SAM 模型的点 prompt。
结语
本文初度全面回顾了计算机视觉及其他范畴 SAM 根底模型的研讨发展。首要总结了根底模型(大言语模型、大型视觉模型和多模态大模型)的开展历史以及 SAM 的根本术语,并着重于 SAM 在各种使命和数据类型中的运用,总结和比较了 SAM 的并行作业及其后续作业。研讨者还评论 SAM 在广泛的图画处理运用中的巨大潜力,包括软件场景、实在国际场景和杂乱场景。
此外,研讨者剖析和总结了 SAM 在各种运用程序中的长处和局限性。这些调查效果能够为未来开发更强壮的根底模型和进一步提高 SAM 的稳健性和泛化性供给一些洞见。文章最终总结了 SAM 在视觉和其他范畴的大量其他令人惊叹的运用。
欢迎重视公众号CV技能攻略,专注于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。
计算机视觉入门1v3辅导班
【技能文档】《从零搭建pytorch模型教程》122页PDF下载
QQ沟通群:470899183。群内有大佬担任回答我们的日常学习、科研、代码问题。
其它文章
CVPR’23|泛化到恣意切割类别?FreeSeg:一致、通用的敞开词汇图画切割新结构
全新YOLO模型YOLOCS来啦 | 面面俱到地改善YOLOv5的Backbone/Neck/Head
通用AI大型模型Segment Anything在医学图画切割范畴的最新效果!
为何 CV 里没有出现相似 NLP 大模型的出现现象?
可复现、主动化、低成本、高点评水平,首个主动化点评大模型的大模型PandaLM来了
实例:手写 CUDA 算子,让 Pytorch 提速 20 倍
NeRF与三维重建专栏(一)范畴布景、难点与数据集介绍
反常检测专栏(三)传统的反常检测算法——上
反常检测专栏(二):点评指标及常用数据集
反常检测专栏(一)反常检测概述
BEV专栏(二)从BEVFormer看BEV流程(下篇)
BEV专栏(一)从BEVFormer深化探求BEV流程(上篇)
可见光遥感图画方针检测(三)文字场景检测之Arbitrary
可见光遥感方针检测(二)首要难点与研讨办法概述
可见光遥感方针检测(一)使命概要介绍
TensorRT教程(三)TensorRT的安装教程
TensorRT教程(二)TensorRT进阶介绍
TensorRT教程(一)初度介绍TensorRT
AI最全材料汇总 | 根底入门、技能前沿、工业运用、布置结构、实战教程学习
计算机视觉入门1v3辅导班
计算机视觉沟通群
聊聊计算机视觉入门