比Meta的「切割全部模型」(SAM)更快的图画切割工具,来了!
最近中科院团队开源了FastSAM模型,能以50倍的速度到达与原始SAM附近的作用,并完成25FPS的实时推理。
该成果在Github已经获得2.4K+次星标,在Twitter、PaperswithCode等平台也遭到了广泛重视。
相关论文预印本现已宣布。
以下内容由投稿者供给
视觉根底模型 SAM[1]在许多核算机视觉使命中产⽣了重⼤影响。它已经成为图画切割、图画描述和图画编辑等使命的根底。
然⽽,其巨⼤的核算成本阻碍了它在实践场景中的⼴泛应⽤。
最近,中科院⾃动化所提出并开源了⼀种加速替代⽅案 FastSAM。
经过将切割⼀切使命重新划分为全实例切割和提⽰辅导挑选两个⼦使命,⽤带实例切割分⽀的常规 CNN 检测器以⾼出50倍的运⾏速度完成了与SAM⽅法适当的功能,是⾸个实时切割⼀切的根底模型。
含义与动机
SAM 的呈现带动了 “切割⼀切”(Segment Anything)使命的开展。这⼀使命因为其泛化性和可扩展性,有很⼤可能成为未来⼴泛视觉使命的根底。
FastSAM 为该使命供给了⼀套实时处理⽅案,进⼀步推动了切割⼀切模型的实践应⽤和开展。
本⽂将“切割⼀切”使命解耦为全实例切割和提⽰引导挑选两阶段,经过引⼊⼈⼯先验结构,在提速 50 倍的情况下完成了与 SAM 附近的体现。
FastSAM 的优异体现为视觉使命的架构挑选供给了新的视角——关于特定使命,专用模型结构或许在核算功率和精确度上仍具有优势。
从模型紧缩的⾓度看,FastSAM 也证明了根据大模型发生高质量数据,经过引⼊⼈⼯先验结构大幅下降核算复杂度的途径的可⾏性。
示例
Web DEMO
在 HuggingFace 的 Space 中,你能够快速体会 FastSAM 的切割作用。
你能够上传一张自定义的图片,挑选形式并设置参数,点击切割按钮,就能够得到一个满足的切割成果。
现在支撑全部形式和点形式的交互,其他形式将在未来尝试支撑。在 Replicate 上已支撑一切形式的在线体会。
多种交互⽅式
FastSAM现在共支撑三种交互方式。
多点交互形式
FastSAM ⽀持多个带有远景/背景标签的点交互形式,能够很好地适应不同场景的应⽤需求。
以缺点检测场景为例,只需对缺点部位添加远景点,对正常药丸部分添加背景点,即可精确地检测出物体缺点。
框交互形式
FastSAM 也⽀持框交互形式。也以缺点检测为例,只需对缺点⼤致位置进⾏框选,即可精确检测出物体缺点。
⽂本交互形式
FastSAM 也⽀持并开源了⽂本交互形式。经过不同的⽂本提示,FastSAM能够精确切割出不同颜⾊的⼩狗。
工作原理
如下图所示,FastSAM 的网络架构可分为两个阶段:全实例切割和提示引导挑选。
在全实例切割阶段,FastSAM 使用卷积神经网络来对图画中的一切目标或区域进行划分。
在提示引导挑选阶段,它采用包含点提示、框提示和文本提示的各种提示来选出重视目标。
与根据Transformer的方法不同,FastSAM融合了与视觉切割使命紧密相关的先验知识,例如局部衔接和目标分配策略。这使得它以更低地参数量和核算量下更快地收敛。
定性与定量分析
测试成果表明,FastSAM各方面的体现彻底不输于Meta的原始版本。
速度
从表中能够看出,FastSAM 取得了远超 SAM 的速度体现,在「切割⼀切」形式下,SAM的速度会遭到均匀点提⽰数量的影响,⽽ FastSAM 因为结构的特点,运⾏时间不随点提⽰数量的添加⽽添加,这使得它成为「切割⼀切」形式的更好挑选。
一起,因为 FastSAM 在结构设计中利⽤了⼈的先验知识,使得它在实时推理的一起也具备了与 SAM 适当的功能。
边际检测
下图展⽰了具有代表性的边际检测成果。经过定性调查能够看出,虽然FastSAM的参数显着较少 (只有68M) ,但它也能产⽣很⾼质量的边际检测成果。
从下表能够看出,FastSAM 取得了与 SAM 相似的功能。与 Ground Truth 相⽐,FastSAM和 SAM 都倾向于预测更多的边际,这种误差在表中得到了定量的反映。
物体候选
从下表能够看出,FastSAM 在 bbox AR@1000 的体现上超过了核算量最⼤的 SAM 模型(SAM-H E64),仅次于在 LVIS 数据集上监督训练的 ViTDet-H[2]。
可视化成果
SA-1B 切割成果:下图展⽰了 FastSAM 在 SA-1B 数据集上不同场景和掩码数量时的切割成果。
下流应⽤对⽐:下⾯三张图对⽐了 FastSAM 和 SAM 在反常检测、显著物体切割和建筑物提取三个下流使命的作用,FastSAM 在不同形式下均取得了和 SAM 适当的体现。
参阅⽂献
[1] Kirillov A, Mintun E, Ravi N, et al. Segment anything[J]. arXiv preprint arXiv:2304.02643, 2023.
[2] Li J, Yang T, Ji W, et al. Exploring denoised cross-video contrast for weakly-supervised temporal action localization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 19914-19924.
论文地址:
arxiv.org/abs/2306.12…
GitHub项目页:
github.com/CASIA-IVA-L…
HuggingFace DEMO:
huggingface.co/spaces/An-6…
Replicate demo:
replicate.com/casia-iva-l…
—完—