前语 论文刚发布两天,「 二创 」就开端了。
本文转载自机器之心
仅用于学术共享,若侵权请联系删除
欢迎重视大众号CV技能攻略,专注于计算机视觉的技能总结、最新技能跟踪、经典论文解读、CV招聘信息。
CV各大方向专栏与各个部署结构最全教程整理
计算机视觉入门1v3辅导班
AI 技能的迭代,现已以天为单位。所以,如果你有什么好的想法,最好赶紧做,不然睡一觉或许就被抢先了。
这个被很多人看好的 idea 源于 Meta 两天前发布的「切割全部」AI 模型(Segment Anything Model,简称 SAM)。Meta 表明,「SAM 现已学会了关于物体的一般概念,能够为任何图画或视频中的任何物体生成 mask,甚至包含在练习过程中没有遇到过的物体和图画类型。SAM 足够通用,能够涵盖广泛的用例,并且能够在新的图画『领域』即开即用,无需额定的练习。」
这一模型的发布在计算机视觉领域引发轰动,预示着 CV 也将走向「一个万能根底模型统一某个(某些?全部?)使命」的道路。当然,大家对此早有预见,但没想到这一天来得如此之快。
比根底模型迭代更快的是研讨社区「二创」的速度。论文才刚刚发布两天,几位国内工程师就根据此想出了新的点子并将其付诸实践,组建出了一个不只能够「切割全部」,还能「检测全部」、「生成全部」的视觉工作流模型。
具体来说,他们运用一个 SOTA 的 zero-shot 方针检测器(Grounding DINO)提取物体 box 和类别,然后输入给 SAM 模型出 mask,使得模型能够根据文本输入检测和切割恣意物体。别的,他们还将其和 Stable Diffusion 结合做可控的图画编辑。
这个三合一模型项目名叫 Grounded Segment Anything,三种类型的模型既能够分隔运用,也能够组合运用。
项目链接:github.com/IDEA-Resear…
关于 Grounded Segment Anything 未来的用途,项目作者构想了几种或许:
- 可控的、主动的图画生成,用于构建新的数据集;
- 供给更强的根底模型与切割预练习;
- 引进 GPT-4,进一步激发视觉大模型的潜力;
- 一条主动标记图画(带 box 和 mask)并生成新图画的完整 pipeline;
- ……
装置
要完成 SAM+Stable Diffusion 需求一些装置步骤。首先该项目要求 Python 3.8 以上版别,pytorch 1.7 以上版别,torchvision 0.8 以上版别,并装置相关依赖项。项目作者还建议装置支持 CUDA 的 PyTorch 和 TorchVision。
然后,依照如下代码装置 Segment Anything:
装置 GroundingDINO:
以下是可选依赖项,这些关于掩码后处理、以 COCO 格局保存掩码、example notebook 以及以 ONNX 格局导出模型是必需的。别的,该项目还需求 jupyter 来运转 example notebook。
运转 GroundingDINO demo
下载 groundingdino 检查点:
运转 demo:
模型猜测可视化将保存在 output_dir 中,如下所示:
运转 Grounded-Segment-Anything Demo
下载 segment-anything 和 ground- dino 的检查点:
运转 demo:
模型猜测可视化将保存在 output_dir 中,如下所示:
运转 Grounded-Segment-Anything + Inpainting Demo
运转 Grounded-Segment-Anything + Inpainting Gradio APP
参考链接:
zhuanlan.zhihu.com/p/620271321
www.zhihu.com/question/59…
欢迎重视大众号CV技能攻略,专注于计算机视觉的技能总结、最新技能跟踪、经典论文解读、CV招聘信息。
计算机视觉入门1v3辅导班
【技能文档】《从零搭建pytorch模型教程》122页PDF下载
QQ沟通群:470899183。群内有大佬负责回答大家的日常学习、科研、代码问题。
其它文章
上线一天,4k star | Facebook:Segment Anything
Efficient-HRNet | EfficientNet思想+HRNet技能会不会更强更快呢?
实践教程|GPU 利用率低常见原因剖析及优化
ICLR 2023 | SoftMatch: 完成半监督学习中伪标签的质量和数量的trade-off
方针检测立异:一种根据区域的半监督办法,部分标签即可(附原论文下载)
CNN的反击!InceptionNeXt: 当 Inception 遇上 ConvNeXt
神经网络的可解释性剖析:14种归因算法
无痛涨点:方针检测优化的有用Trick
详解PyTorch编译并调用自定义CUDA算子的三种方式
深度学习练习模型时,GPU显存不行怎么办?
deepInsight:一种将非图画数据转化图画的办法
ICLR2023|根据数据增广和知识蒸馏的单一样本练习算法
拯救脂肪肝第一步!自主确诊脂肪肝:3D医疗影像切割计划MedicalSeg
AI最全材料汇总 | 根底入门、技能前沿、工业使用、部署结构、实战教程学习
改动几行代码,PyTorch炼丹速度狂飙、模型优化时刻大减
AAAI 2023 | 轻量级语义切割新范式: Head-Free 的线性 Transformer 结构
TSCD:弱监督语义切割新办法,中科院主动化所和北邮等联合提出
如何用单个GPU在不到24小时的时刻内从零开端练习ViT模型?
CVPR 2023 | 根据Token比照的弱监督语义切割新计划!
比MobileOne还秀,Apple将重参数与ViT相结合提出FastViT
CVPR 2023 | One-to-Few:没有NMS检测也能够很强很快
ICLR 2023 | Specformer: Spectral GNNs Meet Transformers
重新审视Dropout
计算机视觉入门1v3辅导班
计算机视觉沟通群
聊聊计算机视觉入门