新智元报道
编辑:桃子拉燕
【新智元导读】继SAM之后,威斯康辛麦迪逊、微软、港科大等组织的研讨人员提出SEEM模型,经过不同的视觉提示和言语提示,一键切割图画、视频。
Meta的「切割一切」的横空出世,让许多人惊呼CV不存在了。
根据这一模型,众网友纷繁做了进一步作业,比方Grounded SAM。
将Stable Diffusion、Whisper、ChatGPT结合运用,就能做到经过语音让一只狗变成一只猴子。
而现在,不只仅是语音,你能够经过多模态提示完成一次性切割所有当地的一切。
具体怎么做?
鼠标点一下,直接选中切割内容。
张口一句话。
顺手一涂,完好的表情包就来了。
甚至,还能切割视频。
最新研讨SEEM是由威斯康星大学麦迪逊分校、微软研讨院等组织的学者共同完成。
经过SEEM运用不同品种的提示,视觉提示(点、符号、框、涂鸦和图画片段)、以及言语提示(文本和音频)轻松切割图画。
论文地址:arxiv.org/pdf/2304.06…
这个论文标题有意思的当地在于,与2022年上映的一部美国科幻电影「瞬息全宇宙」(Everything Everywhere All at Once)的名字非常类似。
英伟达科学家Jim Fan表明,奥斯卡最佳论文标题奖颁给「Segment Everything Everywhere All at Once」
拥有一个一致的、多功能的使命标准界面是扩展大型根底模型规模的要害。多模态提示是未来的方向。
看过论文后,网友表明,CV现在也要开始拥抱大模型了,研讨生未来出路在哪?
奥斯卡最佳标题论文
正是遭到根据提示的LLMs通用接口开展的启示,研讨人员提出了SEEM。
如图所示,SEEM模型能够在没有提示的敞开会集履行任何切割使命,比方语义切割、实例切割和全景切割。
此外,它还支撑恣意组合的视觉,文本和引证区域提示,答应多功能和交互式的引证切割。
在模型架构上,SEEM采用了常见的编码器-解码器架构。其独特的当地在于具有查询和提示之间杂乱的交互。
特征和提示被相应的编码器,或采样器编码到一个联合的视觉语义空间。
可学习查询是随机初始化,SEEM解码器接受可学习查询、图画特征和文本提示作为输入和输出,包含类和掩码嵌入,用于掩码和语义猜测。
值得一提的是,SEEM模型有多轮交互。每一轮都包含一个人工循环和一个模型循环。
在人工循环中,人工接纳上一次迭代的掩码输出,并经过视觉提示给出下一轮解码的正反馈。在模型循环中,模型接纳并更新未来猜测的回忆提示。
经过SEEM,给一个擎天柱卡车的图,就能切割任何方针图画上的擎天柱。
经过用户输入的文本生成掩模,进行一键切割。
另外,SEEM经过对引证图画的简单点击,或涂鸦,就能够对方针图画上有类似语义的对象进行切割。
此外,SEEM非常了解解空间关系。左上行斑马被涂鸦后,也会切割出最左面的斑马。
SEEM还能够将图画引证到视频掩码,不需要任何视频数据练习,都能完美切割视频。
数据集和设置上,SEEM在三种数据集接受了练习:全景切割,引证切割和交互式切割。
交互式切割
在交互式切割上,研讨者将SEEM与最先进的交互式切割模型进行了比较。
作为一个通用模型,SEEM取得了RITM,SimpleClick等相当的功能。而且与SAM取得非常类似的功能,SAM还多用了50个切割数据进行练习。
值得注意的是,与现有的交互式模型不同,SEEM是第一个不只支撑经典的切割使命,而且还支撑广泛的多模态输入,包含文本、点、涂鸦、鸿沟框和图画,供给了强壮的组合才能。
通用切割
经过对所有切割使命预先练习的一组参数,研讨者能够直接评估它在通用切割数据集上的功能。
SEEM完成了比较好的全景视图,实例和语义切割功能。
研讨人员对SEEM有四个希望方针:
-
多功能性:经过引进多功能提示引擎处理不同类型的提示,包含点、框、涂鸦、遮罩、文本和另一图画的引证区域;
-
复合性:经过学习一个联合视觉-语义空间,为视觉和文本提示组合即时查询进行推理;
-
交互性:经过整合可学习的回忆提示,经过掩码引导的交叉注意力保存对话历史信息;
-
语义感知:经过运用文本编码器对文本查询和遮罩标签进行编码,完成敞开词汇表的切割。
和SAM差异
Meta提出的SAM模型,能够在一个一致结构prompt encoder内,指定一个点、一个鸿沟框、一句话,一键切割出物体。
SAM具有广泛的通用性,即具有了零样本搬迁的才能,足以包括各种用例,不需要额定练习,就能够开箱即用地用于新的图画领域,无论是水下相片,还是细胞显微镜。
研讨者就三个切割使命(边际检测、敞开集和交互式切割)的交互和语义才能对SEEM和SAM进行了比较。
在敞开集切割上,同样需要高水平的语义,并且不需要交互。
与SAM比较,SEEM包括了更广泛的交互和语义层次。
SAM只支撑有限的交互类型,比方点和鸿沟框,而忽视了高语义使命,由于它本身不输出语义标签。
对于SEEM,研讨者点出了两个亮点:
首要,SEEM有一个一致的提示编码器,将所有的视觉和言语提示编码到一个联合表明空间中。因此,SEEM能够支撑更通用的用法,它有可能扩展到自定义提示。
其次,SEEM在文本掩码和输出语义感知猜测方面做得很好。
作者介绍
论文一作Xueyan Zou
她现在是威斯康星大学麦迪逊分校的核算机科学系博士生,导师是Yong Jae Lee教授。
在此之前,Zou在加州大学戴维斯分校度过了三年时光,由同一位导师辅导,并与Fanyi Xiao博士密切合作。
她在香港浸会大学取得了学士学位,由PC Yuen教授和褚晓文教授辅导。
Jianwei Yang
Yang是Redmond微软研讨院深度学习组的高级研讨员,由高剑峰博士辅导。
Yang的研讨首要会集在核算机视觉、视觉与言语和机器学习。他首要研讨不同层次的结构化视觉了解,以及如何进一步使用它们经过言语和环境的表现与人类进行智能交互。
在2020年3月加入微软之前,Yang在佐治亚理工学互动核算学院取得了核算机科学博士学位,他的导师是Devi Parikh教授,他还与Dhruv Batra教授密切合作。
高剑峰
高剑峰是微软研讨院的杰出科学家和副总裁,IEEE会员,以及ACM杰出会员。
现在,高剑峰领导着深度学习小组。该小组的使命是推动深度学习的最先进技术及其在自然言语和图画了解方面的使用,并在对话模型和方法方面取得进展。
研讨首要包含,用于自然言语了解和生成的神经言语模型、神经符号核算、视觉言语的根底和了解、对话式人工智能等等。
2014年到2018年,高剑峰在微软人工智能与研讨部和Redmond微软研讨院的深度学习技术中心(DLTC)担任商业人工智能的合作伙伴研讨经理。
2006年到2014年,高剑峰在自然言语处理组担任首席研讨员。
Yong Jae Lee
Lee是威斯康星大学麦迪逊分校核算机科学系的副教授。
他在2021年秋季加入威斯康星大学麦迪逊分校之前,曾在Cruise担任过一年的人工智能客座教师,在此之前,他在加州大学戴维斯分校担任了6年的助理和副教授。
他还曾在卡内基梅隆大学的机器人研讨所做了一年的博士后研讨员。
他于2012年5月在德克萨斯大学奥斯汀分校取得博士学位,师从Kristen Grauman,并于2006年5月在伊利诺伊大学厄巴纳-香槟分校取得学士学位。
他还曾作为微软研讨院的暑期实习生与Larry Zitnick和Michael Cohen一同作业。
现在,Lee的研讨会集在核算机视觉和机器学习。Lee对创立强壮的视觉识别系统分外感兴趣,该系统能够在最少的人类监督下了解视觉数据。
现在,SEEM现已敞开了演示demo:
huggingface.co/spaces/xdec…
快上手试试吧。
参考资料:
twitter.com/DrJimFan/st…
www.reddit.com/r/MachineLe…
t.co/U6so7iuxpv