【新智元导读】只需一张参阅图片,任何人都可以替换成视频的主角。

跟着分散模型的发展,根据输入文本生成高质量的图片和视频已经成为实际,但是仅运用文本生成视觉内容的可控性有限。

为了克服这个问题,研讨人员们开端探究额定的操控信号和对现有内容进行修改的办法。这两个方向在一定程度上完成了生成进程的可控性,但仍然需求依靠文原本描绘方针生成内容。

在实际运用中,咱们面临着一个新的需求:如果用户想要生成的内容无法用言语描绘呢?

例如,用户想生成某一个普通人的视频,但仅在输入文本中运用普通人的姓名是无意义的,因为言语模型无法识别不在练习语猜中的个别姓名。

针对这个问题,一种可行的解决方案是根据给定个别练习个性化的模型。

例如,DreamBooth和Dreamix经过多张图片了解个别概念,然后进行个性化的内容生成,不过这两种办法需求对每个个别别离进行学习,并且需求该个别的多张练习图片和精细化调参。

最近,来自新加坡国立大学(NUS)和华为诺亚实验室的研讨者们在个性化视频修改上取得了新的发展,经过多个集成模型的协同工作,无需对个性化概念进行额定的练习和微调,仅仅需求一张方针参阅图片,就能完成对已有视频的主角替换、布景替换以及特定主角的文生视频。

无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成

项目主页:make-a-protagonist.github.io/

论文地址:arxiv.org/pdf/2305.08…

代码地址:github.com/Make-A-Prot…

这项研讨为个性化视频修改范畴带来了新的可能性,使得生成个性化内容变得愈加简洁和高效。

无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成
无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成
图片

介绍

Make-A-Protagonist将视频分为主角和布景,对二者运用视觉或言语参阅信息,然后完成主角修改、布景修改和特定主角的文生视频。

无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成

主角修改功用答应用户运用相同的场景描绘,但经过参阅图画来替换视频中的主角。这意味着用户可以运用自己挑选的图画来替换视频中的首要角色。

无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成

布景修改功用答应用户运用与原始视频相同的主角描绘(例「Suzuki Jimny」),并运用原始视频帧作为视觉信息,但可以更改对场景的文字描绘(例如「in the rain」)。这样,用户可以保持相同的主角,但改动场景的描绘,营造出不同的视觉效果。

无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成

特定主角的文生视频功用将主角修改和布景修改结合起来。用户可以运用参阅图画作为主角,并对场景进行描绘,然后创造出全新的视频内容。此外,关于多主角视频,Make-A-Protagonist还可以对单个或多个角色进行更改。

无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成

与DreamBooth和Dreamix不同,Make-A-Protagonist仅需求单张参阅图画,不需求对每个概念进行微调,因此在运用场景上愈加灵敏多样。Make-A-Protagonist为用户供给了一种简洁而高效的办法来完成个性化的视频修改和生成。

办法

无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成

Make-A-Protagonist运用多个强壮的专家模型,对原视频、视觉和言语信息进行解析,并结合根据视觉言语的视频生成模型和根据掩码的去噪采样算法,完成通用视频修改。该模型首要由三个关键部分组成:原视频解析,视觉和言语信息解析,以及视频生成。

具体来说,Make-A-Protagonist推理进程包括以下三步:首要运用BLIP-2, GroundingDINO、Segment Anything 和 XMem等模型对原视频进行解析,取得视频的主角掩码,并解析原视频的操控信号。

接下来,运用CLIP和DALL-E 2 Prior对视觉和言语信息进行解析。最后,运用根据视觉言语的视频生成模型和根据掩码的去噪采样算法,运用解析信息生成新的内容。

Make-A-Protagonist的立异之处在于引入了根据视觉言语的视频生成模型和根据掩码的去噪采样算法,经过整合多个专家模型并解析、交融多种信息,完成了视频修改的突破。

这些模型的运用使得该系统愈加精准地了解原视频、视觉和言语信息,并可以生成高质量的视频内容。

Make-A-Protagonist为用户供给了一款强壮而灵敏的东西,让他们可以轻松进行通用的视频修改,创作出共同而令人冷艳的视觉作品。

1.原视频解析

原视频解析的方针是获取原视频的言语描绘(caption)、主角文字描绘、主角切割成果以及ControlNet所需的操控信号。

针对caption和主角文字描绘,Make-A-Protagonist选用了BLIP-2模型。

经过对BLIP-2的图画网络进行修改,完成了对视频的解析,并运用captioning模式生成视频的描绘,这些描绘在练习和视频修改中用于视频生成网络。

关于主角文字描绘,Make-A-Protagonist运用VQA模式,提出问题:「视频的主角是什么?」并运用答案进一步解析原视频中的主角信息。

在原视频中的主角切割方面,Make-A-Protagonist运用上述得到的主角文字描绘,在榜首帧中运用GroundingDINO模型来定位相应的检测内容,并运用Segment Anything模型取得榜首帧的切割掩码。然后,借助跟踪网络(XMem),Make-A-Protagonist得到整个视频序列的切割成果。

除此之外,Make-A-Protagonist运用ControlNet来保存原视频的细节和动作,因此需求提取原视频的操控信号。文中运用了深度信号和姿势信号。

经过这些立异的解析办法和技术,Make-A-Protagonist可以准确地解析原视频的言语描绘、主角信息和切割成果,并提取操控信号,为后续的视频生成和修改打下了坚实的根底。

2.视觉和言语信息解析

关于视觉信号,Make-A-Protagonist在本文中选用CLIP image embedding作为生成条件,为了去除参阅图画布景的影响,类似于原视频解析,Make-A-Protagonist运用GroundingDINO和Segment Anything得到参阅图画主角的切割掩码,运用掩码将切割后的图画输入CLIP视觉模型,以获取参阅视觉信息。

言语信息首要用于操控布景,本文将言语信息用于两方面,一方面运用CLIP言语模型提取特征,作为注意力网络的key和value。

另一方面,运用DALL-E 2 Prior网络,将言语特征转化为视觉特征,然后增强表征才能。

3.视频生成

图片

3.1视频生成网络练习

为了充分运用视觉信息,Make-A-Protagonist运用Stable UnCLIP作为预练习模型,并对原视频进行微调,然后完成运用视觉信息进行视频生成。

在每个练习迭代中,Make-A-Protagonist提取视频中随机一帧的CLIP image embedding,将其作为视觉信息输入到Residual block中。

3.2根据掩码的去噪采样

无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成

为交融视觉信息和言语信息,本文提出根据掩码的去噪采样,在特征空间和隐空间对两种信息进行交融。

具体来说,在特征域,Make-A-Protagonist运用原视频的主角掩码,将主角对应部分运用视觉信息,布景对应部分运用DALL-E 2 Prior转化后的言语信息:

无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成

在隐空间中,Make-A-Protagonist将仅运用视觉信息的推理成果和经过特征交融的推理成果依照原视频的主角掩码进行交融:

无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成

经过特征空间和隐空间的信息交融,生成的成果愈加真实,并且与视觉言语表述愈加共同。

总结

Make-A-Protagonist引领了一种全新的视频修改框架,充分运用了视觉和言语信息。

该框架为完成对视觉和言语的独立修改供给了解决方案,经过多个专家网络对原视频、视觉和言语信息进行解析,并选用视频生成网络和根据掩码的采样策略将这些信息交融在一起。

Make-A-Protagonist展现了出色的视频修改才能,可广泛运用于主角修改、布景修改和特定主角的文生视频任务。

Make-A-Protagonist的出现为视频修改范畴带来了新的可能性。它为用户创造了一个灵敏且立异的东西,让他们可以以前所未有的办法修改和塑造视频内容。

无论是专业修改人员还是创意爱好者,都可以经过Make-A-Protagonist打造出共同而精彩的视觉作品。

参阅资料:

make-a-protagonist.github.io/