新智元报导

修改:LRS

【新智元导读】让图片合作你的音频出演,配套sd-webui插件已发布!

随着数字人概念的火爆、生成技能的不断发展,让相片里的人物跟随音频的输入动起来也不再是难题。

不过现在「经过人脸图画和一段语音音频来生成会说话的人物头像视频」仍然存在许多问题,比如头部运动不天然、面部表情歪曲、视频和图片中的人物面部差异过大等问题。

最近来自西安交通大学等的研究人员提出了SadTalker模型,在三维运动场中进行学习从音频中生成3DMM的3D运动系数(头部姿态、表情),并运用一个全新的3D面部烘托器来生成头部运动。

西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌

论文链接:arxiv.org/pdf/2211.12…

项目主页:sadtalker.github.io/

音频可所以英文、中文、歌曲,视频里的人物还能够操控眨眼频率!

为了学习实在的运动系数,研究人员显式地对音频和不同类型的运动系数之间的联系进行独自建模:经过蒸馏系数和3D烘托的脸部,从音频中学习精确的面部表情;经过条件VAE规划PoseVAE来组成不同风格的头部运动。

终究运用生成的三维运动系数被映射到人脸烘托的无监督三维关键点空间,并组成终究视频。

终究在试验中证明晰该办法在运动同步和视频质量方面完成了最先进的功能。

现在stable-diffusion-webui的插件也已经发布!

相片+音频=视频

数字人创作、视频会议等多个领域都需求「用语音音频让静态相片动起来」的技能,但现在来说这仍然是一项十分有挑战性的使命。

之前的作业首要集中在生成「唇部运动」,因为嘴唇的动作与语音之间的联系最强,其他作业也在测验生成其他相关运动(如头部姿态)的人脸视频,不过生成视频的质量仍然十分不天然,并受到偏好姿态、含糊、身份修改和面部歪曲的约束。

另一种盛行的办法是根据latent的人脸动画,首要重视在对话式人脸动画中特定类别的运动,同样很难组成高质量的视频,因为尽管三维面部模型中包含高度解耦的表征,能够用来独自学习面部不同方位的运动轨道,但仍然会生成不精确的表情和不天然的运动序列。

根据上述调查成果,研究人员提出了SadTalker(Stylized Audio-Driven Talking-head),经过隐式三维系数modulation的风格化音频驱动的视频生成体系。

西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌

为了完成这一方针,研究人员将3DMM的运动系数视为中间表征,并将使命分为两个首要部分(表情和姿态),旨在从音频中生成更实在的运动系数(如头部姿态、嘴唇运动和眼睛眨动),并独自学习每个运动以削减不确定性。

终究经过一个受face-vid2vid启发规划的3D感知的面部烘托来驱动源图画。

3D面部

因为现实中的视频都是在三维环境中拍摄的,所以三维信息关于提高生成视频的实在性至关重要;不过之前的作业很少考虑三维空间,因为只从一张平面图画很难取得原始的三维稀少,并且高质量的面部烘托器也很难规划。

受最近的单图画深度三维重建办法的启发,研究人员将预测的三维形变模型(3DMMs)的空间作为中间表征。

在3DMM中,三维脸部形状S能够被解耦为:

西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌

其间S是三维人脸的平均形状,Uid和Uexp是LSFM morphable模型的身份和表情的正则,系数(80维)和(64维)别离描述人物身份和表情;为了坚持姿态的差异性,系数r和t别离表明头部旋转和平移;为了完成身份无关的系数生成,只将运动的参数建模为{, r, t}。

即,从驱动的音频中独自学习头部姿态=[r, t]和表情系数,然后运用这些运动系数被隐式地调制面部烘托用于终究的视频组成。

经过音频生成运动稀少

三维运动系数包含头部姿态和表情,其间头部姿态是大局运动,而表情是相对部分的,所以完全学习一切的系数会给网络带来巨大的不确定性,因为头部姿态与音频的联系相对较弱,而嘴唇的运动则是与音频高度关联的。

所以SadTalker运用下面PoseVAE和ExpNet别离生成头部姿态和表情的运动。

ExpNet

学习到一个能够「从音频中产生精确的表情系数」的通用模型是十分困难的,原因有二:

1)音频到表情(audio-to-expression)不是对不同人物的一对一的映射使命;

2)表情系数中存在一些与音频相关的动作,会影响到预测的精确性。

西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌

ExpNet的规划方针便是为了削减这些不确定性;至于人物身份问题,研究人员经过榜首帧的表情系数将表情运动与特定的人物联系起来。

为了削减天然对话中其他面部成分的运动权重,经过Wav2Lip和深度三维重建的预练习网络,只运用嘴唇运动系数(lip motion only)作为系数方针。

至于其他细微的面部运动(如眼睛眨动)等,能够在烘托图画上的额定landmark丢失中引入。

PoseVAE

研究人员规划了一个根据VAE的模型以学习谈话视频中实在的、身份相关(identity-aware)的风格化头部运动。

西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌

在练习中,运用根据编码器-解码器的结构对固定的n个帧进行姿态VAE练习,其间编码器和解码器都是两层MLP,输入包含一个连续的t帧头部姿态,将其嵌入到高斯散布;在解码器中,网络从采样散布中学习生成t帧姿态。

需求留意的是,PoseVAE并没有直接生成姿态,而是学习榜首帧的条件姿态的残差,这也使得该办法在测验中能在榜首帧的条件下生成更长、更安稳、更连续的头部运动。

根据CVAE,PoseVAE中还增加了相应的音频特征和风格标识作为rhythm awareness和身份风格的条件。

模型运用KL散度来衡量生成运动的散布;运用均方丢失和对抗性丢失来保证生成的质量。

3D-aware面部烘托

在生成实在的三维运动系数后,研究人员经过一个精心规划的三维图画动画器来烘托终究的视频。

最近提出的图画动画办法face-vid2vid能够隐含地从单一图画中学习3D信息,不过该办法需求一个实在的视频作为动作驱动信号;而这篇论文中提出的脸部烘托能够经过3DMM系数来驱动。

研究人员提出mappingNet来学习显式3DMM运动系数(头部姿态和表情)和隐式无监督3D关键点之间的联系。

西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌

mappingNet经过几个一维卷积层树立,类似PIRenderer一样运用时间窗口的时间系数进行滑润处理;不同的是,研究人员发现PIRenderer中的人脸对齐运动系数将极大地影响音频驱动的视频生成的运动天然度,所以mappingNet只运用表情和头部姿态的系数。

练习阶段包含两个步骤:首要遵循原论文,以自监督的方式练习face-vid2vid;然后冻住外观编码器、canonical关键点估计器和图画生成器的一切参数后,以重建的方式在ground truth视频的3DMM系数上练习mappingNet进行微调。

在无监督关键点的域中运用L1丢失进行监督练习,并依照其原始完成方式给出终究生成的视频。

试验成果

为了证明该办法的优越性,研究人员选取了Frechet Inception Distance(FID)和Cumulative Probability Blur Detection(CPBD)方针来评价图画的质量,其间FID首要评价生成帧的实在性,CPBD评价生成帧的清晰度。

为了评价身份保存程度,运用ArcFace来提取图画的身份嵌入,然后计算源图画和生成帧之间身份嵌入的余弦类似度(CSIM)。

为了评价唇部同步和口型,研究人员评价了来自Wav2Lip的口型的感知差异,包含间隔评分(LSE-D)和相信评分(LSE-C)。

在头部运动的评价中,运用Hopenet从生成的帧中提取的头部运动特征嵌入的标准偏差来计算生成头部运动的多样性;计算Beat Align Score来评价音频和生成头部运动的一致性。

在对比办法中,选取了几种最先进的谈话头像生成办法,包含MakeItTalk、Audio2Head和音频转表情生成办法(Wav2Lip、PC-AVS),运用揭露的checkpoint权重进行评价。

西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌

从试验成果中能够看出,文中提出的办法能够展现出更好的整体视频质量和头部姿态的多样性,同时在唇部同步方针方面也显示出与其他完全说话的头部生成办法适当的功能。

研究人员认为,这些唇语同步方针对音频太灵敏了,以至于不天然的唇部运动可能会得到更好的分数,不过文中提出的办法取得了与实在视频类似的分数,也表明晰该办法的优势。

西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌

不同办法生成的视觉成果中能够看到,该办法与原始方针视频的视觉质量十分类似,并且与预期的不同头部姿态也十分类似。

与其他办法比较,Wav2Lip生成了含糊的半脸;PC-AVS和Audio2Head很难保存源图画的身份;Audio2Head只能生成正面说话的脸;MakeItTalk和Audio2Head因为二维歪曲而生成了歪曲的人脸视频。

参考资料:

sadtalker.github.io/