基于高斯函数的3D数字人组成东西HUGS

克雷西发自凹非寺

量子位 | 大众号 QbitAI

之前要两天才干练习好的数字人，现在只用半小时就能完结了！

到了推理阶段，更是只需16毫秒，就能得到动作流通、细节到位的场景视频。

而且无需杂乱的采样和建模，只需随便拍一段50-100帧的视频就足够了，换算成时刻不过几秒钟。

这正是由苹果联合德国马普所推出的，基于高斯函数的3D数字人组成东西HUGS。

它能够从一段简单的视频傍边提取出人物骨骼，然后组成数字兼顾并驱动它做出恣意动作。

这个数字人能够丝滑地交融到其他场景，甚至帧率还能超越原始资料，到达60FPS。

Hugging Face的“首席羊驼官”Omar Sanseviero看到后，也给HUGS送上了hug。

那么，HUGS能够完结怎样的作用呢？

100倍速生成60FPS视频

从下面这张动图能够看出，新生成的数字人能够在不同于练习资料的场景中做出不同的动作。

而新组成的画面也比原始资料更加流通——虽然原资料只有24FPS，但HUGS组成的视频帧率到达了60FPS。

一起，HUGS也支撑把多个人物交融进同一个场景。

细节描写上，HUGS也比Neuman和Vid2Avatar这两个前SOTA更清晰细腻，也更加实在。

假如放到标准空间中，Neuman和HUGS的细节对比将变得更加明显。

测试数据上看，HUGS在NeuMan数据集的五个场景中的PSNR和SSIM评分都到达了SOTA水平，LPIPS差错则处于最低位。

在ZJU Mocap数据集上，针对5个不同受试者，HUGS也都超越了NerualBody、HumanNeRF等Baseline办法。

速度方面，HUGS的练习只需半小时就能完结，而此前最快的VidAvtar也要48小时，速度提升了近百倍。

烘托速度也是如此，用Baseline办法进行烘托需要2-4分钟，但HUGS只用16.6毫秒就能完结，比人眨眼的速度还快。（下图为对数坐标系）

那么，HUGS是怎么完结既迅速又细腻地生成3D数字人的呢？

像搭积木相同烘托

HUGS首先将人物和场景分别转化为3D高斯斑驳。

其间，人物部分的高斯斑驳由三个多层感知机（MLP）来猜测，并通过SMPL（一种人体形状模型）进行初始化。

SMPL能够用极少的参数树立实体人物到三维网格的映射，只需要10个主要参数就能够表示99%的人体形状变化。

一起，为了描写头发和衣服等细节，HUGS也允许高斯函数在必定程度上偏离SMPL。

场景的高斯斑驳通过特征三平面提供的方位编码，由多个MLP猜测得到。

得到人体和场景模型的高斯斑驳后，研讨者对它们进行了联合优化。

得到的高斯斑驳还会被进行克隆和拆分，然后增大斑驳密度，不断接近实在的方针几何外表，这一过程称为Densify。

此外，研讨人员还引入了线性混合动画（LBS）技术，在运动过程中对高斯斑驳进行驱动。

转换为高斯斑驳形式后，研讨人员练习了神经网络对高斯函数的属性进行猜测，形成实在的人体形状。

一起，神经网络还定义了高斯函数与人体骨骼的绑定联系，然后完结人物的运动。

这样，HUGS的烘托过程就像搭积木相同，不需要重新调用神经网络，然后完结了高速烘托。

消融试验结果表明，LBS、Densify和三平面MLP都是HUGS中的重要环节，短少任何一个都会对组成作用形成影响。

而人物与场景的联合优化，同样是完结刚好交融作用的关键因素。

One More Thing

苹果发生研讨数字人的主意已经有一段时刻了。

在苹果MR头显Apple Vision Pro中，就出现过高细节版本的数字兼顾概念——

在FaceTime通话时，头显能够创立一个“数字人”，并用它来代表用户。

那么，对苹果的这个“数字人生成器”，你怎么看呢？

论文地址：
arxiv.org/abs/2311.17…
参阅链接：
[1]appleinsider.com/articles/23…
[2]twitter.com/anuragranj/…

史上最快3D数字人生成器：半小时完成训练，渲染仅需16毫秒，苹果出品

100倍速生成60FPS视频

像搭积木相同烘托

One More Thing

作者信息

史上最快3D数字人生成器：半小时完成训练，渲染仅需16毫秒，苹果出品

100倍速生成60FPS视频

像搭积木相同烘托

One More Thing

相关文章

虚拟内存优化：线程+多进程优化

打造 API 接口的堡垒

图的遍历可视化实现（广度优先和深度优先）

[VisionOS] 拆分HelloWorld的功能点 – 地球跟随鼠标拖动

作者信息