明敏 发自 凹非寺
量子位 | 大众号 QbitAI
CV大佬朱俊彦的新论文,让规划师们感觉危了。
事情是这样的:
量子位在微博上搬运了朱俊彦团队的新成果,一个能将2D草图一键变成3D模型的新算法,却意外引发规划圈盆友们的火热转发讨论。
配文满是“沃日”、“???”……
简单来说,这个模型能让十分粗糙的简笔画,一键变成传神3D模型。
还支撑实时修正,不满意的当地擦掉重画,立马生成一个新的:
要知道之前的“图转图”模型,基本都是停留在2D层面,这回直接变3D真是一个突破。
也确实是生产力利器。
但没想到,是规划圈先感到了危机。有圈内博主就觉得又要被AI抢饭碗了,随后也有很多人跟转了这一条。
所以论文成果到底说了啥?一起来看。
可从任意视点实时修正
现在有很多图-图的转换模型,但基本上都是2D-2D。
这是因为从2D到3D,在练习和测验过程中都有很大挑战。
练习方面,想要把2D输入图画和3D输出图画配对,需求庞大数据集,成本会很高。
测验方面,为了得到不同视点的3D模型,需求输入图画的多个视角,可是二者之间或许存在不一致的情况,导致生成效果欠好。
为了处理这些问题,朱俊彦团队提出了使用3D神经场景表明(3D neural scene representations)的条件生成模型。
它只需求给定一个2D标签图(如语义切割图和勾线图),能为每个3D点匹配标签、色彩和密度等。完成在烘托图画的同时,像素对齐标签图画。
通过构建一个交互式系统,用户能在任何视角修正标签图,并生成与之相对的输出。
为了完成跨视图修正,需求将额外的语音信息编码为3D的,然后通过图画重建和对立丢失(adversarial losses)的2D监督,来学习上述3D表明。
重建丢失能够保证2D用户输入和相应的3D内容对齐,像素对齐条件鉴别器( pixel-alignedconditional discriminator)也进一步促进外观和标签对应合理,并在新视角时也坚持像素对齐。
最终,办法还提出了跨视图一致性丢失,强制潜码在不同视点坚持一致。
和不同模型对比显现,pix2pix-3D能在坚持多视角一致的情况下,生成高质量成果。
消融实验成果相同显现,该办法的生成成果能更好和输入图画对齐。
不过研究团队也提出了办法的一些局限性。
榜首,目前它还只能针对于单个对象;
第二,模型在练习过程中,需求与每个练习图画相关相机姿态(camera pose),推理时不需求。如果能不依赖于相机姿态,能够进一步扩大模型的使用范围。
朱俊彦团队出品
该论文成果来自朱俊彦团队。
朱俊彦,现任CMU计算机科学学院助理教授,是AI领域闻名的青年学者。
2008年,朱俊彦进入清华大学计算机科学系,学习计算机科学专业。在同专业140人中,朱俊彦排名第2。
2012年清华本科毕业后,朱俊彦奔赴美国,在CMU和UC伯克利经过5年学习,获得了UC伯克利电气工程与计算机科学系的博士学位,师从Alexei Efros。
其博士毕业毕业论文Learning to Generate Images,获得了计算机图形学顶会ACM SIGGRAPH 2018“杰出博士论文奖”。
博士毕业后,朱俊彦来到MIT计算机与人工智能实验室(CSAIL),成为一名博士后研究员。2020年秋季,他回到从前的母校CMU(卡内基梅隆大学),担任助理教授一职。
曾提出CycleGAN、GauGAN等明星模型。
△GauGAN支撑涂鸦变风景画
论文一作为Kangle Deng。他现在是卡耐基梅隆大学机器人学院的一名在读博士。
2020年从北京大学本科毕业。他以榜首作者身份发表的论文,曾被CVPR 2022、ICLR 2021接收。
论文地址:
arxiv.org/abs/2302.08…
—完—
@量子位 追寻AI技能和产品新动态
深有感触的朋友,欢迎附和、关注、共享三连’ᴗ’ ❤