金磊 发自 凹非寺 量子位 | 公众号 QbitAI
现在,AI可以把人类脑中的信息,用高清视频展示出来了!
例如你坐在副驾所欣赏到的沿途美景信息,AI分分钟给重建了出来:
看到过的水中的鱼儿、草原上的马儿,也不在话下:
这就是由新加坡国立大学和香港中文大学一起完成的最新研讨,团队将项目取名为MinD-Video。
这波操作,宛如科幻电影《超体》中Lucy读取反派大佬回忆一般:
引得网友直呼:
值得一提的是,大火的Stable Diffusion也在这次研讨中立了不小的功劳。
怎样做到的?
从大脑活动中重建人类视觉使命,尤其是功用磁共振成像技能(fMRI)这种非侵入式办法,一直是受到学界较多的重视。
由于相似这样的研讨,有利于理解我们的认知进程。
但以往的研讨都主要聚焦在重建静态图画,而以高清视频形式来展现的作业还是较为有限。
之所以会如此,是由于与重建一张静态图片不同,我们视觉所看到的场景、动作和物体的改变是接连、多样化的。
而fMRI这项技能的本质是测量血氧水平依靠(BOLD)信号,并且在每隔几秒钟的时间里捕捉大脑活动的快照。
相比之下,一个典型的视频每秒大约包括30帧画面,假如要用fMRI去重建一个2秒的视频,就需要出现起码60帧。
因而,这项使命的难点就在于解码fMRI并以远高于fMRI时间分辨率的FPS恢复视频。
为了弥合图画和视频大脑解码之间距离,研讨团队便提出了MinD-Video的办法。
整体来看,这个办法主要包括两大模块,它们分别做练习,然后再在一起做微调。
这个模型从大脑信号中逐步学习,在第一个模块多个阶段的进程,可以获得对语义空间的更深入理解。
详细而言,便是先利用大规模无监督学习与mask brain modeling(MBM)来学习一般的视觉fMRI特征。
然后,团队使用标示数据集的多模态提取语义相关特征,在比照言语-图画预练习(CLIP)空间中使用比照学习练习fMRI编码器。
在第二个模块中,团队经过与增强版Stable Diffusion模型的一起练习来微调学习到的特征,这个模型是专门为fMRI技能下的视频生成量身定制的。
如此办法之下,团队也与此前的诸多研讨做了比照,可以明显地看到MinD-Video办法所生成的图片、视频质量要远优于其它办法。
并且在场景接连改变的进程中,也可以出现高清、有意义的接连帧。
研讨团队
这项研讨的一起一作,其中一位是来自新加坡国立大学的博士生Zijiao Chen,现在在该校的神经精神疾病多模式神经成像实验室(MNNDL_Lab)。
另一位一作则是来自香港中文大学的Jiaxin Qing,就读专业是信息工程系。
除此之外,通讯作者是新加坡国立大学副教授Juan Helen ZHOU。
据了解,这次的新研讨是他们团队在此前一项名为MinD-Vis的功用磁共振成像图画重建作业的延伸。
MinD-Vis已经被CVPR 2023所接纳。
参阅链接:
[1]mind-video.com/
[2]twitter.com/ZijiaoC/sta…
[3]arxiv.org/abs/2305.11…
—完—