前言 AI 直接把你脑中的创意画出来的时刻,现已到来了。
本文转载自机器之心
仅用于学术分享,若侵权请联系删除
欢迎关注大众号CV技能攻略,专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。
CV各大方向专栏与各个布置结构最全教程整理
【CV技能攻略】CV全栈辅导班、根底入门班、论文辅导班 全面上线!!
近几年,图画生成范畴取得了巨大的进步,尤其是文本到图画生成方面取得了重大突破:只需我们用文本描绘自己的想法,AI 就能生成新奇又传神的图画。
但其实我们能够更进一步 —— 将头脑中的想法转化为文本这一步能够省去,直接经过脑活动(如 EEG(脑电图)记载)来控制图画的生成创作。
这种「思想到图画」的生成方式有着广阔的运用远景。例如,它能极大提高艺术创作的功率,并协助人们捕捉少纵即逝的灵感;它也有或许将人们夜晚的梦境进行可视化;它甚至或许用于心理治疗,协助自闭症儿童和语言障碍患者。
最近,来自清华大学深圳国际研讨生院、腾讯 AI Lab 和鹏城试验室的研讨者们联合宣布了一篇「思想到图画」的研讨论文,运用预练习的文本到图画模型(比方 Stable Diffusion)强壮的生成才能,直接从脑电图信号生成了高质量的图画。
论文地址:arxiv.org/pdf/2306.16…
项目地址:github.com/bbaaii/Drea…
办法概述
近期一些相关研讨(例如 MinD-Vis)测验依据 fMRI(功能性磁共振成像信号)来重建视觉信息。他们现已证明了运用脑活动重建高质量成果的可行性。但是,这些办法与抱负中运用脑信号进行方便、高效的创作还差得太远,这首要有两点原因:
首要,fMRI 设备不便携,而且需求专业人员操作,因而捕捉 fMRI 信号很困难;
其次,fMRI 数据收集的本钱较高,这在实践的艺术创作中会很大程度地阻止该办法的运用。
相比之下,EEG 是一种无创、低本钱的脑电活动记载办法,而且现在市面上现已有取得 EEG 信号的便携商用产品。
但实现「思想到图画」的生成还面临两个首要应战:
1)EEG 信号经过非侵入式的办法来捕捉,因而它本质上是有噪声的。此外,EEG 数据有限,个别差异不容忽视。那么,怎么从如此多的约束条件下的脑电信号中取得有效且稳健的语义表征呢?
2)因为运用了 CLIP 并在很多文本 – 图画对上进行练习,Stable Diffusion 中的文本和图画空间对齐良好。但是,EEG 信号具有其自身的特点,其空间与文本和图画大不相同。怎么在有限且带有噪声的 EEG – 图画对上对齐 EEG、文本和图画空间?
为了解决第一个应战,该研讨提出,运用很多的 EEG 数据来练习 EEG 表征,而不是仅用罕见的 EEG 图画对。该研讨选用掩码信号建模的办法,依据上下文线索猜测缺失的 token。
不同于将输入视为二维图画并屏蔽空间信息的 MAE 和 MinD-Vis,该研讨考虑了 EEG 信号的时刻特性,并深化发掘人类大脑时序变化背后的语义。该研讨随机屏蔽了一部分 token,然后在时刻域内重建这些被屏蔽的 token。经过这种方式,预练习的编码器能够对不同个别和不同脑活动的 EEG 数据进行深化理解。
对于第二个应战,先前的解决办法一般直接对 Stable Diffusion 模型进行微调,运用少量噪声数据对进行练习。但是,仅经过终究的图画重构损失对 SD 进行端到端微调,很难学习到脑信号(例如 EEG 和 fMRI)与文本空间之间的准确对齐。因而,研讨团队提出选用额外的 CLIP 监督,协助实现 EEG、文本和图画空间的对齐。
详细而言,SD 自身运用 CLIP 的文本编码器来生成文本嵌入,这与之前阶段的掩码预练习 EEG 嵌入十分不同。运用 CLIP 的图画编码器提取丰厚的图画嵌入,这些嵌入与 CLIP 的文本嵌入很好地对齐。然后,这些 CLIP 图画嵌入被用于进一步优化 EEG 嵌入表征。因而,经过改进的 EEG 特征嵌入能够与 CLIP 的图画和文本嵌入很好地对齐,并更适合于 SD 图画生成,然后提高生成图画的质量。
依据以上两个精心设计的方案,该研讨提出了新办法 DreamDiffusion。DreamDiffusion 能够从脑电图(EEG)信号中生成高质量且传神的图画。
详细来说,DreamDiffusion 首要由三个部分组成:
1)掩码信号预练习,以实现有效和稳健的 EEG 编码器;
2)运用预练习的 Stable Diffusion 和有限的 EEG 图画对进行微调;
3)运用 CLIP 编码器,对齐 EEG、文本和图画空间。
首要,研讨人员运用带有很多噪声的 EEG 数据,选用掩码信号建模,练习 EEG 编码器,提取上下文知识。然后,得到的 EEG 编码器经过穿插注意力机制被用来为 Stable Diffusion 供给条件特征。
为了增强 EEG 特征与 Stable Diffusion 的兼容性,研讨人员进一步经过在微调过程中减少 EEG 嵌入与 CLIP 图画嵌入之间的距离,进一步对齐了 EEG、文本和图画的嵌入空间。
试验与剖析
与 Brain2Image 对比
研讨人员将本文办法与 Brain2Image 进行比较。Brain2Image 选用传统的生成模型,即变分自编码器(VAE)和生成对抗网络(GAN),用于实现从 EEG 到图画的转换。但是,Brain2Image 仅供给了少量类别的成果,并没有供给参考实现。
鉴于此,该研讨对 Brain2Image 论文中展现的几个类别(即飞机、南瓜灯和熊猫)进行了定性比较。为确保比较公正,研讨人员选用了与 Brain2Image 论文中所述相同的评估战略,并在下图 5 中展现了不同办法生成的成果。
下图第一行展现了 Brain2Image 生成的成果,最终一行是研讨人员提出的办法 DreamDiffusion 生成的。能够看到 DreamDiffusion 生成的图画质量明显高于 Brain2Image 生成的图画,这也验证了本文办法的有效性。
消融试验
预练习的效果:为了证明大规模 EEG 数据预练习的有效性,该研讨运用未经练习的编码器来练习多个模型进行验证。其中一个模型与完整模型相同,而另一个模型只要两层的 EEG 编码层,以避免数据过拟合。在练习过程中,这两个模型分别进行了有 / 无 CLIP 监督的练习,成果如表 1 中 Model 列的 1 到 4 所示。能够看到,没有经过预练习的模型准确性有所降低。
mask ratio:本文还研讨了用 EEG 数据确定 MSM 预练习的最佳掩码比。如表 1 中的 Model 列的 5 到 7 所示,过高或过低的掩码比会对模型功能都会发生晦气影响。当掩码比为 0.75 到达最高的整体准确率。这一发现至关重要,因为这表明,与一般运用低掩码比的自然语言处理不同,在对 EEG 进行 MSM 时,高掩码比是一个较好的挑选。
CLIP 对齐:该办法的要害之一是经过 CLIP 编码器将 EEG 表征与图画对齐。该研讨进行试验验证了这种办法的有效性,成果如表 1 所示。能够观察到,当没有运用 CLIP 监督时,模型的功能明显下降。实践上,如图 6 右下角所示,即便在没有预练习的情况下,运用 CLIP 对齐 EEG 特征仍然能够得到合理的成果,这凸显了 CLIP 监督在该办法中的重要性。
欢迎关注大众号CV技能攻略,专心于计算机视觉的技能总结、最新技能盯梢、经典论文解读、CV招聘信息。
计算机视觉入门1v3辅导班
【技能文档】《从零建立pytorch模型教程》122页PDF下载
QQ沟通群:470899183。群内有大佬负责回答我们的日常学习、科研、代码问题。
其它文章
中科院自动化所发布FastSAM | 精度适当,速度提高50倍!!!
大核卷积网络是比 Transformer 更好的教师吗?ConvNets 对 ConvNets 蒸馏奇效
MaskFormer:将语义切割和实例切割作为同一使命进行练习
CVPR 2023 VAND Workshop Challenge零样本反常检测冠军方案
视觉魔法师:开启语义切割的奇幻之旅
沈春华团队最新 | SegViTv2对SegViT进行全面升级,让依据ViT的切割模型更轻更强
改写20项代码使命SOTA,Salesforce提出新式根底LLM系列编码器-解码器Code T5+
或许95%的人还在犯的PyTorch错误
从DDPM到GLIDE:依据扩散模型的图画生成算法进展
CVPR最佳论文颁给自动驾驶大模型!中国团队第一单位,近10年三大视觉顶会首例
最新轻量化Backbone | FalconNet汇聚所有轻量化模块的长处,成就最强最轻Backbone
ReID专栏(二)多标准设计与运用
ReID专栏(一) 使命与数据集概述
libtorch教程(三)简略模型建立
libtorch教程(二)张量的常规操作
libtorch教程(一)开发环境建立:VS+libtorch和Qt+libtorch
NeRF与三维重建专栏(三)nerf_pl源码部分解读与colmap、cuda算子运用
NeRF与三维重建专栏(二)NeRF原文解读与体渲染物理模型
NeRF与三维重建专栏(一)范畴背景、难点与数据集介绍
反常检测专栏(三)传统的反常检测算法——上
反常检测专栏(二):点评方针及常用数据集
反常检测专栏(一)反常检测概述
BEV专栏(二)从BEVFormer看BEV流程(下篇)
BEV专栏(一)从BEVFormer深化探求BEV流程(上篇)
可见光遥感图画方针检测(三)文字场景检测之Arbitrary
可见光遥感方针检测(二)首要难点与研讨办法概述
可见光遥感方针检测(一)使命概要介绍
TensorRT教程(三)TensorRT的装置教程
TensorRT教程(二)TensorRT进阶介绍
TensorRT教程(一)初度介绍TensorRT
AI最全材料汇总 | 根底入门、技能前沿、工业运用、布置结构、实战教程学习
计算机视觉入门1v3辅导班
计算机视觉沟通群
聊聊计算机视觉入门