机器之心专栏
机器之心编辑部
近来,中国科学院自动化研讨所的研讨人员杜长德等人开发了一种「脑 – 图 – 文 」多模态学习模型,能够无创地解码大脑活动的语义信息。新办法不仅提醒了视觉 – 言语的多模态信息加工机理,也完成了大脑信号的零样本语义解码。论文宣布在人工智能尖端期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI 2023)。
- 论文地址:ieeexplore.ieee.org/document/10…
- 代码地址:github.com/ChangdeDu/B…
- 数据地址:figshare.com/articles/da…
太长不看版
这项研讨首次将大脑、视觉和言语常识相结合,经过多模态学习的方式,完成了从人类脑活动记载中零样本地解码视觉新类别。本文还奉献了三个「脑 – 图 – 文」三模态匹配数据集。
试验成果表明了一些风趣的定论和认知洞见:1)从人类脑活动中解码新的视觉类别是能够完成的,而且精度较高;2)运用视觉和言语特征的组合的解码模型比仅运用其间之一的模型表现更好;3)视觉感知或许伴随着言语影响来表明视觉影响的语义。这些发现不仅对人类视觉体系的了解有所启示,而且也为将来的脑机接口技能供给了新的思路。本研讨的代码和数据集均已开源。
研讨背景
解码人类视觉神经表征是一个具有重要科学含义的应战,能够提醒视觉处理机制并促进脑科学与人工智能的开展。但是,现在的神经解码办法难以泛化到练习数据以外的新类别上,主要原因有两个:一是现有办法未充分利用神经数据背面的多模态语义常识,二是现有的可利用的配对(影响 – 脑呼应)练习数据很少。
研讨表明,人类对视觉影响的感知和辨认遭到视觉特征和人们从前经历的影响。例如当咱们看到一个熟悉的物体时,咱们的大脑会自但是然地检索与该物体相关的常识。如下图 1 所示,认知神经科学对双重编码理论 [9] 的研讨以为,具体概念在大脑中既以视觉方式又以言语方式进行编码,其间言语作为有用的先验经历,有助于刻画由视觉生成的表征。
因而,作者以为想要更好地解码记载到的脑信号,不仅应该运用实践出现的视觉语义特征,还应该包含与该视觉方针对象相关的更丰富的言语语义特征的组合来进行解码。
图 1. 人类大脑中的常识双重编码。当咱们看到大象的图片时,会天然地在脑海中检索到大象的相关常识(如长长的鼻子、长长的牙齿、大大耳朵等)。此时,大象的概念会在大脑中以视觉和言语的形式进行编码,其间言语作为一种有用的从前经历,有助于刻画由视觉发生的表征。
如下图 2 所示,由于搜集各种视觉类别的人脑活动十分贵重,一般研讨者只要十分有限的视觉类别的脑活动。但是,图画和文本数据却十分丰富,它们也能够供给额定的有用信息。本文的办法能够充分利用一切类型的数据(三模态、双模态和单模态)来进步神经解码的泛化才能。
图 2. 图画影响、引发的大脑活动以及它们相应的文本数据。咱们只能为少量类别搜集大脑活动数据,但是能够很容易地搜集几乎一切类别的图画和 / 或文本数据。因而,关于已知类别,咱们假设大脑活动、视觉图画和相应的文本描绘都可用于练习,而关于新类别,仅视觉图画和文本描绘可用于练习。测试数据是来自新类别的大脑活动数据。
「脑 – 图 – 文」多模态学习
如下图 3A 所示,本文办法的关键在于将每种模态学习到的分布对齐到一个共享的潜在空间中,该空间包含与新类别相关的基本多模态信息。
具体地说,作者提出了一种多模态自编码变分贝叶斯学习结构,其间运用了专家混合相乘模型(Mixture-of-Products-of-Experts,MoPoE),揣度出一种潜在编码,以完成一切三种模态的联合生成。为了学习更相关的联合表明,并在脑活动数据有限的情况下进步数据效率,作者还进一步引入了模态内和模态间的互信息正则化项。此外,BraVL 模型能够在各种半监督学习场景下进行练习,以纳入额定的大规模图画类别的视觉和文本特征。
在图 3B 中,作者从新类别的视觉和文本特征的潜在表明中练习 SVM 分类器。需要留意的是,在这一步中编码器 E_v 和 E_t 被冻结,只要 SVM 分类器(灰色模块)会被优化。
在运用中,如图 3C 所示,本文办法的输入仅为新类别脑信号,不需要其他数据,因而能够轻松运用于大多数神经解码场景。SVM 分类器之所以能够从(B)推行到(C),是由于这三种模态的潜在表明已经在 A 中对齐。
图 3 本文提出的 “脑 – 图 – 文” 三模态联合学习结构,简称 BraVL。
此外,脑信号会因试次(trial)的不同而发生变化,即使是相同的视觉影响也是如此。为了进步神经解码的稳定性,作者运用了稳定性挑选办法来处理 fMRI 数据。一切体素的稳定性分数如下图 4 所示,作者选取稳定性最好的前 15% 体素参加神经解码进程。这种操作能够有用地下降 fMRI 数据的维度,并按捺噪声体素引起的搅扰,而不会严重影响脑特征的判别才能。
图 4. 大脑视觉皮层的体素活动稳定性分数映射图。
现有的神经编解码数据集往往只要图画影响和脑呼应。为了获取视觉概念对应的言语描绘,作者采用了一种半自动的维基百科文章抽取办法。
具体来说,作者首要创立 ImageNet 类与其对应的维基百科页面的自动匹配,匹配是根据 ImageNet 类和维基百科标题的近义词集单词之间的相似性,以及它们的父类别。如下图 5 所示,遗憾的是,这种匹配偶尔会发生假阳性,由于名称相似的类或许表明十分不同的概念。在构建三模态数据集时,为了保证视觉特征和言语特征之间的高质量匹配,作者手动删除了不匹配的文章。
图 5. 半自动视觉概念描绘获取
试验成果
作者在多个「脑 – 图 – 文」三模态匹配数据集进步行了广泛的零样本神经解码试验,试验成果如下表所示。能够看到,运用视觉和文本特征组合 (V&T) 的模型比独自运用它们中的任何一种的模型表现得要好得多。值得留意的是,根据 V&T 特征的 BraVL 在两个数据集上的均匀 top-5 准确率都有显著进步。这些成果表明,尽管出现给被试的影响只包含视觉信息,但能够想象,被试会下意识地调用恰当的言语表征,从而影响视觉处理。
关于每个视觉概念类别,作者还展示了参加文本特征后的神经解码准确率增益,如下图 6 所示。能够看到,关于大多数测试类,文本特征的参加都有活跃的影响,均匀 Top-1 解码精度进步了约 6%。
图 6. 参加文本特征后的神经解码准确率增益
除了神经解码剖析,作者还剖析了文本特征在体素级神经编码方面的奉献 (根据视觉或文本特征猜测相应的脑体素活动) ,成果如图 7 所示。可见,关于大多数高档视觉皮层 (HVC,如 FFA, LOC 和 IT),在视觉特征的基础上融合文本特征能够进步大脑活动的猜测精度,而关于大多数低级视觉皮层 (LVC,如 V1, V2 和 V3),融合文本特征是没有优点的,甚至是有害的。
从认知神经科学的角度来看,咱们的成果是合理的,由于一般以为 HVC 负责处理物体的类别信息、运动信息等更高层次的语义信息,而 LVC 负责处理方向、轮廓等底层信息。此外,最近的一项神经科学研讨发现,视觉和言语语义表明在人类视觉皮层的鸿沟上对齐 (即「语义对齐假说」)[10],作者的试验成果也支撑这一假说。
图 7. 将文本特征奉献投影到视觉皮层
更多试验成果请拜见原文。
总体上,本文得出了一些风趣的定论和认知洞见:1)从人类脑活动中解码新的视觉类别是能够完成的,而且精度较高;2)运用视觉和言语特征组合的解码模型比独自运用两者中的任何一种的解码模型的性能要好得多;3)视觉感知或许伴随着言语影响来表明视觉影响的语义;4) 运用天然言语作为概念描绘比运用类名具有更高的神经解码性能;5) 单模态和双模态的额定数据均能显著进步解码精度。
讨论与展望
论文第一作者、中科院自动化所特别研讨助理杜长德表明:「此工作证实了从大脑活动、视觉图画和文本描绘中提取的特征关于解码神经信号是有用的。但是,提取的视觉特征或许无法准确反映人类视觉处理的一切阶段,更好的特征集将有助于这些任务的完成。例如,能够运用更大的预练习言语模型(如 GPT-3),来提取更具有零样本泛化才能的文本特征。此外,尽管维基百科文章包含丰富的视觉信息,但这些信息很容易被很多的非视觉语句所掩盖。经过视觉语句提取或许运用 ChatGPT 和 GPT-4 等模型搜集更准确和丰富的视觉描绘能够处理这个问题。最后,与相关研讨相比,尽管本研讨运用了相对较多的三模态数据,但更大更多样化的数据聚会更有利。这些方面咱们留待未来的研讨。」
论文通讯作者、中科院自动化所何晖光研讨员指出:「本文提出的办法有三个潜在的运用:1)作为一种神经语义解码东西,此办法将在新式读取人脑语义信息的神经假肢设备的开发中发挥重要作用。尽管这种运用还不成熟,但本文的办法为其供给了技能基础。2)经过跨模态揣度脑活动,本文办法还能够用作神经编码东西,用于研讨视觉和言语特征如何在人类大脑皮层上表达,提醒哪些脑区具有多模态特点(即对视觉和言语特征敏感)。3)AI 模型内部表征的神经可解码性能够被视为该模型的类脑水平目标。因而,本文的办法也能够用作类脑特性评价东西,测试哪个模型的(视觉或言语)表征更接近于人类脑活动,从而激励研讨人员规划更类脑的核算模型。」
神经信息编解码是脑机接口范畴的核心问题,也是探究人脑复杂功用背面的原理从而促进类脑智能开展的有用途径。自动化所神经核算与脑机交互研讨团队已在该范畴持续深耕多年,做出了一系列研讨工作,宣布在 TPAMI 2023、TMI2023、TNNLS 2022/2019、TMM 2021、Info. Fusion 2021, AAAI 2020 等。前期工作被 MIT Technology Review 头条报导,并取得 ICME 2019 Best Paper Runner-up Award。
该研讨得到了科技创新 2030—“新一代人工智能” 重大项目、基金委项目、自动化所 2035 项目以及中国人工智能学会 – 华为 MindSpore 学术奖励基金及智能基座等项目的支撑。
作者简介
第一作者:杜长德,中科院自动化所特别研讨助理,从事脑认知与人工智能方面的研讨,在视觉神经信息编解码、多模态神经核算等方面宣布论文 40 余篇,包含 TPAMI/TNNLS/AAAI/KDD/ACMMM 等。曾取得 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 华人新星百强。先后承当科技部、基金委、中科院的多项科研任务,研讨成果被 MIT Technology Review 头条报导。
个人主页:changdedu.github.io/
通讯作者:何晖光,中科院自动化所研讨员,博导,中国科学院大学岗位教授,上海科技大学特聘教授,中科院青促会优秀会员,建国七十周年纪念章取得者。先后承当 7 项国家天然基金(含基金要点和国际合作要点)、2 项 863、国家要点研讨计划课题等项目。曾取得国家科技进步二等奖两项(分别排名第二、第三)、北京市科技进步奖两项、教育部科技进步一等奖、中科院首届优秀博士论文奖、北京市科技新星、中科院 “卢嘉锡青年人才奖”、福建省 “闽江学者” 讲座教授。其研讨范畴为人工智能、脑 – 机接口、医学影像剖析等。近五年来,在 IEEE TPAMI/TNNLS、ICML 等期刊和会议上宣布文章 80 余篇。他是 IEEEE TCDS、《自动化学报》等期刊编委,CCF 出色会员,CSIG 出色会员。
参考文献
[1]. Changde Du, Kaicheng Fu, Jinpeng Li, Huiguang He. Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI 2023)*
[2]. Zhongyu Huang, Changde Du, Yingheng Wang, Kaicheng Fu, Huiguang He. Graph-Enhanced Emotion Neural Decoding. IEEE Transactions on Medical Imaging (TMI 2023)
[3]. Changde Du, Changying Du, Lijie Huang, Haibao Wang, Huiguang He. Structured Neural Decoding With Multitask Transfer Learning of Deep Neural Network Representations. IEEE Trans. Neural Netw. Learn. Syst (TNNLS 2022).*
[4]. Kaicheng Fu, Changde Du, Shengpei Wang, Huiguang He. Multi-view Multi-label Fine-grained Emotion Decoding from Human Brain Activity. IEEE Trans. Neural Netw. Learn. Syst (TNNLS 2022)
[5]. Changde Du, Changying Du, Huiguang He. Multimodal Deep Generative Adversarial Models for Scalable Doubly Semi-supervised Learning. Information Fusion 2021.*
[6]. Dan Li, Changde Du, Haibao Wang, Qiongyi Zhou, Huiguang He. Deep Modality Assistance Co-Training Network for Semi-Supervised Multi-Label Semantic Decoding. IEEE Transactions on Multimedia (TMM 2021).
[7]. Changde Du, Changying Du, Lijie Huang, Huiguang He. Conditional Generative Neural Decoding with Structured CNN Feature Prediction. In AAAI 2020*
[8]. Changde Du, Changying Du, Lijie Huang, Huiguang He. Reconstructing Perceived Images from Human Brain Activities with Bayesian Deep Multiview Learning. IEEE Trans. Neural Netw. Learn. Syst (TNNLS 2019).*
[9] Y. Bi, “Dual coding of knowledge in the human brain,” Trends Cogn. Sci., vol.25, no.10, pp.883–895, 2021
[10] S. F. Popham, A. G. Huth et al., “Visual and linguistic semantic representations are aligned at the border of human visual cortex,” Nat. Neurosci., vol. 24, no. 11, pp. 1628–1636, 2021.