类人脑记忆的脑、视觉与语言多模态特征解码框架文献速递/多模态医学影像最新进展

有Li

226人浏览 · 2026-06-11 15:58:57

有Li · 2026-06-11 15:58:57 发布

2026.6.11

本文提出MLHuB，通过记忆单元、正交投影和互信息最大化提升脑信号到未知视觉类别的多模态解码能力。

Title题目

类人脑记忆的脑、视觉与语言多模态特征解码框架

Memory like the human brain: A framework for decoding multimodal learning of brain-visual-linguistic features

文献速递介绍

本文关注人类视觉神经表示解码任务，即根据fMRI或EEG等脑信号推断受试者看到的视觉类别。该任务不仅有助于理解大脑如何编码视觉信息，也对脑机接口和类脑人工智能具有重要意义。已有方法大致包括判别式分类、视觉重建生成和表示学习三类，但它们通常没有充分模拟人脑在持续学习中保留旧知识、整合新概念的机制。作者指出两个核心问题：一是表示漂移，即模型在持续训练中会削弱先前学到的视觉语义对齐；二是图像和文本的公共语义与模态特有特征建模不足，导致跨模态融合浅层且冗余。受人脑学习新物种时先感知编码、再存储整合、最后通过记忆联想区分相似对象的过程启发，论文提出MLHuB框架，希望让模型像人脑一样利用长期记忆和特征分解来识别未见类别。

相关工作

相关工作首先回顾了视觉类别神经解码。早期研究利用fMRI或EEG建立视觉刺激与脑活动的映射，后续深度学习方法发展出判别、生成和表示学习三条路线。判别方法关注从脑信号识别类别，生成方法关注从脑活动重建图像，表示学习方法强调提取可跨任务泛化的层级神经特征。其次，论文讨论了多模态对比学习，尤其是CLIP式脑、图像、文本对齐方法，它们提升了零样本脑解码能力，但仍面临模态间差距和冗余特征问题。再次，作者介绍正交投影在跨模态匹配、领域适应、知识蒸馏和少样本学习中的作用，认为它适合用于区分共享子空间和模态特有子空间。最后，论文回顾互信息最大化在多模态学习和神经影像中的应用，并将其作为强化脑、视觉、语言统计依赖和提升鲁棒性的关键约束。

问题定义

论文采用类似零样本或广义未见类别解码的设定。训练阶段，对于已见类别，模型可以获得成对的脑信号、视觉图像特征和文本描述特征；对于未见类别，训练时没有脑信号，只能使用图像和文本信息。测试阶段，目标是给定未见类别的脑活动特征，预测其所属的未见视觉类别。该设定符合实际应用中脑数据稀缺而图像文本数据相对丰富的现实，也要求模型能够把从已见类别中学到的脑视觉语言知识迁移到没有脑信号训练样本的新类别上。

MLHuB框架

MLHuB由六个部分组成：数据预处理、特征提取、特征对齐、记忆单元、正交投影和特征重构。预处理阶段针对fMRI或EEG、图像和文本分别进行标准化和特征整理。脑数据通过稳定性选择、归一化和PCA降低噪声与维度；图像用预训练RepVGG-b3g4提取层级视觉特征后进行PCA；文本用ALBERT和GPT-Neo编码Wikipedia描述，并通过分段平均池化获得类别级文本向量。随后，脑、图像、文本分别进入MLP编码器，映射到统一潜在空间，并输出均值、方差参数和特征表示。

多模态特征对齐

为了融合三个模态的潜在后验分布，MLHuB采用MoPoE，即Mixture of Product of Experts。脑、图像和文本编码器输出的均值与协方差被送入MoPoE，在共享潜在空间中形成融合表示。该机制可以让多个模态共同贡献信息，降低单一模态噪声的影响，并为后续的记忆增强、特征分解和互信息约束提供更稳定的多模态表示。相较于简单拼接或单一路径对齐，MoPoE更适合处理脑数据稀缺、图像文本可用但分布不同的场景。

记忆单元

记忆单元是MLHuB模拟人脑长期记忆巩固的关键模块。它维护一个包含M个记忆槽的矩阵，每个记忆槽存储图像文本融合特征的原型模式。给定当前查询特征，读取模块通过余弦相似度和softmax计算查询与记忆项之间的匹配权重，并用加权求和获得记忆增强表示。更新模块则根据查询与记忆项的相关性进行门控式写入，把新样本中的上下文信息注入对应记忆槽。为了让记忆既紧凑又多样，作者设计了聚合损失和分离损失：聚合损失促使同类或相似特征靠近最近记忆原型，降低类内波动；分离损失鼓励不同记忆项保持足够距离，避免所有记忆槽坍缩到单一表示。该模块有助于稳定已学知识、缓解表示漂移，并提升脑信号解码时的语义联想能力。

正交投影

图像和文本既有共同语义，也有各自独有的信息，例如图像包含纹理、形状和视觉外观，文本包含抽象语义和背景知识。直接融合二者可能造成冗余或模态错配。MLHuB通过正交投影把视觉特征投影到文本特征方向上，得到图像和文本之间的公共表示，再从文本特征中减去公共部分得到个体表示。随后，公共特征和个体特征被编码到统一潜在空间。论文进一步用互信息约束处理二者关系，目标是让共享部分和特有部分能够形成互补且更可解释的表示，从而既利用跨模态一致语义，又保留模态特有判别细节。

特征重构与总体目标

经过融合、记忆增强和正交分解后，MLHuB使用脑、图像、文本三个模态专属解码器重构对应特征。重构出的脑特征会再次通过脑编码器映射回与潜在融合特征可比较的空间，然后用模态内互信息最大化强化潜在表示与重构脑表示的一致性。与此同时，模型对重构后的脑、图像、文本特征进行模态间互信息最大化，以增强三者之间的跨模态依赖和语义一致性。总体损失由模态间互信息损失、两个模态内互信息损失以及记忆单元损失加权组成，权重分别用于平衡跨模态对齐、特征解耦一致性、脑潜在表示一致性和记忆原型优化。

实验设置

实验在三个脑视觉语言数据集上进行。GOD-Wiki基于GOD fMRI数据集，包含5名受试者、150个已见类别和50个未见类别，并配有Wikipedia文本描述。DIR-Wiki基于DIR fMRI数据集，包含3名受试者，图像类别与GOD类似，但训练图像刺激重复更多次，因此脑图像配对样本更多。ThingsEEG基于大规模EEG视觉识别数据集，包含10名受试者、1654个训练类别和200个测试类别，使用枕叶和顶叶相关通道的70到400毫秒时间窗特征。模型使用Adam训练100轮，学习率为10的负4次方，批量大小为512，记忆大小M设为10，分离损失边界a设为1.0，总损失权重α、β、γ分别为0.4、0.3、0.3。评价指标为top-1和top-5分类准确率，基线包括CADA-VAE、MVAE、MMVAE、MoPoE-VAE、BraVL、BrainSem、MindEye和ATM等。

与基线比较

在GOD-Wiki上，MLHuB在视觉文本联合设置下达到平均top-1为19.90%、top-5为58.98%，整体优于大多数基线，并在top-5上超过MindEye。视觉模态的表现显著高于文本模态，说明视觉皮层fMRI信号与视觉特征的相关性更强，而文本语义需要更高层抽象推理。联合视觉与文本后性能提升，表明两种模态能够互补。DIR-Wiki上，MLHuB在视觉、文本和视觉文本联合三种设置中均取得更高或更稳定的跨被试表现，联合设置平均top-1为39.57%、top-5为74.39%，说明其能更好地融合脑、图像和语言特征。ThingsEEG上，MLHuB在被试内和跨被试设置下均优于BraVL和ATM，尤其在200-way任务和跨被试场景中仍保持明显提升，说明记忆增强和共享特征建模有助于学习更具泛化性的EEG表示。

消融研究

组件消融显示，单独加入MoPoE后性能明显提升，说明多模态后验融合是有效基础；进一步加入记忆单元后，DIR-Wiki、GOD-Wiki和ThingsEEG上的准确率继续上升，表明记忆原型有助于保留知识和增强聚类判别性；最终加入正交投影后取得最佳性能，验证了公共特征和个体特征解耦的重要性。损失函数消融也呈现逐步提升趋势：从仅使用模态间互信息开始，依次加入公共个体特征的模态内互信息、潜在与重构脑特征的互信息、分离损失和聚合损失后，模型在各数据集上的top-1和top-5均得到提升。这说明MLHuB的性能不是来自单一技巧，而是来自MoPoE融合、记忆机制、正交解耦和多层互信息约束的协同。

超参数分析与可视化

超参数分析考察了总体损失中α、β和γ的影响。实验表明，当这些权重位于0.2到0.8的中等范围时，模型通常能取得较优效果；权重过小会使相关损失无法充分发挥指导作用，权重过大则可能导致某个目标主导优化并引发过拟合或目标失衡。可视化部分使用t-SNE展示加入记忆单元前后的特征分布。没有记忆单元时，不同类别或属性的多模态特征较为分散且混杂；加入记忆单元后，同属性特征形成更清晰的簇。Silhouette Score也显著提升，例如DIR-Wiki从0.27升至0.68，GOD-Wiki从0.25升至0.61，ThingsEEG-inter从0.31升至0.72，ThingsEEG-intra从0.42升至0.76。进一步的热力图表明，记忆大小M约为10、分离边界a约为1.0时在多个数据集上表现稳定。

Aastract摘要

本文研究如何从fMRI或EEG脑活动中解码人类看到的视觉类别，并借助图像和文本知识提升对未见类别的泛化能力。现有脑视觉语言解码方法容易出现连续训练中的表示漂移，也常难以区分图像与文本之间的共享语义和模态特有信息。作者提出MLHuB框架，模拟人脑学习新概念时的记忆巩固和联想过程，引入记忆单元保存图像文本原型，用正交投影分离公共表示与个体表示，并用模态内和模态间互信息最大化强化对齐。实验在GOD-Wiki、DIR-Wiki和ThingsEEG三个数据集上进行，结果显示MLHuB在fMRI和EEG、单被试和跨被试、50类和200类等设置下均取得优于主要基线的表现。

Conclusion结论

论文提出MLHuB，用于解码人类视觉神经表示，并强调像人脑一样进行记忆巩固、联想和新概念推理。该方法通过记忆单元保存和更新图像文本融合原型，通过正交投影分离跨模态公共语义与模态特有信息，通过模态内和模态间互信息最大化强化脑、视觉、语言之间的一致表示。三个数据集上的实验和消融结果表明，MLHuB在未见类别解码、跨被试EEG泛化以及多模态融合方面具有较强优势。总体而言，本文为脑视觉语言解码提供了一个更具可解释性和类脑启发的多模态学习框架。

Figure图