视觉脑机接口的终极目标,是建立大脑神经皮层与外部视觉感知的双向交互通道,从“单向理解”走向“双向交互”,既能从大脑神经活动中重建出视觉信息(读脑),也能把视觉信息自然写入神经皮层(写脑),同时保证“读脑”与“写脑”过程的可交互性与双向一致性。
来自上海人工智能实验室、香港大学、香港中文大学等机构的研究团队,提出首个基于统一神经流模型的视觉-神经双向建模框架NeuroFlow,相关成果入选CVPR 2026。它首次将视觉编码(写脑)与解码(读脑)整合到同一可逆流结构中,打通视觉感知与神经活动之间的双向通路,为理解人类视觉认知机制、构建下一代通用视觉假体与双向脑机接口提供了全新范式。
本文第一作者为香港大学PhD麦伟健,相关研究工作于上海人工智能实验室科研实习期间完成;共同通讯作者分别为伍佳敏,Andrew F. Luo 和宋纯锋。该工作已经被 CVPR 2026 会议接收。
视觉神经建模困境:
从“割裂单向”到“统一双向”的范式转变需求
在人类视觉感知系统中,外界视觉刺激可激活大脑产生神经响应(编码),同时大脑神经响应能够用于重建相应的感知内容(解码),二者形成互补的信息处理通路。但长期以来,视觉神经建模面临难以突破的瓶颈:
1)编码与解码长期割裂:两类任务被视为独立问题,需分别训练模型、使用不同潜空间,缺乏交互,难以保证双向一致性;
2)双向跨模态对齐困难:当前方法多依赖简单线性或扩散范式下的单向映射,难以保证建模视觉-神经模态间的双向对齐。
3)神经模式解释性不足:生成的神经信号易陷入体素级噪声,与大脑真实皮层激活模式存在偏差,缺乏生物学可解释性。这种 “单向割裂” 的范式,限制了我们对视觉神经机制的深层理解,也阻碍了双向脑机技术的进一步发展。
统一建模突破:
NeuroFlow 构建视觉-神经可逆映射新架构
为破解上述难题,NeuroFlow 首次在单一模型内实现视觉编码+神经解码的统一建模,用一套架构完成双向任务,核心包含两大创新模块:
1、NeuroVAE 概率变分主干
人类神经响应天然存在一对多的随机特性:大脑在感知同一个视觉刺激时,受生理噪声、脑状态波动、采集试次差异影响,多次记录得到的 fMRI 脑活动分布各不相同。针对该视觉-神经活动之间的“一对多”变异性,NeuroVAE 引入变分概率建模范式,不再将脑信号映射为单点固定特征,而是输出概率分布表征,把高维杂乱的原始 fMRI 体素数据压缩至维度紧凑、语义结构化的统一隐空间。模型在保留关键神经信息的同时过滤冗余噪声,并通过对比学习与循环一致性约束,实现神经表征与视觉语义的深度对齐,为跨模态统一建模奠定基础。
2、XFM 跨模态流匹配
当前跨模态生成方案普遍采用条件扩散范式,依赖单一模态信息作为条件引导、从纯高斯噪声迭代生成另一模态数据,训练与推理逻辑单向固化,很难自然实现正向、反向双向转换。 XFM 跨模态流匹配跳出 “噪声生成数据 + 单模态条件引导” 的固有框架,直接基于常微分方程连续演化思想,在共享隐空间中学习视觉表征分布与NeuroVAE神经表征分布之间的连续可逆变换流场,无需条件引导便可直接构建从源分布平滑过渡至目标分布的完整演化路径。
模型定义随时间 [0, 1] 变化的矢量场,采用余弦插值构建从源分布到目标分布的平滑过渡轨迹。其中,1)正向演化对应编码任务,时间由0 → 1推进,视觉特征沿流场连续变换生成对应神经表征,完成图像到脑信号的编码,再通过NeuroVAE生成真实的神经信号;2)反向演化对应解码任务:时间由1 → 0推进、沿时间逆向求解 ODE,由神经表征回溯还原原始视觉特征,再通过视觉生成器实现从脑信号中重建图像。仅通过时间方向区分两种过程,从机理上保证编码与解码的强语义一致性。这一架构让视觉与神经在共享潜空间内形成稳定、可逆、可解释的映射关系,实现真正意义上的双向互通。
实验亮点与结果:
全面领先,信号真实,一致性突出
研究团队在大规模自然场景 fMRI 数据集(NSD)上进行全面验证,与 MindEye2、BrainDiffuser、SynBrain 等主流模型对比,NeuroFlow 展现出全方位优势:
1)视觉解码性能:从神经信号重建的图像与原视觉刺激的语义/轮廓一致性更高,且性能超越现有视觉解码基线;
2)编码-解码一致性:图像→神经→重建图像的双向一致性高度稳定;
3)神经信号真实性:合成神经信号可抑制早期视觉区的跨试次随机噪声,更关注于 FFA(脸部)、EBA(身体)、PPA(场景)等高级语义功能区,与真实视觉皮层激活模式高度吻合;
4)高效轻量性:无需预训练,仅需当前最优解码模型的25%训练参数便可在编码与解码任务中都达到更优性能,训练高效、易于部署与拓展。这些实验证明,NeuroFlow 不仅性能领先,更能生成大脑可理解、语义可对齐、生理可解释的神经表征,为视觉认知研究提供可信工具。
可解释性分析:拆解双向建模的关键内在机制
该工作依托多维度可视化实验,从模块消融、流演化轨迹、脑功能特征三个维度剖析模型内在机理:
A)消融实验:逐项移除关键损失与模块后,图像重建保真度、语义完整性显著劣化,证明各项约束与 XFM 流结构是实现高质量跨模态重建的必要条件;
B)流采样轨迹:编码演化过程中,模型会自发抑制早期初级视觉区噪声响应,表征逐步向 FFA、EBA 等高级功能脑区收敛;解码则从初始轮廓草图平滑迭代为高清完整图像,区别于扩散模型由纯噪声起步的生成逻辑,直观体现流匹配的演化规律;
C)类别激活对比:选取人脸类视觉刺激,对照实测 fMRI 激活与模型合成神经激活图谱,模型生成的激活区位、强弱分布和人脑真实响应高度匹配,验证框架可精准复现特定语义类别对应的脑区激活模式;
D)量化验证:依托 NSD 测试集,结合方差解释度(EV)与斯皮尔曼相关系数做全脑量化分析,量化结果可见模型在 FFA、EBA、PPA 等高级视觉功能脑区呈现更高的解释度与相关系数,说明 NeuroFlow 建模时更侧重学习人脑高级语义加工相关的神经活动。
实验证明 NeuroFlow 架构在保障高精度图像重建的同时,生成的神经表征贴合人脑视觉加工的生理规律,从机理上验证了视觉与神经双向映射的科学性。
价值与展望:
开启视觉-神经双向交互新时代
NeuroFlow 的意义不止于模型性能提升,更在于为脑科学与 AI 交叉领域打开全新可能:
1)认知研究层面,提供了可计算、可验证的视觉神经建模工具,助力揭示人类视觉感知、语义加工、高级认知的底层机理;
2)脑机接口层面:构建稳定、高效、可逆的视觉-神经双向通道,为视觉假体与双向脑机接口等前沿方向提供核心算法底座;
3)技术范式层面:证明单一统一模型可胜任双向跨模态任务,为多模态神经建模提供可复用的设计思路。
未来,NeuroFlow 将进一步走向更通用、更鲁棒、更贴近真实大脑机制的视觉-神经建模体系,加速脑科学与人工智能深度融合,推动双向脑机接口从实验室走向更广阔的现实应用。