（NeurIPS-2025）MAGE 以简驭繁：线性自适应图学习赋能时空预测

山科智能信息处理实验室

337人浏览 · 2026-05-19 10:00:00

山科智能信息处理实验室 · 2026-05-19 10:00:00 发布

主要内容：本文聚焦时空预测领域痛点，介绍了中科大团队提出的 MAGE 模型。传统时空图模型存在图拓扑噪声大、计算复杂度高（O (N²)）、难以适配大规模场景的问题。MAGE 以 “少而精” 为理念，核心创新包括移除 ReLU 激活净化图拓扑、采用线性自适应图将复杂度降至 O (N)，并设计稀疏平衡多专家结构突破线性低秩瓶颈。实验覆盖交通、能源、气象等 17 个真实数据集，MAGE 在 94% 指标上达最优，训练速度与内存占用均大幅优于主流模型，兼顾高精度与高效率，为大规模时空建模提供了新范式。

论文链接：https://openreview.net/pdf?id=jCGwSLwOt9

代码链接：https://github.com/USTC-MAGE/MAGE

一、引言

1.1 时空预测：智慧城市与交通调度的核心挑战

在智慧城市、交通管理、能源调度、气象预测等关键场景中，时空预测（Spatiotemporal Forecasting） 始终是支撑智能决策的核心技术。它的目标是基于历史的多节点时间序列数据，预测未来一段时间内各节点的状态变化 —— 比如城市路网中未来 1 小时的交通流量、电力网络中不同节点的负载波动、或者城市各区域的气象数据变化。

这类任务的核心难点在于，数据同时包含时间维度的动态依赖（比如早晚高峰的周期性变化、突发拥堵的短期波动）和空间维度的关联依赖（比如主干道拥堵会影响周边支路、相邻区域的气象变化存在联动）。时空图神经网络（STGNN）凭借 “用图结构建模空间关联、用时序模块建模时间依赖” 的思路，成为这类任务的主流方案，也在多个场景中取得了不错的效果。但随着应用场景从小规模路网拓展到城市级、甚至跨城市的大规模场景，传统 STGNN 的短板也逐渐暴露出来。

1.2 传统时空图模型的两大痛点：拓扑不准与计算低效

在实际应用中，传统时空图模型面临着两个难以兼顾的核心问题：

图拓扑质量差，噪声放大问题突出：早期 STGNN 依赖地理距离、道路连通性等先验知识构建静态图拓扑，但真实场景中节点间的关联往往是隐式、动态变化的 —— 比如两条不直接连通的道路，也可能因为车流绕行形成强关联，静态图完全无法捕捉这类依赖。后续的自适应图学习方法，通过节点嵌入的内积动态学习图拓扑，试图解决这个问题。但这类方法普遍使用 ReLU 激活函数来过滤负相关边，却意外放大了噪声：原本微弱的噪声信号经过 ReLU 后会被强化，反而生成了大量无效的假边，破坏了图拓扑的可靠性，最终导致模型预测精度下降。
计算复杂度高，难以适配大规模场景：传统自适应图学习的核心瓶颈是节点数平方级的复杂度（O (N²)）。对于城市级路网这类包含上万节点的大规模场景，O (N²) 的复杂度会导致模型训练时内存占用爆炸、推理速度极慢，甚至无法正常运行。虽然部分工作通过稀疏化、采样等方式降低复杂度，但又会损失模型的表达能力，无法兼顾效率与性能。

1.3 MAGE 的破局思路：线性自适应图 + 多专家结构，实现高效与性能双赢

为了同时解决 “拓扑不准” 和 “计算低效” 这两大痛点，论文提出了 MAGE（Mixture of Adaptive Graph Experts） 模型，以 “Less but More（少而精）” 为核心设计理念，用线性复杂度的自适应图学习，实现了比传统方法更优的预测性能。

MAGE 的核心破局思路可以概括为两点：

线性自适应图：解决拓扑噪声与复杂度问题：放弃传统自适应图中的 ReLU 激活函数，用纯线性的方式生成图拓扑，避免噪声放大问题；同时将复杂度从 O (N²) 降到 O (N)，让模型能轻松适配大规模场景。
多专家自适应图模块：突破线性模型的低秩瓶颈：纯线性模型存在低秩瓶颈，表达能力不足。为此，MAGE 引入多专家自适应图结构，通过多个线性专家的组合，在保持线性复杂度的同时，大幅提升模型的表达能力；再搭配稀疏平衡机制，避免专家偏科，让每个专家都能学到有效的关联模式。

这套 “线性 + 多专家” 的设计，让 MAGE 在保持 O (N) 线性复杂度的同时，在 17 个真实数据集上实现了 94% 的最优性能，真正做到了 “高效不打折，性能再升级”。接下来我们将从模型架构的核心模块，一步步拆解 MAGE 的设计细节。