从Transformer到基础模型：时空预测技术全景解读

小天才学习机打游戏

436人浏览 · 2026-03-21 18:01:57

小天才学习机打游戏 · 2026-03-21 18:01:57 发布

本文基于ACM Computing Surveys 2025年发表的综述论文《A Survey on Spatio-Temporal Prediction: From Transformers to Foundation Models》，系统梳理时空预测领域的最新进展。

什么是时空预测？为什么它如此重要？

想象一下：

• 早高峰时，导航软件精准预测15分钟后的路况
• 气象台提前一周预警台风路径
• 自动驾驶汽车预判行人的下一步动作

这些场景背后，都离不开时空预测（Spatio-Temporal Prediction） 技术。

时空数据是同时包含时间维度和空间维度信息的数据。随着物联网传感器的普及和智能设备的爆发式增长，我们正处于一个时空大数据时代。从交通流量、天气变化到人体运动，时空预测在众多领域扮演着关键角色。

ST data classification, prediction methods, and application domains

时空数据的核心挑战

时空数据的复杂性体现在三个方面：

动态时间序列：数据随时间不断变化
空间相关性：不同位置的数据相互影响
复杂非线性关系：传统线性模型难以捕捉

传统统计方法（如ARIMA）和早期机器学习算法往往假设数据独立，难以有效捕捉时空关联。这正是深度学习，尤其是Transformer架构大显身手的地方。

为什么Transformer成为时空预测的"王者"？

深度学习方法演进史

FIGURE TO DRAW: 时空预测方法演进时间线

时空预测方法经历了几个关键阶段：

时期	主流方法	特点	局限性
早期	ARIMA、统计方法	简单、可解释	假设线性，无法处理复杂依赖
2010s	RNN/LSTM	能处理时序数据	长序列梯度消失，难以并行
2014+	CNN	提取空间特征	局部感受野，远距离依赖差
2017+	Transformer	全局注意力，并行计算	计算复杂度高
2022+	基础模型	通用表示，迁移能力强	资源消耗大

Transformer的三大优势

全局依赖建模：自注意力机制可以直接连接序列中任意两个位置，不受距离限制
并行计算能力：不像RNN需要逐步处理，Transformer可以同时处理整个序列
灵活的架构设计：编码器-解码器结构可以根据任务需求灵活调整

实践提示：注意力机制的计算代价

标准自注意力的时间复杂度为 O(N²d)，其中N是序列长度，d是隐藏层维度。当处理长时间序列或高分辨率空间数据时，显存消耗会急剧增加。实践中常用的解决方案包括：

• 稀疏注意力（Sparse Attention）

• 线性注意力（Linear Attention）

• 滑动窗口注意力

在8GB显存的GPU上，标准注意力通常只能处理约2000-4000长度的序列。

综述的核心分类体系

这篇综述提出了一个清晰的三层分类框架，将基于Transformer的时空预测模型分为三大类：

A comprehensive taxonomy of Transformers for ST prediction in background, techniques and methods, application domains, model evaluation, and future directions

第一类：模块增强（Module Enhancement）

在保持Transformer基本架构不变的前提下，对核心模块进行改进。

1. 自注意力机制改进

改进类型	核心思想	代表方法
稀疏注意力	限制注意力范围，减少计算量	滑动窗口、随机采样
线性注意力	重排计算顺序，实现线性复杂度	自适应注意力
多头注意力	多个注意力头学习不同模式	标准配置，可调整头数

2. 位置编码增强

原始Transformer使用固定的正弦位置编码，但对于时空数据，我们需要更灵活的方案：

• 动态位置编码：可学习的位置参数，随训练更新
• 相对位置编码：编码元素间的相对距离而非绝对位置
• 层次位置编码：不同层级使用不同的编码策略
• 多模态位置编码：为不同类型的输入设计专门的编码

3. 前馈网络与归一化

• 激活函数：从ReLU到GELU、GLU
• 归一化策略：LayerNorm → GroupNorm → InstanceNorm
• 残差连接：可学习的残差权重

The architecture of Vanilla Transformer and its main variants

第二类：架构调整（Architecture Adjustment）

对Transformer的整体结构进行更大幅度的修改。

1. 层次化架构

将输入序列分层处理，从细粒度到粗粒度逐步聚合：

原始特征 → 初级Transformer → 聚合 → 高级Transformer → 最终输出

代表模型：

• Informer：通过最大池化层降低时间维度
• Deepnet：跨尺度注意力机制

2. 附加模块集成

最常见的是与图神经网络（GNN）的结合：

方案一：GNN作为独立模块

• GNN负责空间依赖
• Transformer负责时间依赖
• 代表：GraphTrans

方案二：GNN与注意力深度融合

• 在注意力计算中引入图结构信息
• 代表：Graphformers、Crossformer

工程实践提示：如何选择架构？

• 如果数据有明确的图结构（如交通网络、社交网络）→ 优先考虑GNN+Transformer

• 如果数据是规则网格（如气象栅格数据）→ CNN+Transformer或纯Transformer

• 如果序列特别长 → 层次化架构 + 稀疏注意力

• 资源受限场景 → 优先模块增强，避免复杂架构

第三类：基础模型（Foundation Models）

基础模型通过大规模预训练获取通用表示能力，然后微调适应下游任务。

纯文本输入方式

策略	描述	代表模型
数值作为数值	直接将时序数据作为数值输入	TimeGPT、TimesFM
数值作为Token	将数值离散化为类别标签	TDML（金融领域）
文本对齐	通过对比学习将时序与文本对齐	Time-LLM、TEST

多模态输入方式

策略	描述	代表模型
纯视觉	将时空数据转为图像	PanGu、FengWu
多模态对齐	文本引导多模态数据理解	ImageBind、PandaGPT

实践提示：基础模型的选择

• 零样本/少样本任务：优先考虑基础模型

• 领域数据充足：传统Transformer可能更高效

• 实时推理要求：基础模型通常太重，考虑蒸馏或模块增强方法

• 计算资源：FengWu等大模型需要32张A100训练17天

三大核心应用领域详解

领域一：城市交通

交通预测是时空预测最成熟的应用场景，包括：

• 交通流量预测
• 车速预测
• 拥堵检测
• 行人流量预估

代表模型对比

模型	核心特点	优势	局限
Traffic Transformer	多种位置编码策略	捕捉全局-局部时间依赖	未考虑空间相关性
Lastjormer	时空联合注意力	线性注意力，计算高效	可解释性差
ASTGCN	层次化注意力	整合短期/日/周周期依赖	缺乏外部信息融合
CorrSTN	空间/时间相关信息	考虑变量相关性	模型结构复杂

常用数据集

数据集	规模	时间范围	采样间隔
METR-LA	207传感器	2012.3-6	5分钟
PEMS-BAY	325检测器	2017.1-5	5分钟
PeMSD4	307检测器	59天	5分钟
LargeST	8600传感器	5年	-

实践提示：交通预测的数据泄露陷阱

时空数据的划分需要特别注意：

时间泄露：训练集不能包含测试时间段之后的数据

空间泄露：如果使用邻接矩阵，确保测试节点的邻居信息处理正确

周期性：按时间顺序划分，而非随机划分

推荐划分比例：7:1:2（训练:验证:测试），按时间顺序切分

领域二：气候监测

气象预测对各行业和公共健康至关重要：

• 天气预报
• 降水预测
• 风速预测
• 空气质量预测

代表模型对比

模型	类型	核心创新	参数量
AirFormer	模块增强	引入潜在随机变量	246K
Earthformer	架构调整	立方体注意力机制	3.61M
ClimaX	基础模型	Vision Transformer	7.76M
FengWu	基础模型	多模态多任务	4.53G

FengWu是目前最强大的气象预测模型之一，但训练成本极高（32×A100，17天）。

常用数据集

• ERA5：欧洲中期天气预报中心的全球大气再分析数据，覆盖1979年至今
• CMIP6：全球气候模型对比项目数据，用于气候变化研究

领域三：运动预测

运动预测包括两个主要方向：

1. 轨迹预测

• 行人轨迹预测
• 车辆轨迹预测
• 无人机路径规划

2. 人体动作预测

• 3D人体姿态预测
• 动作识别与预测
• 骨骼运动预测

代表模型对比

模型	任务	核心特点	优势
TrajFormer	轨迹分类	语义位置编码	精确经纬度处理
SGTN	行人轨迹	多模态预测	融合多模态特征
STCT	人体运动	交叉Transformer	时空特征连贯性
BEVGPT	自动驾驶	鸟瞰图输入	输入简洁直观

常用数据集

轨迹预测：

• ETH/UCY：行人轨迹数据集，包含5个场景
• Waymo：自动驾驶场景，含LiDAR和图像标注

人体运动：

• Human3.6M：大规模3D人体姿态数据集
• PoseTrack：视频中的人体姿态跟踪

模型评估：指标与性能分析

常用评估指标

指标	英文全称	适用场景	解释
MAE	Mean Absolute Error	通用	平均绝对误差，越小越好
RMSE	Root Mean Squared Error	通用	均方根误差，对大误差敏感
MAPE	Mean Absolute Percentage Error	通用	平均绝对百分比误差
ADE	Average Displacement Error	轨迹预测	所有时间步的平均欧氏距离
FDE	Final Displacement Error	轨迹预测	最终时间步的欧氏距离
MPJPE	Mean Per Joint Position Error	人体姿态	关节点平均位置误差

METR-LA数据集性能对比

模型	15分钟	30分钟	60分钟
Vanilla Transformer	2.98/6.04/8.88	3.65/7.03/9.64	4.25/7.96/12.41
Traffic Transformer	2.43/4.73/6.57	2.79/5.61/7.45	3.28/6.68/9.08
Lastjormer	2.64/5.11/6.74	2.99/6.01/8.13	3.36/7.03/9.67

格式：MAE/RMSE/MAPE(%)

关键发现：Traffic Transformer通过多种位置编码策略，在各时间尺度上都取得最佳性能。

实践提示：基线选择建议

必须包含的基线：

• Vanilla Transformer（证明改进有效）

• 领域内SOTA模型（如交通用ASTGCN）

• 简单基线（如Historical Average）

公平对比原则：

• 相同的数据划分

• 相同的输入窗口和预测窗口

• 相同的超参数搜索预算

避免的陷阱：

• 只在单一数据集上报告结果

• 选择性报告最好的预测步长

• 忽略模型复杂度和推理速度

五大未来研究方向

方向一：低质量时空数据预测

问题：实际场景中数据常有缺失、噪声和错误，但大多数研究使用高质量公开数据集。

研究方向：

• 缺失值感知的预测框架
• 噪声鲁棒的注意力机制
• 分布外（OOD）场景的泛化

方向二：模型压缩与实时性

问题：Transformer模型参数量大，难以部署到边缘设备，实时性不足。

研究方向：

• 低秩近似 + 结构化剪枝
• 知识蒸馏
• 混合专家（MoE）架构（受DeepSeek启发）

模型压缩技术对比图

方向三：可解释性与可信度

问题：深度学习模型被视为"黑箱"，用户难以理解预测依据。

研究方向：

• Relevance Rollout可视化
• 注意力权重解释
• 物理模型与数据驱动模型融合

方向四：模型泛化能力

问题：模型容易在特定数据集上过拟合，难以迁移到新场景。

研究方向：

• 大规模预训练
• 因果推理增强（如NuwaDynamics）
• 数据增强策略
• 多源多任务学习

方向五：外部信息融合

问题：仅靠历史时空数据难以捕捉所有影响因素。

可融合的外部信息：

• 物理规律约束
• 地理位置特征
• 地形地貌数据
• 气候特征
• 卫星遥感数据

融合方式：

• 多模态融合
• 结构化注意力机制
• 定制神经网络结构

应该记住的5件事

1. 时空预测的本质

时空预测需要同时建模时间依赖和空间关联，传统方法难以处理这种复杂的非线性关系。

2. Transformer的核心优势

自注意力机制能够捕捉全局依赖，并行计算带来效率提升，灵活架构支持多种变体。

3. 三类改进范式

• 模块增强：改进注意力、位置编码等模块
• 架构调整：层次化结构、GNN融合
• 基础模型：大规模预训练 + 微调

4. 应用领域各有特点

• 交通预测：图结构明显，GNN+Transformer常见
• 气象预测：数据量大，基础模型潜力大
• 运动预测：需要多模态信息融合

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

苹果发布超250项更新细节不止iOS 27系统和AI

苹果在WWDC 2026大会上发布了涵盖iOS 27等五大系统的超250项更新。iPhone支持同号多设备使用，优化Wi-Fi切换、灵动岛横屏显示等交互细节；iPad新增可调整窗口运行iPhone应用等功能；macOS 27强化原生应用并支持5K外接显示器；watchOS 27提升健康监测精准度；visionOS 27深度融合AI优化空间体验。所有更新预计9月正式推送。（摘要字数：150字）