关于自监督学习时空纠缠Transformer交通流预测的论文。

论文基本信息

项目 内容
标题 SSL-STMFormer: Self-Supervised Learning Spatio-Temporal Entanglement Transformer for Traffic Flow Prediction
作者 李泽涛、胡正、韩鹏(通讯作者)、顾宇、蔡世民
单位 电子科技大学,成都
会议 AAAI-25 (The Thirty-Ninth AAAI Conference on Artificial Intelligence)
页码 12130-12138

研究背景与核心问题

交通流预测的重要性

快速城市化和人口增长导致城市交通管理面临严峻挑战:交通拥堵、出行时间增加、空气污染。准确的交通流预测对缓解这些问题至关重要。

现有方法的三大核心局限

1. 长距离长时间纠缠捕获不足

  • 交通系统存在长距离长时间纠缠:相距遥远的节点可能在特定时段表现出相似交通模式
  • 案例(图1):旧金山国际机场(Node A)、奥克兰国际机场(Node B)、Bernal Heights(Node C)
    • 7/10-7/13:三处交通流趋势高度相似
    • 7/14-7/17:相似性急剧下降
  • 现有静态建模方法无法有效捕捉这种动态变化

2. 时空异质性建模不足

  • 城市区域功能分割导致不同区域交通模式差异显著
  • 即使相距遥远的两个位置也可能因功能相似(如商业区、住宅区)而表现出相似交通模式
  • 这种相似性同样随时间动态变化

3. 时空纠缠的静态建模缺陷

  • 时空依赖性和异质性因出行模式变化而动态演变
  • 现有方法以预定义/静态方式建模,无法捕捉真实交通环境的动态特性
  • GNN的过平滑问题进一步阻碍动态长期依赖的捕获

核心创新:SSL-STMFormer架构

在这里插入图片描述

整体框架(图2)

┌─────────────────────────────────────────────────────────────────┐
│                        输入数据嵌入层                              │
│  X_emb = X_data + X_spe(图拉普拉斯) + X_w(周周期) + X_d(日周期) + X_tpe │
├─────────────────────────────────────────────────────────────────┤
│                    时空编码器层 (ST Encoder Layer)                  │
│  ┌─────────────────────────┐  ┌─────────────────────────┐      │
│  │    空间注意力模块 (SA)     │  │    时间注意力模块 (TA)     │      │
│  │  • 短程掩码 M_short       │  │  • 随机掩码 M_rand        │      │
│  │  • 长程掩码 M_long (DTW)  │  │  • 管道掩码 M_tube        │      │
│  │  • 随机掩码 M_rand        │  │  • 块掩码 M_block         │      │
│  │  • 管道掩码 M_tube        │  │  • 时间掩码 M_temp        │      │
│  │  • 块掩码 M_block         │  │                         │      │
│  └─────────────────────────┘  └─────────────────────────┘      │
│  ↓                           ↓                                  │
│  空间纠缠感知模块              时间纠缠感知模块                        │
│  (Spatial Entanglement-Aware)  (Temporal Entanglement-Aware)      │
├─────────────────────────────────────────────────────────────────┤
│                    多头注意力融合 (Concat Multi-Heads)              │
│  STA = cat(Z^SRand, Z^STube, Z^SBlock, Z^Short, Z^Long,           │
│           Z^TRand, Z^TTube, Z^TBlock, Z^Temp, Z^T) · W^l        │
├─────────────────────────────────────────────────────────────────┤
│  逐位置前馈网络 (Position-Wise FFN) + 输出投影 (Output Projection)   │
├─────────────────────────────────────────────────────────────────┤
│                    自监督学习分支 (SSL Branch)                       │
│  ┌─────────────────────────┐  ┌─────────────────────────┐      │
│  │  空间异质性建模 (SHM)      │  │  时间异质性建模 (THM)      │      │
│  │  • 软聚类自监督任务        │  │  • 正/负样本对比学习        │      │
│  │  • 区域功能识别            │  │  • 时间步判别               │      │
│  └─────────────────────────┘  └─────────────────────────┘      │
│  L_joint = L_p(预测损失) + L_s(SHM损失) + L_t(THM损失)             │
└─────────────────────────────────────────────────────────────────┘

核心模块详解

模块一:数据嵌入层

多维度嵌入融合
Xemb=Xdata+Xspe+Xw+Xd+Xtpe\mathbf{X}_{emb} = \mathbf{X}_{data} + \mathbf{X}_{spe} + \mathbf{X}_{w} + \mathbf{X}_{d} + \mathbf{X}_{tpe}Xemb=Xdata+Xspe+Xw+Xd+Xtpe

嵌入类型 维度 功能
数据嵌入 Xdata\mathbf{X}_{data}Xdata RT×N×d\mathbb{R}^{T \times N \times d}RT×N×d 原始交通流数据经全连接层转换
空间图拉普拉斯嵌入 Xspe\mathbf{X}_{spe}Xspe RN×d\mathbb{R}^{N \times d}RN×d 基于图拉普拉斯特征向量,描述节点间距离信息
周周期嵌入 Xw\mathbf{X}_{w}Xw RT×d\mathbb{R}^{T \times d}RT×d 捕捉每周周期性(周一到周日)
日周期嵌入 Xd\mathbf{X}_{d}Xd RT×d\mathbb{R}^{T \times d}RT×d 捕捉每日周期性(1-1440分钟)
时间位置编码 Xtpe\mathbf{X}_{tpe}Xtpe RT×d\mathbb{R}^{T \times d}RT×d 标准Transformer位置编码

矩阵加法通过维度复制实现。


模块二:时空编码器层

2.1 空间注意力模块 (Spatial Attention, SA)

标准自注意力
Qt(S)=Xt::WQS,Kt(S)=Xt::WKS,Vt(S)=Xt::WVS\mathbf{Q}_t^{(S)} = \mathbf{X}_{t::}\mathbf{W}_Q^S, \quad \mathbf{K}_t^{(S)} = \mathbf{X}_{t::}\mathbf{W}_K^S, \quad \mathbf{V}_t^{(S)} = \mathbf{X}_{t::}\mathbf{W}_V^SQt(S)=Xt::WQS,Kt(S)=Xt::WKS,Vt(S)=Xt::WVS

At(S)=(Qt(S))(Kt(S))⊤d′\mathbf{A}_t^{(S)} = \frac{(\mathbf{Q}_t^{(S)})(\mathbf{K}_t^{(S)})^\top}{\sqrt{d'}}At(S)=d (Qt(S))(Kt(S))

SA(Qt(S),Kt(S),Vt(S))=F(At(S))Vt(S)\text{SA}(\mathbf{Q}_t^{(S)}, \mathbf{K}_t^{(S)}, \mathbf{V}_t^{(S)}) = F(\mathbf{A}_t^{(S)})\mathbf{V}_t^{(S)}SA(Qt(S),Kt(S),Vt(S))=F(At(S))Vt(S)

关键洞察:空间依赖在不同时间片动态变化,SA模块专门捕捉这些动态空间依赖


2.2 空间纠缠感知模块 (Spatial Entanglement-Aware)

核心思想:并非所有节点对都重要,需要识别关键节点对(邻近节点对 + 远距离相似节点对)

五种掩码策略

掩码策略 数学表达 目标
随机掩码 Mrand\mathbf{M}_{rand}Mrand RandSA=F(At(S)⊙Mrand(S))Vt(S)\text{RandSA} = F(\mathbf{A}_t^{(S)} \odot \mathbf{M}_{rand}^{(S)})\mathbf{V}_t^{(S)}RandSA=F(At(S)Mrand(S))Vt(S) 捕捉细粒度时空关系(类似MAE)
管道掩码 Mtube\mathbf{M}_{tube}Mtube TubeSA=F(At(S)⊙Mtube(S))Vt(S)\text{TubeSA} = F(\mathbf{A}_t^{(S)} \odot \mathbf{M}_{tube}^{(S)})\mathbf{V}_t^{(S)}TubeSA=F(At(S)Mtube(S))Vt(S) 增强空间外推能力(模拟传感器故障)
块掩码 Mblock\mathbf{M}_{block}Mblock BlockSA=F(At(S)⊙Mblock(S))Vt(S)\text{BlockSA} = F(\mathbf{A}_t^{(S)} \odot \mathbf{M}_{block}^{(S)})\mathbf{V}_t^{(S)}BlockSA=F(At(S)Mblock(S))Vt(S) 增强空间可迁移性
短程掩码 Mshort\mathbf{M}_{short}Mshort ShortSA=F(At(S)⊙Mshort)Vt(S)\text{ShortSA} = F(\mathbf{A}_t^{(S)} \odot \mathbf{M}_{short})\mathbf{V}_t^{(S)}ShortSA=F(At(S)Mshort)Vt(S) 距离<λ跳的节点权重为1
长程掩码 Mlong\mathbf{M}_{long}Mlong LongSA=F(At(S)⊙Mlong)Vt(S)\text{LongSA} = F(\mathbf{A}_t^{(S)} \odot \mathbf{M}_{long})\mathbf{V}_t^{(S)}LongSA=F(At(S)Mlong)Vt(S) DTW相似度Top-K节点权重为1

短程掩码构建

  • 若两节点图距离(跳数)< 阈值λ,则权重为1,否则为0

长程掩码构建(Dynamic Time Warping, DTW):

  1. 用DTW算法计算节点间历史交通流相似度
  2. 对每个节点,识别K个最相似节点作为长程邻居
  3. 当前节点与长程邻居间权重设为1,其余为0

Hadamard积 ⊙\odot 实现掩码与注意力分数的逐元素相乘。


2.3 时间注意力模块 (Temporal Attention, TA)

节点级时间自注意力
Qn(T)=X:n:WQT,Kn(T)=X:n:WKT,Vn(T)=X:n:WVT\mathbf{Q}_n^{(T)} = \mathbf{X}_{:n:}\mathbf{W}_Q^T, \quad \mathbf{K}_n^{(T)} = \mathbf{X}_{:n:}\mathbf{W}_K^T, \quad \mathbf{V}_n^{(T)} = \mathbf{X}_{:n:}\mathbf{W}_V^TQn(T)=X:n:WQT,Kn(T)=X:n:WKT,Vn(T)=X:n:WVT

An(T)=(Qn(T))(Kn(T))⊤d′\mathbf{A}_n^{(T)} = \frac{(\mathbf{Q}_n^{(T)})(\mathbf{K}_n^{(T)})^\top}{\sqrt{d'}}An(T)=d (Qn(T))(Kn(T))

TA(Qn(T),Kn(T),Vn(T))=F(An(T))Vn(T)\text{TA}(\mathbf{Q}_n^{(T)}, \mathbf{K}_n^{(T)}, \mathbf{V}_n^{(T)}) = F(\mathbf{A}_n^{(T)})\mathbf{V}_n^{(T)}TA(Qn(T),Kn(T),Vn(T))=F(An(T))Vn(T)


2.4 时间纠缠感知模块 (Temporal Entanglement-Aware)

四种掩码策略

  • 随机掩码、管道掩码、块掩码(同空间模块)
  • 时间掩码 Mtemp\mathbf{M}_{temp}Mtemp:专门设计,遮蔽未来数据,强制模型仅基于历史信息重建未来交通状况

TempTA=F(At(S)⊙Mtemp)Vt(S)\text{TempTA} = F(\mathbf{A}_t^{(S)} \odot \mathbf{M}_{temp})\mathbf{V}_t^{(S)}TempTA=F(At(S)Mtemp)Vt(S)

目标:增强模型从历史到未来的时间依赖捕获能力,感知时间纠缠。


2.5 多头注意力融合 (Multiple Attention Fusion)

STA=cat(Z1⋯hSRandSRand,Z1⋯hSTubeSTube,Z1⋯hSBlockSBlock,Z1⋯hshortshort,Z1⋯hlonglong,Z1⋯hTRandTRand,Z1⋯hTTubeTTube,Z1⋯hTBlockTBlock,Z1⋯htemptemp,Z1⋯htt)Wl\text{STA} = \text{cat}\left(Z_{1\cdots h_{SRand}}^{SRand}, Z_{1\cdots h_{STube}}^{STube}, Z_{1\cdots h_{SBlock}}^{SBlock}, Z_{1\cdots h_{short}}^{short}, Z_{1\cdots h_{long}}^{long}, Z_{1\cdots h_{TRand}}^{TRand}, Z_{1\cdots h_{TTube}}^{TTube}, Z_{1\cdots h_{TBlock}}^{TBlock}, Z_{1\cdots h_{temp}}^{temp}, Z_{1\cdots h_t}^t\right) \mathbf{W}^lSTA=cat(Z1hSRandSRand,Z1hSTubeSTube,Z1hSBlockSBlock,Z1hshortshort,Z1hlonglong,Z1hTRandTRand,Z1hTTubeTTube,Z1hTBlockTBlock,Z1htemptemp,Z1htt)Wl

  • cat:拼接操作
  • hhh:各注意力头的数量
  • Wl\mathbf{W}^lWl:可学习投影矩阵

后续处理:位置级前馈网络 + 层归一化 + 残差连接


模块三:自适应数据增强

3.1 交通流增强 (Traffic Flow Augmentation)

核心思想:基于学习的时间感知交通模式依赖,遮蔽低相关性的交通流量

掩码概率
ρτ,n∼Ber(1−pτ,n)\rho_{\tau,n} \sim \text{Ber}(1-p_{\tau,n})ρτ,nBer(1pτ,n)

  • ρτ,n\rho_{\tau,n}ρτ,n 越高 → xτ,nx_{\tau,n}xτ,n 越可能被遮蔽(该时间步与该区域整体交通规律相关性低)
  • 降低噪声扰动影响
3.2 道路网络增强 (Road Network Augmentation)
  • 缓解低互相关交通模式区域连接的偏差
  • 捕获全局城市背景下的长程区域依赖

模块四:自监督学习——时空异质性建模

4.1 空间异质性建模 (SHM, Spatial Heterogeneity Modeling)

核心思想:通过软聚类自监督任务,使区域嵌入捕捉空间异质性

步骤

  1. 区域投影到多个潜在表示空间(对应不同城市功能:住宅区、商业区等)

  2. 生成K个聚类嵌入 {c1,…,cK}\{c_1, \ldots, c_K\}{c1,,cK}

  3. 聚类关联分数计算
    z~i,n,k=ck⊤h~i,n\tilde{z}_{i,n,k} = \mathbf{c}_k^\top \tilde{\mathbf{h}}_{i,n}z~i,n,k=ckh~i,n

其中 h~i,n\tilde{\mathbf{h}}_{i,n}h~i,n 为增强数据编码的区域嵌入

  1. 自监督预测任务:基于原始网络编码的区域嵌入 hi,n\mathbf{h}_{i,n}hi,n 预测聚类分配

z^i,n,k=ck⊤hi,n\hat{z}_{i,n,k} = \mathbf{c}_k^\top \mathbf{h}_{i,n}z^i,n,k=ckhi,n

  1. 损失函数(带温度参数γ\gammaγ的软聚类):
    ℓ(hi,n,z~i,n)=−∑kz~i,n,klog⁡exp⁡(z^i,n,k/γ)∑jexp⁡(z^i,n,j/γ)\ell(\mathbf{h}_{i,n}, \tilde{\mathbf{z}}_{i,n}) = -\sum_k \tilde{z}_{i,n,k} \log \frac{\exp(\hat{z}_{i,n,k}/\gamma)}{\sum_j \exp(\hat{z}_{i,n,j}/\gamma)}(hi,n,z~i,n)=kz~i,n,klogjexp(z^i,n,j/γ)exp(z^i,n,k/γ)

LS=∑i=1t−T+1∑n=1Nℓ(hi,n,z~i,n)\mathcal{L}_S = \sum_{i=1}^{t-T+1} \sum_{n=1}^{N} \ell(\mathbf{h}_{i,n}, \tilde{\mathbf{z}}_{i,n})LS=i=1tT+1n=1N(hi,n,z~i,n)

分布正则化策略:确保聚类结果反映城市空间区域特征的真实分布。


4.2 时间异质性建模 (THM, Temporal Heterogeneity Modeling)

核心思想:通过对比学习区分不同时间步的异质性

步骤

  1. 融合原始与增强数据的时间维度嵌入
    vt,n=w1⊙ht,n+w2⊙h~t,n\mathbf{v}_{t,n} = \mathbf{w}_1 \odot \mathbf{h}_{t,n} + \mathbf{w}_2 \odot \tilde{\mathbf{h}}_{t,n}vt,n=w1ht,n+w2h~t,n

  2. 城市级表示聚合
    st=σ(1N∑n=1Nvt,n)\mathbf{s}_t = \sigma\left(\frac{1}{N}\sum_{n=1}^{N} \mathbf{v}_{t,n}\right)st=σ(N1n=1Nvt,n)

  3. 对比学习

    • 正样本对:同一时间步的区级嵌入 vt,n\mathbf{v}_{t,n}vt,n 与城市级嵌入 st\mathbf{s}_tst
    • 负样本对:不同时间步的嵌入
  4. 损失函数(交叉熵形式):
    LT=−∑n=1Nlog⁡g(vt,n,st)−∑n=1Nlog⁡(1−g(vt′,n,st))\mathcal{L}_T = -\sum_{n=1}^{N} \log g(\mathbf{v}_{t,n}, \mathbf{s}_t) - \sum_{n=1}^{N} \log(1-g(\mathbf{v}_{t',n}, \mathbf{s}_t))LT=n=1Nlogg(vt,n,st)n=1Nlog(1g(vt,n,st))

其中 g(vt,n,st)=σ(vt,n⊤W3st)g(\mathbf{v}_{t,n}, \mathbf{s}_t) = \sigma(\mathbf{v}_{t,n}^\top \mathbf{W}_3 \mathbf{s}_t)g(vt,n,st)=σ(vt,nW3st)W3\mathbf{W}_3W3 为可学习变换矩阵。


联合损失函数

Ljoint=Lp+Ls+Lt\mathcal{L}_{joint} = \mathcal{L}_p + \mathcal{L}_s + \mathcal{L}_tLjoint=Lp+Ls+Lt

损失项 公式 功能
预测损失 Lp\mathcal{L}_pLp MSE(xt+1,t+T′,x^t+1,t+T′)\text{MSE}(\mathbf{x}_{t+1,t+T'}, \hat{\mathbf{x}}_{t+1,t+T'})MSE(xt+1,t+T,x^t+1,t+T) 主任务:交通流预测
空间异质性损失 Ls\mathcal{L}_sLs 软聚类交叉熵 自监督:区域功能识别
时间异质性损失 Lt\mathcal{L}_tLt 对比学习交叉熵 自监督:时间步判别

实验验证

数据集(6个真实世界数据集)

数据集 类型 节点数 边数 时间步 间隔 时间范围
PeMS04 图-高速公路 307 340 16,992 5min 2018/01-02
PeMS07 图-高速公路 883 866 28,224 5min 2017/05-08
PeMS08 图-高速公路 170 295 17,856 5min 2016/07-08
NYCTaxi 网格-城市 75 (15×5) 484 17,520 30min 2014全年
CHIBike 网格-城市 270 (15×18) 1,966 4,416 30min 2020/07-09
T-Drive 网格-城市 1,024 (32×32) 7,812 3,600 60min 2015/02-06

基准模型(19个)

类别 模型
网格模型 STResNet, DMVSTNet, DSAN
图神经网络 DCRNN, STGCN, GWNET, MTGNN, STSGCN, STFGNN, STGODE, STGNCDE
自注意力模型 STTN, GMAN, TFormer, PDFormer, ASTGNN
自监督/预训练 ST-SSL, GraphST, STD-MAE

核心实验结果

图数据集结果(表2)
模型 PeMS04 (MAE/MAPE/RMSE) PeMS07 (MAE/MAPE/RMSE) PeMS08 (MAE/MAPE/RMSE)
DCRNN 22.73/14.75/36.57 23.63/12.28/36.51 18.18/11.23/28.17
STGCN 21.75/13.87/34.76 22.89/11.98/35.44 17.83/11.21/27.12
GWNET 19.35/13.30/31.71 21.22/9.07/34.11 15.06/9.51/24.85
MTGNN 19.07/12.96/31.56 20.82/9.03/34.08 15.39/10.17/24.93
PDFormer 18.32/12.10/29.96 19.83/8.52/32.87 13.58/9.04/23.50
ST-SSL 18.56/12.74/31.01 20.36/9.64/33.98 14.73/10.05/24.49
STD-MAE* 17.80/12.07/29.25 18.65/8.47/31.71 13.44/8.98/22.47
SSL-STMFormer 17.06/11.32/28.11 18.53/8.41/31.44 12.05/8.11/20.15
提升幅度 4.15%/6.21%/3.89% 0.64%/0.70%/0.85% 10.34%/9.68%/10.32%

平均提升:MAE 5.04%,MAPE 5.53%,RMSE 5.02%


网格数据集结果(表3)
模型 NYCTaxi (In/Out) T-Drive (In/Out) CHIBike (In/Out)
STResNet 14.49/12.79 19.63/19.61 4.76/4.62
PDFormer 13.15/11.57 17.83/17.74 3.95/3.83
ST-SSL 12.97/9.78 16.21/16.69 4.03/3.94
GraphST 11.67/10.79 15.97/15.84 4.01/3.86
STD-MAE* 10.71/9.53 15.42/14.93 3.91/3.89
SSL-STMFormer 9.49/8.98 12.85/12.79 3.49/3.44
提升幅度 11.39%/8.50% 10.34%/14.33% 10.74%/10.18%

平均提升:MAE 10.91%,MAPE 9.86%,RMSE 7.18%


消融实验(表4)

变体 PeMS08 (MAE/MAPE/RMSE) T-Drive In (MAE/MAPE/RMSE) T-Drive Out (MAE/MAPE/RMSE)
w/o SSL(无自监督) 13.70/9.16/23.30 14.14/10.76/30.90 14.15/10.69/30.92
w/o EA(无纠缠感知) 13.59/9.14/23.52 14.20/11.04/30.79 14.21/11.00/30.78
w/o SEA(无空间纠缠) 13.46/9.00/23.22 13.51/10.60/29.83 13.47/10.64/29.80
w/o TEA(无时间纠缠) 13.40/9.12/23.32 13.47/10.16/29.61 13.38/10.06/29.50
w/ STEA(混合纠缠) 13.86/9.31/23.61 13.65/10.89/29.90 13.60/10.82/29.83
SSL-STMFormer 12.05/8.11/20.15 12.85/9.68/29.10 12.79/9.60/29.00

关键发现

结论 证据
混合时空掩码策略劣于分离策略 w/STEA性能低于完整模型
移除任一纠缠模块均导致性能下降 w/o SEA和w/o TEA均劣于完整模型
SSL组件对捕捉时空异质性至关重要 w/o SSL性能显著下降
掩码策略对识别关键节点对不可或缺 各掩码变体均验证其必要性

超参数敏感性分析(图3)

参数 搜索范围 最优值 观察
隐藏维度 d {8, 16, 32, 64, 128} 64 维度增加提升表达能力,但过大增加计算成本
编码器深度 {2, 4, 6, 8, 10} 6-8 深度增加提升复杂依赖建模,但过深导致过拟合
掩码比例 {0.05, 0.1, 0.15, 0.2, 0.25} 0.1-0.15 过低无法有效正则化,过高丢失关键信息

四篇文献的对比与关联

维度 第一篇(风电预测) 第二篇(调度优化) 第三篇(医疗-交通) 第四篇(交通预测)
会议/期刊 IEEE TSTE IEEE TSTE CAAI Trans AAAI-25
核心问题 风电功率预测精度 风电不确定性量化 医疗-交通融合预测 交通流动态预测
技术范式 数据驱动+物理知识嵌入 深度学习+DRO优化 生成式AI+多尺度Transformer 自监督学习+时空纠缠Transformer
注意力机制 多尺度空间+时间 多教师知识蒸馏 医疗区域+应急路径 多掩码空间+时间注意力融合
自监督/对比学习 有(SHM+THM)
掩码策略 随机/管道/块/短程/长程/时间
异质性建模 误差分布形状损失 JSD模糊集 多尺度门控融合 时空软聚类+对比学习
核心创新 物理边界约束 增强模糊集 医疗感知嵌入 时空纠缠感知
损失函数 MSE+边界+分布 预测+DRO MAE+紧急损失 MSE+聚类+对比

论文核心贡献总结

贡献 技术实现 效果
1. 时空注意力机制 动态捕获不同区域和时间步的依赖 增强复杂交通模式理解
2. 自监督学习任务 辅助模型捕捉交通数据底层结构 提升泛化能力
3. 时空纠缠感知模块 多种掩码策略感知动态交互 准确检测演变交通模式
4. 自适应数据增强 基于学习的时间感知依赖掩码 降低噪声,捕获长程依赖
5. 时空异质性建模 软聚类(SHM) + 对比学习(THM) 区分区域功能,识别时间模式

关键方法论启示

1. 纠缠感知的核心思想

  • 交通系统的时空依赖不是静态预定义的
  • 通过多种掩码策略强制模型学习"哪些节点对/时间步是真正重要的"
  • 短程掩码捕捉局部连通性,长程掩码(DTW)捕捉功能相似性

2. 自监督学习的双重作用

  • SHM:通过区域功能聚类,使嵌入具有语义解释性(住宅区、商业区等)
  • THM:通过时间步对比,强化同时间段内城市级模式的一致性

3. 从静态到动态的范式转变

  • 传统GNN:预定义邻接矩阵,静态图结构
  • SSL-STMFormer:动态注意力 + 自适应掩码,图结构随时间和数据演变
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐