双路架构和码本量化的时间序列研究方法

清风吹过

35人浏览 · 2026-04-23 16:16:10

清风吹过 · 2026-04-23 16:16:10 发布

这篇关于轻量级时间序列预测的论文。

论文基本信息

项目	内容
标题	ReCast: Reliability-aware Codebook Assisted Lightweight Time Series Forecasting（ReCast：可靠性感知的码本辅助轻量级时间序列预测）
作者	马翔、陈泰华、王鹏程、李雪梅、张彩明（山东大学）
发表会议	AAAI 2026（人工智能顶级会议）
核心创新	双路径架构 + 可靠性感知的码本更新机制

研究背景与动机

现有方法的两大痛点

全局分解的局限：传统方法（如Autoformer、Fedformer）将时间序列全局分解为趋势、季节性和残差成分，但真实世界数据往往由局部、复杂、高度动态的模式主导，全局分解对此无能为力
模型过于复杂：Transformer等模型参数量大、计算开销高，难以部署在资源受限的实时环境中

核心观察

许多真实世界的时间序列表现出" recurring local shapes（ recurring 局部形状）"而非清晰的全局规律性

这启发了作者：能否用**向量量化（Vector Quantization）**将局部模式编码为离散码本，实现轻量级且鲁棒的预测？

ReCast 整体架构（三阶段）

在这里插入图片描述

┌─────────────────────────────────────────────────────────────┐
│  Stage 1: Patch-wise Quantization（分块量化）                  │
│  Stage 2: Dual-path Forecasting（双路径预测）                  │
│  Stage 3: Codebook Construction & Updating（码本构建与更新）  │
└─────────────────────────────────────────────────────────────┘

Stage 1: 分块量化（Patch-wise Quantization）

流程：

原始序列 X → Instance Norm（实例归一化）→ Patching（分块）→ Downsampling（下采样）→ Quantization（量化）

关键操作：

步骤	说明	公式
实例归一化	消除量纲差异	$X^=(X−μin)/σin2+ε\hat{X} = (X - \mu_{in}) / \sqrt{\sigma^2_{in} + \varepsilon}$
分块	将序列切分为长度为 $L_p$ 的patch	$\{p_i\}_{i=1}^{C \times N}, N = \lceil L/L_p \rceil$
下采样	降维至 $L_p/2$ ，聚焦显著结构	$p~i=Dsamp(pi)\tilde{p}_i = D_{samp}(p_i)$
量化	映射到码本中最邻近的码字	$qi=S(p~i)=arg⁡min⁡sk∈S∣p~i−sk∣22q_i = S(\tilde{p}_i) = \arg\min_{s_k \in S} \|\tilde{p}_i - s_k\|_2^2$

为什么下采样？

降低计算成本（码本匹配、存储、投影）
抑制冗余局部波动，提升对噪音和分布偏移的鲁棒性
基于时间序列的尺度不变性假设：局部模式在不同分辨率下形态相似

Stage 2: 双路径预测（Dual-path Forecasting）

这是论文的核心架构创新，将预测任务分解为两个互补路径：

┌─────────────────┐     ┌─────────────────┐
│  Quantization   │     │   Residual      │
│     Path        │  +  │     Path        │
│  （量化路径）    │     │  （残差路径）    │
└─────────────────┘     └─────────────────┘
         ↓                       ↓
    预测未来离散索引          预测不规则波动
    Q_y = M_quant(Q_x)      Y_r = M_res(X_r)
         ↓                       ↓
              ↓    融合    ↓
         Ŷ = σ_in(Y_q + Y_r) + μ_in

路径	功能	输入	输出	模型
量化路径	捕获规则结构，轻量高效	离散嵌入 $Q_x$	未来离散索引 $Q_y$	轻量MLP（隐藏层32）
残差路径	重建量化丢失的细微变化	残差 $X_r = X - X_q$	未来残差 $Y_r$	MLP（隐藏层512）

残差计算：
$Xq=Rec(Qx∣S)=Upsample([sq(i−1)⋅N+1∣∣⋯∣∣sqi⋅N])X_q = Rec(Q_x|S) = Upsample([s_{q_{(i-1)\cdot N+1}} || \cdots || s_{q_{i\cdot N}}])$

最终预测：
$Y^=σin(Yq+Yr)+μin\hat{Y} = \sigma_{in}(Y_q + Y_r) + \mu_{in}$

损失函数： $Lpre=∥Y^−Y∥1L_{pre} = \|\hat{Y} - Y\|_1$ （L1损失，对异常值更鲁棒）

Stage 3: 码本构建与更新（Codebook Construction & Updating）

这是论文的另一大核心贡献——解决码本如何适应非平稳数据的难题。

3.1 伪码本构建（每轮迭代）

随机采样 patches → 聚类 → 得到聚类中心 = 伪码本 Ŝ^t

能量函数（矩阵形式）：
$Lc=Tr((P~t−MS^t)⊤I(P~t−MS^t))L_c = Tr((\tilde{P}^t - M\hat{S}^t)^\top I (\tilde{P}^t - M\hat{S}^t))$

聚类中心更新：
$S^t=(M⊤IP~t)/(M⊤IM)\hat{S}^t = (M^\top I \tilde{P}^t) / (M^\top I M)$

3.2 增量更新策略

关键问题：静态码本无法适应分布偏移，但剧烈更新会导致不稳定

解决方案：增量加权更新
$St=St−1+1t(W^tS^t−St−1)S^t = S^{t-1} + \frac{1}{t}(\hat{W}^t \hat{S}^t - S^{t-1})$

性质：递归展开后可得
$St=1t(W1S^1+W2S^2+⋯+WtS^t)S^t = \frac{1}{t}(W^1\hat{S}^1 + W^2\hat{S}^2 + \cdots + W^t\hat{S}^t)$

即各轮伪码本以均匀形式贡献，但影响程度由 $W^j\hat{W}^j$ 调节

3.3 嵌入正则化

防止码字坍塌（codebook collapse）：
$Lsep=log⁡∑i,j=1Kexp⁡(−∥s^it−s^jt∥22)/τL_{sep} = \log \sum_{i,j=1}^K \exp(-\|\hat{s}^t_i - \hat{s}^t_j\|_2^2)/\tau$

其中 $τ=∥S^t∥22\tau = \|\hat{S}^t\|_2^2$ 确保嵌入空间大小各轮一致

核心创新：可靠性感知评分（Reliability-aware Scoring）

这是论文最具理论深度的部分，通过**分布鲁棒优化（DRO）**融合三个互补的可靠性因子：

┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐
│  表征质量 w_rep  │  │ 历史一致性 w_Δ  │  │ OOD敏感度 w_je  │
│  (Representational│  │ (Historical      │  │ (Out-of-Distribution│
│   Quality)       │  │  Consistency)    │  │  Sensitivity)      │
└─────────────────┘  └─────────────────┘  └─────────────────┘
         ↓                  ↓                  ↓
              └────────┬────────┘
                       ↓
              融合函数 M_fus(·)
                       ↓
              分布鲁棒优化（DRO）
                       ↓
              可靠性权重 Ŵ^t

三个可靠性因子

因子	计算方式	物理意义	高值含义
$w_{rep}$	$1−exp⁡(∣Bk(Rec(S^t(P~t)∣S^t)−P~t)∣22)exp⁡(∣Rec(S^t(P~t)∣S^t)−P~t∣22)+ε1 - \frac{\exp(\|B_k(Rec(\hat{S}^t(\tilde{P}^t)\|\hat{S}^t) - \tilde{P}^t)\|_2^2)}{\exp(\|Rec(\hat{S}^t(\tilde{P}^t)\|\hat{S}^t) - \tilde{P}^t\|_2^2)+\varepsilon}$	簇内重建误差	该码字能更好表征其分配的patches
$wΔw_{\Delta}$	$exp⁡(∣Bk(S^t−St−1)∣22)exp⁡(∣S^t−St−1∣22)+ε\frac{\exp(\|B_k(\hat{S}^t - S^{t-1})\|_2^2)}{\exp(\|\hat{S}^t - S^{t-1}\|_2^2)+\varepsilon}$	与上轮码本的偏差	历史码字对新数据拟合不足，需更大调整
$w_{je}$	$1−exp⁡(∑i=1C×Np∣p~it−s^kt∣)exp⁡(∑k=1K∑i=1C×Np∣p~it−s^kt∣)+ε1 - \frac{\exp(\sum_{i=1}^{C\times N_p} \|\tilde{p}^t_i - \hat{s}^t_k\|)}{\exp(\sum_{k=1}^K \sum_{i=1}^{C\times N_p} \|\tilde{p}^t_i - \hat{s}^t_k\|)+\varepsilon}$	联合能量（选择频率+方差）	防止嵌入空间坍塌，增强OOD适应性

DRO融合（分布鲁棒优化）

问题：三个指标互补但重要性随数据 regime 变化，固定权重不稳定

方案：在KL散度约束下，求最坏情况分布下的期望可靠性

$w^kt=min⁡θ∈Uγ⟨θ,zkt⟩,Uγ={θ∈Θ3∣DKL(θ∥u)≤γ}\hat{w}^t_k = \min_{\theta \in U_\gamma} \langle \theta, z^t_k \rangle, \quad U_\gamma = \{\theta \in \Theta^3 | D_{KL}(\theta \| u) \leq \gamma\}$

其中 $zkt=[wrep,kt,wΔ,kt,wje,kt]z^t_k = [w^t_{rep,k}, w^t_{\Delta,k}, w^t_{je,k}]$ ， $u = [1/3, 1/3, 1/3]$

闭式解（推导见附录A.2）：
$w^kt=−γ⋅log⁡∑i=13exp⁡(−zk,itγ)\boxed{\hat{w}^t_k = -\gamma \cdot \log \sum_{i=1}^3 \exp\left(-\frac{z^t_{k,i}}{\gamma}\right)}$

解读：这是软最小值（soft-minimum）：

$γ→0\gamma \to 0$ ：趋向 $min⁡(zkt)\min(z^t_k)$ （最保守）
$γ→∞\gamma \to \infty$ ：趋向 $mean(zkt)\text{mean}(z^t_k)$ （平均）

优势：自适应地让最可靠的指标主导，同时柔和地抑制其他指标，缓解异常值或瞬时不一致的影响

实验结果

数据集

数据集	变量数	时间步	采样间隔	领域
ETTm1/m2	7	57,600	15分钟	电力
ETTh1/h2	7	14,400	1小时	电力
ECL	321	26,304	1小时	电力
Traffic	862	17,544	1小时	交通
Weather	21	52,696	10分钟	气象
Solar	137	52,560	10分钟	能源

主结果（表1）

ReCast在16个指标中的12个取得SOTA：

模型类型	代表模型	表现
Transformer类	iTransformer, PatchTST, TQNet	对噪音敏感，表现不稳定
CNN类	TimesNet	长程依赖建模能力有限
MLP类	PatchMLP, CycleNet, DLinear	轻量但难以捕捉复杂模式
ReCast (Ours)	码本辅助双路径	12/16 SOTA，兼顾精度与效率

消融实验（表2）

变体	修改	关键发现
-Residual	移除残差路径	性能下降 → 残差路径对恢复细粒度变化至关重要
-Updating	冻结码本	显著恶化 → 动态更新对分布偏移必不可少
-Random	移除下采样和随机采样	性能下降 → 降采样和随机采样防过拟合
-Scoring	禁用可靠性评分（等权重）	下降 → 可靠性加权有效
-DRO	均匀加权三指标	比-Scoring好但不如完整版 → DRO融合更鲁棒

计算效率（图3）

在这里插入图片描述

气泡图解读：
- X轴：训练时间(ms/iter)
- Y轴：MSE（越低越好）
- 气泡大小：参数量

ReCast: 1.0M参数, 25ms/iter, MSE≈0.195
PatchMLP: 9.4M参数, 70ms/iter
iTransformer: 6M参数, 36ms/iter
TimesNet: 8.3M参数, 195ms/iter

结论：ReCast以最少参数、中等速度达到最低MSE，效率-精度平衡最优

码本演化可视化（图4）

在这里插入图片描述

左图：8个簇的聚类结果（t-SNE降维）
- 不同颜色代表不同簇
- 随机采样下聚类分配稳定，中心平滑收敛

右图：4轮迭代中的码本更新
- Epoch 2: 伪码本 Ŝ² 比 S¹ 更适配当前分布
- 可靠性更新赋予 Ŝ² 更高权重，S² 向其偏移
- 证明机制有效平衡"适应"与"稳定"

超参数敏感性（图5）

在这里插入图片描述

K（码本大小）：K=32时性能趋于饱和，过大无益
$L_p$ （patch长度）： $L_p=16$ 或 24 较优，存在波动

局限性：K和 $L_p$ 目前凭经验设定，缺乏自适应理论指导

核心贡献总结

贡献	说明
1. 码本辅助轻量预测框架	将局部模式量化为离散嵌入，显著降低模型复杂度
2. 双路径架构	量化路径捕获规则结构 + 残差路径重建不规则波动
3. 可靠性感知更新机制	DRO融合三因子，实现稳定且自适应的码本演化
4. SOTA性能	8个数据集验证，精度、泛化、鲁棒性兼优

与第一篇论文的关联

维度	残差分析论文（Pattern Recognition）	ReCast（AAAI）
核心问题	“残差中是否有可解释模式？”	“如何用残差提升预测性能？”
残差角色	研究对象（挖掘隐藏模式）	辅助路径（补偿量化损失）
方法	矩阵轮廓 + 模体发现	向量量化 + 双路径MLP
量化/离散化	无（关注连续残差）	核心（码本量化局部形状）
应用场景	知识发现、可解释性	实时预测、资源受限环境

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

为什么别人的园区已经做到 7×24 自动巡逻，你的安防还在靠人海战术？

而是以自动机场为前哨，以任务管理为中枢，以联动机制为神经，以平台能力为底座，把园区非法入侵侦测真正做成一条完整链路。当无人机抵达现场后，实时画面如果能同步关联位置、时间、事件编号、目标轨迹等信息，可真正成熟的体系，会把每一次巡逻、每一次告警、每一段航迹、每一份画面都沉淀下来。机场管理、任务调度、视频回传、AI识别、设备管理，各自承担自己的职责。如果系统还能进一步识别人员、越界、徘徊、异常停留、违停