关于联邦学习时间序列预测中最优回溯窗口的理论论文。

论文基本信息

项目 内容
标题 Optimal Look-back Horizon for Time Series Forecasting in Federated Learning(联邦学习时间序列预测的最优回溯窗口)
作者 Dahao Tang, Nan Yang, Yanli Li, Zhiyu Zhu, Zhibo Jin, Dong Yuan(悉尼大学 + 悉尼科技大学)
发表会议 AAAI 2026(人工智能顶级会议)
核心贡献 首个针对非IID联邦场景的、有理论保证的自适应回溯窗口选择框架

研究背景与核心问题

时间序列预测中的关键选择

回溯窗口(Look-back Horizon):预测未来时用多少个历史时间步作为输入?

未来预测 Ŷ_t = f(X_{t-H+1}, ..., X_t)
                ↑
           回溯窗口 H

现有困境

  • 传统方法:将H视为超参数,通过交叉验证或启发式搜索确定
  • 近期理论(Shi et al., 2024):提出基于内在表示空间的缩放定律,但仅限中心化、IID场景
  • 联邦学习场景:数据分布式、非IID、异构——现有理论全部失效

联邦学习的特殊挑战

挑战 说明
数据异构性(Non-IID) 各客户端分布不同、序列长度不同、领域特性不同
特征偏斜(Feature Skew) 同一特征在不同客户端上均值/方差不同
样本效率问题 窗口重叠导致有效独立样本数仅为 Dk/HD_k/HDk/H
全局 vs 局部最优冲突 各客户端最优H不同,需聚合策略

核心方法论:三阶段理论框架

Stage 1: 合成数据生成器(SDG)

目标:用参数化模型捕捉真实世界非IID时间序列的核心结构

SDG公式(单客户端k,特征f,时间t):

x^f,t,k=∑j=1JAf,j,ksin⁡(2πtTf,j,k+θf,j,k)⏟季节性+∑i=1pϕk,ixf,t−i,k⏟AR自回归+βf,kt⏟趋势+εf,t,k⏟噪声\hat{x}_{f,t,k} = \underbrace{\sum_{j=1}^{J} A_{f,j,k} \sin\left(\frac{2\pi t}{T_{f,j,k}} + \theta_{f,j,k}\right)}_{\text{季节性}} + \underbrace{\sum_{i=1}^{p} \phi_{k,i} x_{f,t-i,k}}_{\text{AR自回归}} + \underbrace{\beta_{f,k} t}_{\text{趋势}} + \underbrace{\varepsilon_{f,t,k}}_{\text{噪声}}x^f,t,k=季节性 j=1JAf,j,ksin(Tf,j,k2πt+θf,j,k)+AR自回归 i=1pϕk,ixf,ti,k+趋势 βf,kt+噪声 εf,t,k

其中 εf,t,k∼N(μf,k,σf,k2)\varepsilon_{f,t,k} \sim \mathcal{N}(\mu_{f,k}, \sigma^2_{f,k})εf,t,kN(μf,k,σf,k2)

特征偏斜建模(联邦异构性):
xf,t,k=Λf,kx~f,t,k+δf,kx_{f,t,k} = \Lambda_{f,k} \tilde{x}_{f,t,k} + \delta_{f,k}xf,t,k=Λf,kx~f,t,k+δf,k

  • Λf,k\Lambda_{f,k}Λf,k:线性尺度(控制方差变化)
  • δf,k\delta_{f,k}δf,k:均值偏移

验证:图1显示SDG生成数据与真实天气数据高度吻合


Stage 2: 内在空间构建(Intrinsic Space)

目标:将异构时间序列窗口映射到具有良好几何/统计性质的紧凑表示空间

五步骤变换流程

Step 1: 客户端归一化
   消除仿射特征偏斜,对齐边缘分布
   ˆx_{f,i,k} = (x_{f,i,k} - μ_{f,k}) / σ_{f,k}

Step 2: 窗口展平为向量
   ˆx^{flat}_{t,k} = vec(ˆX_{t,k}) ∈ R^{F·H}

Step 3: 全局协方差估计与特征分解
   Σ = (1/N) X^⊤X = UΛU^⊤
   识别主导变化轴

Step 4: 内在维度估计
   基于SDG结构计算理论内在维度

Step 5: 投影到内在空间
   z_{t,k} = Φ_H(x_{t,k}) = U_{d_I}^⊤ · ˆx^{flat}_{t,k} ∈ R^{d_I}

关键假设(6条,确保理论严谨性):

假设 内容 意义
A1: 紧致像 sup⁡x∈O(H)∣ΦH(x)∣2≤RH\sup_{x\in O(H)} |\Phi_H(x)|_2 \leq R_HsupxO(H)ΦH(x)2RH 表示有界,统计量良好定义
A2: 双Lipschitz嵌入 αH∣x−y∣≤∣ΦH(x)−ΦH(y)∣≤βH∣x−y∣\alpha_H|x-y| \leq |\Phi_H(x)-\Phi_H(y)| \leq \beta_H|x-y|αHxyΦH(x)ΦH(y)βHxy 距离保持,可逆且稳定
A3: 内在维度单调饱和 dI(H+1)≥dI(H)d_I(H+1) \geq d_I(H)dI(H+1)dI(H),且 H≥HidH \geq H_{id}HHid 时饱和 信息完备后不再增长
A4: 跨窗口兼容 存在稳定线性投影 P[H2,H1]P[H_2,H_1]P[H2,H1] 不同H可比
A5: 截断≈投影 ∣TH2→H1(z)−P[H2,H1]z∣≤cerrH1−γ|T_{H_2\to H_1}(z) - P[H_2,H_1]z| \leq c_{err}H_1^{-\gamma}TH2H1(z)P[H2,H1]zcerrH1γ 截断破坏性随H增大衰减
A6: 幂律谱衰减 λi(H)≤CZi−αZ\lambda_i(H) \leq C_Z i^{-\alpha_Z}λi(H)CZiαZ 低维摘要有效

内在维度公式(核心结果):

dI,k(H)≈F⋅(min⁡{H,ℓAR,k}+gk(H)+1)\boxed{d_{I,k}(H) \approx F \cdot \left(\min\{H, \ell_{AR,k}\} + g_k(H) + 1\right)}dI,k(H)F(min{H,AR,k}+gk(H)+1)

其中:

  • ℓAR,k=⌈ln⁡(1/(1−ε))−ln⁡ρk⌉\ell_{AR,k} = \left\lceil \frac{\ln(1/(1-\varepsilon))}{-\ln \rho_k} \right\rceilAR,k=lnρkln(1/(1ε)):有效AR记忆长度(ρk\rho_kρk为谱半径)
  • gk(H)=2∑j=1Jwj,k⋅min⁡{1,HTj,k∗}g_k(H) = 2\sum_{j=1}^{J} w_{j,k} \cdot \min\left\{1, \frac{H}{T^*_{j,k}}\right\}gk(H)=2j=1Jwj,kmin{1,Tj,kH}:季节性复杂度(振幅加权)
  • +1+1+1:线性趋势

Stage 3: 损失分解与最优窗口理论

联邦损失分解定理(Theorem 1)

总预测损失 = 贝叶斯损失(不可约)+ 近似损失(可优化)

L(H,S;m)=LBayes(H,S)⏟不可约不确定性+Lapprox(H,S;m)⏟有限样本/模型容量限制L(H,S;m) = \underbrace{L_{Bayes}(H,S)}_{\text{不可约不确定性}} + \underbrace{L_{approx}(H,S;m)}_{\text{有限样本/模型容量限制}}L(H,S;m)=不可约不确定性 LBayes(H,S)+有限样本/模型容量限制 Lapprox(H,S;m)

联邦聚合形式

  • 服务器级贝叶斯损失:LBayes(server)(H,S)=∑k=1KπkLBayes(k)(H,S)L^{(server)}_{Bayes}(H,S) = \sum_{k=1}^K \pi_k L^{(k)}_{Bayes}(H,S)LBayes(server)(H,S)=k=1KπkLBayes(k)(H,S)
  • 服务器级近似损失:Lapprox(server)(H,S;m)=∑k=1KπkLapprox(k)(H,S;m)L^{(server)}_{approx}(H,S;m) = \sum_{k=1}^K \pi_k L^{(k)}_{approx}(H,S;m)Lapprox(server)(H,S;m)=k=1KπkLapprox(k)(H,S;m)
客户端贝叶斯损失分解(Theorem 2)

LBayes(k)(H,S)=LAR(k)(S)⏟AR创新累积+Lseas(k)(H)⏟季节性残余+Ltrend(k)(H)⏟趋势残余L^{(k)}_{Bayes}(H,S) = \underbrace{L^{(k)}_{AR}(S)}_{\text{AR创新累积}} + \underbrace{L^{(k)}_{seas}(H)}_{\text{季节性残余}} + \underbrace{L^{(k)}_{trend}(H)}_{\text{趋势残余}}LBayes(k)(H,S)=AR创新累积 LAR(k)(S)+季节性残余 Lseas(k)(H)+趋势残余 Ltrend(k)(H)

各分量行为

分量 依赖H? 行为 饱和条件
AR损失 ❌ 仅依赖S 随S增长,与H无关(一旦H≥p) H ≥ p
季节性损失 随H增大而减小 H ≥ max{T_{f,j,k}}
趋势损失 ✅(若未显式建模) 线性 显式建模时为0

关键洞察:贝叶斯损失单调递减最终饱和——超过一定H后,更多历史信息不再减少不可约误差

近似损失上界(Theorem 3)

Lapprox(k)(H,S;m)≲(K22dI,k(H)2)dI,k(H)4+dI,k(H)⏟曲率项(几何复杂度)+(dI,k(H)HDk)44+dI,k(H)⏟有限样本项L^{(k)}_{approx}(H,S;m) \lesssim \underbrace{\left(K_2^2 d_{I,k}(H)^2\right)^{\frac{d_{I,k}(H)}{4+d_{I,k}(H)}}}_{\text{曲率项(几何复杂度)}} + \underbrace{\left(\frac{d_{I,k}(H) H}{D_k}\right)^{\frac{4}{4+d_{I,k}(H)}}}_{\text{有限样本项}}Lapprox(k)(H,S;m)曲率项(几何复杂度) (K22dI,k(H)2)4+dI,k(H)dI,k(H)+有限样本项 (DkdI,k(H)H)4+dI,k(H)4

两项均随H增长

  1. 曲率项:内在维度 dI,k(H)d_{I,k}(H)dI,k(H) 随H增大,模型需逼近更高维函数类
  2. 样本项:有效独立样本数 ∝Dk/H\propto D_k/HDk/H 随H增大而减少

核心定理:最优窗口的存在性与刻画

单峰性定理(Theorem 4)

条件

  • 贝叶斯损失:H<Hk∗(δ)H < H^*_k(\delta)H<Hk(δ)ΔLBayes≤−δ\Delta L_{Bayes} \leq -\deltaΔLBayesδ(显著下降);H≥Hk∗(δ)H \geq H^*_k(\delta)HHk(δ)∣ΔLBayes∣≤δ|\Delta L_{Bayes}| \leq \delta∣ΔLBayesδ(饱和)
  • 近似损失:H≥Hk∗(δ)H \geq H^*_k(\delta)HHk(δ)ΔLapprox≥η>δ\Delta L_{approx} \geq \eta > \deltaΔLapproxη>δ(持续上升)

结论:总损失 L(k)(H)L^{(k)}(H)L(k)(H)[1,Hk∗(δ)][1, H^*_k(\delta)][1,Hk(δ)] 上递减,在 [Hk∗(δ),∞)[H^*_k(\delta), \infty)[Hk(δ),) 上递增,即单峰,全局最小值在最小充分窗口处取得:

Hk∗(δ)=min⁡{H:∣ΔLBayes(k)(H)∣≤δ}\boxed{H^*_k(\delta) = \min\{H : |\Delta L^{(k)}_{Bayes}(H)| \leq \delta\}}Hk(δ)=min{H:∣ΔLBayes(k)(H)δ}

直观解释

损失
  ↑
  │      ╭────╮
  │     ╱      ╲    近似损失(随H增长)
  │    ╱   ★    ╲
  │   ╱  最优窗口 ╲
  │  ╱              ╲
  │ ╱ 贝叶斯损失      ╲
  │╱(随H饱和)         ╲
  └──────────────────────→ H
       ↑
    H* = 最小充分窗口
       = 贝叶斯损失开始饱和
         且近似损失开始主导的点

季节性覆盖解释(Corollary 1)

将容忍度 δ\deltaδ 与可解释的信号结构关联:

τ-覆盖窗口Tk(τ)T^{(\tau)}_kTk(τ) = 最小H,使得未解析季节性能量 ≤(1−τ)Ak2\leq (1-\tau)A^2_k(1τ)Ak2

若选择 τ\tauτ 使得 (1−τ)Ak2≤δ(1-\tau)A^2_k \leq \delta(1τ)Ak2δ,则:

Hk∗(δ)=max⁡{ℓAR,k,Tk(τ)}\boxed{H^*_k(\delta) = \max\{\ell_{AR,k}, T^{(\tau)}_k\}}Hk(δ)=max{AR,k,Tk(τ)}

实用意义:最优窗口由AR记忆长度季节性周期覆盖两者决定


联邦聚合策略

问题

各客户端最优窗口 {Hk∗(δ)}k=1K\{H^*_k(\delta)\}_{k=1}^K{Hk(δ)}k=1K 不同,服务器需选择单一全局窗口 HserverH_{server}Hserver

解决方案:稳健联邦窗口

加权截尾均值(Trimmed Mean)

Hserver∗=TrimMeanα({Hk∗(δ)}k=1K;{wk}k=1K)H^*_{server} = \text{TrimMean}_\alpha\left(\{H^*_k(\delta)\}_{k=1}^K; \{w_k\}_{k=1}^K\right)Hserver=TrimMeanα({Hk(δ)}k=1K;{wk}k=1K)

  • wk∝nkw_k \propto n_kwknk:按数据量加权
  • α\alphaα:丢弃最小和最大的 α\alphaα 比例客户端窗口
  • 等价于:最小化凸Huber型聚合目标

优势:避免少数极端客户端(极大/极小H)主导全局决策,平衡大多数客户端需求


与前四篇文献的关联

维度 残差分析 (PR) ReCast (AAAI) LiConvFormer (ESWA) 本论文 (AAAI)
核心任务 知识发现 时间序列预测 故障诊断(分类) 联邦时间序列预测
核心问题 “残差是否可解释?” “如何轻量且鲁棒地预测?” “如何轻量且鲁棒地诊断?” “回溯窗口H该选多大?”
理论深度 统计显著性检验 经验性SOTA性能 经验性轻量设计 严格理论证明
方法类型 矩阵轮廓 + 模体发现 码本量化 + 双路径MLP 可分离卷积 + 广播注意力 内在空间 + 损失分解
复杂度分析 O(n2)O(n^2)O(n2)算法 O(n2)O(n^2)O(n2)→线性 O(N2)O(N^2)O(N2)O(N)O(N)O(N) 内在维度 dI(H)d_I(H)dI(H) 控制
残差/误差处理 挖掘残差模式 残差路径补偿 无显式处理 贝叶斯损失(不可约)+ 近似损失(可优化)
场景 单时间序列分析 中心化预测 单设备诊断 联邦学习(非IID、分布式)

核心贡献总结

贡献 说明
1. 内在空间形式化 将异构非IID多变量时间序列变换为紧凑、几何保持的表示空间;具有双Lipschitz连续性、内在维度饱和、跨窗口兼容性
2. 损失紧密分解 预测损失 = 贝叶斯项(不可约)+ 近似项(有限样本/模型容量);每项解析 tied 到时间序列结构(AR记忆、季节性、趋势)和窗口H
3. 最优窗口定理 证明总损失关于H单峰;最小充分窗口 H∗H^*H 为全局最小值;首个有理论保证的联邦场景窗口选择准则
4. 稳健聚合策略 加权截尾均值聚合各客户端最优窗口,避免极端值主导

局限性与未来方向

当前假设

  • SDG为加性结构(趋势+季节性+AR),未考虑状态切换、非线性季节、跨特征交互
  • 假设局部平稳、稳定AR结构(长记忆或近单位根场景可能失效)
  • 全局协方差估计需安全/隐私感知聚合
  • 重叠窗口的独立性假设可能高估有效样本量

未来方向

  • 放松SDG结构假设,处理更复杂动态
  • 设计隐私保护的全局协方差估计协议
  • 扩展到自适应/在线窗口选择(非固定H)
  • 结合元学习实现客户端个性化窗口

理论意义与实践价值

理论层面

  • 首次将内在维度理论扩展到联邦、非IID场景
  • 建立了窗口选择数据生成结构(AR记忆、季节性周期)的直接数学联系
  • 揭示了联邦预测中偏差-方差权衡的新形态:不仅模型容量 vs 数据量,还有窗口信息量 vs 样本效率

实践层面

  • 提供可计算的最优窗口公式H∗=max⁡{ℓAR,T(τ)}H^* = \max\{\ell_{AR}, T^{(\tau)}\}H=max{AR,T(τ)}
  • 指导联邦预测系统的设计:避免盲目使用长窗口导致过拟合,或短窗口导致信息不足
  • 模型选择(channel-dependent vs channel-independent)和通信效率优化提供理论基础
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐