联邦时序预测窗口选择准则-理论解法
关于联邦学习时间序列预测中最优回溯窗口的理论论文。
论文基本信息
| 项目 | 内容 |
|---|---|
| 标题 | Optimal Look-back Horizon for Time Series Forecasting in Federated Learning(联邦学习时间序列预测的最优回溯窗口) |
| 作者 | Dahao Tang, Nan Yang, Yanli Li, Zhiyu Zhu, Zhibo Jin, Dong Yuan(悉尼大学 + 悉尼科技大学) |
| 发表会议 | AAAI 2026(人工智能顶级会议) |
| 核心贡献 | 首个针对非IID联邦场景的、有理论保证的自适应回溯窗口选择框架 |
研究背景与核心问题
时间序列预测中的关键选择
回溯窗口(Look-back Horizon):预测未来时用多少个历史时间步作为输入?
未来预测 Ŷ_t = f(X_{t-H+1}, ..., X_t)
↑
回溯窗口 H
现有困境:
- 传统方法:将H视为超参数,通过交叉验证或启发式搜索确定
- 近期理论(Shi et al., 2024):提出基于内在表示空间的缩放定律,但仅限中心化、IID场景
- 联邦学习场景:数据分布式、非IID、异构——现有理论全部失效
联邦学习的特殊挑战
| 挑战 | 说明 |
|---|---|
| 数据异构性(Non-IID) | 各客户端分布不同、序列长度不同、领域特性不同 |
| 特征偏斜(Feature Skew) | 同一特征在不同客户端上均值/方差不同 |
| 样本效率问题 | 窗口重叠导致有效独立样本数仅为 Dk/HD_k/HDk/H |
| 全局 vs 局部最优冲突 | 各客户端最优H不同,需聚合策略 |
核心方法论:三阶段理论框架
Stage 1: 合成数据生成器(SDG)
目标:用参数化模型捕捉真实世界非IID时间序列的核心结构
SDG公式(单客户端k,特征f,时间t):
x^f,t,k=∑j=1JAf,j,ksin(2πtTf,j,k+θf,j,k)⏟季节性+∑i=1pϕk,ixf,t−i,k⏟AR自回归+βf,kt⏟趋势+εf,t,k⏟噪声\hat{x}_{f,t,k} = \underbrace{\sum_{j=1}^{J} A_{f,j,k} \sin\left(\frac{2\pi t}{T_{f,j,k}} + \theta_{f,j,k}\right)}_{\text{季节性}} + \underbrace{\sum_{i=1}^{p} \phi_{k,i} x_{f,t-i,k}}_{\text{AR自回归}} + \underbrace{\beta_{f,k} t}_{\text{趋势}} + \underbrace{\varepsilon_{f,t,k}}_{\text{噪声}}x^f,t,k=季节性 j=1∑JAf,j,ksin(Tf,j,k2πt+θf,j,k)+AR自回归 i=1∑pϕk,ixf,t−i,k+趋势 βf,kt+噪声 εf,t,k
其中 εf,t,k∼N(μf,k,σf,k2)\varepsilon_{f,t,k} \sim \mathcal{N}(\mu_{f,k}, \sigma^2_{f,k})εf,t,k∼N(μf,k,σf,k2)
特征偏斜建模(联邦异构性):
xf,t,k=Λf,kx~f,t,k+δf,kx_{f,t,k} = \Lambda_{f,k} \tilde{x}_{f,t,k} + \delta_{f,k}xf,t,k=Λf,kx~f,t,k+δf,k
- Λf,k\Lambda_{f,k}Λf,k:线性尺度(控制方差变化)
- δf,k\delta_{f,k}δf,k:均值偏移
验证:图1显示SDG生成数据与真实天气数据高度吻合
Stage 2: 内在空间构建(Intrinsic Space)
目标:将异构时间序列窗口映射到具有良好几何/统计性质的紧凑表示空间
五步骤变换流程:
Step 1: 客户端归一化
消除仿射特征偏斜,对齐边缘分布
ˆx_{f,i,k} = (x_{f,i,k} - μ_{f,k}) / σ_{f,k}
Step 2: 窗口展平为向量
ˆx^{flat}_{t,k} = vec(ˆX_{t,k}) ∈ R^{F·H}
Step 3: 全局协方差估计与特征分解
Σ = (1/N) X^⊤X = UΛU^⊤
识别主导变化轴
Step 4: 内在维度估计
基于SDG结构计算理论内在维度
Step 5: 投影到内在空间
z_{t,k} = Φ_H(x_{t,k}) = U_{d_I}^⊤ · ˆx^{flat}_{t,k} ∈ R^{d_I}
关键假设(6条,确保理论严谨性):
| 假设 | 内容 | 意义 |
|---|---|---|
| A1: 紧致像 | supx∈O(H)∣ΦH(x)∣2≤RH\sup_{x\in O(H)} |\Phi_H(x)|_2 \leq R_Hsupx∈O(H)∣ΦH(x)∣2≤RH | 表示有界,统计量良好定义 |
| A2: 双Lipschitz嵌入 | αH∣x−y∣≤∣ΦH(x)−ΦH(y)∣≤βH∣x−y∣\alpha_H|x-y| \leq |\Phi_H(x)-\Phi_H(y)| \leq \beta_H|x-y|αH∣x−y∣≤∣ΦH(x)−ΦH(y)∣≤βH∣x−y∣ | 距离保持,可逆且稳定 |
| A3: 内在维度单调饱和 | dI(H+1)≥dI(H)d_I(H+1) \geq d_I(H)dI(H+1)≥dI(H),且 H≥HidH \geq H_{id}H≥Hid 时饱和 | 信息完备后不再增长 |
| A4: 跨窗口兼容 | 存在稳定线性投影 P[H2,H1]P[H_2,H_1]P[H2,H1] | 不同H可比 |
| A5: 截断≈投影 | ∣TH2→H1(z)−P[H2,H1]z∣≤cerrH1−γ|T_{H_2\to H_1}(z) - P[H_2,H_1]z| \leq c_{err}H_1^{-\gamma}∣TH2→H1(z)−P[H2,H1]z∣≤cerrH1−γ | 截断破坏性随H增大衰减 |
| A6: 幂律谱衰减 | λi(H)≤CZi−αZ\lambda_i(H) \leq C_Z i^{-\alpha_Z}λi(H)≤CZi−αZ | 低维摘要有效 |
内在维度公式(核心结果):
dI,k(H)≈F⋅(min{H,ℓAR,k}+gk(H)+1)\boxed{d_{I,k}(H) \approx F \cdot \left(\min\{H, \ell_{AR,k}\} + g_k(H) + 1\right)}dI,k(H)≈F⋅(min{H,ℓAR,k}+gk(H)+1)
其中:
- ℓAR,k=⌈ln(1/(1−ε))−lnρk⌉\ell_{AR,k} = \left\lceil \frac{\ln(1/(1-\varepsilon))}{-\ln \rho_k} \right\rceilℓAR,k=⌈−lnρkln(1/(1−ε))⌉:有效AR记忆长度(ρk\rho_kρk为谱半径)
- gk(H)=2∑j=1Jwj,k⋅min{1,HTj,k∗}g_k(H) = 2\sum_{j=1}^{J} w_{j,k} \cdot \min\left\{1, \frac{H}{T^*_{j,k}}\right\}gk(H)=2∑j=1Jwj,k⋅min{1,Tj,k∗H}:季节性复杂度(振幅加权)
- +1+1+1:线性趋势
Stage 3: 损失分解与最优窗口理论
联邦损失分解定理(Theorem 1)
总预测损失 = 贝叶斯损失(不可约)+ 近似损失(可优化)
L(H,S;m)=LBayes(H,S)⏟不可约不确定性+Lapprox(H,S;m)⏟有限样本/模型容量限制L(H,S;m) = \underbrace{L_{Bayes}(H,S)}_{\text{不可约不确定性}} + \underbrace{L_{approx}(H,S;m)}_{\text{有限样本/模型容量限制}}L(H,S;m)=不可约不确定性 LBayes(H,S)+有限样本/模型容量限制 Lapprox(H,S;m)
联邦聚合形式:
- 服务器级贝叶斯损失:LBayes(server)(H,S)=∑k=1KπkLBayes(k)(H,S)L^{(server)}_{Bayes}(H,S) = \sum_{k=1}^K \pi_k L^{(k)}_{Bayes}(H,S)LBayes(server)(H,S)=∑k=1KπkLBayes(k)(H,S)
- 服务器级近似损失:Lapprox(server)(H,S;m)=∑k=1KπkLapprox(k)(H,S;m)L^{(server)}_{approx}(H,S;m) = \sum_{k=1}^K \pi_k L^{(k)}_{approx}(H,S;m)Lapprox(server)(H,S;m)=∑k=1KπkLapprox(k)(H,S;m)
客户端贝叶斯损失分解(Theorem 2)
LBayes(k)(H,S)=LAR(k)(S)⏟AR创新累积+Lseas(k)(H)⏟季节性残余+Ltrend(k)(H)⏟趋势残余L^{(k)}_{Bayes}(H,S) = \underbrace{L^{(k)}_{AR}(S)}_{\text{AR创新累积}} + \underbrace{L^{(k)}_{seas}(H)}_{\text{季节性残余}} + \underbrace{L^{(k)}_{trend}(H)}_{\text{趋势残余}}LBayes(k)(H,S)=AR创新累积 LAR(k)(S)+季节性残余 Lseas(k)(H)+趋势残余 Ltrend(k)(H)
各分量行为:
| 分量 | 依赖H? | 行为 | 饱和条件 |
|---|---|---|---|
| AR损失 | ❌ 仅依赖S | 随S增长,与H无关(一旦H≥p) | H ≥ p |
| 季节性损失 | ✅ | 随H增大而减小 | H ≥ max{T_{f,j,k}} |
| 趋势损失 | ✅(若未显式建模) | 线性 | 显式建模时为0 |
关键洞察:贝叶斯损失单调递减且最终饱和——超过一定H后,更多历史信息不再减少不可约误差
近似损失上界(Theorem 3)
Lapprox(k)(H,S;m)≲(K22dI,k(H)2)dI,k(H)4+dI,k(H)⏟曲率项(几何复杂度)+(dI,k(H)HDk)44+dI,k(H)⏟有限样本项L^{(k)}_{approx}(H,S;m) \lesssim \underbrace{\left(K_2^2 d_{I,k}(H)^2\right)^{\frac{d_{I,k}(H)}{4+d_{I,k}(H)}}}_{\text{曲率项(几何复杂度)}} + \underbrace{\left(\frac{d_{I,k}(H) H}{D_k}\right)^{\frac{4}{4+d_{I,k}(H)}}}_{\text{有限样本项}}Lapprox(k)(H,S;m)≲曲率项(几何复杂度) (K22dI,k(H)2)4+dI,k(H)dI,k(H)+有限样本项 (DkdI,k(H)H)4+dI,k(H)4
两项均随H增长:
- 曲率项:内在维度 dI,k(H)d_{I,k}(H)dI,k(H) 随H增大,模型需逼近更高维函数类
- 样本项:有效独立样本数 ∝Dk/H\propto D_k/H∝Dk/H 随H增大而减少
核心定理:最优窗口的存在性与刻画
单峰性定理(Theorem 4)
条件:
- 贝叶斯损失:H<Hk∗(δ)H < H^*_k(\delta)H<Hk∗(δ) 时 ΔLBayes≤−δ\Delta L_{Bayes} \leq -\deltaΔLBayes≤−δ(显著下降);H≥Hk∗(δ)H \geq H^*_k(\delta)H≥Hk∗(δ) 时 ∣ΔLBayes∣≤δ|\Delta L_{Bayes}| \leq \delta∣ΔLBayes∣≤δ(饱和)
- 近似损失:H≥Hk∗(δ)H \geq H^*_k(\delta)H≥Hk∗(δ) 时 ΔLapprox≥η>δ\Delta L_{approx} \geq \eta > \deltaΔLapprox≥η>δ(持续上升)
结论:总损失 L(k)(H)L^{(k)}(H)L(k)(H) 在 [1,Hk∗(δ)][1, H^*_k(\delta)][1,Hk∗(δ)] 上递减,在 [Hk∗(δ),∞)[H^*_k(\delta), \infty)[Hk∗(δ),∞) 上递增,即单峰,全局最小值在最小充分窗口处取得:
Hk∗(δ)=min{H:∣ΔLBayes(k)(H)∣≤δ}\boxed{H^*_k(\delta) = \min\{H : |\Delta L^{(k)}_{Bayes}(H)| \leq \delta\}}Hk∗(δ)=min{H:∣ΔLBayes(k)(H)∣≤δ}
直观解释:
损失
↑
│ ╭────╮
│ ╱ ╲ 近似损失(随H增长)
│ ╱ ★ ╲
│ ╱ 最优窗口 ╲
│ ╱ ╲
│ ╱ 贝叶斯损失 ╲
│╱(随H饱和) ╲
└──────────────────────→ H
↑
H* = 最小充分窗口
= 贝叶斯损失开始饱和
且近似损失开始主导的点
季节性覆盖解释(Corollary 1)
将容忍度 δ\deltaδ 与可解释的信号结构关联:
τ-覆盖窗口:Tk(τ)T^{(\tau)}_kTk(τ) = 最小H,使得未解析季节性能量 ≤(1−τ)Ak2\leq (1-\tau)A^2_k≤(1−τ)Ak2
若选择 τ\tauτ 使得 (1−τ)Ak2≤δ(1-\tau)A^2_k \leq \delta(1−τ)Ak2≤δ,则:
Hk∗(δ)=max{ℓAR,k,Tk(τ)}\boxed{H^*_k(\delta) = \max\{\ell_{AR,k}, T^{(\tau)}_k\}}Hk∗(δ)=max{ℓAR,k,Tk(τ)}
实用意义:最优窗口由AR记忆长度和季节性周期覆盖两者决定
联邦聚合策略
问题
各客户端最优窗口 {Hk∗(δ)}k=1K\{H^*_k(\delta)\}_{k=1}^K{Hk∗(δ)}k=1K 不同,服务器需选择单一全局窗口 HserverH_{server}Hserver
解决方案:稳健联邦窗口
加权截尾均值(Trimmed Mean):
Hserver∗=TrimMeanα({Hk∗(δ)}k=1K;{wk}k=1K)H^*_{server} = \text{TrimMean}_\alpha\left(\{H^*_k(\delta)\}_{k=1}^K; \{w_k\}_{k=1}^K\right)Hserver∗=TrimMeanα({Hk∗(δ)}k=1K;{wk}k=1K)
- wk∝nkw_k \propto n_kwk∝nk:按数据量加权
- α\alphaα:丢弃最小和最大的 α\alphaα 比例客户端窗口
- 等价于:最小化凸Huber型聚合目标
优势:避免少数极端客户端(极大/极小H)主导全局决策,平衡大多数客户端需求
与前四篇文献的关联
| 维度 | 残差分析 (PR) | ReCast (AAAI) | LiConvFormer (ESWA) | 本论文 (AAAI) |
|---|---|---|---|---|
| 核心任务 | 知识发现 | 时间序列预测 | 故障诊断(分类) | 联邦时间序列预测 |
| 核心问题 | “残差是否可解释?” | “如何轻量且鲁棒地预测?” | “如何轻量且鲁棒地诊断?” | “回溯窗口H该选多大?” |
| 理论深度 | 统计显著性检验 | 经验性SOTA性能 | 经验性轻量设计 | 严格理论证明 |
| 方法类型 | 矩阵轮廓 + 模体发现 | 码本量化 + 双路径MLP | 可分离卷积 + 广播注意力 | 内在空间 + 损失分解 |
| 复杂度分析 | O(n2)O(n^2)O(n2)算法 | O(n2)O(n^2)O(n2)→线性 | O(N2)O(N^2)O(N2)→O(N)O(N)O(N) | 内在维度 dI(H)d_I(H)dI(H) 控制 |
| 残差/误差处理 | 挖掘残差模式 | 残差路径补偿 | 无显式处理 | 贝叶斯损失(不可约)+ 近似损失(可优化) |
| 场景 | 单时间序列分析 | 中心化预测 | 单设备诊断 | 联邦学习(非IID、分布式) |
核心贡献总结
| 贡献 | 说明 |
|---|---|
| 1. 内在空间形式化 | 将异构非IID多变量时间序列变换为紧凑、几何保持的表示空间;具有双Lipschitz连续性、内在维度饱和、跨窗口兼容性 |
| 2. 损失紧密分解 | 预测损失 = 贝叶斯项(不可约)+ 近似项(有限样本/模型容量);每项解析 tied 到时间序列结构(AR记忆、季节性、趋势)和窗口H |
| 3. 最优窗口定理 | 证明总损失关于H单峰;最小充分窗口 H∗H^*H∗ 为全局最小值;首个有理论保证的联邦场景窗口选择准则 |
| 4. 稳健聚合策略 | 加权截尾均值聚合各客户端最优窗口,避免极端值主导 |
局限性与未来方向
当前假设:
- SDG为加性结构(趋势+季节性+AR),未考虑状态切换、非线性季节、跨特征交互
- 假设局部平稳、稳定AR结构(长记忆或近单位根场景可能失效)
- 全局协方差估计需安全/隐私感知聚合
- 重叠窗口的独立性假设可能高估有效样本量
未来方向:
- 放松SDG结构假设,处理更复杂动态
- 设计隐私保护的全局协方差估计协议
- 扩展到自适应/在线窗口选择(非固定H)
- 结合元学习实现客户端个性化窗口
理论意义与实践价值
理论层面:
- 首次将内在维度理论扩展到联邦、非IID场景
- 建立了窗口选择与数据生成结构(AR记忆、季节性周期)的直接数学联系
- 揭示了联邦预测中偏差-方差权衡的新形态:不仅模型容量 vs 数据量,还有窗口信息量 vs 样本效率
实践层面:
- 提供可计算的最优窗口公式:H∗=max{ℓAR,T(τ)}H^* = \max\{\ell_{AR}, T^{(\tau)}\}H∗=max{ℓAR,T(τ)}
- 指导联邦预测系统的设计:避免盲目使用长窗口导致过拟合,或短窗口导致信息不足
- 为模型选择(channel-dependent vs channel-independent)和通信效率优化提供理论基础
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)