PyRregular开源34个数据集基准，找不规则时序方向baseline的可以直接抄作业

2501_91070801

394人浏览 · 2026-04-10 15:40:12

2501_91070801 · 2026-04-10 15:40:12 发布

现实世界中的时间序列数据常因采样不均、观测缺失、长度不一等问题而呈现“不规则”性，这给医疗、交通、气象等领域的分析带来了巨大挑战。

针对此问题，本文解析的两篇论文从不同角度给出了解决方案。第一篇由意大利比萨大学提出的 PyRregular 框架，旨在建立统一的不规则时间序列处理标准与分类基准；第二篇提出的 APN 模型，则聚焦于预测任务，通过创新的自适应分块聚合机制，在保证精度的同时大幅提升计算效率。二者分别从“标准化基准”与“高效建模”两个层面推动了该领域的发展。

我把两篇论文的核心资料整理好了：34个数据集清单+不规则类型标注表以及不规则时间序列精选论文合集感兴趣的可以dd，希望能帮到你~

原文姿料这儿~

一、论文1：PYRREGULAR: A UNIFIED FRAMEWORK FOR IRREGULAR TIME SERIES, WITH CLASSIFICATION BENCHMARKS（意大利比萨大学）

方法：

PyRregular 提出了一套处理不规则时间序列的统一框架。它首先定义了三种独立的不规则性类型：不均匀采样、部分观测和参差不齐。框架的核心是将数据转换为基于COO稀疏张量的通用数组格式，并利用 xarray 库存储时间戳，从而实现高效存储与操作。最终，该框架可无缝对接多种现有分类库。

创新点：

首个标准化基准：发布了首个包含34个数据集的不规则时间序列分类标准化仓库，并基于此对12种来自不同领域的分类器进行了全面的基准测试。
统一数据表示：提出了一种结合稀疏张量与时间戳的统一数组格式，有效区分了“部分观测”和“参差不齐”导致的缺失值，解决了现有格式无法同时处理各类不规则性的痛点。
关键发现：基准测试结果显示，原本为规则时间序列设计的 ROCKET 方法在不规则数据上表现最佳，且LightGBM等简单基线模型在性能和效率上优于许多复杂深度学习模型。

论文链接：https://arxiv.org/pdf/2505.06047

二、论文2：Rethinking Irregular Time Series Forecasting: A Simple yet Effective Baseline（华东师范大学）

方法：

论文提出 APN 框架。核心是时间感知分块聚合模块，该模块为每个通道独立学习动态的“软窗口”，并通过加权平均策略直接聚合窗口内的原始观测值，从而将不规则序列转换为规则、高质量的分块表示。随后，一个轻量级的查询模块汇总历史信息，最后通过一个浅层MLP进行预测。

创新点：

自适应分块策略：摒弃了传统固定长度的“硬分割”方法，创新性地提出自适应软分块机制。通过为每个分块学习动态的左右边界，使模型能灵活适应局部信息密度的变化，并保证每个观测点都对所有分块有贡献，避免信息丢失。
高效轻量架构：将处理不规则性的复杂性“前加载”到 TAPA 模块，使得后续的聚合与预测模块可以极简化。实验证明，APN 在PhysioNet等多个真实数据集上的预测精度超越了现有最先进方法，同时显著降低了GPU内存、参数量和运行时间。
避免插值偏差：与现有通过插值填补缺失值的方法不同，APN 的加权聚合策略直接使用原始观测数据，避免了插值可能引入的数据失真，保证了信息保真度。