GEFCom2012 负荷预测数据集介绍

一、数据集背景

GEFCom2012(Global Energy Forecasting Competition 2012)的负荷预测赛道由 IEEE 能源预测工作组组织。该赛道旨在模拟美国某电力公司实际场景,要求参赛者同时预测 20 个区域系统总负荷(共 21 条时间序列)的每小时电力负荷(单位:kW)。

二、时间范围与任务划分

2.1 总体时间线

  • 训练期:2004/01/01 00:00 至 2008/06/30 06:00(共 4.5 年)
  • 回测周:训练期间故意挖去的 8 个非连续星期(仅负载数据被移除,气温数据保留)
  • 预测周:训练期结束后的一整周:2008/07/01 00:00 至 2008/07/07 23:00

2.2 回测 vs 预测

对比项 回测(Backcasting) 预测(Forecasting)
时间位置 历史期内部 训练期之后
实际气温是否可用 ✅ 提供 ❌ 不提供(需自备气温预测)
负荷真实值 已隐藏,用于评分 已隐藏,用于评分
难度 较低 较高
评分权重 低(系统20 / 区域1) 高(系统160 / 区域8)

三、文件列表及字段说明

通过网盘分享的文件:GEFCOM2012_Data.zip
链接: https://pan.baidu.com/s/1WQ7o7O-QkbqL7GUB-AuzpA?pwd=kwav 提取码: kwav
–来自百度网盘超级会员v3的分享

注意:以下为仓库中实际文件的列结构。已被预处理为长格式(zone_id/station_id, year, month, day, h1~h24)。

1. Load_history.csv —— 训练期负荷(3,300 行, 28 列)

覆盖 zone 1~20(无 system 行),2004~2008 年共 1650 天。

字段 类型 说明
zone_id int 区域编号(1~20)
year int 年份(2004~2008)
month int 月份(1~12)
day int 日期(1~31)
h1 ~ h24 str 对应小时的负荷(kW),含千分位逗号(如 "16,853"),需 pd.to_numeric 或去除逗号后转换

2. temperature_history.csv —— 训练期气温(18,073 行, 28 列)

覆盖 station 111,20042008 年。注意:气温行数与负荷行数不等 —— 回测周的负荷被删除但气温保留。

字段 类型 说明
station_id int 气象站编号(1~11)
year int 年份(2004~2008)
month int 月份(1~12)
day int 日期(1~31)
h1 ~ h24 int 对应小时的气温(°F,整数)

3. Holiday_List.csv —— 美国联邦假日(10 行, 6 列)

字段 类型 说明
Unnamed: 0 str 假日名称(如 New Year's Day
2004 ~ 2008 str 该假日在该年的具体日期描述(如 Monday, January 1),格式不统一,需解析

4. Load_benchmark.csv —— 基准模型预测(1,323 行, 29 列)

多元线性回归给出的预测结果,覆盖 8 个回测周 + 1 个预测周。zone_id 包含 21(代表系统总负荷)。无 weight 列。

字段 类型 说明
id int 行编号
zone_id int 区域编号(1~20 为区域,21 为系统总负荷
year int 年份
month int 月份
day int 日期
h1 ~ h24 int 基准预测负荷(kW)

5. Load_solution.csv —— 真实负荷值(1,323 行, 30 列)

与 benchmark 同结构(同样 zone_id 1~21),额外含 weight 列用于 WRMSE 评分。

字段 类型 说明
id int 行编号
zone_id int 区域编号(1~20 为区域,21 为系统总负荷
year int 年份
month int 月份
day int 日期
h1 ~ h24 int 真实负荷(kW)
weight int 评分权重:1(回测区域)、8(预测区域)、20(回测系统)、160(预测系统)

6. temperature_solution.csv —— 预测周实际气温(2,046 行, 8 列)

仅用于事后分析,训练/预测时不可用

字段 类型 说明
station_id int 气象站编号(1~11)
datetime str 时间戳(如 30Jun2008:7:00:00
date str 日期(如 30Jun2008
year int 年份
month int 月份
day int 日期
hour int 小时(0~23)
T0_p1 int 实际气温(°F)

四、权重(weight)详解

weight 列是评分时的误差惩罚系数,并非数据质量或频率权重。不同层级和任务阶段的权重分配如下(来自论文 Table 1):

任务阶段 预测层级 权重值
预测周 系统总负荷 160
预测周 单个区域负荷 8
回测周 系统总负荷 20
回测周 单个区域负荷 1

含义:同样大小的预测误差,在“预测周+系统”上受到的惩罚是“回测周+区域”的 160 倍。这鼓励参赛者优先优化对未来系统总负荷的预测。

五、评分公式

该赛道使用 加权均方根误差(Weighted Root Mean Square Error, WRMSE)

WRMSE = ∑ i w i ( A i − P i ) 2 ∑ i w i \text{WRMSE} = \sqrt{\frac{\sum_{i} w_i (A_i - P_i)^2}{\sum_{i} w_i}} WRMSE=iwiiwi(AiPi)2

  • A i A_i Ai:真实负荷(来自 load_solution.csv
  • P i P_i Pi:参赛者提交的预测负荷
  • w i w_i wi:该行对应的 weight

分母 ∑ i w i {\sum_{i} w_i} iwi用于归一化,使最终分数不因总权重规模而失真。

六、典型使用流程(参赛者)

  1. 使用 load_history.csvtemperature_history.csv 建立负荷预测模型。
  2. 利用 holiday_list.csv 处理节假日效应。
  3. 8 个回测周:可用实际气温回测负荷。
  4. 预测周:需自行预测气温(或采用免气温方法)生成负荷预测(高权重)。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐