GEFCom2012 负荷预测数据集介绍
GEFCom2012 负荷预测数据集介绍
一、数据集背景
GEFCom2012(Global Energy Forecasting Competition 2012)的负荷预测赛道由 IEEE 能源预测工作组组织。该赛道旨在模拟美国某电力公司实际场景,要求参赛者同时预测 20 个区域 和 系统总负荷(共 21 条时间序列)的每小时电力负荷(单位:kW)。
二、时间范围与任务划分
2.1 总体时间线
- 训练期:2004/01/01 00:00 至 2008/06/30 06:00(共 4.5 年)
- 回测周:训练期间故意挖去的 8 个非连续星期(仅负载数据被移除,气温数据保留)
- 预测周:训练期结束后的一整周:2008/07/01 00:00 至 2008/07/07 23:00
2.2 回测 vs 预测
| 对比项 | 回测(Backcasting) | 预测(Forecasting) |
|---|---|---|
| 时间位置 | 历史期内部 | 训练期之后 |
| 实际气温是否可用 | ✅ 提供 | ❌ 不提供(需自备气温预测) |
| 负荷真实值 | 已隐藏,用于评分 | 已隐藏,用于评分 |
| 难度 | 较低 | 较高 |
| 评分权重 | 低(系统20 / 区域1) | 高(系统160 / 区域8) |
三、文件列表及字段说明
通过网盘分享的文件:GEFCOM2012_Data.zip
链接: https://pan.baidu.com/s/1WQ7o7O-QkbqL7GUB-AuzpA?pwd=kwav 提取码: kwav
–来自百度网盘超级会员v3的分享
注意:以下为仓库中实际文件的列结构。已被预处理为长格式(
zone_id/station_id, year, month, day, h1~h24)。
1. Load_history.csv —— 训练期负荷(3,300 行, 28 列)
覆盖 zone 1~20(无 system 行),2004~2008 年共 1650 天。
| 字段 | 类型 | 说明 |
|---|---|---|
zone_id |
int | 区域编号(1~20) |
year |
int | 年份(2004~2008) |
month |
int | 月份(1~12) |
day |
int | 日期(1~31) |
h1 ~ h24 |
str | 对应小时的负荷(kW),含千分位逗号(如 "16,853"),需 pd.to_numeric 或去除逗号后转换 |
2. temperature_history.csv —— 训练期气温(18,073 行, 28 列)
覆盖 station 111,20042008 年。注意:气温行数与负荷行数不等 —— 回测周的负荷被删除但气温保留。
| 字段 | 类型 | 说明 |
|---|---|---|
station_id |
int | 气象站编号(1~11) |
year |
int | 年份(2004~2008) |
month |
int | 月份(1~12) |
day |
int | 日期(1~31) |
h1 ~ h24 |
int | 对应小时的气温(°F,整数) |
3. Holiday_List.csv —— 美国联邦假日(10 行, 6 列)
| 字段 | 类型 | 说明 |
|---|---|---|
Unnamed: 0 |
str | 假日名称(如 New Year's Day) |
2004 ~ 2008 |
str | 该假日在该年的具体日期描述(如 Monday, January 1),格式不统一,需解析 |
4. Load_benchmark.csv —— 基准模型预测(1,323 行, 29 列)
多元线性回归给出的预测结果,覆盖 8 个回测周 + 1 个预测周。zone_id 包含 21(代表系统总负荷)。无 weight 列。
| 字段 | 类型 | 说明 |
|---|---|---|
id |
int | 行编号 |
zone_id |
int | 区域编号(1~20 为区域,21 为系统总负荷) |
year |
int | 年份 |
month |
int | 月份 |
day |
int | 日期 |
h1 ~ h24 |
int | 基准预测负荷(kW) |
5. Load_solution.csv —— 真实负荷值(1,323 行, 30 列)
与 benchmark 同结构(同样 zone_id 1~21),额外含 weight 列用于 WRMSE 评分。
| 字段 | 类型 | 说明 |
|---|---|---|
id |
int | 行编号 |
zone_id |
int | 区域编号(1~20 为区域,21 为系统总负荷) |
year |
int | 年份 |
month |
int | 月份 |
day |
int | 日期 |
h1 ~ h24 |
int | 真实负荷(kW) |
weight |
int | 评分权重:1(回测区域)、8(预测区域)、20(回测系统)、160(预测系统) |
6. temperature_solution.csv —— 预测周实际气温(2,046 行, 8 列)
仅用于事后分析,训练/预测时不可用。
| 字段 | 类型 | 说明 |
|---|---|---|
station_id |
int | 气象站编号(1~11) |
datetime |
str | 时间戳(如 30Jun2008:7:00:00) |
date |
str | 日期(如 30Jun2008) |
year |
int | 年份 |
month |
int | 月份 |
day |
int | 日期 |
hour |
int | 小时(0~23) |
T0_p1 |
int | 实际气温(°F) |
四、权重(weight)详解
weight 列是评分时的误差惩罚系数,并非数据质量或频率权重。不同层级和任务阶段的权重分配如下(来自论文 Table 1):
| 任务阶段 | 预测层级 | 权重值 |
|---|---|---|
| 预测周 | 系统总负荷 | 160 |
| 预测周 | 单个区域负荷 | 8 |
| 回测周 | 系统总负荷 | 20 |
| 回测周 | 单个区域负荷 | 1 |
含义:同样大小的预测误差,在“预测周+系统”上受到的惩罚是“回测周+区域”的 160 倍。这鼓励参赛者优先优化对未来系统总负荷的预测。
五、评分公式
该赛道使用 加权均方根误差(Weighted Root Mean Square Error, WRMSE):
WRMSE = ∑ i w i ( A i − P i ) 2 ∑ i w i \text{WRMSE} = \sqrt{\frac{\sum_{i} w_i (A_i - P_i)^2}{\sum_{i} w_i}} WRMSE=∑iwi∑iwi(Ai−Pi)2
- A i A_i Ai:真实负荷(来自
load_solution.csv) - P i P_i Pi:参赛者提交的预测负荷
- w i w_i wi:该行对应的
weight
分母 ∑ i w i {\sum_{i} w_i} ∑iwi用于归一化,使最终分数不因总权重规模而失真。
六、典型使用流程(参赛者)
- 使用
load_history.csv和temperature_history.csv建立负荷预测模型。 - 利用
holiday_list.csv处理节假日效应。 - 对 8 个回测周:可用实际气温回测负荷。
- 对 预测周:需自行预测气温(或采用免气温方法)生成负荷预测(高权重)。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)