GEFCom2012 负荷预测数据集介绍

Ape_God666

666人浏览 · 2026-05-22 12:27:00

Ape_God666 · 2026-05-22 12:27:00 发布

GEFCom2012 负荷预测数据集介绍

一、数据集背景

GEFCom2012（Global Energy Forecasting Competition 2012）的负荷预测赛道由 IEEE 能源预测工作组组织。该赛道旨在模拟美国某电力公司实际场景，要求参赛者同时预测 20 个区域 和 系统总负荷（共 21 条时间序列）的每小时电力负荷（单位：kW）。

二、时间范围与任务划分

2.1 总体时间线

训练期：2004/01/01 00:00 至 2008/06/30 06:00（共 4.5 年）
回测周：训练期间故意挖去的 8 个非连续星期（仅负载数据被移除，气温数据保留）
预测周：训练期结束后的一整周：2008/07/01 00:00 至 2008/07/07 23:00

2.2 回测 vs 预测

对比项	回测（Backcasting）	预测（Forecasting）
时间位置	历史期内部	训练期之后
实际气温是否可用	✅ 提供	❌ 不提供（需自备气温预测）
负荷真实值	已隐藏，用于评分	已隐藏，用于评分
难度	较低	较高
评分权重	低（系统20 / 区域1）	高（系统160 / 区域8）

三、文件列表及字段说明

通过网盘分享的文件：GEFCOM2012_Data.zip
链接: https://pan.baidu.com/s/1WQ7o7O-QkbqL7GUB-AuzpA?pwd=kwav 提取码: kwav
–来自百度网盘超级会员v3的分享

注意：以下为仓库中实际文件的列结构。已被预处理为长格式（zone_id/station_id, year, month, day, h1~h24）。

1. `Load_history.csv` —— 训练期负荷（3,300 行, 28 列）

覆盖 zone 1~20（无 system 行），2004~2008 年共 1650 天。

字段	类型	说明
`zone_id`	int	区域编号（1~20）
`year`	int	年份（2004~2008）
`month`	int	月份（1~12）
`day`	int	日期（1~31）
`h1` ~ `h24`	str	对应小时的负荷（kW），含千分位逗号（如 `"16,853"`），需 `pd.to_numeric` 或去除逗号后转换

2. `temperature_history.csv` —— 训练期气温（18,073 行, 28 列）

覆盖 station 1_11，20042008 年。注意：气温行数与负荷行数不等 —— 回测周的负荷被删除但气温保留。

字段	类型	说明
`station_id`	int	气象站编号（1~11）
`year`	int	年份（2004~2008）
`month`	int	月份（1~12）
`day`	int	日期（1~31）
`h1` ~ `h24`	int	对应小时的气温（°F，整数）

3. `Holiday_List.csv` —— 美国联邦假日（10 行, 6 列）

字段	类型	说明
`Unnamed: 0`	str	假日名称（如 `New Year's Day`）
`2004` ~ `2008`	str	该假日在该年的具体日期描述（如 `Monday, January 1`），格式不统一，需解析

4. `Load_benchmark.csv` —— 基准模型预测（1,323 行, 29 列）

多元线性回归给出的预测结果，覆盖 8 个回测周 + 1 个预测周。zone_id 包含 21（代表系统总负荷）。无 weight 列。

字段	类型	说明
`id`	int	行编号
`zone_id`	int	区域编号（1~20 为区域，21 为系统总负荷）
`year`	int	年份
`month`	int	月份
`day`	int	日期
`h1` ~ `h24`	int	基准预测负荷（kW）

5. `Load_solution.csv` —— 真实负荷值（1,323 行, 30 列）

与 benchmark 同结构（同样 zone_id 1~21），额外含 weight 列用于 WRMSE 评分。

字段	类型	说明
`id`	int	行编号
`zone_id`	int	区域编号（1~20 为区域，21 为系统总负荷）
`year`	int	年份
`month`	int	月份
`day`	int	日期
`h1` ~ `h24`	int	真实负荷（kW）
`weight`	int	评分权重：1（回测区域）、8（预测区域）、20（回测系统）、160（预测系统）

6. `temperature_solution.csv` —— 预测周实际气温（2,046 行, 8 列）

仅用于事后分析，训练/预测时不可用。

字段	类型	说明
`station_id`	int	气象站编号（1~11）
`datetime`	str	时间戳（如 `30Jun2008:7:00:00`）
`date`	str	日期（如 `30Jun2008`）
`year`	int	年份
`month`	int	月份
`day`	int	日期
`hour`	int	小时（0~23）
`T0_p1`	int	实际气温（°F）