融合时空特征的动态图神经网络：DGNN-BiLSTM-Attention 详解与实战

为此，本文提出DGNN-BiLSTM-Attention（动态图神经网络 - 双向 LSTM - 注意力） 模型，通过 GCN 提取空间特征、BiLSTM 建模双向时序依赖、时序注意力机制聚焦关键时间步，实现时空特征的深度融合。本文将从技术原理、模型实现、实验验证全维度解析该模型，并通过可视化对比其与传统模型的性能差异。

二、核心技术基石

在深入模型架构前，先梳理三大核心组件的作用：

2.1 图卷积网络（GCN）：捕捉空间拓扑特征

图卷积是处理非欧几里得数据（如图结构）的核心工具，其核心公式为：

其中：

GCN 的核心价值是：将每个节点的特征与其邻居节点的特征加权融合，精准捕捉节点间的空间关联（如电网中节点的功率传输关系）。

2.2 双向 LSTM（BiLSTM）：建模时序依赖

传统 LSTM 仅能从 “过去→未来” 单向建模时序，而 BiLSTM 通过正向 LSTM（捕捉过去到当前的依赖）和反向 LSTM（捕捉未来到当前的依赖）拼接输出，更全面地挖掘时序特征，公式可简化为：

2.3 时序注意力机制：聚焦关键时间步

注意力机制的核心是 “给重要的时间步更高的权重”，通过对 BiLSTM 输出的每个时间步打分、归一化，最终加权求和得到上下文向量：

其中MLP为简单的全连接层，αt为注意力权重，c为融合关键时序信息的上下文向量。

模型类型	处理的数据结构	空间特征捕获能力	时间特征捕获能力	典型应用场景	局限性
CNN	规则网格（如图片）	极强（局部感受野、平移不变性）	无（原生不支持时间维度）	图像分类、目标检测	无法处理非规则拓扑结构（如社交网络）
RNN / LSTM	线性序列（如文本）	无（不包含空间拓扑）	极强（长短期记忆、门控机制）	机器翻译、语音识别	无法感知实体间的复杂关联和网络结构
静态 GNN	非规则图（如分子结构）	极强（节点消息传递）	无	分子属性预测、推荐系统	无法捕捉图结构或节点特征随时间的演变
动态 GNN	时空演变图	极强（动态邻接矩阵）	极强（结合 RNN/自注意力）	交通流量预测、金融风控预警	计算复杂度高，对内存要求极大

三、DGNN-BiLSTM-Attention 模型架构详解

3.1 整体架构设计

模型整体分为三层（空间层→时间层→注意力层→预测层），流程如下：

空间特征提取：逐时间步对输入数据做两层 GCN，输出每个节点的空间融合特征；
时序特征建模：将 GCN 输出的空间特征重塑后输入 BiLSTM，捕捉双向时序依赖；
注意力聚焦：对 BiLSTM 输出的时序特征打分，聚焦关键时间步；
预测输出：通过全连接层将上下文向量映射为最终预测值。

3.2 核心模块实现（附关键代码）

以下代码基于 PyTorch 实现，所有模块均为可复用的 nn.Module 子类：

3.2.1 GCN 层实现（支持多维张量）

import torch
import torch.nn as nn
import torch.nn.functional as F
import math

class GCNLayer(nn.Module):
    def __init__(self, in_features, out_features):
        super(GCNLayer, self).__init__()
        self.weight = nn.Parameter(torch.FloatTensor(in_features, out_features))
        nn.init.kaiming_uniform_(self.weight, a=math.sqrt(5))  # 高效初始化

    def forward(self, x, adj):
        support = torch.matmul(x, self.weight)  # 特征线性变换
        output = torch.matmul(adj, support)     # 邻接矩阵加权融合
        return output

3.2.2 时序注意力层实现

class TemporalAttention(nn.Module):
    def __init__(self, hidden_dim):
        super(TemporalAttention, self).__init__()
        self.attention_layer = nn.Sequential(
            nn.Linear(hidden_dim, hidden_dim // 2),
            nn.Tanh(),
            nn.Linear(hidden_dim // 2, 1, bias=False)
        )

    def forward(self, lstm_out):
        attn_scores = self.attention_layer(lstm_out)  # 时间步打分: (B*N, T, 1)
        attn_weights = F.softmax(attn_scores, dim=1)  # 权重归一化
        context_vector = torch.sum(attn_weights * lstm_out, dim=1)  # 加权求和
        return context_vector, attn_weights

3.2.3 整体模型前向传播


class GNN_BiLSTM_Attention(nn.Module):
    def __init__(self, num_nodes, node_features, gcn_hidden, lstm_hidden, output_dim):
        super(GNN_BiLSTM_Attention, self).__init__()
        self.num_nodes = num_nodes
        # 空间层：两层GCN
        self.gcn1 = GCNLayer(node_features, gcn_hidden)
        self.gcn2 = GCNLayer(gcn_hidden, gcn_hidden)
        # 时间层：双向LSTM
        self.bilstm = nn.LSTM(
            input_size=gcn_hidden,
            hidden_size=lstm_hidden,
            batch_first=True,
            bidirectional=True
        )
        # 注意力层
        self.attention = TemporalAttention(lstm_hidden * 2)
        # 预测层
        self.fc = nn.Sequential(
            nn.Linear(lstm_hidden * 2, lstm_hidden),
            nn.ReLU(),
            nn.Linear(lstm_hidden, output_dim)
        )

        return predictions, attn_weights

四、实验验证：模拟数据下的性能评估

为验证模型有效性，我们构建模拟数据集（电力负荷场景），并对比纯 LSTM、纯 BiLSTM、DGNN-BiLSTM-Attention 三种模型的性能。

4.1 数据生成与预处理

模拟 10 个节点的电力负荷数据，包含：

空间维度：随机生成归一化邻接矩阵（模拟电网拓扑）；
时间维度：24 小时时序序列（模拟日负荷周期）；
噪声：加入高斯噪声模拟实际场景的不确定性。

def generate_simulated_data(batch_size, seq_len, num_nodes, features):
    X = torch.rand((batch_size, seq_len, num_nodes, features))  # 输入特征
    Y = torch.rand((batch_size, num_nodes, 1))                  # 预测目标
    
    # 构建并归一化邻接矩阵
    adj_raw = torch.rand((num_nodes, num_nodes))
    adj_raw = (adj_raw + adj_raw.T) / 2  # 对称化
    adj_raw.fill_diagonal_(1.0)          # 自环
    # 归一化：D^-0.5 * A * D^-0.5
    rowsum = adj_raw.sum(dim=1)
    d_inv_sqrt = torch.pow(rowsum, -0.5)
    d_inv_sqrt[torch.isinf(d_inv_sqrt)] = 0.
    d_mat_inv_sqrt = torch.diag(d_inv_sqrt)
    adj_normalized = torch.mm(torch.mm(d_mat_inv_sqrt, adj_raw), d_mat_inv_sqrt)
    return X, Y, adj_normalized

4.2 实验设置

超参数：批次大小 16，序列长度 24，节点数 10，特征数 3；
GCN 隐藏层 32，LSTM 隐藏层 64，输出维度 1；
训练轮数 50，学习率 0.005，优化器 Adam（带 L2 正则）；
损失函数：MSE（均方误差）。

if __name__ == "__main__":
    torch.manual_seed(42)  # 固定随机种子
    
    # 超参数配置
    BATCH_SIZE, SEQ_LEN, NUM_NODES, NODE_FEATURES = 16, 24, 10, 3
    GCN_HIDDEN, LSTM_HIDDEN, OUTPUT_DIM = 32, 64, 1
    EPOCHS, LR = 50, 0.005
    
    # 初始化模型、优化器、损失函数
    model = GNN_BiLSTM_Attention(NUM_NODES, NODE_FEATURES, GCN_HIDDEN, LSTM_HIDDEN, OUTPUT_DIM)
    optimizer = optim.Adam(model.parameters(), lr=LR, weight_decay=1e-4)
    criterion = nn.MSELoss()
    
    # 生成数据
    X_train, Y_train, adj_matrix = generate_simulated_data(BATCH_SIZE, SEQ_LEN, NUM_NODES, NODE_FEATURES)
    
    # 训练循环
    loss_history = []
    model.train()
    for epoch in range(EPOCHS):
        optimizer.zero_grad()
        predictions, attn_weights = model(X_train, adj_matrix)
        loss = criterion(predictions, Y_train)
        loss.backward()
        optimizer.step()
        loss_history.append(loss.item())
        
        if (epoch + 1) % 10 == 0:
            print(f"Epoch [{epoch + 1:02d}/{EPOCHS}], Loss (MSE): {loss.item():.6f}")