基于时空图卷积网络与强化学习的高速公路应急车道智能开启决策研究
导读:
高速公路拥堵是城市交通管理的核心挑战,科学开启应急车道可有效缓解拥堵。传统决策依赖人工经验,缺乏实时性与预测性。为此,本研究提出融合时空图卷积网络(ST-GCN)、自注意力机制与近端策略优化(PPO)的智能决策框架。首先,利用YOLOv8从监控视频中提取车流量、车速和密度;其次,构建ST-GCN捕获交通流时空依赖,引入自注意力机制动态计算节点权重;然后,设计PPO智能体,以交通状态预测为输入,输出应急车道开启的最优决策;最后,建立多维度评价体系。实验结果表明,交通流预测RMSE分别为3.83 (车流量)、4.21 (车速)、0.07 (密度),拥堵检测准确率达92.1%,应急车道开启决策的精确率和准确率分别为70.0%和87.5%。本研究实现了从状态预测到决策的端到端智能框架,为高速公路实时拥堵管理提供了科学决策支持。
作者信息:
吴凯粼:五邑大学应用物理与材料学院,广东 江门;李东升, 翁湖钦*:五邑大学电子与信息工程学院,广东 江门
论文详情
如图 1 所示,ST-GCN (时空图卷积网络)模型的核心在于将交通数据的时空特性转化为图结构进行处理。整个系统的数据流始于 YOLOv8 目标检测算法,该算法对部署在高速路沿线的摄像头采集的实时视频流进行处理。

近端策略优化(PPO)是一种基于策略梯度的强化学习算法,通过近端约束机制限制策略更新幅度,避免传统方法(如 REINFORCE、TRPO)训练不稳定、易崩溃或效率低下的问题。其核心是构建裁剪目标函数,使新策略与旧策略的差异保持在合理范围内,支持每轮多次更新,提高样本利用效率。在高速公路交通管理中,PPO 用于应急车道智能决策:环境状态包括车流量、平均速度、拥堵指数;动作空间包含是否开启应急车道及开启时长;奖励函数与交通流畅度、延误减少量、应急车道利用率挂钩。
如图 2 所示,PPO 智能体训练流程分为四个核心阶段。

本文的数据集来源于长深高速公路某段上四个点位交通监控视频,通过 YOLOv8 目标检测算法提取车辆流量、速度和密度等特征,数据采集时间跨度为 131 分钟。
从图 3 可以看出,随着模型的逐步增强(原始 ST-GCN → ST-GCN + ATT → ST-GCN + ATT + PPO), 各项拥堵检测指标均呈现显著提升:

从图 4 可以看出:集成自注意力机制和 PPO 后,模型能够更准确地预测交通状态,从而制定更有效的应急车道开启策略,显著减少车辆延误时间。

从图 5 可以看出:时序一致性衡量模型在连续时间步预测结果的一致性,值越接近 1 表示稳定性越好。

从图 6 可以看出,模型对 K 参数的预测效果整体良好。

从图 7 可以看出,模型对 Q 参数的预测同样表现出色。

从图 8 可以看出,模型对 V 参数的预测表现良好。

建立基于数据驱动的车道状态决策流程,其流程图如图 11 所示。

本研究针对高速公路应急车道智能开启决策问题,使用了一种融合时空图卷积网络(ST-GCN)、自注意力机制与近端策略优化(PPO)强化学习的端到端智能决策框架。通过 YOLOv8 实现车流量、车速和密度等关键交通参数的自动提取,构建 ST-GCN 模型捕获交通流的时空依赖关系,引入自注意力机制增强对关键节点的特征关注,并利用 PPO 强化学习实现从交通状态预测到应急车道开启策略的智能映射。实验结果表明,所提框架在交通流预测任务中 RMSE 分别为 3.83 (车流量)、4.21 (车速)、0.07 (密度),拥堵检测准确率达 92.1%,应急车道开启决策的精确率和准确率分别为 70.0%和 87.5%,同时模型在时序一致性和空间一致性方面表现良好,验证了框架的有效性和鲁棒性。
基金项目:
2025 年五邑大学大学生创新创业训练计划项目 X202511349128——基于深度学习的高速应急车道启用策略研究
原文链接:
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)