【2025-12 Scientific Reports】基于图深度学习的精准地中海预报

早起CaiCai

439人浏览 · 2026-03-15 10:15:26

早起CaiCai · 2026-03-15 10:15:26 发布

在这里插入图片描述

Accurate Mediterranean Sea forecasting via graph-based deep learning

基于图深度学习的精准地中海预报

摘要

精准的海洋预报系统对于理解海洋动力学至关重要，而海洋动力学在航运、水产养殖、环境监测和海岸风险管理等领域发挥着关键作用。传统的数值求解器虽然有效，但计算成本高且耗时。机器学习的最新进展通过提供快速且节能的替代方案，革新了天气预报领域。基于这些进展，我们推出了SeaCast——一种专为高分辨率区域海洋预报设计的神经网络。SeaCast采用基于图的框架来有效处理海洋网格的复杂几何结构，并整合了针对区域海洋环境定制的外部强迫数据。我们的方法通过使用地中海业务化数值预报系统以及数值和数据驱动的大气强迫数据，在高水平分辨率下进行了实验验证。结果表明，SeaCast在传统的10天预报窗口内始终优于业务化模型，并将有效预报进一步扩展至15天，这标志着区域海洋预报领域取得了重大进展。

Introduction

预测海洋动力学是一项艰巨的科学挑战，其驱动力源于预测海洋状况变化的需求，这些变化影响着天气系统、海洋生态系统以及广泛的海洋活动¹。尽管对改进海洋和海岸数据的需求是全球性的，但航运、海洋资源管理和海岸规划等领域的实际决策，通常依赖于能够针对当地条件提供精准预报的区域性高分辨率模型²,³,⁴,⁵,⁶。

在这里插入图片描述

图1：SeaCast采用图神经网络进行自回归海洋预报。(a) 输入的海况数据与(b) 大气强迫数据，首先通过© 编码器投影到一个较粗的网格表示上。(d) 图神经网络层在分层网格上处理这个潜在表示。随后，(e) 解码器将处理后的数据映射回原始网格，形成(f) 预报的海况。再结合(g) 边界条件（此处尺寸经过夸张处理），最终生成(h) 完整的下一时刻状态。这个预报结果随后作为新的输入被反馈回系统（如从h指向a的循环箭头所示），通过重复应用“编码-处理-解码”循环，实现多步预报。

本文聚焦于地中海区域，该区域以活跃的中尺度过程、复杂的海岸线以及密集的沿海人口为特征。该地区的区域海洋预报对于管理海洋作业和降低海岸风险具有重要意义。准确及时的预报使地方机构能够应对从水质监测、溢油应急到海上航线优化等一系列挑战。目前，通过欧盟哥白尼海洋服务发布的地中海预报系统提供了基于物理机制的双向耦合波浪-环流模型的数值预报，是该地区的业务化参考系统。

尽管如地中海预报系统这样的数值模型精度较高，但其运行过程计算密集且耗时。基于机器学习的天气预报的最新进展已展现出构建快速高效替代方案的潜力。目前，多种自回归机器学习模型已能与世界气象机构采用的先进物理模型相媲美甚至超越后者。值得关注的进展包括基于Transformer架构、神经算子以及图神经网络的模型。

尽管上述进展在大气领域具有变革性意义，但其在海洋预报中的应用仍处于相对初期阶段。现有研究主要集中在全球海洋的预报，涵盖气候尺度、季节尺度以及中期时间尺度。然而，与全球方法相比，业务化区域预报需要处理真实的侧边界条件，并达到更高的水平分辨率，这在当前的数据驱动海洋框架中尚待深入探索。迄今的区域性研究主要针对少量海表变量进行预报，如海冰、海面高度或表层流场与温度。然而，用于高分辨率业务化设置下深度分辨预报的区域数据驱动海洋预报系统仍然缺乏。

为了填补地中海区域的这一空白，我们推出了SeaCast——一种专为区域海洋预报设计的自回归机器学习模型，该方法基于使用分层图神经网络的天气预报技术进行了扩展。我们的方法包含几个关键特征，从而能够实现对海洋状态的精准预报：(1) 我们调整了图构建、训练和评估流程，以适应海洋网格的不规则几何结构；(2) 模型包含了海表附近相关的大气强迫数据；(3) 应用了侧边界强迫来刻画水体的流入与流出，确保与开阔大洋的兼容性。SeaCast在与地中海预报系统并行的业务化环境中进行了评估，包括利用观测数据进行验证。此外，我们还开展了针对性实验，以评估大气强迫各分量的影响以及训练时段长度的影响。

Results

SeaCast: data-driven regional ocean forecasting

SeaCast 是一个面向地中海的数据驱动预报模型，能够在 $1/24∘1/24^\circ$ （约 4 公里）水平网格上生成跨 18 个深度层的 15 天预报，其分辨率与业务化运行的地中海预报系统相当。该模型预测关键的物理海洋变量，包括随深度变化的纬向流、经向流、盐度、温度以及海面高度，总计生成 73 个预测场。SeaCast 的一个主要优势在于其计算效率：它仅需 20 秒即可在单个 GPU 上完成完整的 15 天预报；相比之下，MedFS 在 89 个 CPU 核心上生成 10 天预报需要大约 70 分钟，后者采用 120 秒的时间步长，并在 141 个深度层上输出结果。尽管两个系统的运行方式不同，但相较于以往的能力，这种数据驱动的方法在生成上层海洋预报方面实现了显著的加速。

该模型架构遵循"编码-处理-解码"框架，在地中海海域的分层网格上运行。如图1所示，输入的海况和大气强迫数据首先被编码到一个较粗的多分辨率网格表示上。随后，潜在特征通过图神经网络层进行分层处理，使模型能够捕捉短程和长程的海洋相互作用。处理后的输出随后被解码回原始的高分辨率网格。模型并非直接预测下一时刻的海况，而是学习变化趋势，即一天时间间隔内的预期变化量，将其加到当前状态上以获得预报结果。之后融入动态边界条件，生成完整的下一时刻海况。这个预测状态随后作为输入被反馈给模型进行下一步预测，通过以自回归方式重复应用同一循环，模型能够生成不同提前期的预报。与GraphCast等连接单一网格层级上节点的多尺度模型不同，我们采用的分层方法将区域划分为多个不同的网格层级。这种设计使得从网格到网格的连接更加均匀，有助于减轻因节点邻域大小不一而产生的伪影。

SeaCast中使用的大气强迫数据包括10米风应力分量、2米气温和平均海平面气压，并结合一年中第几日的正弦和余弦值作为季节指标。开边界条件的处理方式是：在训练阶段，直布罗陀海峡和达达尼尔海峡所在边界区域，用真实海况覆盖预测海况；在评估阶段，则用地中海预报系统数据覆盖。这种方法对于确保该区域流入流出动态的真实刻画是必要的。

SeaCast基于35年（1987–2021年）的地中海再分析日平均数据进行训练，并利用额外的两年（2022–2023年）业务化日分析数据进行微调。微调有多个目的：让模型接触更近期的海况，能够在业务环境中使用分析场作为初始条件，并使模型适应业务化MedFS系统中引入的、再分析数据中所没有的更新。驱动模型海表的大气强迫数据，在训练阶段取自ECMWF的ERA5再分析数据；在测试阶段，则取自ECMWF集合控制预报或最新的人工智能预报系统。SeaCast在一个每日测试集上进行评估，初始时间从2024年7月初持续到2024年12月底，每次生成一个15天的预报。评估使用基于模型的参考场和卫星观测数据，并以业务化MedFS为基准进行比较。SeaCast使用与MedFS相同的初始条件，确保了公平比较。方法的更多细节详见“方法”部分。

Comparing SeaCast to the operational MedFS

SeaCast与业务化运行的MedFS进行了对比评估，后者是地中海区域主要的海洋预报系统。MedFS提供长达10天的确定性预报，这既符合哥白尼海洋环境监测服务（CMEMS）设定的10天产品标准，也与欧洲中期天气预报中心（ECMWF）传统高分辨率大气预报（HRES）作为海表强迫数据的时效范围相匹配。在研发SeaCast时，研究团队充分考量了ECMWF最新集成预报系统（IFS）的升级特性——其Cycle 48r32版本已将中期预报时效从10天延长至15天。SeaCast默认采用人工智能预报系统（AIFS）作为大气强迫数据，并在"大气强迫效应"评估模块中引入ENS集合预报作为对比参照。通过融合上述产品并将最后5天的侧边界条件进行持续性处理，SeaCast成功实现了15天时效的海洋预报。这种预报时效的突破标志着重要进展，既能更早预警海洋极端事件，也显著提升了中期规划能力。

为量化评估预报性能，我们从六个关键海洋变量入手，对SeaCast与MedFS的预报能力进行系统比较：包括纬向/经向海流、盐度、温度、海表温度（SST）及海平面异常（SLA）。次表层变量验证采用MedFS日均分析场作为基准——这些网格化分析场通过同化质量控制后的观测数据，为次表层状态提供了稳定的参考依据。海表温度和海平面异常的验证则选用三级（L3）卫星观测数据：具体而言，模型最上层的海温预报将与1/16°分辨率的多传感器融合卫星数据对比；而海面高度（SSH）预报经转化处理后，需与多颗卫星任务沿轨获取的5Hz高度计观测值进行匹配验证（详见"卫星数据"章节）。

研究同时引入持续性基准作为朴素参考模型——该基准通过将初始状态沿预报时效持续外推生成，为模型性能提供了保守下限。如图2所示，SeaCast与MedFS在所有变量上的表现均显著超越持续性基准。值得关注的是，SeaCast展现出相较于MedFS更优的预报技巧，且随着预报时效延长，两者的性能差距呈现扩大趋势。

在这里插入图片描述

图2：以预报时效为自变量的均方根误差（RMSE）函数曲线：SeaCast、MedFS与持续性基准的对比。包含多个垂直层的海洋状态变量（纬向/经向海流、盐度、温度）以分析场为参照，其误差为全水深平均值；海表温度（SST）和海平面异常（SLA）则采用三级（L3）卫星观测数据进行验证，其中SST比对选用模型最上层温度模拟值。阴影区域表示通过自助法估算的50%置信区间。

在这里插入图片描述

图3：SeaCast与MedFS在各水深层级上的归一化均方根误差差异（以分析场为基准）。负值表示SeaCast表现更优。改进效果最为显著的区域：温度与海流分量主要体现在近表层，盐度则体现在较深层位。

图3展示了SeaCast与MedFS在深度维度上的对比结果，呈现所有垂直层位及预报时效下的归一化均方根误差差异，定义为 $RMSESeaCast−RMSEMedFS/RMSEMedFS\text{RMSE}{\text{SeaCast}}-\text{RMSE}{\text{MedFS}}/\text{RMSE}_{\text{MedFS}}$ 。负值表示SeaCast性能更优。随着预报时效延长，改进幅度普遍增大，这与全球海洋的研究结果 $^{22}$ 一致。就温度与海流分量而言，相对增益在近表层最为显著；而盐度的最大改进则出现在较深层位。在本研究涵盖的最深层位（192米深度），SeaCast相较于MedFS的提升幅度普遍较小，这可能是由于该层位以下未纳入模型的影响因素对底层条件产生了作用。

为了进一步评估区域性能，图4展示了SeaCast与MedFS在1天、4天、7天和10天预报时效下海表温度归一化均方根误差差异的空间分布。随着预报时效延长，在地中海大部分海域，SeaCast相较于MedFS展现出更高的预报技巧。这些改进在西部盆地尤为显著，特别是在阿尔沃兰海和爱琴海——这些区域以强烈的中尺度过程为特征。与此同时，MedFS在亚得里亚海和利古里亚海表现出更优的预报技巧。这种技巧的空间异质性可能与两个系统所采用的大气强迫数据差异有关。

在这里插入图片描述

图4：SeaCast与MedFS海表温度归一化均方根误差差异的空间分布（以三级卫星数据为基准）。图中展示了1天、4天、7天和10天预报时效的结果。负值表示SeaCast误差更小。在地中海大部分海域，相对预报技巧随预报时效延长而提升。

补充的评估指标和结果详见附录C和D，包括：基于独立现场观测数据的验证（附录D.1）、以分析场为参照的深度分辨均方根误差（附录D.2）以及垂直误差剖面（附录D.3）。与现场观测数据集对比显示，在所有预报时效下，SeaCast在海流和温度场方面均表现出优于MedFS的预报技巧。就盐度而言，SeaCast同样实现了更低的均方根误差；然而由于观测资料稀疏，SeaCast、MedFS乃至持续性基准的50%置信区间存在重叠，导致该对比结果的确定性不足。

Detecting high temperatures

基于均方误差优化的机器学习预报方法（如本研究采用的方法）旨在预测预报分布的期望值。因此，这类方法在准确捕捉极端事件方面可能存在固有局限。在海洋背景下，海表温度异常偏高即属于此类极端事件。

为评估SeaCast预测温度极值的能力，我们借鉴了Hobday等人提出的海洋热浪定义框架——该定义将连续五天及以上海表温度超过基于11天滑动平均的气候态第90百分位值判定为一次热浪事件。本研究采用简化判别准则：将单日海表温度超过第90百分位阈值的天数独立识别，从而在15个预报时效分别生成高温事件检出率。其中海温气候态基于2008年至2023年逐日三级卫星观测数据计算，采用11天滑动平均处理，并针对每个日历日分别统计第90百分位值作为极端温度事件的判定阈值。

随后，我们采用海德克技巧评分对各预报时效下模型的高温事件探测性能进行评估，并通过自助法估算50%置信区间。HSS值越高，表明相对于随机概率的事件分类准确度越高。如图5所示，SeaCast与MedFS的表现均显著优于持续性基准。此外，在温度极值探测方面，SeaCast同样略胜于MedFS。SeaCast的另一优势在于其预报时效可达15天，相较于MedFS的10天预报窗口，这为海洋热浪的早期预警提供了更充裕的时间窗口。

在这里插入图片描述

图5：海德克技巧评分：用于检测海表温度高于气候态第90百分位阈值的异常事件。图中展示了SeaCast、MedFS及持续性基准的评分结果。阴影区域表示通过自助法估算的50%置信区间。

大气强迫在驱动海洋动力学过程中起着关键作用，尤其是在近海表区域。为评估SeaCast对不同大气输入数据的敏感性，我们设计了一项受控消融实验：在模型推理阶段，对每个强迫变量在空间网格维度进行随机置乱。该操作保留了变量的统计分布特征，但破坏了其空间连贯性，从而使该变量失去信息量，同时保持其他所有输入不变。由此产生的性能衰减揭示了各大气变量对海洋预报的相对重要性。

图6展示了针对每个变量，在不同预报时效下相对于原始未扰动SeaCast模型的归一化均方根误差差异。结果表明，风应力是所有海洋状态变量中最关键的驱动因子之一。通过将动量从大气传递至海洋，风应力不仅驱动水平海流，还引发垂直输运。因此，研究结果显示，就纬向与经向海流而言，风应力是大气强迫分量中唯一对预报技巧具有贡献的要素。

在这里插入图片描述

图6：大气强迫置乱对预报技巧的影响。图中展示了各预报时效下相较于原始SeaCast配置（以蓝色参考线表示未修改的大气输入）的归一化均方根误差差异。每个子图对应不同的海洋预报变量，曲线则代表被置乱的大气强迫变量。正值越大，表明该变量对预报的重要性越高。

盐度预报同样深受风应力影响——鉴于风应力在海表混合与淡水侧向平流中的核心作用，这一结果符合物理直觉。对盐度影响第二显著的变量是2米气温，它通过调节海表浮力与层结间接引发对流翻转，促使次表层淡水或高盐水体与表层水混合。就温度廓线而言，风应力在全水深范围内仍占主导地位。但在近表层区域，2米气温的重要性显著提升，因其直接调控海气热通量——特别是通过感热通量的调节及其对次表层垂直混合过程的影响。

对于海平面异常，主导性大气驱动因子是海平面气压：一方面通过"气压计反效应"直接影响海平面变化及大尺度海洋响应；另一方面，海平面气压梯度通过大气地转平衡关系生成海表风应力，使其成为影响海平面异常的第二大贡献要素。

上述规律印证了已知的海气耦合机制，同时也证实SeaCast对具有物理意义的驱动因子具有稳健的敏感性。关于大气强迫对各变量影响的深度解析分析，详见附录D.2。

在这里插入图片描述

图7：基于AIFS与ENS大气强迫的SeaCast性能对比归一化均方根误差记分卡。评估以全水深分析场为基准进行。负值表示采用AIFS强迫时误差更小。

此外，我们采用两种不同的大气强迫产品评估SeaCast的性能：AIFS与ENS。两种强迫数据包含相同的变量集，为对比提供了统一基准。图7展示了全水深归一化均方根误差差异的记分卡。结果表明，AIFS强迫显著提升了海流与温度的预报技巧——尤其在较长预报时效下，海表温度的增益最为突出。这与AIFS本身的评估结果一致：相较于其数值模式对应版本，AIFS在预报时效超过一天后展现出更低的预报误差。然而在盐度方面，采用ENS强迫的SeaCast在上层水体表现出轻微优势。

Effect of training period

为了评估训练数据时长和微调对模型性能的影响，我们对比了基于不同历史时间跨度训练的SeaCast变体，并检验了省略微调的效果。图8展示了各预测提前期相对于持续性基准的归一化均方根误差差异，其中包含MedFS作为参考。完整版SeaCast模型基于35年再分析数据（1987年1月至2021年12月）训练，随后使用2年更新的分析数据（2022年1月至2023年12月）进行微调。我们将此版本与仅基于35年再分析数据集（未微调）训练的版本进行比较。此外，我们还引入了一个基于8年再分析数据（2014年1月至2021年12月）训练的短期模型变体，该变体分别测试了采用和不采用相同2年分析数据微调的效果，此短期模型被标记为SeaCast（10年）。所有模型采用相同的迭代次数和逐周期学习率调度策略进行训练。因此，SeaCast（10年，未微调版）在预训练阶段的优化步骤少于完整模型，且计算资源需求更少（64块GPU上运行6小时 vs 20.5小时）。

在这里插入图片描述

图8：不同SeaCast变体与MedFS在各预测时效下相对于持续性基准的归一化均方根误差差异。SeaCast基于35年再分析数据（1987-2021）训练，并采用2年数据（2022-2023）微调。10年变体仅使用8年再分析数据（2014-2021），分别测试采用和不采用相同微调的效果。结果显示了训练时长与微调对预测性能的影响。

结果表明，SeaCast的10年变体在纬向流、经向流、温度剖面和海表温度方面的表现总体与MedFS相当或略优。但在盐度和海表高度方面，仅完整版SeaCast（基于35年再分析数据训练并采用分析数据微调）的性能优于MedFS。值得注意的是，经过微调的10年变体在海表高度误差上略高于未微调版本，这看似有悖常理。部分原因在于：海表高度的评估是沿着卫星轨道进行的，而训练使用的是规则网格化的模拟输出。即使盐度和海表高度已被同化到基于物理的模型中，最小化模拟场上的均方误差并不能保证降低卫星轨道上的误差。此外，如图2所示，与其他场相比，卫星轨道产生的目标数据更为稀疏且变化更大，导致置信区间更宽。在其他变量场上，经过微调的模型始终优于未微调版本。这些结果对历史数据有限的区域应用具有鼓舞意义，表明即使仅使用10年再分析数据和适中的计算预算，也能获得与数值预报模型相媲美的预报能力。

基于分析数据的微调在所有变量上均带来一致的性能提升，这符合预期——因为多个评估目标源自同一分析系统。这些分析状态比再分析数据更具时效性，且融入了旧数据中未包含的系统升级，包括达达尼尔海峡的开发边界条件、与波浪模型的耦合以及潮汐驱动。通过在更新后的数据集上进行微调，SeaCast能够适应当前业务系统的特性，从而更好地匹配评估目标，全面提升预报精度。

Discussion

本研究提出了SeaCast——一种基于图神经网络的机器学习模型，专为高分辨率区域海洋预报设计。该模型通过直接学习历史再分析与实时分析数据，实现对地中海关键海洋变量的预测。结果表明，无论是以分析场还是卫星观测为参照，SeaCast在所有深度层上对建模变量的预报能力均优于业务化运行的MedFS系统。SeaCast的另一优势在于其计算效率：完成训练后，模型可在单块GPU上仅用20秒生成涵盖18个垂直层、为期15天的1/24°网格预报，显著快于在CPU集群上运行的物理模型。这一性能突破为地中海预报带来了新可能，例如快速情景测试与大规模集合预报。

我们的敏感性实验突显了大气强迫的核心作用，其中风应力成为影响所有海洋变量预报能力的主导因素，而海表温度和海平面气压则通过海气热通量和反气压效应发挥次要作用。这些结果表明，数据驱动框架能够捕捉到具有物理意义的耦合机制。我们进一步证明，训练数据的时长和时效性对预报精度有实质性影响。SeaCast的10年变体在海流、温度和SST方面取得了与MedFS相当的性能，同时仅依赖于易于获取的历史数据档案和计算资源。

SeaCast与传统动力模式的关键概念区别在于处理物理一致性的方式。与近期其他数据驱动海洋预报系统类似，SeaCast并不显式强制执行质量、能量或动量守恒，而是通过训练大量同化观测数据的模拟状态，从统计层面学习海洋动力学，从而生成物理上合理的预报。另一种实现更强物理保证的途径是将可微分的海洋求解器与机器学习组件相结合，类似于天气领域的神经通用环流模型——这类方法将控制方程直接嵌入架构中，同时学习云形成和次网格尺度动力学等未解析过程的影响。

尽管已取得令人鼓舞的成果，但未来仍有多条改进路径。首先，根据MedFS的最新进展对基础再分析系统进行升级，可进一步提升数据驱动预报模型的保真度。此外，将存档数据集的时间分辨率从日尺度提升至6小时尺度，将提供更丰富的训练数据，使模型能够捕捉昼夜变化。值得关注的是，近期研究已证明机器学习可用于生成连续时间预报，这一概念有望迁移至海洋建模领域。

尽管SeaCast利用MedFS场施加侧边界条件（通过其现有的与全球海洋的重网格化连接），但这种设置使其对作为比较对象的业务系统产生了一定依赖性。因此，侧边界内部的海域动力学与MedFS保持一致，而内部区域演化完全由SeaCast自主控制。该方法确保了边界条件的真实性，同时使区域内的预报能力评估仍具有意义。然而，要构建真正独立的数据驱动区域预报模型，可借鉴早期有限区域天气机器学习研究的思路：采用全球拉伸网格或通过学习周边预报的映射关系来处理边界条件。将可无限外推的数据驱动全球海洋与大气预报整合到基于机器学习的区域海洋模型中，将使这类模型同样具备超长时效预测能力。这引出了一个关键问题：此类预报在多大时间尺度内能保持有效技能？

MedFS系统中物理学、生物地球化学与波浪动力学之间的相互依赖性，为机器学习框架指明了一个自然延伸方向：构建能够联合预测海况、生化示踪物和波浪变量的耦合神经架构，从而实现真正意义上的整体预报。尽管这些特定分量通常在兼容网格上表示，但天气与气候基础模型的最新进展表明，即使时空异质的数据集也能有效用于训练，由此产生的模型可推广至多样化的预测任务。将这一范式应用于海洋预报，有望开发出可迁移的表征，支持跨区域和跨变量类型的可扩展自适应预报系统。

另一个未来研究方向是发展概率性海洋预报系统。尽管SeaCast目前生成的是类似传统业务化海洋预报系统的确定性预报，但新兴的生成式机器学习天气预测方法强调通过集合生成进行不确定性量化。这些方法通过考虑预报离散度并生成潜在更具物理一致性的集合成员，能够优化决策支持——这对早期预警系统和海岸灾害规划等风险敏感型应用具有重要价值。

总之，SeaCast通过超越基于物理的预报系统，证明了机器学习在区域海洋预报中的可行性。除地中海外，同一框架还可适配于比斯开湾或波罗的海等其他区域场景。这项研究还首次在数据驱动的海洋预报中开展了新颖的敏感性实验，揭示了大气强迫分量和训练周期特征的作用。进一步提升数据保真度、模型耦合能力及概率预报水平，将是释放机器学习区域海洋预报潜力的关键。