图神经网络分享系列-MPNN（Neural Message Passing for Quantum Chemistry）(一)

flying_1314

791人浏览 · 2026-02-02 00:22:55

flying_1314 · 2026-02-02 00:22:55 发布

摘要

一、介绍

二、消息传递神经网络

分子指纹学习的卷积网络（Duvenaud等，2015）

Gated Graph Neural Networks (GG-NN) 核心机制解析

交互网络（Battaglia等人，2016）

分子图卷积（Kearnes等人，2016）

深度张量神经网络, Schütt et al. (2017)

基于拉普拉斯的方法（Bruna等，2013；Defferrard等，2016；Kipf & Welling，2016）

2.1 未来方向

图神经网络概览：图神经网络分享系列-概览

摘要

监督学习在分子研究领域具有巨大的应用潜力，尤其在化学、药物发现和材料科学中。目前已有多种对分子对称性保持不变的神经网络模型被提出，这些模型通过消息传递算法和聚合机制学习整个输入图的函数表达。当前的研究重点是从这类通用方法中筛选出高效变体，并将其应用于化学性质预测基准测试，直至解决问题或达到方法极限。

本文提出统一框架“消息传递神经网络（MPNNs）”，将现有模型重新归纳至该框架，并探索框架内的新型变体。通过MPNNs，我们在重要分子性质预测基准测试中取得了最先进的结果。该成果表明，未来研究应转向更大分子规模或更高精度标注的数据集。

一、介绍

过去十年间，深度神经网络在自然语言理解与翻译（Wu等，2016）、复杂音频信号生成与解码（Hinton等，2012）、以及真实世界图像视频特征推断（Krizhevsky等，2012）领域取得了显著成功。尽管化学家多年来已将机器学习应用于诸多问题，但利用机器学习（尤其是深度学习）预测分子与材料性质的研究仍处于早期阶段。迄今大多数化学领域的机器学习研究（Hansen等，2015；Huang与von Lilienfeld，2016；Rupp等，2012；Rogers与Hahn，2010；Montavon等，2012；Behler与Parrinello，2007；Schoenholz等，2016）主要围绕特征工程展开。虽然神经网络已在多种场景中得到应用（Merkwirth与Lengauer，2005；Micheli，2009；Lusci等，2013；Duvenaud等，2015），但尚未被广泛采纳。这种状况类似于卷积神经网络普及前的图像模型发展阶段，部分原因在于缺乏实证证据表明具有合适归纳偏置的神经架构能在此领域取得成功。

近期，大规模量子化学计算、分子动力学模拟与高通量实验技术的进步正以前所未有的速度生成数据。多数传统技术难以有效利用当前可获取的海量数据。若能找到具有适当归纳偏置的模型，现在正是将更强大、灵活的机器学习方法应用于这些问题的时机。原子系统的对称性表明，基于图结构数据操作且对图同构保持不变的神经网络可能也适用于分子建模。足够成功的模型未来或可助力药物发现与材料科学中具有挑战性的化学搜索问题实现自动化。

本文旨在展示能够直接从分子图学习特征并保持图同构不变性的化学预测机器学习模型。为此，我们提出一种称为消息传递神经网络（MPNNs）的通用图监督学习框架，该框架抽象了现有最有潜力的图结构数据神经模型间的共性，以便更清晰理解其关联性并衍生新变体。鉴于许多研究者已发表符合MPNN框架的模型，我们建议学界应首先在重要实际图问题上充分推进这一通用方法，仅当应用需求明确时（如本文研究的有机小分子量子力学性质预测任务）才提出新变体。

实用机器学习模型的探索通常通过一系列逐渐贴近现实的基准测试推进。本研究聚焦QM9数据集（Ramakrishnan等，2014）作为此类基准，其包含13万分子，每个分子通过昂贵量子力学模拟方法（DFT）计算获得13种性质，形成13项回归任务。这些任务能有效代表众多重要化学预测问题，且对现有方法颇具挑战性。QM9还提供了计算化学性质时所用分子单低能构象的完整空间信息，使我们能同时研究两种场景：已知完整分子几何结构（原子距离、键角等）的情况，以及仅输入原子与键信息（即图结构）但需预测依赖原子空间位置性质的情况。后者要求模型隐式拟合低能三维构象的计算过程，并有望拓展至难以确定合理三维构象的问题。

在评估模型于QM9数据集上的性能时，存在两个重要的基准误差水平。第一种是DFT近似计算与真实自然值之间的估计平均误差（称为“DFT误差”），第二种是化学界确立的目标误差（称为“化学精度”）。Faber等人（2017）针对13个目标属性分别提供了DFT误差与化学精度的估计值。该领域研究的一个重要目标是构建能够达到实验测量真实值化学精度的模型，尽管目前尚未存在包含全部13.4万分子真实值的数据集。但若模型能将DFT近似计算的误差控制在化学精度范围内，则标志着重要进展。对于所有13个目标属性而言，达到化学精度的难度至少不亚于达到DFT误差水平。本文后续讨论的化学精度均基于现有标注数据。

通过开发消息传递神经网络（MPNN）的新变体，本研究实现了两项突破：在QM9数据集上取得最新最优性能，并在除两个目标外的所有属性上实现了DFT计算值的化学精度预测。具体贡献包括：

提出的MPNN模型在13个目标属性上均达到当前最优性能，其中11个属性的DFT预测误差达到化学精度
开发了多种仅依赖分子拓扑结构（无需空间坐标输入）的MPNN模型，在5/13目标属性上实现化学精度预测
提出通用方法以训练高维节点表征的MPNN，在保持计算效率的同时显著降低内存消耗

这项工作为将精心设计的MPNN确立为中小分子监督学习的标准方法迈出关键一步。要实现这一目标，需通过系统的实证研究优化模型架构与应用方法——仅靠文献描述而缺乏化学领域实证验证是不够的。正如卷积神经网络在图像分类领域经历数十年发展后，才通过系统性实证研究（如Krizhevsky等人2012年工作）取代基于手工特征的SVM方法成为计算机视觉主流方案。

二、消息传递神经网络

文献中至少有八个显著模型案例可通过消息传递神经网络（MPNN）框架描述。为简化表述，此处以无向图G为例，图中节点特征为 $x_v$ ，边特征为 $e_{vw}$ 。该框架可轻松扩展至有向多重图。

前向传播分为两个阶段：消息传递阶段和读出阶段。消息传递阶段运行T个时间步，由消息函数 $M_t$ 和顶点更新函数 $U_t$ 定义。在此阶段，图中每个节点的隐藏状态 $h_v^t$ 会根据消息 $m_v^{t+1}$ 进行更新。

在求和式中，N(v)表示图G中节点v的邻居集合。读取阶段通过某种读取函数R计算整个图的特征向量。

消息函数 ( M_t )、顶点更新函数 ( U_t ) 和读出函数 ( R ) 均为可学习的可微函数。( R ) 作用于节点状态集合，并且必须对节点状态的排列具有不变性，以确保 MPNN 对图同构的不变性。在下文中，通过指定使用的消息函数 ( M_t )、顶点更新函数 ( U_t ) 和读出函数 ( R )，定义了文献中的先前模型。

需要注意的是，也可以通过引入图中所有边的隐藏状态 ( h_{t}^{e_{vw}} )，并按照类似于方程 1 和方程 2 的方式更新它们，来学习边的特征。在现有的 MPNN 中，仅有 Kearnes 等人（2016）采用了这一思路。

分子指纹学习的卷积网络（Duvenaud等，2015）

消息函数定义为 $M(h_v, h_w, e_{vw}) = (h_w, e_{vw})$ ，其中 $(.,.)$ 表示向量拼接。顶点更新函数采用 $U(h^t, m^{t+1}_v) = \sigma(H_t^{deg(v)}m_v^{t+1})$ ，其中 $\sigma$ 为sigmoid函数， $deg(v)$ 表示顶点 $v$ 的度， $H^N_t$ 是每个时间步t和顶点度N对应的可学习矩阵。

读出函数R通过跳跃连接聚合所有历史隐状态 $h^t_v$ ，表达式为 $f(\sum_{v,t} softmax(W_t h^t_v))$ ，其中f为神经网络，W_t为每个时间步的可学习矩阵。该机制存在局限性：生成的消息向量 $m_v^{t+1} = (\sum h^t_w, \sum e_{vw})$ 对节点状态和边状态进行独立求和，无法捕捉边-节点状态的关联性。

Gated Graph Neural Networks (GG-NN) 核心机制解析

Li 等人（2016）提出的模型采用以下关键设计：

消息函数定义为
$M_t(h_v^t, h_w^t, e_{vw}) = A_{e_{vw}} h_w^t$
其中 $A_{e_{vw}}$ 是一个可学习的矩阵，每个边标签 e（模型假设边类型为离散值）对应一个独立矩阵。

更新函数采用门控循环单元（GRU）结构：
$U = \text{GRU}(h_v^t, m_v^{t+1})$
此处 GRU 引用自 Cho 等人（2014）提出的经典单元。模型通过权重绑定（weight tying）实现参数共享，即在所有时间步 t中复用相同的更新函数。

“i”和“j”是神经网络，⊙表示逐元素乘法。

交互网络（Battaglia等人，2016）

该研究探讨了两种场景：一种是图中每个节点均存在目标，另一种是存在图级目标。同时研究了在每个时间步施加节点级效应的情况，此时更新函数的输入为拼接向量（ $h_v, x_v, m_v$ ），其中 $x_v$ 是表示节点v所受外部影响的向量。

消息函数M( $h_v, h_w ,e_{vw}$ )为神经网络，其输入为拼接向量（ $h_v, h_w ,e_{vw}$ ）。节点更新函数U( $h_v, x_v ,m_{v}$ )同样是神经网络，输入为拼接向量（ $h_v, x_v ,m_{v}$ ）。

对于图级输出的场景，R = f( $\sum_{v \in G} h_v^T$ )，其中f为神经网络，输入是最终隐藏状态 $h_v^T$ 的总和。需注意原始工作仅定义了T=1时的模型。

分子图卷积（Kearnes等人，2016）

该模型与其他消息传递神经网络（MPNN）略有不同，引入了边表示 $e^t_{vw}$ 并在消息传递阶段更新。节点消息的函数定义为 $M(h^t_v, h^t_w, e^t_{vw}) = e^t_{vw}$ 。顶点更新函数为：
$U_t (h^t_v ,m_v^{t+1}) = \alpha (W_1 (\alpha(W_0 h_v^t ), m_v^{t+1}))$
其中（。，。）表示拼接， $\alpha$ 表示relu的激活函数，W1,W0可学习的权重矩阵。边的更新 $e^{t+1}_{vw}=U_t' (e^{t}_{vw},h^t_v ,h^t_w ) = \alpha (W_4 (\alpha(W_2 e^{t}_{vw} ),\alpha(W_3 (h^t_v ,h^t_w )) ) ))$

Wi也是可学习的权重矩阵。

深度张量神经网络, Schütt et al. (2017)

从节点 w 到节点 v 的消息通过以下方式计算：

Wfc、Wcf、Wdf 是矩阵，b1、b2 是偏置向量。使用的更新函数为 $U_t(h^t_v, m^{t+1}_v) = h^t_v + m^{t+1}_v$ 。读出函数将每个节点独立地通过单隐藏层神经网络传递，并对输出求和。

基于拉普拉斯的方法（Bruna等，2013；Defferrard等，2016；Kipf & Welling，2016）

这些方法将传统应用于图像数据集的卷积操作推广到任意图结构G（其邻接矩阵A为实数值）上的运算。Bruna等（2013）和Defferrard等（2016）定义的操作生成的消息函数形式为 $M_t(h_v^t, h_w^t) = C_{vw}^t h_w^t$ ，其中矩阵 $C_{vw}^t$ 由图拉普拉斯矩阵$L$的特征向量和模型的学习参数共同参数化。顶点更新函数为 $U^t(h_v^t, m_v^{t+1}) = \sigma(m_v^{t+1})$ ，其中$\sigma$为逐点非线性函数（如ReLU）。

Kipf & Welling（2016）模型的消息函数为 $M_t(h_v^t, h_w^t) = c_{vw} h_w^t$ ，其中 $c_{vw} = (\text{deg}(v)\text{deg}(w))^{-1/2} A_{vw}$ 。顶点更新函数为 $U^t(h_v^t, m_v^{t+1}) = \text{ReLU}(W^t m_v^{t+1})$ 。关于 $C_{vw}^t$ 的具体表达式及这些模型转化为MPNN的推导，可参考补充材料。

2.1 未来方向

鉴于MPNN在文献中的广泛应用，应集中精力将这一通用框架推向具有实际重要性的特定应用场景，以确定关键实现细节并探索模型性能极限，从而指导未来改进。

这些方法的共性问题在于计算耗时。近期研究通过每步仅在图的子集上传递消息（Marino等，2016），将GG-NN架构适配到更大规模图结构。本文亦提出一种改进MPNN计算效率的修正方案。

本篇关于核心原理介绍完毕，后续会继续介绍相关工作

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Redis 存储原理与数据模型深度解析

Redis 是后端开发中最重要的内存数据库之一，以高性能著称。但很多同学对 Redis 的认知只停留在「KV 存储」层面，对其底层的存储原理、数据模型、多线程架构等了解不够深入。本文将从线程模型存储结构数据编码网络 IO等多个维度，全面剖析 Redis 的内部原理，帮助你彻底理解 Redis 为什么这么快。既然是多线程架构，为什么命令处理还要用单线程？单线程的三大局限：不能有耗时操作— 如果有耗时

AtomGit开源社区

从日志悬浮窗到通知弹窗引擎：我的 C++ Windows 桌面组件开发实战

AtomGit开源社区

Git Branch介绍（创建分支）（分支是指向某个提交commit的指针）切换分支：git checkout、git switch；重命名分支；git HEAD

在 Git 中，分支本质上是一个指向某个提交（commit）的指针。你可以把它理解为：分支 = 一条独立的开发时间线main（或旧版本中的master当你创建新分支时，本质上只是创建了一个新的指针，不会复制代码，因此非常轻量。git branch分支 = 指针成本极低支持并行开发是团队协作基础不会用分支，就等于不会用 Git✅ 新分支基于当前HEAD指向的提交创建✅ 新分支包含完整的代码（不是空的