MOF性能预测新思路：SHAP分析揭示PLD与活化能的主导作用

cuiliuyun

379人浏览 · 2026-04-15 10:17:39

cuiliuyun · 2026-04-15 10:17:39 发布

本期分享论文：
Prediction of Diffusion Coefficient Through Machine Learning Based on Transition State Theory Descriptors
作者：Emmanuel Ren, François-Xavier Coudert
期刊：Journal of Physical Chemistry C, 2024

01 研究背景：扩散系数为什么重要？

在气体分离、膜分离、吸附存储等领域，金属有机框架（MOF） 因其高比表面积、可调孔径而备受关注。评价MOF性能的两个核心指标是：

热力学性能：吸附量、选择性（已被大量高通量研究覆盖）
动力学性能：扩散系数（决定分离速率，但研究较少）

尤其是在膜分离中，扩散系数直接决定通量与分离效率。然而，传统通过分子动力学模拟计算扩散系数的方法极其耗时：模拟一个MOF结构往往需要数天，且成功率仅约75%。

因此，如何快速估算扩散系数，成为MOF高通量筛选中的瓶颈问题。

02 研究目的：构建快速、可解释的ML预测模型

本研究的目标是：

利用基于过渡态理论（TST）的快速能量势垒计算 + 几何结构描述符，训练一个机器学习模型，实现对Xe在MOF中自扩散系数的数量级级精准预测。

最终希望将该方法应用于数千种MOF的高通量筛选，指导实验合成。

03 研究方法：三大核心模块

3.1 数据库构建：MD模拟 + 严格筛选

数据库：CoRE-MOF 2019（6525种无缺陷MOF）
模拟软件：RASPA
目标气体：氙气（Xe）
筛选标准：MSD拟合R² ≥ 0.9 → 最终保留 4873种MOF

3.2 快速能量势垒计算（GrAED算法）

将晶胞划分为体素（voxel），计算Xe与骨架的Lennard-Jones相互作用能
使用广度优先搜索识别从能量最低点到通道连通的能量阈值ETS
扩散活化能定义为：Ea=ETS−Emin
计算速度：平均12秒/结构（比MD快上万倍）

3.3 机器学习建模

模型：XGBoost（回归）
目标变量：log⁡10(D)
输入特征（12个），包括：
- 活化能Ea
- 吸附焓
- PLD（孔限制直径）、LCD（最大空腔直径）
- 比表面积、孔隙率、骨架密度/质量
- 通道维度（1D/2D/3D）

04 研究过程与关键图示解读

图2：扩散系数 vs 活化能（原文Fig. 2）

图片位置：论文第15页，Figure 2

解读：

左图（a）为所有结构，Pearson相关系数 r=−0.77
右图（b）为PLD > 6Å的结构， r=−0.74
说明活化能与扩散系数呈显著负相关，即使在大孔材料中仍然成立

结论：活化能是比单纯孔径更精细的扩散描述符。

图3：扩散系数 vs PLD（按活化能着色）（原文Fig. 3）

图片位置：论文第16页，Figure 3

解读：

横轴：PLD（Å）
纵轴：log⁡10(D)
颜色：活化能高低（红高蓝低）
在PLD > 6Å的“平台区”，扩散系数仍存在差异，这些差异主要由活化能解释

结论：PLD和活化能互补，联合使用可大幅提升预测能力。

图4：ML模型预测效果（原文Fig. 4a）

图片位置：论文第18页，Figure 4a

解读：

横轴：MD模拟的真实log⁡10(D)

纵轴：ML预测值
测试集RMSE = 0.26，MAE = 0.18
绝大多数点落在对角线附近，模型能准确预测扩散系数的数量级

结论：该ML模型可作为MD模拟的高效替代工具。

图5：特征重要性（SHAP）（原文Fig. 5）

图片位置：论文第19页，Figure 5

解读：

最重要的两个特征：PLD 和 活化能 Ea
其次：孔隙率（VF）、通道维度（1D/2D/3D）
骨架密度、质量等贡献较小

结论：扩散过程主要由空间几何（PLD）和能量势垒（Ea）共同控制。

图6：SHAP依赖图（部分）（原文Fig. 6）

图片位置：论文第21页，Figure 6

解读：

PLD < 6Å时，贡献随孔径增大而上升
PLD > 6Å后，贡献趋于常数
活化能始终呈负贡献
通道维度：3D > 2D > 1D，符合物理直觉

结论：模型具备良好的可解释性，与扩散物理机制高度一致。

05 研究重难点

难点	解决方案
MD模拟耗时且易失败	引入GrAED快速能量势垒计算
扩散系数与孔径关系非线性	引入活化能 + 几何描述符联合建模
模型泛化能力	使用XGBoost + SHAP解释，避免过拟合
通道维度影响复杂	显式加入1D/2D/3D二值特征

06 研究结论

✅ 成功构建了首个大规模MOF扩散系数数据库（4873种MOF）
✅ 提出了GrAED能量势垒算法，计算速度比MD快上万倍
✅ 训练了XGBoost模型，log⁡10(D)的RMSE仅0.26
✅ 通过SHAP分析，验证了PLD + 活化能是扩散预测的核心描述符
✅ 模型可应用于高通量筛选，指导膜分离材料设计

07 未来展望

作者指出以下方向值得进一步探索：

引入曲折度（tortuosity）：描述更复杂的扩散路径
处理柔性骨架：目前假设MOF刚性，实际许多MOF存在结构柔性
高负载与混合物扩散：更贴近工业条件（Onsager系数）
结合突破曲线模拟：与实验数据形成闭环验证
扩展到其他气体：如H₂、CH₄、CO₂、Kr等

写在最后

这项研究的价值不仅在于预测精度，更在于方法论的迁移能力：
用物理启发的描述符（能量势垒）+ 可解释的机器学习模型，替代昂贵的分子动力学模拟，实现高通量、低成本、可解释的材料性能预测。

如果你正在从事：

多孔材料筛选
气体分离膜设计
机器学习辅助材料发现

这篇论文值得你深入阅读与复现。

原文链接（需订阅）：
https://pubs.acs.org/doi/10.1021/acs.jpcc.4c00631

代码与数据：
https://github.com/fxcoudert/citable-data
https://github.com/coudertlab/GrAED

注：更多关于机器学习水泥基的前沿知识小编之前有推荐，可以详查置顶文章：建议所有化学材料领域硕博士都去学一遍，以后搞MOF不懂这个等于白干

如果您觉得文章不错，欢迎点赞、关注、收藏及转发~

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

python3

讲解：将常用函数封装到模块，提高代码复用。# 文件 math_utils.py# 主程序 main.py关键点总结模块功能单一，便于维护文档字符串说明模块功能导入模块使用import或避免循环导入面向对象、模块、标准库、文件操作、正则表达式、异常处理，结合实战案例可以：高效管理和处理数据提高代码复用性和可维护性为全栈 Python 开发打下基础讲解：列表推导式简洁创建列表，生成器表达式节省内存。#

AtomGit开源社区

机器人视觉性能飞跃：YOLOv11 TensorRT加速部署与ROS2目标跟随

AtomGit开源社区

智能体之间怎么“握手“？ATH 1.0协议与多Agent协作的未来

国产"可信握手协议ATH1.0"开源，旨在解决多AI智能体协作中的信任问题。该协议包含身份认证、能力声明、意图加密、行为审计和冲突仲裁等核心要素，为自动驾驶、企业工作流等场景提供信任基础设施。不同于现有协议，ATH1.0专注于信任层设计，采用最小权限、双向验证等原则，确保多智能体协作的安全性。这一开源协议将成为人机协同、可追溯系统发展的重要里程碑。