MOF性能预测新思路:SHAP分析揭示PLD与活化能的主导作用

本期分享论文:
Prediction of Diffusion Coefficient Through Machine Learning Based on Transition State Theory Descriptors
作者:Emmanuel Ren, François-Xavier Coudert
期刊:Journal of Physical Chemistry C, 2024
01 研究背景:扩散系数为什么重要?
在气体分离、膜分离、吸附存储等领域,金属有机框架(MOF) 因其高比表面积、可调孔径而备受关注。评价MOF性能的两个核心指标是:
-
热力学性能:吸附量、选择性(已被大量高通量研究覆盖)
-
动力学性能:扩散系数(决定分离速率,但研究较少)
尤其是在膜分离中,扩散系数直接决定通量与分离效率。然而,传统通过分子动力学模拟计算扩散系数的方法极其耗时:模拟一个MOF结构往往需要数天,且成功率仅约75%。
因此,如何快速估算扩散系数,成为MOF高通量筛选中的瓶颈问题。
02 研究目的:构建快速、可解释的ML预测模型
本研究的目标是:
利用基于过渡态理论(TST)的快速能量势垒计算 + 几何结构描述符,训练一个机器学习模型,实现对Xe在MOF中自扩散系数的数量级级精准预测。
最终希望将该方法应用于数千种MOF的高通量筛选,指导实验合成。
03 研究方法:三大核心模块
3.1 数据库构建:MD模拟 + 严格筛选
-
数据库:CoRE-MOF 2019(6525种无缺陷MOF)
-
模拟软件:RASPA
-
目标气体:氙气(Xe)
-
筛选标准:MSD拟合R² ≥ 0.9 → 最终保留 4873种MOF
3.2 快速能量势垒计算(GrAED算法)
-
将晶胞划分为体素(voxel),计算Xe与骨架的Lennard-Jones相互作用能
-
使用广度优先搜索识别从能量最低点到通道连通的能量阈值ETS
-
扩散活化能定义为:Ea=ETS−Emin
-
计算速度:平均12秒/结构(比MD快上万倍)
3.3 机器学习建模
-
模型:XGBoost(回归)
-
目标变量:log10(D)
-
输入特征(12个),包括:
-
活化能Ea
-
吸附焓
-
PLD(孔限制直径)、LCD(最大空腔直径)
-
比表面积、孔隙率、骨架密度/质量
-
通道维度(1D/2D/3D)
-
04 研究过程与关键图示解读
图2:扩散系数 vs 活化能(原文Fig. 2)
图片位置:论文第15页,Figure 2

解读:
-
左图(a)为所有结构,Pearson相关系数 r=−0.77
-
右图(b)为PLD > 6Å的结构, r=−0.74
-
说明活化能与扩散系数呈显著负相关,即使在大孔材料中仍然成立
结论:活化能是比单纯孔径更精细的扩散描述符。
图3:扩散系数 vs PLD(按活化能着色)(原文Fig. 3)
图片位置:论文第16页,Figure 3

解读:
-
横轴:PLD(Å)
-
纵轴:log10(D)
-
颜色:活化能高低(红高蓝低)
-
在PLD > 6Å的“平台区”,扩散系数仍存在差异,这些差异主要由活化能解释
结论:PLD和活化能互补,联合使用可大幅提升预测能力。
图4:ML模型预测效果(原文Fig. 4a)
图片位置:论文第18页,Figure 4a

解读:
-
横轴:MD模拟的真实log10(D)
-
纵轴:ML预测值
-
测试集RMSE = 0.26,MAE = 0.18
-
绝大多数点落在对角线附近,模型能准确预测扩散系数的数量级
结论:该ML模型可作为MD模拟的高效替代工具。
图5:特征重要性(SHAP)(原文Fig. 5)

图片位置:论文第19页,Figure 5
解读:
-
最重要的两个特征:PLD 和 活化能 Ea
-
其次:孔隙率(VF)、通道维度(1D/2D/3D)
-
骨架密度、质量等贡献较小
结论:扩散过程主要由空间几何(PLD)和能量势垒(Ea)共同控制。
图6:SHAP依赖图(部分)(原文Fig. 6)

图片位置:论文第21页,Figure 6
解读:
-
PLD < 6Å时,贡献随孔径增大而上升
-
PLD > 6Å后,贡献趋于常数
-
活化能始终呈负贡献
-
通道维度:3D > 2D > 1D,符合物理直觉
结论:模型具备良好的可解释性,与扩散物理机制高度一致。
05 研究重难点
|
难点 |
解决方案 |
|---|---|
|
MD模拟耗时且易失败 |
引入GrAED快速能量势垒计算 |
|
扩散系数与孔径关系非线性 |
引入活化能 + 几何描述符联合建模 |
|
模型泛化能力 |
使用XGBoost + SHAP解释,避免过拟合 |
|
通道维度影响复杂 |
显式加入1D/2D/3D二值特征 |
06 研究结论
✅ 成功构建了首个大规模MOF扩散系数数据库(4873种MOF)
✅ 提出了GrAED能量势垒算法,计算速度比MD快上万倍
✅ 训练了XGBoost模型,log10(D)的RMSE仅0.26
✅ 通过SHAP分析,验证了PLD + 活化能是扩散预测的核心描述符
✅ 模型可应用于高通量筛选,指导膜分离材料设计
07 未来展望
作者指出以下方向值得进一步探索:
-
引入曲折度(tortuosity):描述更复杂的扩散路径
-
处理柔性骨架:目前假设MOF刚性,实际许多MOF存在结构柔性
-
高负载与混合物扩散:更贴近工业条件(Onsager系数)
-
结合突破曲线模拟:与实验数据形成闭环验证
-
扩展到其他气体:如H₂、CH₄、CO₂、Kr等
写在最后
这项研究的价值不仅在于预测精度,更在于方法论的迁移能力:
用物理启发的描述符(能量势垒)+ 可解释的机器学习模型,替代昂贵的分子动力学模拟,实现高通量、低成本、可解释的材料性能预测。
如果你正在从事:
-
多孔材料筛选
-
气体分离膜设计
-
机器学习辅助材料发现
这篇论文值得你深入阅读与复现。
原文链接(需订阅):
https://pubs.acs.org/doi/10.1021/acs.jpcc.4c00631
代码与数据:
https://github.com/fxcoudert/citable-data
https://github.com/coudertlab/GrAED
注:更多关于机器学习水泥基的前沿知识小编之前有推荐,可以详查置顶文章:建议所有化学材料领域硕博士都去学一遍,以后搞MOF不懂这个等于白干
如果您觉得文章不错,欢迎点赞、关注、收藏及转发~
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)