本期分享论文
Prediction of Diffusion Coefficient Through Machine Learning Based on Transition State Theory Descriptors
作者:Emmanuel Ren, François-Xavier Coudert
期刊Journal of Physical Chemistry C, 2024

01 研究背景:扩散系数为什么重要?

在气体分离、膜分离、吸附存储等领域,金属有机框架(MOF) 因其高比表面积、可调孔径而备受关注。评价MOF性能的两个核心指标是:

  • 热力学性能:吸附量、选择性(已被大量高通量研究覆盖)

  • 动力学性能:扩散系数(决定分离速率,但研究较少)

尤其是在膜分离中,扩散系数直接决定通量与分离效率。然而,传统通过分子动力学模拟计算扩散系数的方法极其耗时:模拟一个MOF结构往往需要数天,且成功率仅约75%。

因此,如何快速估算扩散系数,成为MOF高通量筛选中的瓶颈问题。

02 研究目的:构建快速、可解释的ML预测模型

本研究的目标是:

利用基于过渡态理论(TST)的快速能量势垒计算 + 几何结构描述符,训练一个机器学习模型,实现对Xe在MOF中自扩散系数的数量级级精准预测

最终希望将该方法应用于数千种MOF的高通量筛选,指导实验合成。

03 研究方法:三大核心模块

3.1 数据库构建:MD模拟 + 严格筛选

  • 数据库:CoRE-MOF 2019(6525种无缺陷MOF)

  • 模拟软件:RASPA

  • 目标气体:氙气(Xe)

  • 筛选标准:MSD拟合R² ≥ 0.9 → 最终保留 4873种MOF

3.2 快速能量势垒计算(GrAED算法)

  • 将晶胞划分为体素(voxel),计算Xe与骨架的Lennard-Jones相互作用能

  • 使用广度优先搜索识别从能量最低点到通道连通的能量阈值ETS

  • 扩散活化能定义为:Ea=ETS−Emin

  • 计算速度:平均12秒/结构(比MD快上万倍)

3.3 机器学习建模

  • 模型:XGBoost(回归)

  • 目标变量:log⁡10(D)

  • 输入特征(12个),包括:

    • 活化能Ea

    • 吸附焓

    • PLD(孔限制直径)、LCD(最大空腔直径)

    • 比表面积、孔隙率、骨架密度/质量

    • 通道维度(1D/2D/3D)

04 研究过程与关键图示解读

图2:扩散系数 vs 活化能(原文Fig. 2)

图片位置:论文第15页,Figure 2

图片

解读

  • 左图(a)为所有结构,Pearson相关系数  r=−0.77

  • 右图(b)为PLD > 6Å的结构, r=−0.74

  • 说明活化能与扩散系数呈显著负相关,即使在大孔材料中仍然成立

结论:活化能是比单纯孔径更精细的扩散描述符。

图3:扩散系数 vs PLD(按活化能着色)(原文Fig. 3)

图片位置:论文第16页,Figure 3

图片

解读

  • 横轴:PLD(Å)

  • 纵轴:log⁡10(D)

  • 颜色:活化能高低(红高蓝低)

  • 在PLD > 6Å的“平台区”,扩散系数仍存在差异,这些差异主要由活化能解释

结论:PLD和活化能互补,联合使用可大幅提升预测能力。

图4:ML模型预测效果(原文Fig. 4a)

图片位置:论文第18页,Figure 4a

图片

解读

  • 横轴:MD模拟的真实log⁡10(D)

  • 纵轴:ML预测值

  • 测试集RMSE = 0.26,MAE = 0.18

  • 绝大多数点落在对角线附近,模型能准确预测扩散系数的数量级

结论:该ML模型可作为MD模拟的高效替代工具。

图5:特征重要性(SHAP)(原文Fig. 5)

图片

图片位置:论文第19页,Figure 5

解读

  • 最重要的两个特征:PLD 和 活化能 Ea

  • 其次:孔隙率(VF)、通道维度(1D/2D/3D)

  • 骨架密度、质量等贡献较小

结论:扩散过程主要由空间几何(PLD)和能量势垒(Ea)共同控制。

图6:SHAP依赖图(部分)(原文Fig. 6)

图片

图片位置:论文第21页,Figure 6

解读

  • PLD < 6Å时,贡献随孔径增大而上升

  • PLD > 6Å后,贡献趋于常数

  • 活化能始终呈负贡献

  • 通道维度:3D > 2D > 1D,符合物理直觉

结论:模型具备良好的可解释性,与扩散物理机制高度一致。


05 研究重难点

难点

解决方案

MD模拟耗时且易失败

引入GrAED快速能量势垒计算

扩散系数与孔径关系非线性

引入活化能 + 几何描述符联合建模

模型泛化能力

使用XGBoost + SHAP解释,避免过拟合

通道维度影响复杂

显式加入1D/2D/3D二值特征

06 研究结论

✅ 成功构建了首个大规模MOF扩散系数数据库(4873种MOF)
✅ 提出了GrAED能量势垒算法,计算速度比MD快上万倍
✅ 训练了XGBoost模型,log⁡10(D)的RMSE仅0.26
✅ 通过SHAP分析,验证了PLD + 活化能是扩散预测的核心描述符
✅ 模型可应用于高通量筛选,指导膜分离材料设计

07 未来展望

作者指出以下方向值得进一步探索:

  • 引入曲折度(tortuosity):描述更复杂的扩散路径

  • 处理柔性骨架:目前假设MOF刚性,实际许多MOF存在结构柔性

  • 高负载与混合物扩散:更贴近工业条件(Onsager系数)

  • 结合突破曲线模拟:与实验数据形成闭环验证

  • 扩展到其他气体:如H₂、CH₄、CO₂、Kr等

写在最后

这项研究的价值不仅在于预测精度,更在于方法论的迁移能力
用物理启发的描述符(能量势垒)+ 可解释的机器学习模型,替代昂贵的分子动力学模拟,实现高通量、低成本、可解释的材料性能预测。

如果你正在从事:

  • 多孔材料筛选

  • 气体分离膜设计

  • 机器学习辅助材料发现

这篇论文值得你深入阅读与复现。

原文链接(需订阅):
https://pubs.acs.org/doi/10.1021/acs.jpcc.4c00631

代码与数据
https://github.com/fxcoudert/citable-data
https://github.com/coudertlab/GrAED

注:更多关于机器学习水泥基的前沿知识小编之前有推荐,可以详查置顶文章:建议所有化学材料领域硕博士都去学一遍,以后搞MOF不懂这个等于白干

如果您觉得文章不错,欢迎点赞、关注、收藏及转发~

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐