寻找全新药物如同在未知的远洋中航行。

人工智能是极好的指南针,可一旦驶离训练数据划定的熟悉海域,预测模型往往会迷失方向。

科学家提出一种叫作陌生度的新指标,让模型学会衡量自身的认知边界,进而精准挑出结构全新且具有活性的潜力新药。

图片

发表于《自然-机器智能》的研究展示了一种将分子性质预测与分子重建相结合的联合建模方法,通过计算模型重建分子的错误率来量化分布偏移,团队在33个数据集上验证了该指标,并在实验室中成功筛选出7个对目标激酶有强抑制活性的全新化合物。

走出已知化学空间

早期药物发现的核心目标是寻找结构全新的活性分子,解决未满足的医疗需求。

机器学习模型通常只能在数百个具有高质量实验标注的已知分子上进行训练,要在包含数十亿个化学物质的庞大库中执行预测。面临训练分布之外的分子时,模型极易遭遇惨败。

传统方法依靠计算分子相似性来划定适用域,极大地限制了对全新结构的探索。基于贝叶斯近似的预测不确定度估计被业界广泛使用,在处理完全陌生的数据时,模型容易给出过度自信的误判。

为了突破数据边界,研究团队引入了一种联合分子模型(JMM)。

联合分子模型基于半监督自动编码器设计,将简化分子线性输入规范(SMILES)字符串编码为压缩的潜在向量,随后解码重建出原始分子。模型在预测分子生物活性的同时执行重建任务。

从未见过的数据极难被准确重建,研究人员顺势将重建损失转化为陌生度指标。指标的高低直接量化了某个分子偏离训练分布的剧烈程度。

图片

联合分子模型架构通过解码器的重建表现来估算目标对象究竟有多陌生。

捕捉数据分布偏移

研究团队收集了33个带有实验注释的数据集,涵盖多种生物特性。所有数据被拆分为训练集、同分布测试集和分布外测试集。在使用扩展连通性指纹(ECFP)和药效团描述符等分子相似性工具进行基准比对时,分布外测试集展现出极其显著的底层差异。

对比基线模型在遇到分布外测试集时,预测准确率无一例外地出现大幅滑坡。联合分子模型在保持同等分类预测性能的基础上,依靠解码器精准捕捉到了底层数据的偏移。分布外分子毫无悬念地获得了极高的陌生度得分。

分析证实极高的得分与分子自身结构的复杂度毫无关系,纯粹反映了待测目标与训练数据的绝对距离。

图片

测试集合展示了33个数据集中数据划分与训练集的支架相似度走向,联合分子模型在同分布和分布外数据上给出了泾渭分明的陌生度评分。

深层比对揭示了陌生度与预测准确率的强绑定关系。

当分子的陌生度居高不下时,模型预测错误的概率急剧上升。测试囊括了所有主流可靠性指标,陌生度与分类性能的相关性大幅超越了单纯的嵌入距离测量。

图片

图片

百万级虚拟筛选测试

真实的药物发现绝非小规模测试,研究人员直接将模型应用于包含140万个分子的庞大商业筛选库。海量筛选库分子与训练集的结构重叠度降至冰点。

面临海量且剧烈的数据分布偏移,传统的不确定度估计彻底失效,给出的反馈曲线与测试同分布数据时几乎重合。单纯依赖不确定度,工程师会产生模型依然在安全区内健康运行的严重错觉。

陌生度指标极其敏锐地感知到了环境异变。

筛选库中的分子普遍获得了陡峭且极高的陌生度得分。深度扫描显示高陌生度分子普遍具备非典型结构,低陌生度分子有效保留了类固醇结构等经典生物活性分子的核心特征。

不确定度与陌生度在评估可靠性时呈现出完美的互补状态。

图片

筛选库与训练集的相似度分布对比图中,不确定度曲线发生严重交叠无法分辨差异,陌生度曲线在筛选库上呈现出极度显著的右移偏移。

试管里的真实收获

团队针对两种具备临床价值的激酶目标开展了实地盲测,试图从18万个候选化合物中挖掘具有抑制作用的先导新药。细胞周期蛋白依赖性激酶1(CDK1)的数据从未参与过前期的任何研究,充当了极其严苛的独立测试用例。

综合考量预测活性、不确定度以及陌生度,团队精挑细选了60个候选分子投入真实生物活性测试。为了彻底逼出模型的极限,入选分子被强制要求大幅度偏离原有训练集,相似度最高不得跨越边界。

活体细胞层面的实验数据令人振奋,在10µM的单次浓度筛选中,研究人员捕获了多个初始命中物。通过严密的剂量反应曲线层层推进,最终确认有7个化合物展现出了低微摩尔级别的卓越抑制效力。

7个高潜力化合物与训练分子的相似度最高仅为38%。常规激酶定向筛选的命中率通常在0.1%到5%之间挣扎徘徊,借助全新的指路明灯,针对PIM1和CDK1的寻宝命中率分别攀升至17%和7%。

图片

不同筛选策略捕获的激酶抑制剂活性分布箱型图如上,详细列出了6个最具潜力的PIM1和CDK1化合物核心分子式及其半数抑制浓度数据。

联合建模孕育出的陌生度指标,为机器学习探寻浩瀚化学空间装备了精密的雷达。

计算模型告别了死板比对分子相似性的旧时代,依靠自身的重建错误率就能敏锐洞察外部世界。

全局视角的底层创新融合现有的预测体系,帮助科学家穿越数据分布的断层鸿沟,以更笃定的姿态挖掘前所未见的生命新药。

参考资料:

https://www.nature.com/articles/s42256-026-01216-w

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐