很多人谈AIDD,最先想到的是分子。

一个分子能不能成为药物,当然重要。但药物从来不是在真空中起作用的。它要进入身体,要遇到蛋白,要找到结合口袋,要形成相互作用,要影响某条信号通路,最后才可能改变疾病进程。

所以,在药物发现中,真正的问题不只是:

这个分子长什么样?

还包括:

它要和哪个蛋白结合?结合在哪里?怎么结合?这个结合会不会改变蛋白功能?

如果说上一篇“从SMILES到生成式分子设计”讲的是AI如何认识分子,那么这一期要讲的是另一半世界:

AI如何认识蛋白、口袋与复合物。

这一期我们介绍10个基础术语:

多序列比对、蛋白语言模型、残基层表征、反向折叠、结合口袋、口袋描述符、表面互补性、蛋白-蛋白相互作用界面、复合物图表示、变构位点。

它们共同回答一个问题:

AI如何理解药物作用真正发生的“现场”?

一、多序列比对:Multiple Sequence Alignment,MSA

它是把多个相关蛋白序列放在一起进行对齐,从而比较它们在不同位置上的相同点和差异。

生活中可以把它想象成看一个家族的老照片。

一个家族里,每个人长得不完全一样,但你能看出某些共同特征:眉眼相似、脸型相似、神态相似。通过比较很多家庭成员,你会慢慢看出哪些特征是家族中稳定保留的,哪些只是个体差异。

蛋白序列也是如此。

一个蛋白家族中的不同成员,氨基酸序列可能有变化,但某些位置会长期保守。保守位置往往很重要,可能与结构稳定、催化功能、配体结合或蛋白相互作用有关。

在AIDD中,多序列比对有重要价值。它可以帮助我们发现:

哪些残基高度保守;

哪些位置可以突变;

哪些区域可能参与功能;

哪些残基之间可能存在协同进化关系;

哪些位置对结构折叠或结合功能很关键。

例如,一个酶的活性位点残基,在不同物种中都高度保守。这通常提示我们:这个位置不是随便存在的,它可能承担重要功能。如果药物要干预这个蛋白,这类信息就非常值得关注。

多序列比对像是在时间长河中查看蛋白的“家谱”。
有些氨基酸被进化反复保留下来,不是因为它们好看,而是因为它们不能轻易被替换。

二、蛋白语言模型:Protein Language Model

它是把蛋白质序列看作一种“语言”,用类似自然语言处理的方法学习氨基酸之间的规律。

人类语言由汉字、词语和句子组成。蛋白质序列则由20种常见氨基酸组成。一个蛋白序列看起来像一串字母,例如:

MKWVTFISLLFLFSSAYSRGVFRRDAHKSEVAHRFKDLGE

在普通人眼里,这像一串无意义字符。
但在模型眼里,它可以被当作一种生命语言。

生活中可以这样理解:一个人读了很多文章,就会慢慢学会语法、搭配、语气和上下文关系。即使他没有背过所有句子,也能判断一句话是否自然。

蛋白语言模型也是这样。它在大量蛋白序列上训练,学习哪些氨基酸组合常见,哪些位置可能互相关联,哪些模式与结构或功能有关。

在AIDD中,蛋白语言模型可以用于:

蛋白功能预测;

突变效应预测;

蛋白结构相关特征学习;

抗体序列分析;

蛋白-配体或蛋白-蛋白相互作用预测;

蛋白设计和序列优化。

例如,一个蛋白语言模型可以判断某个突变是否破坏原有序列规律。若某个位置在自然序列中很少出现某种氨基酸替换,模型可能认为这个突变风险较高。

蛋白语言模型不是“懂生命”的神明。
它只是读过大量蛋白序列之后,学会了某些进化留下的语法。

但有时,语法本身就藏着生命的痕迹。

三、残基层表征:Residue-level Representation

残基,指的是蛋白质中的一个氨基酸单元。残基层表征,就是给蛋白序列中的每一个氨基酸位置生成一个向量表示。

生活中可以想象一篇文章。

我们不仅要知道整篇文章的主题,还要知道每个词在句子中的作用。比如“但是”表示转折,“因此”表示因果,“关键”提示重点。每个词都有自己的位置和意义。

蛋白也是如此。一个蛋白整体有功能,但每个残基也有自己的角色。

有些残基负责维持结构;
有些残基参与结合;
有些残基位于活性中心;
有些残基只是连接区域的一部分;
有些残基一旦突变,就可能影响功能。

残基层表征就是让模型为每个残基生成一个“数字画像”。这个画像可能包含该残基的序列上下文、结构环境、保守性、潜在功能等信息。

在AIDD中,残基层表征非常重要。因为很多问题不是只看整个蛋白,而是要定位到具体位置:

哪个残基可能形成结合口袋?

哪个残基可能与小分子发生相互作用?

哪个突变可能影响蛋白功能?

哪个区域适合作为抗体表位?

哪个位置适合进行蛋白工程改造?

如果蛋白整体表示像一本书的摘要,那么残基层表征就像给每个句子、每个关键词都做了注释。

药物发现常常不是在整座山上找答案,而是在某几块石头之间寻找入口。

四、反向折叠:Inverse Folding

正常的蛋白结构预测问题是:给定氨基酸序列,预测它会折叠成什么结构。

反向折叠则反过来:给定一个目标结构,设计能够折叠成这个结构的氨基酸序列。

生活中可以把它想象成建筑设计。

普通问题是:给你一堆建筑材料,问最后能搭成什么房子。
反向问题是:我已经画好了房子的形状,现在要反过来设计该用什么材料、什么结构,才能把它建出来。

在蛋白设计中,反向折叠非常重要。

如果我们已经有一个理想的蛋白骨架,或者希望设计一个能与靶点结合的蛋白/肽结构,就需要找到适合这个骨架的氨基酸序列。这个过程就是反向折叠的一类应用。

在AIDD中,反向折叠可以用于:

蛋白质设计;

抗体或结合蛋白优化;

肽类药物设计;

酶设计;

蛋白-蛋白相互作用界面设计;

结构约束下的序列生成。

例如,我们希望设计一个环肽,使它以某种构象进入靶点口袋。模型可以先生成或给定一个结构骨架,再通过反向折叠设计合适的氨基酸序列,使这个骨架更可能稳定存在。

反向折叠的难点在于:结构和序列之间并不是一对一关系。多个序列可能折叠成相似结构,同一个序列也可能受环境影响产生不同状态。

反向折叠像按照房屋蓝图寻找建材。
蓝图越清楚,材料越合适,房子越可能站得稳。
但自然不是施工队,它不会因为我们画了图,就照单执行。

五、结合口袋:Binding Pocket

结合口袋是蛋白表面或内部可以容纳小分子、肽段、离子或其他配体的区域。

生活中最常见的比喻是锁孔。

一把锁不是整块铁都能插钥匙,真正关键的是锁孔。一个蛋白也不是整个表面都适合药物结合,真正值得关注的往往是某些凹陷区域、沟槽、界面或功能位点。

结合口袋通常具有特定的形状和化学环境。它可能包含疏水区域、氢键供体、氢键受体、带电残基、芳香残基等。一个小分子能否结合,取决于它是否能在形状和相互作用上与这个口袋匹配。

在AIDD中,结合口袋是结构基础药物设计的核心对象。

我们常常关心:

蛋白是否有可成药口袋?

口袋大小是否适合小分子进入?

口袋是否足够深?

口袋中有哪些关键残基?

口袋是否与活性位点相关?

口袋是否具有选择性?

例如,激酶ATP结合口袋是许多小分子抑制剂的重要靶向区域。蛋白酶活性口袋也是经典药物设计对象。

结合口袋是药物作用最直接的现场之一。
分子不是随便贴在蛋白上就能起效,它要找到一个能容纳自己、识别自己、约束自己的位置。

药物发现有时像寻找门。
蛋白很大,门却很小。

六、口袋描述符:Pocket Descriptor

口袋描述符是用一组特征来描述结合口袋的性质。

如果说结合口袋是“房间”,那么口袋描述符就是这间房的房屋信息表。

生活中看房时,我们会关注面积、朝向、采光、层高、户型、装修、交通和周边环境。对于口袋,我们也需要类似的描述:

口袋体积;

口袋深度;

口袋开口大小;

疏水性;

极性;

电荷分布;

氢键供体/受体分布;

芳香性区域;

形状特征;

关键残基组成;

可成药性评分。

在AIDD中,口袋描述符可以用于:

判断靶点是否适合小分子药物开发;

比较不同蛋白口袋的相似性;

预测分子能否进入口袋;

进行结构基础虚拟筛选;

寻找潜在新靶点或新适应症;

做口袋聚类和功能推断。

例如,两个蛋白整体序列差异很大,但它们的口袋形状和化学环境相似,就可能结合相似的小分子。这在药物重定位和脱靶风险分析中很有价值。

口袋描述符让模型不只知道“这里有个洞”,还知道这个洞的形状、性格和脾气。

一个口袋不是空白空间。
它有尺寸,有温度,有偏好,也有拒绝某些分子的理由。

七、表面互补性:Surface Complementarity

表面互补性描述的是两个分子表面在形状和化学性质上是否匹配。

生活中可以想象拼图。

一块拼图能不能拼进去,不只看大小,还要看边缘形状是否契合。更进一步,如果我们考虑磁铁,还要看正负极是否匹配。

蛋白和配体、蛋白和蛋白之间的结合也是如此。

表面互补性包括两层含义:

第一,形状互补。
一个凸起能否进入另一个凹陷?两个表面是否贴合?

第二,化学互补。
氢键供体能否遇到氢键受体?正电区域是否靠近负电区域?疏水区域是否彼此接触?

在AIDD中,表面互补性常用于判断:

小分子是否适合某个口袋;

蛋白-蛋白界面是否稳定;

抗体和抗原是否匹配;

设计的肽段是否能贴合靶点表面;

复合物结构是否合理。

例如,一个小分子形状很好地填入口袋,但关键位置电荷不匹配,可能仍然结合不稳定。反过来,化学相互作用很好,但形状上塞不进去,也不可能形成合理结合。

表面互补性提醒我们:结合不是单方面的热情。
一个分子愿意贴上去,还要看对方是否容得下它。

真正稳定的相互作用,常常来自形状和化学的双重合谋。

八、蛋白-蛋白相互作用界面:Protein-Protein Interaction Interface,PPI Interface

它指的是两个蛋白相互接触并形成相互作用的区域。

生活中可以把它想象成两个人握手。

两个人不是全身都在接触,真正发生接触的是手。握手是否稳定,取决于接触面积、角度、力度和配合方式。蛋白-蛋白相互作用也是这样。两个蛋白可能很大,但真正决定结合的往往是界面上的一部分残基。

PPI界面在生命活动中非常重要。信号转导、免疫识别、转录调控、酶复合物形成,很多都依赖蛋白-蛋白相互作用。

在AIDD中,PPI界面既重要,又困难。

重要在于,许多疾病相关过程本质上是异常蛋白相互作用。
困难在于,PPI界面通常面积大、比较平坦、缺少传统小分子容易进入的深口袋。

因此,PPI靶点常被认为比传统酶口袋更难成药。但随着肽类药物、蛋白降解剂、分子胶、抗体和新型小分子策略的发展,PPI界面越来越受到关注。

AI可以帮助分析PPI界面:

哪些残基是热点残基;

哪些区域贡献最大结合能;

哪里可能形成可干预口袋;

如何设计肽段或小分子干扰界面;

如何预测两个蛋白是否相互作用;

如何优化蛋白结合界面。

PPI界面像两个人握手的地方。
疾病有时并不是某个蛋白单独犯错,而是两个蛋白握错了手,或者握得太紧。

药物发现要做的,有时不是砸碎一个蛋白,而是把这只手轻轻分开。

九、复合物图表示:Complex Graph Representation

复合物,指的是两个或多个分子结合形成的结构,例如蛋白-配体复合物、蛋白-蛋白复合物、蛋白-肽复合物等。

复合物图表示,就是把整个复合物看成一个图结构,用节点和边表示其中的原子、残基、分子及其相互作用。

生活中可以想象一张社交关系网。

一个人单独看,信息有限;但如果把他和谁联系、联系频率如何、关系强弱如何都画出来,我们就能看到一个网络。复合物也是类似。蛋白和配体不是两个孤立对象,真正重要的是它们之间的相互作用网络。

在复合物图中:

节点可以是原子、残基或分子片段;

边可以是化学键、空间邻近关系、氢键、疏水接触、盐桥、π-π相互作用等;

节点特征可以包括原子类型、残基类型、电荷、疏水性等;

边特征可以包括距离、相互作用类型、方向、能量相关信息等。

在AIDD中,复合物图表示可用于:

蛋白-配体结合亲和力预测;

蛋白-蛋白相互作用预测;

蛋白-肽结合模式分析;

结构打分;

虚拟筛选;

复合物稳定性评估;

分子生成与优化。

例如,在预测一个小分子是否能稳定结合蛋白时,仅看小分子本身不够,仅看蛋白口袋也不够。我们还要看它们形成了哪些相互作用,距离是否合理,方向是否合适,关键残基是否被正确占据。

复合物图表示让AI从“看两个对象”转向“看一张关系网”。

药物作用不是孤立发生的。
真正的故事,往往写在分子与蛋白之间的边上。

十、变构位点:Allosteric Site

变构位点是指蛋白上不直接位于正构活性位点,但结合配体后可以影响蛋白功能的区域。

生活中可以想象一台机器。

你不一定非要去堵住机器的主开关。有时你在侧面调一个旋钮,也能改变机器运行状态。这个旋钮不是主开关,却能影响整体功能。

变构位点就是蛋白上的“侧面旋钮”。

传统药物设计常常关注正构位点,也就是底物或天然配体结合的位置。但正构位点有时非常保守,不同蛋白之间相似度高,容易带来选择性问题。变构位点则可能更独特,因此有机会设计出选择性更好的调节剂。

在AIDD中,变构位点非常有价值,但也更难发现。

因为它可能远离活性中心;
可能只在某些构象状态下出现;
可能依赖蛋白动态变化;
可能不是明显的深口袋;
可能通过长距离构象传播影响功能。

AI和计算方法可以帮助寻找潜在变构位点:

分析蛋白结构动态;

寻找隐藏口袋;

比较不同构象状态;

分析残基网络通信;

预测配体结合后对功能区域的影响;

结合分子动力学模拟识别可调节区域。

变构位点告诉我们:影响一个系统,不一定要站在中心。
有时真正有效的干预,来自边缘。

蛋白也像社会。
表面上权力在中央,实际变化常从某个不起眼的角落开始。

把这10个概念串起来:AI如何理解蛋白作用现场?

现在,我们把这些概念放进一条完整的AIDD路线中。

首先,AI需要理解蛋白序列。多序列比对帮助我们从进化角度看哪些残基重要;蛋白语言模型从大量序列中学习蛋白语言规律;残基层表征进一步把每个氨基酸位置转化为可计算的数字画像。

接着,AI开始理解蛋白结构与设计。反向折叠让模型从目标结构反推可能的氨基酸序列,用于蛋白、抗体、肽段和结合界面设计。

然后,AI进入药物作用的核心现场:结合口袋。结合口袋告诉我们分子可能在哪里结合,口袋描述符描述这个位置的形状和化学性质,表面互补性判断分子和蛋白是否贴合。

再往前一步,AI需要理解更复杂的相互作用。蛋白-蛋白相互作用界面帮助我们分析蛋白之间如何接触,复合物图表示把蛋白、配体、肽段及其相互作用变成一张可学习的关系网络。

最后,AI还要理解更隐蔽的调控方式。变构位点提醒我们:药物不一定只能堵住活性中心,也可以通过调节蛋白构象和信号传递来改变功能。

这条路线可以概括为:

读懂序列 → 表征残基 → 理解结构 → 找到口袋 → 判断互补 → 建模复合物 → 发现调控位点。

这正是AIDD从“分子设计”走向“机制理解”的关键一步。

结语:药物不是打中蛋白,而是改变一个系统

蛋白、口袋与复合物表征,是AIDD中非常重要的一层基础。

多序列比对让我们看到进化留下的痕迹;
蛋白语言模型让AI学习蛋白序列的语法;
残基层表征让每个氨基酸都有了数字画像;
反向折叠让结构设计反过来指导序列生成;
结合口袋告诉我们小分子可能在哪里落脚;
口袋描述符让口袋变成可计算对象;
表面互补性衡量分子与蛋白是否合拍;
蛋白-蛋白相互作用界面揭示蛋白之间的接触现场;
复合物图表示把相互作用变成可学习的网络;
变构位点让我们看到远离活性中心的调控可能。

这些概念共同告诉我们:药物发现不是简单地找一个分子去“撞”一个蛋白。

真正的问题是:

这个蛋白为什么重要?
哪个区域可以被干预?
分子能不能进入那里?
结合是否稳定?
相互作用是否合理?
这种结合会不会改变功能?
有没有更隐蔽、更选择性的调控位置?

AI可以帮助我们处理这些复杂问题,但它仍然不能替代科学判断。它可以预测口袋,可以生成表征,可以分析界面,可以提示变构位点。但预测不是事实,表征不是机制,模型分数也不是实验结果。

蛋白不是一块石头。
它会运动,会变化,会与其他分子交流。
药物也不是一枚子弹。
它更像一封信,必须送到正确的位置,被正确地接收,并引发正确的回应。

AIDD的意义,不是让机器替我们理解生命,而是让机器帮助我们更有秩序地接近生命的复杂性。

科学没有捷径。
但如果工具足够清醒,它至少能让我们少在黑暗中乱撞。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐