AIDD入门 | 从蛋白到结合口袋：AI如何理解药物作用的现场？

赶紧去写论文！

191人浏览 · 2026-05-23 21:55:08

赶紧去写论文！ · 2026-05-23 21:55:08 发布

很多人谈AIDD，最先想到的是分子。

一个分子能不能成为药物，当然重要。但药物从来不是在真空中起作用的。它要进入身体，要遇到蛋白，要找到结合口袋，要形成相互作用，要影响某条信号通路，最后才可能改变疾病进程。

所以，在药物发现中，真正的问题不只是：

这个分子长什么样？

还包括：

它要和哪个蛋白结合？结合在哪里？怎么结合？这个结合会不会改变蛋白功能？

如果说上一篇“从SMILES到生成式分子设计”讲的是AI如何认识分子，那么这一期要讲的是另一半世界：

AI如何认识蛋白、口袋与复合物。

这一期我们介绍10个基础术语：

多序列比对、蛋白语言模型、残基层表征、反向折叠、结合口袋、口袋描述符、表面互补性、蛋白-蛋白相互作用界面、复合物图表示、变构位点。

它们共同回答一个问题：

AI如何理解药物作用真正发生的“现场”？

一、多序列比对：Multiple Sequence Alignment，MSA

它是把多个相关蛋白序列放在一起进行对齐，从而比较它们在不同位置上的相同点和差异。

生活中可以把它想象成看一个家族的老照片。

一个家族里，每个人长得不完全一样，但你能看出某些共同特征：眉眼相似、脸型相似、神态相似。通过比较很多家庭成员，你会慢慢看出哪些特征是家族中稳定保留的，哪些只是个体差异。

蛋白序列也是如此。

一个蛋白家族中的不同成员，氨基酸序列可能有变化，但某些位置会长期保守。保守位置往往很重要，可能与结构稳定、催化功能、配体结合或蛋白相互作用有关。

在AIDD中，多序列比对有重要价值。它可以帮助我们发现：

哪些残基高度保守；

哪些位置可以突变；

哪些区域可能参与功能；

哪些残基之间可能存在协同进化关系；

哪些位置对结构折叠或结合功能很关键。

例如，一个酶的活性位点残基，在不同物种中都高度保守。这通常提示我们：这个位置不是随便存在的，它可能承担重要功能。如果药物要干预这个蛋白，这类信息就非常值得关注。

多序列比对像是在时间长河中查看蛋白的“家谱”。
有些氨基酸被进化反复保留下来，不是因为它们好看，而是因为它们不能轻易被替换。

二、蛋白语言模型：Protein Language Model

它是把蛋白质序列看作一种“语言”，用类似自然语言处理的方法学习氨基酸之间的规律。

人类语言由汉字、词语和句子组成。蛋白质序列则由20种常见氨基酸组成。一个蛋白序列看起来像一串字母，例如：

MKWVTFISLLFLFSSAYSRGVFRRDAHKSEVAHRFKDLGE

在普通人眼里，这像一串无意义字符。
但在模型眼里，它可以被当作一种生命语言。

生活中可以这样理解：一个人读了很多文章，就会慢慢学会语法、搭配、语气和上下文关系。即使他没有背过所有句子，也能判断一句话是否自然。

蛋白语言模型也是这样。它在大量蛋白序列上训练，学习哪些氨基酸组合常见，哪些位置可能互相关联，哪些模式与结构或功能有关。

在AIDD中，蛋白语言模型可以用于：

蛋白功能预测；

突变效应预测；

蛋白结构相关特征学习；

抗体序列分析；

蛋白-配体或蛋白-蛋白相互作用预测；

蛋白设计和序列优化。

例如，一个蛋白语言模型可以判断某个突变是否破坏原有序列规律。若某个位置在自然序列中很少出现某种氨基酸替换，模型可能认为这个突变风险较高。

蛋白语言模型不是“懂生命”的神明。
它只是读过大量蛋白序列之后，学会了某些进化留下的语法。

但有时，语法本身就藏着生命的痕迹。

三、残基层表征：Residue-level Representation

残基，指的是蛋白质中的一个氨基酸单元。残基层表征，就是给蛋白序列中的每一个氨基酸位置生成一个向量表示。

生活中可以想象一篇文章。

我们不仅要知道整篇文章的主题，还要知道每个词在句子中的作用。比如“但是”表示转折，“因此”表示因果，“关键”提示重点。每个词都有自己的位置和意义。

蛋白也是如此。一个蛋白整体有功能，但每个残基也有自己的角色。

有些残基负责维持结构；
有些残基参与结合；
有些残基位于活性中心；
有些残基只是连接区域的一部分；
有些残基一旦突变，就可能影响功能。

残基层表征就是让模型为每个残基生成一个“数字画像”。这个画像可能包含该残基的序列上下文、结构环境、保守性、潜在功能等信息。

在AIDD中，残基层表征非常重要。因为很多问题不是只看整个蛋白，而是要定位到具体位置：

哪个残基可能形成结合口袋？

哪个残基可能与小分子发生相互作用？

哪个突变可能影响蛋白功能？

哪个区域适合作为抗体表位？

哪个位置适合进行蛋白工程改造？

如果蛋白整体表示像一本书的摘要，那么残基层表征就像给每个句子、每个关键词都做了注释。

药物发现常常不是在整座山上找答案，而是在某几块石头之间寻找入口。

四、反向折叠：Inverse Folding

正常的蛋白结构预测问题是：给定氨基酸序列，预测它会折叠成什么结构。

反向折叠则反过来：给定一个目标结构，设计能够折叠成这个结构的氨基酸序列。

生活中可以把它想象成建筑设计。

普通问题是：给你一堆建筑材料，问最后能搭成什么房子。
反向问题是：我已经画好了房子的形状，现在要反过来设计该用什么材料、什么结构，才能把它建出来。

在蛋白设计中，反向折叠非常重要。

如果我们已经有一个理想的蛋白骨架，或者希望设计一个能与靶点结合的蛋白/肽结构，就需要找到适合这个骨架的氨基酸序列。这个过程就是反向折叠的一类应用。

在AIDD中，反向折叠可以用于：

蛋白质设计；

抗体或结合蛋白优化；

肽类药物设计；

酶设计；

蛋白-蛋白相互作用界面设计；

结构约束下的序列生成。

例如，我们希望设计一个环肽，使它以某种构象进入靶点口袋。模型可以先生成或给定一个结构骨架，再通过反向折叠设计合适的氨基酸序列，使这个骨架更可能稳定存在。

反向折叠的难点在于：结构和序列之间并不是一对一关系。多个序列可能折叠成相似结构，同一个序列也可能受环境影响产生不同状态。

反向折叠像按照房屋蓝图寻找建材。
蓝图越清楚，材料越合适，房子越可能站得稳。
但自然不是施工队，它不会因为我们画了图，就照单执行。

五、结合口袋：Binding Pocket

结合口袋是蛋白表面或内部可以容纳小分子、肽段、离子或其他配体的区域。

生活中最常见的比喻是锁孔。

一把锁不是整块铁都能插钥匙，真正关键的是锁孔。一个蛋白也不是整个表面都适合药物结合，真正值得关注的往往是某些凹陷区域、沟槽、界面或功能位点。

结合口袋通常具有特定的形状和化学环境。它可能包含疏水区域、氢键供体、氢键受体、带电残基、芳香残基等。一个小分子能否结合，取决于它是否能在形状和相互作用上与这个口袋匹配。

在AIDD中，结合口袋是结构基础药物设计的核心对象。

我们常常关心：

蛋白是否有可成药口袋？

口袋大小是否适合小分子进入？

口袋是否足够深？

口袋中有哪些关键残基？

口袋是否与活性位点相关？

口袋是否具有选择性？

例如，激酶ATP结合口袋是许多小分子抑制剂的重要靶向区域。蛋白酶活性口袋也是经典药物设计对象。

结合口袋是药物作用最直接的现场之一。
分子不是随便贴在蛋白上就能起效，它要找到一个能容纳自己、识别自己、约束自己的位置。

药物发现有时像寻找门。
蛋白很大，门却很小。

六、口袋描述符：Pocket Descriptor

口袋描述符是用一组特征来描述结合口袋的性质。

如果说结合口袋是“房间”，那么口袋描述符就是这间房的房屋信息表。

生活中看房时，我们会关注面积、朝向、采光、层高、户型、装修、交通和周边环境。对于口袋，我们也需要类似的描述：

口袋体积；

口袋深度；

口袋开口大小；

疏水性；

极性；

电荷分布；

氢键供体/受体分布；

芳香性区域；

形状特征；

关键残基组成；

可成药性评分。

在AIDD中，口袋描述符可以用于：

判断靶点是否适合小分子药物开发；

比较不同蛋白口袋的相似性；

预测分子能否进入口袋；

进行结构基础虚拟筛选；

寻找潜在新靶点或新适应症；

做口袋聚类和功能推断。

例如，两个蛋白整体序列差异很大，但它们的口袋形状和化学环境相似，就可能结合相似的小分子。这在药物重定位和脱靶风险分析中很有价值。

口袋描述符让模型不只知道“这里有个洞”，还知道这个洞的形状、性格和脾气。

一个口袋不是空白空间。
它有尺寸，有温度，有偏好，也有拒绝某些分子的理由。

七、表面互补性：Surface Complementarity

表面互补性描述的是两个分子表面在形状和化学性质上是否匹配。

生活中可以想象拼图。

一块拼图能不能拼进去，不只看大小，还要看边缘形状是否契合。更进一步，如果我们考虑磁铁，还要看正负极是否匹配。

蛋白和配体、蛋白和蛋白之间的结合也是如此。

表面互补性包括两层含义：

第一，形状互补。
一个凸起能否进入另一个凹陷？两个表面是否贴合？

第二，化学互补。
氢键供体能否遇到氢键受体？正电区域是否靠近负电区域？疏水区域是否彼此接触？

在AIDD中，表面互补性常用于判断：

小分子是否适合某个口袋；

蛋白-蛋白界面是否稳定；

抗体和抗原是否匹配；

设计的肽段是否能贴合靶点表面；

复合物结构是否合理。

例如，一个小分子形状很好地填入口袋，但关键位置电荷不匹配，可能仍然结合不稳定。反过来，化学相互作用很好，但形状上塞不进去，也不可能形成合理结合。

表面互补性提醒我们：结合不是单方面的热情。
一个分子愿意贴上去，还要看对方是否容得下它。

真正稳定的相互作用，常常来自形状和化学的双重合谋。

八、蛋白-蛋白相互作用界面：Protein-Protein Interaction Interface，PPI Interface

它指的是两个蛋白相互接触并形成相互作用的区域。

生活中可以把它想象成两个人握手。

两个人不是全身都在接触，真正发生接触的是手。握手是否稳定，取决于接触面积、角度、力度和配合方式。蛋白-蛋白相互作用也是这样。两个蛋白可能很大，但真正决定结合的往往是界面上的一部分残基。

PPI界面在生命活动中非常重要。信号转导、免疫识别、转录调控、酶复合物形成，很多都依赖蛋白-蛋白相互作用。

在AIDD中，PPI界面既重要，又困难。

重要在于，许多疾病相关过程本质上是异常蛋白相互作用。
困难在于，PPI界面通常面积大、比较平坦、缺少传统小分子容易进入的深口袋。

因此，PPI靶点常被认为比传统酶口袋更难成药。但随着肽类药物、蛋白降解剂、分子胶、抗体和新型小分子策略的发展，PPI界面越来越受到关注。

AI可以帮助分析PPI界面：

哪些残基是热点残基；

哪些区域贡献最大结合能；

哪里可能形成可干预口袋；

如何设计肽段或小分子干扰界面；

如何预测两个蛋白是否相互作用；

如何优化蛋白结合界面。

PPI界面像两个人握手的地方。
疾病有时并不是某个蛋白单独犯错，而是两个蛋白握错了手，或者握得太紧。

药物发现要做的，有时不是砸碎一个蛋白，而是把这只手轻轻分开。

九、复合物图表示：Complex Graph Representation

复合物，指的是两个或多个分子结合形成的结构，例如蛋白-配体复合物、蛋白-蛋白复合物、蛋白-肽复合物等。

复合物图表示，就是把整个复合物看成一个图结构，用节点和边表示其中的原子、残基、分子及其相互作用。

生活中可以想象一张社交关系网。

一个人单独看，信息有限；但如果把他和谁联系、联系频率如何、关系强弱如何都画出来，我们就能看到一个网络。复合物也是类似。蛋白和配体不是两个孤立对象，真正重要的是它们之间的相互作用网络。

在复合物图中：

节点可以是原子、残基或分子片段；

边可以是化学键、空间邻近关系、氢键、疏水接触、盐桥、π-π相互作用等；

节点特征可以包括原子类型、残基类型、电荷、疏水性等；

边特征可以包括距离、相互作用类型、方向、能量相关信息等。

在AIDD中，复合物图表示可用于：

蛋白-配体结合亲和力预测；

蛋白-蛋白相互作用预测；

蛋白-肽结合模式分析；

结构打分；

虚拟筛选；

复合物稳定性评估；

分子生成与优化。

例如，在预测一个小分子是否能稳定结合蛋白时，仅看小分子本身不够，仅看蛋白口袋也不够。我们还要看它们形成了哪些相互作用，距离是否合理，方向是否合适，关键残基是否被正确占据。

复合物图表示让AI从“看两个对象”转向“看一张关系网”。

药物作用不是孤立发生的。
真正的故事，往往写在分子与蛋白之间的边上。

十、变构位点：Allosteric Site

变构位点是指蛋白上不直接位于正构活性位点，但结合配体后可以影响蛋白功能的区域。

生活中可以想象一台机器。

你不一定非要去堵住机器的主开关。有时你在侧面调一个旋钮，也能改变机器运行状态。这个旋钮不是主开关，却能影响整体功能。

变构位点就是蛋白上的“侧面旋钮”。

传统药物设计常常关注正构位点，也就是底物或天然配体结合的位置。但正构位点有时非常保守，不同蛋白之间相似度高，容易带来选择性问题。变构位点则可能更独特，因此有机会设计出选择性更好的调节剂。

在AIDD中，变构位点非常有价值，但也更难发现。

因为它可能远离活性中心；
可能只在某些构象状态下出现；
可能依赖蛋白动态变化；
可能不是明显的深口袋；
可能通过长距离构象传播影响功能。

AI和计算方法可以帮助寻找潜在变构位点：

分析蛋白结构动态；

寻找隐藏口袋；

比较不同构象状态；

分析残基网络通信；

预测配体结合后对功能区域的影响；

结合分子动力学模拟识别可调节区域。

变构位点告诉我们：影响一个系统，不一定要站在中心。
有时真正有效的干预，来自边缘。

蛋白也像社会。
表面上权力在中央，实际变化常从某个不起眼的角落开始。

把这10个概念串起来：AI如何理解蛋白作用现场？

现在，我们把这些概念放进一条完整的AIDD路线中。

首先，AI需要理解蛋白序列。多序列比对帮助我们从进化角度看哪些残基重要；蛋白语言模型从大量序列中学习蛋白语言规律；残基层表征进一步把每个氨基酸位置转化为可计算的数字画像。

接着，AI开始理解蛋白结构与设计。反向折叠让模型从目标结构反推可能的氨基酸序列，用于蛋白、抗体、肽段和结合界面设计。

然后，AI进入药物作用的核心现场：结合口袋。结合口袋告诉我们分子可能在哪里结合，口袋描述符描述这个位置的形状和化学性质，表面互补性判断分子和蛋白是否贴合。

再往前一步，AI需要理解更复杂的相互作用。蛋白-蛋白相互作用界面帮助我们分析蛋白之间如何接触，复合物图表示把蛋白、配体、肽段及其相互作用变成一张可学习的关系网络。

最后，AI还要理解更隐蔽的调控方式。变构位点提醒我们：药物不一定只能堵住活性中心，也可以通过调节蛋白构象和信号传递来改变功能。

这条路线可以概括为：

读懂序列 → 表征残基 → 理解结构 → 找到口袋 → 判断互补 → 建模复合物 → 发现调控位点。

这正是AIDD从“分子设计”走向“机制理解”的关键一步。

结语：药物不是打中蛋白，而是改变一个系统

蛋白、口袋与复合物表征，是AIDD中非常重要的一层基础。

多序列比对让我们看到进化留下的痕迹；
蛋白语言模型让AI学习蛋白序列的语法；
残基层表征让每个氨基酸都有了数字画像；
反向折叠让结构设计反过来指导序列生成；
结合口袋告诉我们小分子可能在哪里落脚；
口袋描述符让口袋变成可计算对象；
表面互补性衡量分子与蛋白是否合拍；
蛋白-蛋白相互作用界面揭示蛋白之间的接触现场；
复合物图表示把相互作用变成可学习的网络；
变构位点让我们看到远离活性中心的调控可能。

这些概念共同告诉我们：药物发现不是简单地找一个分子去“撞”一个蛋白。

真正的问题是：

这个蛋白为什么重要？
哪个区域可以被干预？
分子能不能进入那里？
结合是否稳定？
相互作用是否合理？
这种结合会不会改变功能？
有没有更隐蔽、更选择性的调控位置？

AI可以帮助我们处理这些复杂问题，但它仍然不能替代科学判断。它可以预测口袋，可以生成表征，可以分析界面，可以提示变构位点。但预测不是事实，表征不是机制，模型分数也不是实验结果。

蛋白不是一块石头。
它会运动，会变化，会与其他分子交流。
药物也不是一枚子弹。
它更像一封信，必须送到正确的位置，被正确地接收，并引发正确的回应。

AIDD的意义，不是让机器替我们理解生命，而是让机器帮助我们更有秩序地接近生命的复杂性。

科学没有捷径。
但如果工具足够清醒，它至少能让我们少在黑暗中乱撞。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【从 while 循环到可视化智能体：深入拆解 Agent Loop、Codex 风格工具调用、OpenClaw 与 Hermes 背后的技术细节】

AtomGit开源社区

Berachain PoL Next：全面去BGT化，打造真实 ROI 的链上发动机

Berachain 正在对 PoL 机制进行升级，并将该计划命名为 PoL Next。事实上，Berachain 的 PoL Next 计划已经逐步开展，在此前其将 BGT 的通胀率从 8% 降至 5% ，就是该计划其中的一部分。而在下一阶段，Berachain 将全面“削藩”去 BGT 化，将全网的经济价值与治理权聚焦在 BERA 体系。同时其也将在后续推出 ERA（Emissions Retu

AtomGit开源社区

从ReAct到Agentic Workflow：AI Agent技术演进的完整脉络与未来走向

ReAct阶段要解决的核心问题：如何让LLM的推理过程和外部行动结合，通过真实观测结果修正幻觉，实现与外部世界的交互单智能体阶段要解决的核心问题：如何给Agent增加记忆能力、任务规划能力、错误反思能力，让单Agent可以独立完成复杂长周期任务Agentic Workflow阶段要解决的核心问题：如何实现多智能体的分工协作、工作流的标准化编排、企业级的可观测性与合规性，让Agent技术可以大规模落