AI驱动的从头抗体设计全流程指南

报告来源:Asimov Press
原文作者:Brian Naughton
发布日期:2026年3月12日
原链接:https://www.asimov.press/p/antibody-design
fig1

一、报告核心概述

过去数月,AI技术实现了抗体设计领域的颠覆性突破:科研人员首次可通过计算机完成全新抗体的从头设计,而仅在一年前,尚无工具能通过计算方式可靠完成这一工作。目前,Nabla Bio、Chai Discovery、Isomorphic Labs(DeepMind衍生企业)等商业公司,以及BoltzGen、Germinal等开源工具,均已实现抗体设计的高成功率。

抗体作为生物学领域最具通用性的工具之一,是修美乐(阿达木单抗)等重磅药物的核心,也是新冠抗原检测等低成本诊断试剂的关键组分。这种Y型蛋白具备极强的结合能力,可通过双臂锚定靶蛋白或其他分子并阻断其生物学活性。

传统抗体开发需通过实验室实验筛选数十亿候选分子,仅能得到少数高亲和力靶点结合物;而2024年发布的BindCraft彻底改变了这一格局——针对多数靶点,仅需数十次设计尝试即可找到合适的结合子(抗体属于结合子,但结合子不一定是抗体,只要能绑住目标蛋白的,都叫结合子)。本报告系统梳理了AI驱动的从头抗体设计的核心原理、主流工具、全流程操作规范、实验验证方案及行业发展前景,其中以开源工具BoltzGen为核心,提供了可落地的分步操作指南。

二、抗体与结合蛋白的基础认知

2.1 抗体的结构类型与设计选型

抗体存在多种结构构型,均可用于靶蛋白结合,不同构型的分子量、设计难度、应用场景差异显著,核心类型如下:

抗体构型 分子量 核心特点
VHH(纳米抗体) ~15 kDa 羊驼、美洲驼天然产生的单重链抗体变体,结构紧凑、尺寸仅为全抗体的1/10,是计算药物开发的核心设计对象
VH/V-NAR结构域 ~15 kDa 单结构域抗体片段,设计难度与VHH接近
scFv(单链抗体片段) ~28 kDa 由重链和轻链可变区通过连接肽拼接而成,双特异性抗体常用构型
Fab(抗原结合片段) ~55 kDa 包含完整的轻链和部分重链,亲和力更稳定,但设计复杂度高于单结构域抗体
全抗体 ~150 kDa 天然完整抗体结构,需糖基化修饰,仅能在酵母/哺乳动物细胞中表达,计算设计难度最高

同时,结合蛋白按氨基酸长度可分为三类:

  • 肽:氨基酸数量<30的短链蛋白
  • 迷你结合子:氨基酸数量50-250
  • 抗体:覆盖120个氨基酸的抗体片段至1300个氨基酸的多链完整抗体分子
    fig2

抗体存在多种可能的构型,从 VHH、Fab 到 scFv 不一而足。所有这些分子均可用于结合蛋白质

2.2 核心设计目标:结合亲和力

抗体设计的核心目标是获得对靶点具有高亲和力的分子,即结合子能紧密锚定靶点且不易解离。亲和力的核心量化指标为解离常数(Kd),其定义为:使50%靶点分子被结合时所需的游离结合子浓度。

  • Kd数值越低,代表结合能力越强;
  • 成药级抗体通常需达到皮摩尔(pM)或纳摩尔(nM)级Kd;
  • 微摩尔(μM)级Kd被认定为弱结合,仅亚微摩尔级亲和力可作为设计“成功”的入门阈值,但通常无法满足治疗性应用需求。

例如,司美格鲁肽对靶点的亲和力达到亚纳摩尔级,而T细胞受体等天然信号蛋白的亲和力多为微摩尔级,二者相差千倍。

三、主流AI抗体设计工具对比

当前抗体设计工具可分为商业闭源与开源两大类,不同工具的适用场景、功能覆盖、使用权限差异显著,核心工具对比如下:

工具名称 商业可用 全抗体设计 VHH支持 迷你结合子支持 肽设计支持 核心特点
BoltzGen 开源标杆,采用宽松的MIT协议(支持商业使用),全类型结合子覆盖,是新手入门的首选工具
Germinal 开源工具,仅支持完整抗体与VHH片段设计
mBER 商业工具,聚焦VHH单结构域抗体设计
RFantibody 商业工具,核心优势为完整抗体的从头设计
Mosaic 商业工具,支持自定义评分函数,在尼帕G靶点竞赛中表现最优
BindCraft 首个实现高效从头设计的工具,基于AlphaFold 2反向构建,聚焦迷你结合子与肽

其中,BoltzGen是当前开源计算抗体设计的标杆工具,由Boltz团队开发(该团队也是AlphaFold 3级结构预测模型Boltz-2的开发方)。多学术实验室联合验证显示,BoltzGen在多数靶点中可实现亚微摩尔级结合子设计,既适用于胰岛素等研究成熟的蛋白,也可用于无同源已知结构的难成药靶点。

四、从头抗体设计的完整五步流程

本章节以尼帕病毒G糖蛋白(Nipah G)为靶点,基于BoltzGen工具,详细拆解从头抗体设计的全流程操作规范。Nipah G位于尼帕病毒表面,是病毒结合人体细胞的核心蛋白,该病毒致死率达40%-75%,其靶向抗体m102.4已完成I期临床试验,同时该靶点也是Adaptyv Bio抗体设计竞赛的标准靶点,具备完善的公开验证数据集。

fig3

尼帕病毒G的生命周期依赖于糖蛋白G

4.1 第一步:靶点选择

靶点选择是抗体设计的基础,核心考量因素包括:

  1. 靶点的生物学功能:需明确靶点在疾病进程中的核心作用,阻断该靶点可产生预期的生物学效应;
  2. 结构与研究基础:优先选择有明确晶体结构、结合热点(hotspot)已有报道的靶点,降低设计难度;
  3. 公开验证数据:优先选择有设计竞赛、大规模筛选数据集的靶点,便于工具效果对比与方法验证。

在Adaptyv Bio举办的Nipah G靶点设计竞赛中,共收到数百份参赛作品,筛选超10000条设计序列,是目前公开数据最丰富的抗体设计工具对比数据集。竞赛结果显示:

  • Mosaic工具表现最优,9条设计中有8条成功结合靶点;
  • BoltzGen的设计仅1%通过实验结合阈值,核心原因是不同蛋白靶点的特性差异显著,尚无工具能在所有靶点中均表现优异。

4.2 第二步:靶点结构准备

选定靶点后,需获取并预处理高质量的蛋白三维结构,这是决定设计成功率的关键环节。

4.2.1 高质量晶体结构的获取

蛋白结构的核心存储库为蛋白质数据库(PDB),但其搜索精度较低;蛋白质数据库(PDB)中可能存在数百个同一种蛋白的结构,每个结构都是在不同的实验条件下获得的,原子位置上存在细微但重要的差异。蛋白质的形状也会根据其状态而改变。与其他分子结合的蛋白质与自由漂浮在溶液中的蛋白质看起来截然不同。这两种形式分别称为全酶形式和脱辅基形式,它们的几何结构可能完全不同。其次,PDB搜索引擎不够精确。查询“尼帕病毒糖蛋白G”会返回32个结果,其中许多与尼帕病毒无关。

fig4

蛋白质数据库(PDB)中的尼帕病毒晶体结构

更优的选择是UniProt数据库,该平台已完成靶点蛋白与相关PDB条目的精准关联。

fig5

来自 PDB 的 2VSM 结构,如 UniProt 中所示

结构筛选的核心标准:

  1. 分辨率:X射线晶体结构分辨率<2Å为高分辨率,优先选择;本次案例中Nipah G的2VSM结构分辨率达1.8Å,为最优选择;
  2. 构象状态:优先选择holo构象(结合配体/受体的状态),而非apo构象(游离状态),二者的几何结构可能存在显著差异;2VSM结构包含尼帕病毒天然受体Ephrin-B2(在这里,配体即病毒囊膜上的糖蛋白,受体即靶细胞表面的分子),可明确结合子的潜在结合位点;
  3. 序列覆盖度:优先选择覆盖核心结合域的结构,Nipah G的可用结构覆盖176-602位氨基酸,排除了难以结晶的跨膜结构域。

同时,需提前调研靶点的结合热点:Nipah G有3个已验证的核心结合热点,分别为:

  • 1号热点:Q559、E579、I580、Y581、I588,是病毒与Ephrin-B2的结合位点,也是临床抗体m102.4的结合区域;
  • 2号热点:V235、S236、Y237、R555、S586,可阻断病毒进入细胞所需的构象变化;
  • 3号热点:W504、F458、L305,可稳定受体结合域。
4.2.2 无晶体结构的从头预测

若靶点无可用晶体结构,需通过结构预测工具完成建模,非商业项目的首选工具为AlphaFold 3。操作流程为:登录alphafoldserver.com,输入蛋白序列,无需调整参数,等待数分钟即可获得预测结构与可下载的.cif/.pdb格式文件。

结构预测的核心置信度指标:

  1. pLDDT:0-100分,衡量预测结构的整体置信度,>90分为高置信度;
  2. ipTM:0-1分,衡量复合物中两个蛋白相对位置的预测置信度,>0.8分为高置信度。

Nipah G与Ephrin-B2复合物的AlphaFold 3预测结果中,大部分区域pLDDT>90,ipTM达0.9,满足高置信度标准。
fig6

左图:AlphaFold 3预测的尼帕病毒G蛋白结构。高置信度(pLDDT)区域以深蓝色阴影标出。右图:残基间位置误差低的氨基酸以深绿色阴影标出。

4.2.3 结构修剪

结构修剪即去除靶点中与结合位点无关的区域,核心价值是:设计成本与结合子+靶点的总氨基酸长度呈线性相关,激进的修剪可大幅降低计算与合成成本。

主流修剪工具为PyMOL(蛋白结构可视化与编辑软件),核心操作步骤如下:

  1. 加载结构:通过fetch 2VSM命令加载目标结构,或手动导入下载的.cif/.pdb文件;
  2. 去除无关链:通过remove not chain A命令,仅保留Nipah G的A链;
  3. 去除杂原子:通过remove hetatm命令去除水分子等杂原子;
  4. 标记结合热点:通过select hotspot1, chain A and resi 559+579+580+581+588; color red, hotspot1命令标记并高亮核心结合位点;
  5. 修剪无关序列:去除远离结合热点的氨基酸区段,通过save命令导出修剪后的.cif与.pdb双格式文件。

需注意:修剪会导致氨基酸残基编号偏移,需记录偏移量,避免后续设计中结合位点定位错误;同时,中间序列的删除可能造成结构缺口,影响结构预测与设计效果,需额外验证。

4.3 第三步:基于Ariax平台运行BoltzGen设计流程

BoltzGen本地运行难度极高,需配置GPU环境与依赖项,因此本指南选择网页端工具Ariax——这是目前运行BoltzGen与BindCraft最简便的平台,按GPU使用时长计费,无订阅门槛。

4.3.1 设计规模规划
  1. 预实验阶段:针对每个候选结合热点,先运行100条以内设计的小规模实验,评估热点的成药性,筛选最优热点;
  2. 全规模实验:锁定最优热点后,开展约50000条设计的全规模实验,具体数量可根据靶点难度、预算、所需高评分设计数量调整。
4.3.2 Ariax平台核心参数设置
  1. 支架选择:选择VHH作为设计支架,上传修剪后的2VSM_trimmed.pdb文件(.pdb格式兼容性优于PyMOL导出的.cif格式,格式转换可使用PDB官方工具maxit);
  2. 结合规则设置
    • 绑定位点:设置设计需靶向的氨基酸残基位置,需根据结构修剪后的编号偏移量调整(如2VSM结构修剪后从211位开始,BoltzGen从1位开始计数,需将原始编号减去210);
    • 非绑定位点:可设置需避开的区域(如糖基化位点、远离结合界面的区域),引导模型聚焦核心热点;
  3. 设计数量设置:预实验阶段设置设计数量与预算均为50,获取全部分数分布;全规模实验设置设计数量50000,预算设置100以内,仅返回评分最高的设计;
  4. GPU选择:小规模实验可选择成本/性能模式,400个氨基酸以上的大蛋白需选择B200/H200等大显存GPU;全规模实验可选择Turbo模式,多GPU并行运行,大幅缩短运行时间,无额外成本溢价;
  5. 完成参数校验后,点击启动BoltzGen运行设计流程。
4.3.3 成本核算

Ariax平台的GPU定价显著低于主流云厂商,且支持按需分配,无最低租赁要求,核心定价如下(2025年9月数据):

GPU型号 Ariax单GPU小时费用 AWS/GCP/Azure单GPU小时费用 成本节约
B200 10.00美元 ~13.5-14美元 ≈30%
H200 8.00美元 ~10.5美元 ≈25%
H100 80GB 6.00美元 ~7美元 ≈15%
A100 80GB 3.50美元 ~3.5美元 持平

项目成本参考:

  • 100条Nipah G测试设计的计算成本约10美元;
  • 50000条全规模设计的计算成本约3000-6000美元,核心降本方式为进一步修剪靶点结构。
4.3.4 设计评分与筛选阈值

BoltzGen会输出ipTM、预测氢键、表面可及性等多项指标,并通过启发式公式整合为单一“质量评分”。目前行业尚无统一的最优评分标准,但PXDesign团队的系统性研究给出了核心筛选阈值,可有效区分结合子与非结合子:

筛选标准 置信度阈值 结构阈值
AF2-IG-easy ipAE<10.85,ipTM>0.5,pLDDT>0.8 结合子结合/游离RMSD<3.5Å
AF2-IG ipAE<7.0,pLDDT>0.9 结合子RMSD<1.5Å
AF3 min ipAE<1.5,结合子pTM>0.8 复合物RMSD<2.5Å
Protenix* 结合子ipTM>0.85,结合子pTM>0.88 复合物RMSD<2.5Å

其中,ipTM是目前最稳健的设计间对比指标,Adaptyv Bio竞赛多以此为核心排名依据。Nipah G案例中,1号热点的平均ipTM达0.68,显著优于2号(0.4)与3号(0.56)热点,为最优设计靶点。

4.4 第四步:候选分子的过滤与筛选

全规模设计完成后,需通过多维度过滤,筛选出最具实验验证价值的候选分子,核心流程如下:

  1. 多模型交叉验证
    AlphaFold 3是目前公认的最优结构预测模型,在抗体/纳米抗体领域表现尤为突出。需将BoltzGen输出的候选序列输入AlphaFold 3进行独立验证,优质设计通常会在Boltz-2与AlphaFold 3中均获得良好的ipTM评分。
    若两个模型预测的结合构象存在显著差异,需直接剔除该候选设计。

  2. 结合模式合理性检查
    通过PyMOL叠加两个模型的预测结构,核心验证:

  • 结合构象是否靶向预设的结合热点;
  • 结合是否由VHH的高变区(互补决定区CDR)驱动;若出现“侧向结合”模式,会降低靶点结合特异性,需谨慎选择;
  • 结合界面的氢键、疏水相互作用等是否合理。
  1. 序列合理性与成药性初筛
  • 剔除低复杂度序列,如甘氨酸、谷氨酸等氨基酸的连续重复序列;
  • 剔除半胱氨酸富集序列,该类序列易导致蛋白聚集,影响表达与稳定性;
  • 可通过AbLang等抗体语言模型,评估序列的“抗体样”特征,剔除异常序列。

4.5 第五步:实验验证

计算设计仅能完成候选分子的筛选,唯一能确认结合活性的方式是湿实验室实验验证。目前蛋白设计领域的主流验证平台为Adaptyv Bio(即Nipah G设计竞赛的举办方),该平台是一站式云端实验室,支持在线提交蛋白序列,通过无细胞系统合成蛋白,数周内即可返回靶点结合亲和力数据。

4.5.1 验证方案与成本
  • 单条设计的检测成本为119-215美元,随提交数量增加有所下调;
  • 可选择基础结合筛选(仅判断是否结合)或全亲和力表征(获得精准动力学曲线与Kd值,额外加收20%费用);
  • 需额外支付靶点蛋白的采购费用,约数百美元。

成本参考:50000条设计的全规模项目,筛选Top50候选分子进行验证,计算成本约4000美元,检测成本约12000美元;最低成本方案为10000条设计+Top10验证,总成本约4000美元,但无法保证获得有效结合子。

4.5.2 行业真实成功率

目前已发表的结果显示,头部工具的抗体设计成功率(10条测试设计中至少获得1条亚微摩尔级结合子)最高可达66%,但湿实验室的真实数据远低于该数值。

  • Nipah G设计竞赛的整体成功率不足10%;
  • 迷你结合子的计算设计难度低于VHH,BindCraft、PXDesign等工具的全靶点平均成功率略高于25%;
  • 高亲和力结合子的设计仍存在极高挑战,成功率高度依赖靶点本身的特性。

五、抗体设计后的进阶优化与核心挑战

获得亚微摩尔级结合的阳性分子,仅为抗体开发的起点,后续仍需解决多项核心挑战,完成分子的成药性优化。

5.1 亲和力成熟

若初始分子的结合亲和力未达成药标准,计算层面的亲和力优化尚无成熟方案,目前最可靠的方式是饱和诱变等蛮力筛选方法,通过对结合子附近的序列进行穷尽式突变测试,筛选亲和力提升的变体。

5.2 特异性验证

特异性是抗体成药的核心指标,即结合子仅靶向目标蛋白,不与其他脱靶蛋白结合。该指标的检测难度极高,核心原因是无法提前预判所有潜在脱靶蛋白;同时,现有检测平台均为单靶点对多结合子的模式,每新增一个脱靶检测靶点,需额外支付300-1000美元的蛋白采购费用,大规模特异性检测成本极高。

5.3 其他成药性属性优化

根据抗体的应用场景,还需完成多项属性的优化:

  • 治疗性抗体:需降低免疫原性、优化体内半衰期、提升热稳定性与可溶性;
  • 体外诊断抗体:核心优化热稳定性、批次表达一致性,要求相对宽松。

六、行业展望与技术前沿

AI驱动的抗体设计工具,核心价值不仅是缩短传统抗体开发的周期,更在于实现了过往无法完成的创新分子设计。

目前,David Baker团队已验证了“促进解离”型结合子的设计——该结合子可在第二种配体加入时释放靶点。未来1-2年内,AI有望实现常规化的复杂分子设计,包括:

  1. 靶向多个独立靶点的多特异性抗体;
  2. 从头设计的无免疫原性片段的治疗性抗体;
  3. 可响应pH值或其他环境信号,改变自身结构与功能的智能结合子。

这类高度复杂的分子设计,仅能通过AI引导的方式实现,而当前行业正处于该技术革命的起点。本指南提供的标准化流程,将进一步降低AI抗体设计的技术门槛,推动该领域的技术普及与创新突破。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐