大语言模型从头造适配体：InstructNA 让功能核酸设计告别盲目筛选

QBoson

407人浏览 · 2026-04-13 01:53:11

QBoson · 2026-04-13 01:53:11 发布

本文为《De novo design of functional nucleic acids of aptamers》的阅读笔记，原文链接：https://www.nature.com/articles/s43588-026-00965-3。

本文解读Nature Computational Science 2026的研究《 De novo design of functional nucleic acids of aptamers 》，提出InstructNA 框架，将核酸大语言模型（NA-LLMs）与高通量 SELEX 实验结合，在不依赖三维结构的情况下，直接从头设计高活性、高多样性的功能核酸（适配体、转录因子结合 DNA）。相比传统筛选，强结合适配体产出最多提升200%，最低序列相似度仅38%，为分子诊断、靶向治疗提供全新设计范式。

功能核酸（FNA）是生命科学的 “万能分子工具”—— 既能像抗体一样精准抓蛋白（适配体），又能调控基因、催化反应，在诊断、靶向药、分子器件里无处不在。

但想 “设计” 一个好用的功能核酸，一直是世界级难题：

序列空间大到爆炸、实验筛选又贵又慢、传统 AI 只会抄现有序列、还必须依赖蛋白结构…… 很多靶点根本做不了。

现在，一项发表在Nature Computational Science的研究彻底破局：

InstructNA—— 用核酸大语言模型，直接从零设计高活性功能核酸。

不需要蛋白结构、不需要已知配体、不需要手动优化，给它测序数据，它就能批量造出比实验筛选更好的适配体。

这一次，功能核酸终于从 “大海捞针” 变成 “精准制造”。

一、功能核酸设计：卡了十几年的三大死结

功能核酸虽好用，但传统研发路线处处是坑。

序列空间过于庞大，短短几十 bp 的核酸序列组合数就远超天文数字，靠实验筛遍所有可能完全不可能。传统实验筛选 HT-SELEX 周期长、成本高，还会被 PCR 偏差带偏，容易漏掉真正高活性的序列。

现有的计算方法要么严重依赖蛋白质三维结构，要么只能在小数据集上训练，学不到通用规律，生成的分子活性低、长得像、难突破。

在适配体这种需要高亲和力的分子上，传统方法更是经常 “筛不出、用不了、做不出”。

二、AI 破局：InstructNA 大语言模型驱动的从头设计

InstructNA 的核心思路，是把大语言模型和高通量筛选数据结合，让 AI 先学会功能核酸的 “语法”，再按功能直接生成。

2.1 整体框架：五步法全自动设计

整个流程干净利落，完全自动化：

1.收集 HT-SELEX 筛选序列，构建高质量训练数据；

2.用功能核酸数据继续预训练核酸大语言模型，让它更懂适配体；

3.训练轻量解码器，把向量稳定还原成真实核酸序列；

4.在隐空间用 HC-HEBO 算法做定向进化，越优化活性越高；

5.实验验证，再把结果喂回 AI，形成闭环迭代。

它不依赖任何蛋白结构信息，只看序列就能设计高活性分子。

2.2 核心创新：HC-HEBO 定向进化算法

普通贝叶斯优化容易乱跑，InstructNA 专门提出HC-HEBO：

把爬山法（HC）和进化贝叶斯优化（HEBO）合体，既保证多样性，又能在有效区域内精细搜索，让序列朝着 “高亲和力” 快速进化。

2.3 关键公式：结合特异性打分

研究用两个核心公式量化功能，保证生成质量：

总结合特异性打分：

归一化相对特异性：

分数越高，代表 DNA / 适配体结合越强、越精准。

图1 InstructNA 功能核酸从头设计框架

三、关键结果：AI 造的适配体，完胜实验筛选

3.1 转录因子结合 DNA：更高特异性、更多新序列

在 10 种转录因子上测试，InstructNA 表现全面领先：

序列语义表示更准确，与真实序列相关性更高；

结合特异性分类 AUROC、F1 等指标全面超越基线模型；

在 Ar、Dbp、Srebf1 上，高特异性序列比例远超传统方法。

图2 InstructNA 生成高特异性 DNA 序列

3.2 蛋白适配体：强结合体数量暴涨 200%

研究在LOX1、CXCL5两个重要蛋白靶点做实验验证：

传统 HT-SELEX 只筛出 2 个和 1 个强结合适配体；

InstructNA 直接造出4 个和 3 个，数量分别提升100%、200%；

最优亲和力达到6.6 nM，比实验筛出来的还要强；

最优序列与原始序列相似度低至 38%，是全新骨架。

3.3 结构与机理：全新折叠、更强相互作用

AI 设计的 G1ᴸ适配体，结构比实验筛选的更复杂、结合更牢：

形成更精巧的环区折叠；

与蛋白界面形成更多氢键；

结合自由能更优；

结合区域完全不一样，开辟全新结合模式。

图3 AI 生成适配体的超高亲和力与全新结构

四、科学意义：功能核酸设计进入大模型时代

InstructNA 的突破，是整个功能核酸领域的范式转变。

它第一次证明：核酸大语言模型可以不依赖结构，直接从头设计高活性功能核酸。

它第一次实现：从序列数据到高活性适配体的全自动闭环设计。

它第一次做到：AI 生成分子比实验筛选的更好、更多、更新颖。

未来，适配体、核酶、DNAzyme、调控元件都可以用这种方式快速设计，诊断与靶向药的研发速度会被重新定义。

五、总结

InstructNA 用大语言模型重新定义了功能核酸的研发方式。它不需要蛋白结构、不需要先验配体，只靠 HT-SELEX 数据，就能批量生成高活性、高多样性的适配体与功能 DNA。在 LOX1 与 CXCL5 上，它把强结合适配体产量提升数倍，亲和力达到纳摩尔级，序列相似度低至 38%，实验与计算完全互相验证。

这标志着功能核酸不再靠筛，而是靠 AI 设计。一个更高效、更低成本、更快落地的核酸分子工具时代，已经到来。

点击更多，学习更多精彩内容。