2026智能体年:小白/程序员必学大模型,收藏这波干货!
2026年被誉为“智能体年”,智能体AI作为生成式AI的进化方向,赋予AI系统决策和行动能力。本文深度探讨了智能体AI的定义、架构、应用场景,重点分析了本体论如何为其赋能,特别是在生命科学和药物开发领域的广阔前景。文章强调智能体设计需平衡自主性与引导性,并融入科学内涵与专家参与,以确保透明、可信和科学严谨。本体论在此过程中扮演关键角色,通过语义标准化和跨系统映射,提升智能体处理复杂科学知识的效能。
1、摘要
2025年被业界誉为"智能体年"。智能体AI作为生成式AI的重要进化方向,赋予AI系统决策和行动的能力,能够自动完成多步骤复杂任务。在生命科学领域,从药物靶点优先排序到临床试验,智能体AI具有广阔应用前景。然而,其透明性、可信度与科学严谨性面临挑战。本文深度探讨智能体AI的定义、架构、应用场景及本体论对其的赋能作用。

2、详细内容
一、生成式AI的爆炸式增长与下一步演进
2024年,生成式AI(GenAI)迎来了前所未有的发展契机。 无论是公开还是商业化的大语言模型,在各类基准测试中都取得了突破性进展,消费者接触AI的成本大幅下降,应用范围从市场营销、运营管理扩展至医疗健康和生命科学等众多领域。其中,基于检索增强生成(RAG)的问答系统成为重点应用方向,用户可以用自然语言与自有数据进行交互式对话——这确实令人瞩目。
然而,真正值得关注的是AI发展的下一个阶段。 DeepSeek的问世已被誉为AI领域的"斯普特尼克时刻",展示了如何用有限的硬件资源构建高性能模型,进一步推动了AI成本的下降趋势。这同时提醒我们,伦理透明度可能成为模型和服务提供商的核心竞争力。
二、从对话机器人到智能体:AI的关键进化
早期阶段,用户已广泛体验了第一代应用——对话机器人。现在,焦点已转向加速处理更复杂的人类工作流程。 OpenAI发布的o1模型展现了高级推理能力,能够处理复杂问题并在给出答案前形成完整的思维链。
进入2025年,被业界称为"智能体年",新一代能力型应用陆续推出。 OpenAI的Operator可以完成基于网络的任务执行,而Deep Research则能进行多步骤的复杂网络研究。"智能体年"的真正含义在于——将人类专业人士(SME)的专业知识编码化、系统化,融入软件系统之中。这种转变对生命科学领域意味着什么?在评估智能体AI时又需要考虑哪些因素?
三、什么是智能体AI?
讨论智能体AI时,首先需要理解"能动性"(agency)的定义。 能动性是指采取行动或选择行动方案的能力。由此可以定义AI智能体:在某个过程或任务中利用AI,赋予它一定程度的能动性——即在用户委托下做出决策的自主权。

智能体的设计使其能完成通常需要多步骤人工执行的特定任务。以靶点优先排序智能体为例, 它接收一个疾病领域(如二型糖尿病)作为输入,输出经过优先级排序的潜在治疗靶点列表(如GLP1R受体)。
要使智能体有效运作,必须为其配备适当的工具和函数。 以靶点优先排序为例,该智能体需要访问:
-
描述疾病与基因关系的数据库
-
捕捉靶点可成药性的信息库
-
提供证据和新颖假说的文献来源
这些可视为智能体可用的工具,通常以外部API或软件形式提供。函数则用于规定数据在工具间如何流转或如何呈现给最终用户。

四、智能体设计的光谱:自主性与引导性的平衡
在构建智能体时,工具和函数的配置方式至关重要,这涉及自主性和引导性之间的权衡。 在自主性光谱的一端,可以将所有工具和函数提交给大语言模型,让其自主决定使用哪些工具、以什么顺序使用。在这种设置中,LLM不仅是推理引擎,还是规划模块,拥有将高层目标分解为可执行步骤的完全自主权。

在光谱的另一端,可以提供明确定义的线性工作流。例如:
-
访问疾病与基因关系数据库,提取相关基因集
-
检索第一步中各基因的可成药性信息
-
审查文献,寻找支持最具可成药性靶点的证据及相关不良事件
-
识别疾病相关但未在第一步中出现的其他靶点,假设其具有新颖性
在这种模式下,LLM无需定义可执行步骤(因为已预先规定),但仍能为流程注入推理能力。
此外,智能体可与其他智能体组合以完成更复杂的任务。例如,若拥有专门识别医疗需求缺口的智能体,可与靶点优先排序智能体联合使用,寻找医疗需求缺口领域的优先靶点,这称为多智能体架构。这些智能体既可由LLM自主串联,也可按预定义的线性方式组织。
除了工具和函数,智能体还需其他关键组件,包括短期记忆和对其可用工具的高层次描述(如"使用该服务评估您的蛋白靶点是否能被小分子化合物修饰")。
五、生命科学领域中的智能体应用场景
在生命科学领域,特别是制药药物开发中,存在大量耗时任务可被"智能体化",包括研发靶点识别、先导化合物鉴定、临床前毒理学研究,以及临床试验、审批和上市后监测与线扩展应用。
智能体为加速这些耗时任务提供了绝佳机遇,具有潜力大幅缩短新药上市周期和相关成本。 但须注意,生命科学是一个以证据为导向决策的领域;错误决策可能导致高成本甚至严重后果。仅基于LLM驱动智能体生成的假说构建研发管线,应当谨慎对待。
要使智能体真正发挥价值,需优先考虑以下几点:
(一)从问题出发
在开发任何解决方案前,必须深入理解待解决的问题。应避免反向思维——先有解决方案再寻找应用场景。
(二)透明性至关重要
要赢得对智能体输出的信任,可追溯性和透明性是关键。仅说"因为智能体Y告诉我们"就关注靶点X是不够的。至关重要的是理解决策的"原因"——使用了哪些工具、审查了什么数据、什么推理逻辑导出了智能体的输出结果。
(三)可访问性至关重要
为使智能体在完成任务时能考虑相关搜索空间,它必须能访问所有必要资源。这需要以工具形式呈现给智能体的有文档说明的API。资源不仅应易于访问且有清晰文档,还应提供工具"描述"供解读,例如"需要了解药物的作用机制?请访问此服务"。同时应考虑智能体访问数据时的权限问题。
(四)数据质量规则
虽然资源可访问性至关重要,但输出质量取决于所能访问数据的质量。这要求在各个业务领域拥有金标准数据。
(五)融入科学内涵
虽然LLM擅长理解语言,但在理解科学中普遍存在的同义性和歧义时往往力不从心——科学的复杂性远超语言本身。
例如,知道内部代码TA123代表基因GLP1R这一点对数据和谐化及信号放大至关重要。 从单一来源检索数据而不理解实体可被引用的多种方式是有问题的。例如,大多数开源数据库缺乏良好的语义搜索能力,仅依赖基础同义词。智能体可能使用一个同义词(如"二型糖尿病")搜索,然后评估结果,如果不满意(例如结果缺乏正确语境),可能尝试其他同义词如"T2D"再迭代——这是缓慢且成本高昂的过程。
若搜索工具能在前期更好地处理同义词和更高层次概念,搜索效率将大幅提升。此外,不同资源可用多种方式表示其数据——无论是语法上的差异(如搜索工具中的非结构化文本与图数据库中的结构化数据),还是语义上的差异(搜索系统可能使用MeSH描述疾病,而图索引使用DOID)。拥有通过映射描述等效性的能力至关重要(例如,MeSH:D003924和DOID:9352都是二型糖尿病的标识符)。
通过为理解语言的LLM配备本体论中捕获的科学知识,可在透明步骤中提供人类可解释的结果。
(六)谨慎考虑给予智能体的自主权程度
某些任务需要有限自主权,更适合线性流程。与其信任LLM决定过程中的下一步,不如给它清晰的计划,或甚至在执行下一步前请求专家输入和审查。在某些场景(如识别新颖性)中自主权可能更合适,但同样应由专家进行评估。
(七)从最小模块开始
通过专注于拥有明确的工具或函数集,可在此基础上构建多样化智能体。应采用模块化思维并尽可能记录。在开发智能体时,重要的是采用自下而上的方式。
(八)安全护栏
在构建智能体时,须确保严格的安全护栏到位,须明确说明智能体不做什么,就像明确它应该做什么一样。
(九)生命科学问题不需纯技术方案
复杂的技术架构不等同于适用的解决方案。主题专家在任何解决方案的开发、设计和至关重要的评估中必须扮演关键角色。
六、本体论如何赋能智能体AI
智能体通常可访问多种工具,这些工具中的数据可能以不同的技术或语法格式捕获,如SQL数据库、知识图谱或通过API访问的文档索引。 虽然LLM擅长翻译语言(例如将自然语言转换为SQL、Cypher或RESTful API调用等查询语言——如果有相关文档),但在将自然语言转换为这些系统内相关事物的标识符时往往力不从心。
此外, 当不同系统使用不同标准表示相同事物时,能够和谐化一个系统的输出与另一系统的输出至关重要,即理解等效性。
本体论可帮助缓解上述所有问题。 其丰富版本可用于将自然语言转换为标识符,或在构建数据库时将非结构化文本转换为机器可读标识符。可采用相同方法将字符串"类胰高血糖素肽-1"转换为ID"GLP-1"以供知识图谱查询。
这意味着本体论为智能体搭建了一座"理解之桥",使其不仅能处理语言表达的多样性,还能实现跨系统的语义互操作性。在生命科学这样一个术语众多、同义词繁杂、分类标准多元的领域,本体论的应用尤为关键。通过本体论支持的标准化和映射机制,智能体可以更精准地定位和处理信息,减少歧义和冗余,提高决策的准确性和可信度。
七、总结与展望
智能体AI代表了人工智能从感知和理解向主动行动能力的重大跨越。在生命科学和制药领域,智能体有潜力革新从靶点发现、先导化合物优化到临床试验的整个药物开发流程。然而,这一强大能力必须伴随相应的责任机制——包括确保透明可追溯、数据质量金标准、科学知识融入、合理的自主权设置和专家审查。
本体论在此过程中扮演不可或缺的角色。它不仅能帮助智能体跨越语言和系统的鸿沟,还能在复杂的科学知识体系中提供语义支撑。唯有当技术创新与科学严谨性相结合,由领域专家与AI系统形成紧密协作,智能体AI才能真正为生命科学研究和药物开发带来革命性的改进。
3、关键要点回顾
-
2025年是"智能体年",AI正从对话能力向自主决策能力演进
-
智能体需要明确的工具、函数、透明性和专家参与
-
自主性与引导性的平衡至关重要,应根据具体任务场景选择
-
生命科学应用前景广阔,但必须确保证据驱动和严谨决策
-
本体论通过语义标准化和跨系统映射为智能体提供强大支撑
-
主题专家的参与贯穿智能体开发的全过程
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】


为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。


大模型入门到实战全套学习大礼包
1、大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

2、大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

适用人群

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)