本文从自动化到自主智能,重新定义了AI Agent,并详细解析了其四大核心模块:感知、大脑(推理与规划)、行动(工具调用)和记忆(短期与长期)。文章还介绍了AI Agent的技术发展历程、多智能体系统、开放协议与技术标准,以及开发框架与平台的成熟,旨在帮助读者全面了解AI Agent技术,并为其应用提供参考。

AI Agent 的再定义:从自动化到自主智能

随着技术的飞速演进,AI Agent 的内涵与外延也在不断扩展。在 2025 年的语境下,我们必须对其进⾏⼀次更为精准的“再定义”。传统的 Agent 概念更多强调其在特定规则下执⾏任务的“自动化”(Automation)属性,⽽新⼀代的AI Agent则核⼼体现了其基于意图理解和环境感知的“自主性”(Autonomy)。

⼀个现代的 AI Agent 是⼀个能够自主感知环境、进⾏决策、执⾏复杂任务并从结果中学习的智能实体。其核⼼能⼒可以概括为四⼤模块的协同⼯作:

感知(Perception):Agent 通过多模态输⼊接⼝,感知和理解来自外部世界的复杂信息,包括⽂本、图像、声音、视频乃⾄传感器数据。这是 Agent 与环境交互的基础。

⼤脑(Brain):这是 Agent 的核⼼,通常由⼀个或多个强⼤的基础模型构成。⼤脑负责处理感知模块输⼊的信息,并进⾏复杂的推理(Reasoning)和规划(Planning)。所谓推理,是 Agent 基于已有信息进⾏逻辑分析、因果判断和意图推断的能⼒;⽽规划,则是将宏⼤目标拆解为有序、可执⾏步骤,并能动态调整计划的能⼒。 它不仅能理解用户的明确指令,更能推断其深层意图,并将宏⼤、模糊的目标拆解为⼀系列具体、可执⾏的步骤。

⾏动(Action):基于⼤脑的规划,Agent 通过调用各种⼯具(Tools)来执⾏任务。这些⼯具可以是内部的函数调用,也可以是外部的 API 服务、数据库、软件应用,甚⾄是物理世界的机器⼈。这种调用⼯具的能⼒,极⼤地扩展了 Agent改造世界的能⼒范围。

记忆(Memory):Agent 拥有短期记忆和长期记忆机制,使其能够存储和检索在任务执⾏过程中的关键信息、经验和知识。这使得 Agent 具备了学习和迭代优化的能⼒,能够在⼀次次任务中变得更加“聪明”和⾼效。

表1 传统 Agent 与现代 AI Agent 能⼒对比

这⼀从“自动化”到“自主智能”的范式转移,其根本驱动⼒源于⼤语⾔模型的⾰命性突破。LLM 赋予了 Agent 前所未有的自然语⾔理解、知识推理和代码⽣成能⼒,使其“⼤脑”的复杂度和通用性产⽣了质的飞跃。正因如此,2025 年的 AI Agent 不再仅仅是执⾏命令的⼯具,⽽是能够与⼈类并肩协作、解决开放式问题的“数字伙伴”。

技术发展历程与 2025 年核⼼突破

AI Agent 的发展并非⼀蹴⽽就,其思想根源可以追溯到⼈⼯智能学科诞⽣之初的“智能体”概念。然⽽,从理论构想到⼤规模产业应用,其间经历了漫长的技术积累和数次范式转换。我们可以将其发展⼤致划分为三个阶段:

符号主义 Agent 阶段(20 世纪 70 年代-90 年代):早期的 Agent 主要基于符号逻辑和专家系统,在明确的规则和知识库下运⾏。其智能⽔平有限,应用场景狭窄,主要集中在⼯业控制、棋类游戏等封闭环境中。典型的代表是基于知识库的专家系统和早期的规划算法。

机器学习 Agent 阶段(21 世纪初-2022 年):随着机器学习,特别是深度学习和强化学习(Reinforcement Learning)的兴起,Agent 开始具备从数据中学习的能⼒。以 AlphaGo 为代表的强化学习 Agent 在游戏 AI 领域取得了巨⼤成功。同时,基于监督学习的对话机器⼈和推荐系统也开始⼴泛应用。但这⼀阶段的Agent 通常是为特定任务训练的“专家模型”,泛化能⼒和自主性仍然受限。

⼤语⾔模型驱动的 Agent 阶段(2023 年⾄今):LLM 的出现彻底改变了游戏规则。LLM 强⼤的通用能⼒(语⾔理解、知识推理、代码⽣成)为构建通用自主 Agent 提供了可能。Agent 不再需要为每个任务从零开始训练,⽽是可以将LLM 作为其“⼤脑”,通过自然语⾔指令和上下⽂学习来理解和执⾏复杂任务。

2023 年是这⼀阶段的开端,⽽ 2025 年则是其⾛向成熟和应用爆发的关键节点,其核⼼技术突破主要体现在以下⼏个⽅面:

基座⼤模型的持续进化:更强“⼤脑”驱动更⾼智能

AI Agent 的能⼒上限,很⼤程度上取决于其核⼼“⼤脑”——基座⼤模型的性能。2025 年,全球顶尖的 AI 实验室相继推出了新⼀代旗舰模型,它们在性能、效率和多功能性上都实现了显著飞跃。

国际前沿模型的性能竞赛:OpenAI 的 GPT-5 在前代模型的基础上,进⼀步强化了逻辑推理和长⽂本处理能⼒,尤其在代码⽣成和理解复杂指令⽅面表现突出。Google 的 Gemini3 Pro 则在多模态能⼒上继续领跑,其对视频、音频的深度理解能⼒为构建能够处理更复杂现实世界信息的 Agent 奠定了基础。值得关注的是,根据 LMSYS Org 发布的排⾏榜,Gemini 3 Pro ⼀度超越 GPT 系列,登顶榜首,显示出 Google 在模型研发上的强⼤后劲 。Anthropic 的 Claude 4 系列模型则继续在企业级应用场景中深耕,以其⾼安全性和可靠性获得了众多企业用户的青睐。

国产⼤模型的崛起与创新:在激烈的国际竞争中,以深度求索(DeepSeek)为代表的国内 AI 公司取得了令世界瞩目的成就。在 2025 年 1 月,DeepSeek 发布的 R1 推理模型在全球范围内登上榜单。该模型在后训练阶段⼤规模应用强化学习技术,⽆需⼤量监督微调数据即可显著提升推理能⼒,并在数学、代码及自然语⾔推理等多项任务上展现出比肩 OpenAI o1 正式版的性能。因其完全开源且采用极为宽松的 MIT 许可协议,允许开发者自由使用、修改和商业化,R1 迅速引发全球科技界⾼度关注,甚⾄被部分西⽅媒体称为“中国 AI 模型震惊硅⾕” ,其应用也在发布后短时间内登顶中美两国 App Store 免费榜。随后在 2025 年 8月,DeepSeek 再次发布了 DeepSeek-V3.1 版本,创新性地引⼊了混合推理(Hybrid Inference)架构 。该架构可以让模型根据任务的复杂度,在“思考模式”(⾼功耗、深层次推理)和“非思考模式”(低功耗、快速响应)之间动态切换。这种设计不仅极⼤地提升了模型的运⾏效率和经济性,也为 AI Agent 在不同场景下的灵活部署提供了全新的解决⽅案,标志着国产⼤模型在架构创新上⾛出了自⼰的道路。

从单体到协同:多智能体(Multi-Agent)系统成为主流

如果说早期的 Agent 是“单兵作战”,那么 2025 年的⼀个显著趋势就是“军团协同”。业界普遍认识到,面对现实世界中的复杂问题,单⼀ Agent 往往难以胜任。因此,由多个具有不同角⾊、不同能⼒的 Agent 组成的多智能体系统(Multi Agent System, MAS)成为研发和应用的主流范式。

在多智能体系统中,复杂的任务被分解,并分配给不同的“专家 Agent”。例如,⼀个“产品市场分析”任务可以由⼀个“数据搜集Agent”、⼀个“数据分析Agent”、⼀个“报告撰写 Agent”和⼀个“项目管理 Agent”协同完成。项目管理 Agent 负责任务分解、进度协调和结果汇总,其他 Agent 则专注于各自的专业领域。这种“分⽽治之、协同作战”的模式,极⼤地提升了任务完成的质量和效率。

这种转变的背后,是 AI Agent 从“⼯具”向“组织”的演进。其核⼼机制在于智能体之间⾼效的通信与协作。 它们通过信息交换、协商与动态分⼯,形成⼀个能够自我协调的“数字团队”,共同应对复杂挑战。这种模拟⼈类社会组织的协作模式,使得 AI 系统能够以更结构化、更鲁棒的⽅式应对复杂挑战。AutoGen、CrewAI 和 LangGraph 等开发框架的流⾏,也正是顺应了这⼀趋势,为构建这种通信与协作机制提供了强⼤的基础设施。

互联互通的基⽯:开放协议与技术标准的建立

随着多智能体系统成为主流,如何让不同开发者、不同公司开发的 Agent 之间实现有效地沟通与协作,成为⼀个亟待解决的问题。2025 年,两⼤开放协议的发布为解决这⼀难题奠定了基⽯,其重要性不亚于互联⽹时代的 TCP/IP 协议。

模型上下⽂协议(Model Context Protocol, MCP):由 Anthropic 于 2024年底率先提出,旨在为 LLM 与外部⼯具、数据和服务之间建立⼀套标准化的通信“语⾔” 。通过 MCP,Agent 可以以⼀种统⼀、安全的⽅式获取外部信息和调用功能,开发者⽆需再为每⼀种⼯具编写定制化的“胶⽔代码”。这极⼤地简化了Agent 的⼯具扩展过程。

智能体间协议(Agent-to-Agent Protocol, A2A):由 Google 在 2025 年 4月的 Cloud Next ⼤会上正式发布,是首个专为 AI Agent 之间互操作性设计的开放标准 。A2A 协议定义了 Agent 之间如何发现彼此、协商能⼒、交换信息和协调任务。它为构建⼀个开放、互联的全球智能体⽹络提供了可能,让⼀个公司的招聘 Agent 可以与另⼀个公司的日历 Agent 安全地协作,自动安排面试时间。

MCP 和 A2A 的出现,标志着 AI Agent 产业从“野蛮⽣长”的探索期,开始迈向“标准统⼀”的⽣态构建期。它们共同构成了 Agent 互联⽹(Internet of Agents)的底层通信基础设施,对于整个⽣态的繁荣⾄关重要。

开发框架与平台的成熟:⼤幅降低开发者门槛

⼯欲善其事,必先利其器。AI Agent 应用的爆发,离不开开发框架和平台的成熟。2025 年,AI Agent 开发⼯具链呈现出开源框架百花齐放、商业平台专注落地的两⼤特点,极⼤地降低了开发者的⼊门门槛和企业的应用成本。

开源框架的持续繁荣:以 LangChain 为首的开源框架继续保持着强⼤的⽣命⼒,它提供了构建 Agent 所需的全套组件,从业界最流⾏的开发框架演变为事实上的标准。在此基础上,LangGraph 通过引⼊状态图的概念,专门解决了构建循环、有状态的多 Agent 协作流程的难题。微软的 AutoGen 则专注于简化多 Agent对话⼯作流的编排与实验。这些框架的共同特点是模块化、灵活性⾼,为开发者提供了丰富的选择和强⼤的定制能⼒。

低代码/⽆代码平台的兴起:面向企业和非专业开发者,以 Dify、FastGPT 和字节跳动的 Coze(扣⼦)为代表的低代码/⽆代码平台在国内迅速普及 。这些平台将复杂的后端技术封装起来,提供了可视化的界面和预置的模板,用户通过简单的拖拽和自然语⾔配置,就能快速构建出满⾜特定业务需求的 AI Agent,尤其是在智能客服、知识库问答等场景中,极⼤地加速了 AI 技术的普惠化进程。

表2 主流 AI Agent 开发框架/平台对比

这些框架和平台的成熟,为 AI Agent 的⼤规模应用铺平了道路,使得开发者能够将更多精⼒聚焦于业务逻辑和应用创新,⽽非底层技术的复杂的技术底层技术的底层技术的重复的底层技术实现。

AI Agent 核⼼技术架构解析

⼀个⾼效、鲁棒的 AI Agent,其背后是⼀套设计精密的系统⼯程,它定义了智能体如何感知世界、如何思考决策、如何执⾏任务,以及如何学习成长。理解这套架构,不仅是 AI 开发者的必备技能,也是企业决策者评估和应用 Agent 技术的基础。

2025 年,AI Agent 的技术架构已经从早期的单⼀模型封装,演进为⼀套复杂的、模块化的系统。这⼀演进的核⼼思想,是借鉴⼈类的认知模式,将智能体的能⼒解耦为⼏个既独立又协同的核⼼模块。复旦⼤学提出的“⼤脑-感知-⾏动”三模块模型,以及业界普遍采用的“感知-规划-⾏动-记忆”(或称“感知-⼤脑-⾏动-记忆”)四模块框架,共同构成了当前主流 Agent 架构的理论基础。

  • Agent 认知循环:四⼤核⼼模块概览

现代 AI Agent 的运⾏逻辑,本质上是⼀个持续循环的认知过程:感知环境、进⾏思考、采取⾏动、形成记忆,并利用记忆指导下⼀轮的思考与⾏动。这个闭环流程由四⼤核⼼模块协同完成,它们共同构成了 Agent 的通用架构。

感知模块(Perception):作为 Agent 的“五官”,负责从内外部环境中捕获信息。它将来自用户指令、⽂件、数据库、API 返回结果,甚⾄是摄像头和麦克风的原始数据,转化为“⼤脑”可以理解的结构化信息。

⼤脑模块(Brain):这是 Agent 的“中枢神经系统”,其核⼼是强⼤的⼤语⾔模型(LLM)。该模块负责最⾼层次的认知活动,包括推理(Reasoning)和规划(Planning)。它理解用户的最终意图,将复杂任务分解为⼀系列可执⾏的⼦任务,并制定详细的⾏动计划。

⾏动模块(Action):作为 Agent 的“⼿脚”,负责执⾏“⼤脑”制定的计划。它通过调用各种⼯具(Tools)来与外部世界进⾏交互,例如调用搜索引擎查询信息、调用计算器进⾏数学运算、调用代码解释器执⾏程序,或者控制机器⼈⼿臂完成物理操作。

记忆模块(Memory):这是 Agent 能够学习和进化的关键。它分为短期记忆(存储当前任务的上下⽂信息,如对话历史)和长期记忆(存储跨任务的知识、经验和用户偏好)。通过记忆,Agent 可以避免重复错误,并提供更加个性化和⾼效的服务。

  • 感知模块(Perception):连接数字与现实的桥梁

感知模块是 AI Agent 与世界交互的⼊⼝,其核⼼职责是将外部环境中多样化、非结构化的信息,转化为⼤脑模块可以处理的结构化数据。如果说⼤脑是Agent 的“CPU”,那么感知模块就是其“输⼊/输出接⼝”(I/O)。2025 年,随着多模态技术的发展,感知模块的能⼒已经远超单⼀的⽂本理解,进⼊了⼀个全新的阶段。

多模态信息的统⼀表征

现代 Agent 需要处理的信息来源极其⼴泛,包括:

⽂本(Text):用户的自然语⾔指令、⽹页内容、⽂档、代码等。

图像(Image):图表、照片、UI 截图、场景图片等。

音频(Audio):语音指令、环境声音、音乐等。

视频(Video):结合了图像和音频的动态信息流。

结构化数据:来自 API 的 JSON 返回、数据库的表格数据等。

感知模块的首要任务是将这些异构的数据源,通过各自的编码器(Encoder)转换为统⼀的、⾼维度的向量表示(Embeddings)。例如,⽂本通过 BERT 或类似的 Transformer 编码器处理,图像通过 ViT(Vision Transformer)处理,音频通过 Whisper 之类的模型处理。这种统⼀的向量表示,使得⼤脑模块可以在同⼀个语义空间中对不同模态的信息进⾏综合理解和推理。

关键技术

自然语⾔处理(NLP):这是最基础也是最核⼼的感知能⼒。通过 NLP 技术,Agent 可以准确地进⾏意图识别、实体提取、情感分析,并理解复杂的长⽂本指令。

计算机视觉(CV):赋予 Agent“看”的能⼒。例如,⼀个 UI 操作 Agent 可以通过分析屏幕截图来定位按钮和输⼊框;⼀个具身智能机器⼈可以通过摄像头来识别障碍物和目标物体。

自动语音识别(ASR):让 Agent 能够“听懂”⼈类的语⾔,实现真正的语音交互,这在智能客服、智能家居等场景中⾄关重要。

多模态融合(Multimodal Fusion):这是感知模块的前沿技术。它不仅仅是简单地拼接不同模态的信息,⽽是通过如交叉注意⼒(Cross-Attention)等机制,实现不同模态信息在深层次的交互和关联,从⽽产⽣“1+1>2”的理解效果。例如,在观看⼀段产品介绍视频时,Agent 能将画面中的产品外观与解说词中的功能描述准确地对应起来。

  • ⼤脑模块(Brain):推理、规划与决策的核⼼

⼤脑模块是 AI Agent 智能的源泉,它负责接收感知模块处理过的信息,并进⾏⾼级认知活动,最终输出指导⾏动的决策。2025 年,Agent 的⼤脑已经演化出多种复杂且精密的“思考模式”,即决策框架。这些框架模仿了⼈类解决问题时的不同思维策略,其中以 ReAct、Plan-and-Execute 和 Reflection 等最具代表性。

核⼼驱动:思维链(Chain-of-Thought, CoT)

在深⼊了解具体的决策框架之前,我们必须先理解其共同的底层技术——思维链(Chain-of-Thought, CoT)。由 Google 研究⼈员于 2022 年提出的 CoT,其核⼼思想是引导 LLM 在回答问题之前,先⽣成⼀步步的推理过程。这种“慢思考”的⽅式,极⼤地提升了 LLM 在处理需要多步逻辑的复杂问题(如数学应用题、逻辑推理题)时的准确性。

Zero-shot CoT 示例:Q: ⼀个篮⼦里有 5 个苹果,小明拿⾛了 2 个,又放回了 1 个,请问篮⼦里现在有⼏个苹果?

A: Let’s think step by step. (让我们⼀步步思考)

⼀开始篮⼦里有 5 个苹果。

小明拿⾛了 2 个,所以剩下 5 - 2 = 3 个苹果。

小明又放回了 1 个,所以现在有 3 + 1 = 4 个苹果。

因此,篮⼦里现在有 4 个苹果。

Final Answer: 4

CoT 为 Agent 的“思考”过程提供了⼀种结构化的表达⽅式,是后续所有复杂决策框架的基础。

主流决策框架⼀:ReAct (Reason + Act)

ReAct 是由普林斯顿⼤学和 Google 的研究⼈员共同提出的、目前应用最⼴泛的 Agent 决策框架。它的核⼼思想是模仿⼈类在解决问题时“思考”和“⾏动”交织进⾏的过程,将 CoT 与⼯具调用紧密结合。

⼯作流程:ReAct 的流程是⼀个循环,每个循环包含三个步骤:

Thought (思考):Agent 基于当前状态和目标,进⾏推理,决定下⼀步应该采取什么⾏动。

Action (⾏动):Agent 选择⼀个合适的⼯具并执⾏,以获取外部信息或改变环境状态。

Observation (观察):Agent 接收⾏动执⾏后的结果(如 API 返回值、⽹页内容、代码运⾏结果等),并将其作为下⼀轮“思考”的输⼊。这个 Thought → Action → Observation 的循环会⼀直持续,直到 Agent 认为任务已经完成,最终输出答案。

ReAct 的优势:

动态性与适应性:ReAct 不是预先规划好所有步骤,⽽是“⾛⼀步,看⼀步”,能够根据环境的实时反馈动态调整策略,非常适合处理信息不完全或环境动态变化的开放式任务。

可解释性与可控性:由于 Agent 的每⼀步思考和⾏动都被明确地记录下来,这使得整个决策过程⾼度透明,便于开发者调试、定位错误,甚⾄进⾏⼈⼯⼲预。

强⼤的纠错能⼒:当某⼀步⾏动失败或结果不理想时(例如,API 调用失败、搜索没有找到结果),Agent 可以在下⼀轮的“思考”中意识到这个问题,并尝试采取补救措施(例如,更换关键词重新搜索、尝试另⼀个 API)。

ReAct 的挑战:

效率问题:由于需要多次与 LLM 和外部⼯具交互,ReAct 的执⾏延迟和 API调用成本相对较⾼。⼀个复杂的任务可能需要5-10轮甚⾄更多的循环才能完成。

主流决策框架⼆:Plan-and-Execute

与 ReAct 的“即时反应”模式不同,Plan-and-Execute 框架更像⼀位深思熟虑的战略家。它将任务处理分为两个明确的阶段:规划和执⾏。

⼯作流程:

Planning (规划):首先,⼀个专门的“规划器”(Planner)Agent 会全面分析用户的初始目标,并将其分解成⼀个详尽、有序的步骤列表(Plan)。这个计划⼀旦制定,在执⾏阶段通常不会轻易改变。

Execution (执⾏):然后,⼀个或多个“执⾏器”(Executor)Agent 会严格按照这个计划,⼀步步地执⾏任务,调用相应的⼯具,直到所有步骤完成。

Plan-and-Execute 的优势:

结构化与可预测性:对于目标明确、流程固定的任务,预先规划可以保证任务执⾏的有序性和效率。

成本效益:由于规划阶段⼀次性完成了⼤部分的思考⼯作,执⾏阶段的 LLM调用次数可能更少,从⽽降低了成本和延迟。

Plan-and-Execute 的劣势:

灵活性差:该框架难以应对执⾏过程中出现的意外情况。如果外部环境发⽣变化,或者某⼀步执⾏失败,整个计划可能需要从头开始调整,适应性不如 ReAct。

新兴趋势:反思与自我批判(Reflection & SelfCritique)

为了让Agent具备从错误中学习和持续优化的能⼒,2025年,反思(Reflection)机制被越来越多地集成到 Agent 的⼤脑中。其核⼼思想是在 Agent 完成⼀次任务或⼀个重要步骤后,引⼊⼀个“反思”环节。

⼯作流程:

Agent 执⾏任务并⽣成⼀个初步结果。

Agent(或另⼀个“批判家”Agent)对这个结果进⾏评估,检查其是否完整、准确,是否存在逻辑错误或更好的解决⽅案。

基于反思得出的“改进意见”,Agent 会修改其计划或⾏动,重新执⾏任务,从⽽⽣成⼀个更⾼质量的最终结果。

这种“⾏动-反思-优化”的循环,使得 Agent 具备了自我迭代的能⼒,能够在没有⼈类监督的情况下不断提⾼其性能。以Reflexion和LATS(Language Agent Tree Search)为代表的框架,正是这⼀思想的杰出实践。

表3 主流 Agent 决策框架对比

在实践中,这些框架并非相互排斥,⽽是可以组合使用。例如,⼀个复杂的Agent 系统可以先用 Plan-and-Execute 制定宏观计划,在执⾏每个宏观步骤时使用 ReAct 框架来处理细节,并在关键节点后引⼊ Reflection 机制进⾏检查和优化,从⽽集各家之所长。

⾏动模块(Action):连接虚拟思考与物理现实

如果说⼤脑模块是运筹帷幄的“将军”,那么⾏动模块就是负责冲锋陷阵的“⼠兵”。它将⼤脑输出的抽象指令,转化为与外部世界交互的具体操作。AI Agent的能⼒边界,很⼤程度上取决于其⾏动模块所能调用的⼯具(Tools)的丰富度和可靠性。2025 年,⼯具调用已成为所有主流⼤语⾔模型的标配能⼒,也是区分⼀个 Agent 是“聊天机器⼈”还是“智能助理”的关键所在。

⼯具(Tool):Agent 能⼒的⽆限扩展

在 Agent 的语境下,“⼯具”是⼀个⼴义的概念,它泛指⼀切 Agent 可以调用来完成特定功能的外部函数、API 或服务。通过组合使用不同的⼯具,Agent 可以突破⼤语⾔模型自身的限制,完成复杂的多步骤任务。

常见的⼯具类型:

信息获取类:搜索引擎、数据库查询、API(如天⽓、股票、新闻)。

计算与分析类:计算器、代码解释器(用于执⾏ Python、SQL 等)、数据分析库(如 Pandas)。

内容⽣成类:图像⽣成(如 DALL-E 3、Midjourney)、语音合成(TTS)。

应用控制类:发送邮件、创建日历事件、操作 CRM 系统。

物理世界交互类:控制机器⼈、⽆⼈机、智能家居设备。

核⼼机制:函数调用(Function Calling / Tool Use)

函数调用是实现⼯具使用的核⼼技术。它允许 LLM 在⽣成⽂本的同时,输出⼀个结构化的 JSON 对象,该对象精确地描述了应该调用哪个函数以及传递什么参数。

⼯作流程:

定义⼯具:开发者以 JSON Schema 的格式,向 LLM 清晰地描述每个可用⼯具的名称、功能、参数列表、参数类型和必需参数。

LLM 决策:当收到用户指令时,LLM 会根据指令的意图和已定义的⼯具列表,自主判断是否需要以及需要调用哪个⼯具来完成任务。

⽣成调用参数:如果 LLM 决定调用⼯具,它不会直接执⾏,⽽是会⽣成⼀个包含函数名和参数的 JSON 对象。例如,对于指令“查询北京今天的天⽓”,LLM可能会⽣成 {“name”: “get weather”, “arguments”: {“city”: “北京”}}。

外部执⾏:Agent 的应用程序代码会解析这个 JSON 对象,在本地或通过 API实际执⾏ get_weather(city=“北京”)这个函数。

结果返回:应用程序将函数执⾏的结果(例如,{“temperature”: “25°C”,“condition”: “晴”})再次传递给 LLM。

最终响应:LLM 会结合原始指令和函数返回的结果,⽣成⼀段通顺的自然语⾔回答,例如:“北京今天的天⽓是晴天,温度为 25 摄⽒度。”

截⾄ 2025 年,⼏乎所有主流模型提供商,包括 OpenAI (GPT 系列)、Google (Gemini 系列)、Anthropic (Claude 系列)以及国内的通义千问、⽂⼼⼀⾔等,都已原⽣支持强⼤的函数调用功能,这极⼤地简化了 Agent 的开发流程。

  • 记忆模块(Memory):让 Agent 拥有历史感和个性

⼀个没有记忆的 Agent,就像⼀个只能活在当下的“⾦鱼”,每次交互都是⼀次全新的开始。它⽆法记住之前的对话,⽆法从过去的成功或失败中学习,更⽆法理解用户的个性和偏好。记忆模块的引⼊,赋予了 Agent 持续学习和进化的能⼒,是实现真正智能化和个性化服务的基⽯。Agent 的记忆系统通常被设计为两个部分:短期记忆和长期记忆。

短期记忆(Short-Term Memory)

短期记忆负责存储当前任务执⾏过程中的上下⽂信息,它的容量有限,且信息会随着任务的结束⽽很快消失。其主要形式是对话历史(Conversation History)。

实现⽅式:最直接的⽅式是利用 LLM 的上下⽂窗⼝(Context Window)。在每次与 LLM 交互时,将最近的⼏轮对话历史⼀起发送给模型。这样,LLM 就能理解当前对话的语境。

挑战:LLM 的上下⽂窗⼝长度是有限的(尽管 2025 年的模型如 Gemini 2.5已提供⾼达数百万 Token 的上下⽂窗⼝,但成本和延迟依然是挑战)。当对话过长时,必须采用⼀些策略来“压缩”历史,例如:

滑动窗⼝(Sliding Window):只保留最近的 N 轮对话。

摘要(Summarization):用⼀个专门的 LLM 调用来周期性地总结对话内容,用简短的摘要替代冗长的历史记录。

长期记忆(Long-Term Memory)

长期记忆负责存储那些需要跨任务、跨会话持久化保存的信息,例如用户的基本信息、偏好、过往的重要交互记录,以及 Agent 从任务中总结出的知识和经验。实现长期记忆的核⼼技术是检索增强⽣成(Retrieval-AugmentedGeneration,RAG)。

RAG 的⼯作原理:RAG 的本质是为 LLM 外挂⼀个知识库。它并不改变LLM 模型本身,⽽是在 LLM ⽣成回答之前,先从⼀个外部数据库中检索出与当前问题最相关的信息,并将这些信息作为额外的上下⽂(Context)⼀并提供给LLM,从⽽引导 LLM ⽣成更准确、更具事实性的回答。

RAG 在记忆模块中的应用:

存储:当需要记录⼀条长期记忆时(例如,用户提到“我喜欢喝拿铁”),Agent会将这条信息通过嵌⼊模型(Embedding Model)转换为⼀个⾼维向量,然后将其存储在向量数据库(Vector Database)中。

检索:当后续对话中出现相关线索时(例如,用户问“帮我推荐⼀款咖啡”),Agent会将这个问题同样转换为⼀个向量,然后在向量数据库中进⾏相似度搜索,找到最相关的记忆——“用户喜欢喝拿铁”。

增强:Agent 将检索到的记忆作为上下⽂,连同用户的问题⼀起发送给 LLM(例如,“用户问‘帮我推荐⼀款咖啡’,已知信息:用户喜欢喝拿铁”)。

⽣成:LLM 基于增强后的上下⽂,⽣成个性化的回答:“根据您的偏好,或许⼀杯经典的拿铁是个不错的选择。”

核⼼组件:向量数据库是实现 RAG 和长期记忆的关键基础设施。2025 年,市场上有多种成熟的向量数据库⽅案可供选择。

表4 主流向量数据库对比

通过结合短期记忆的即时上下⽂和长期记忆的深厚知识沉淀,AI Agent 构建起了⼀个动态、立体的记忆系统,使其每⼀次交互都比上⼀次更加“聪明”和“懂你”。

  • 多智能体系统(Multi-Agent System, MAS):从个体智能到集体智慧

单个 AI Agent 的能⼒再强,也终有其边界。当面对需要多种专业技能、涉及复杂协作流程的企业级任务时,依靠单⼀的“全能型”Agent 往往⼒不从⼼。于是,多智能体系统(Multi-Agent System, MAS)应运⽽⽣。MAS 的核⼼思想,是效仿⼈类社会的公司或团队组织,将⼀个宏⼤的任务分解,交由⼀组具有不同角⾊、不同能⼒的专用 Agent 协同完成,从⽽实现“1+1>2”的集体智能。

为什么需要多智能体系统

专业化分⼯(Specialization):正如⼈类团队中有产品经理、程序员、测试⼯程师⼀样,MAS 中的每个 Agent 都可以被设计为特定领域的专家(如数据分析专家、代码编写专家、报告撰写专家),从⽽提升每个环节的专业度和质量。

任务并⾏化(Parallelism):多个 Agent 可以同时处理任务的不同部分,极⼤地提⾼了复杂任务的执⾏效率。

可扩展性与鲁棒性(Scalability & Robustness):系统可以通过增加或替换Agent 来灵活地扩展其能⼒。同时,单个 Agent 的失败不会导致整个系统崩溃,其他 Agent 可以接管其⼯作,提⾼了系统的健壮性。

模拟复杂系统(Simulation):MAS 是模拟和研究复杂社会或经济系统的强⼤⼯具,例如模拟交通流量、供应链⽹络或⾦融市场。

  • MAS 核⼼架构模式

2025 年,业界已经探索出⼏种成熟的 MAS 架构模式,它们定义了 Agent 之间的协作关系和信息流。

层级式架构(Hierarchical):这是最常见的模式,类似传统的公司管理结构。系统中存在⼀个“管理者”(Manager)或“协调者”(Orchestrator)Agent,它负责理解最终目标、分解任务,并将⼦任务分配给下属的“⼯作者(” Worker)Agent。⼯作者 Agent 完成各自的任务后,将结果汇报给管理者,由管理者进⾏汇总和最终决策。AutoGen 框架是这种模式的典型代表。

平等式架构(Peer-to-Peer):在这种模式下,所有 Agent 的地位都是平等的,没有中⼼的管理者。它们通过直接通信进⾏协商、分配任务和共享信息,共同推进任务的完成。这种去中⼼化的结构灵活性⾼,适应性强,更接近于⼀个敏捷开发团队的协作⽅式。CrewAI 框架就采用了这种基于角⾊的平等协作模式。

混合式架构(Hybrid):该模式结合了以上两种模式的优点,在宏观上采用层级式进⾏任务分解和管理,在局部(例如⼀个特定的任务小组内)则采用平等式进⾏协作。这为构建⼤型、复杂的企业级 Agent 系统提供了灵活的组织⽅式。

Agent 间的“语⾔”:通信与协调

多智能体要实现⾼效协作,必须依赖⼀套标准化的“语⾔”和“规则”,即通信协议和协调机制。

通信协议:定义了 Agent 之间如何交换信息。早期的 MAS 通常在框架内部自定义通信⽅式,但随着⽣态的发展,标准化的互操作协议变得⾄关重要。2025年,以 Google、Anthropic 等巨头推动的 A2A (Agent-to-Agent)和 MCP (Model Context Protocol)等开放协议,旨在让不同公司、不同框架开发的 Agent 也能实现⽆缝沟通,构建⼀个真正的“智能体互联⽹”。

协调机制:定义了 Agent 如何分配任务、解决冲突和达成共识。常见的机制包括:

⿊板系统(Blackboard):所有 Agent 共享⼀个公共的数据区域(⿊板),它们可以从中读取任务、写⼊结果,通过这种间接⽅式进⾏通信和协调。LangGraph 就采用了类似状态图的机制,可以看作⼀种⼴义的⿊板系统。

合同⽹协议(Contract Net):⼀种基于市场机制的招标-投标模式。⼀个Agent 可以发布任务“招标”,其他 Agent 根据自身能⼒进⾏“投标”,最终由发布者选择最合适的 Agent 来“中标”并执⾏任务。

  • 主流 MAS 开发框架

多智能体系统是 AI Agent 技术从“个体英雄”⾛向“团队协作”的关键⼀步,它为解决真实世界的复杂商业问题提供了可⾏的、可扩展的技术路径。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

在这里插入图片描述

在这里插入图片描述

大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

img


2、大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

在这里插入图片描述

3、AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

img

4、大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

img

5、大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

img

适用人群

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐