Agent 的本质是以大语言模型(LLM)为核心大脑,通过四大核心组件的协同,实现「目标→规划→执行→反馈→优化」的自主闭环。你之前学的所有内容(CoT/ToT 思维链、反思机制、Prompt 工程、API 调用、多轮对话),都是这四大组件的底层技术支撑。

下面我会逐个拆解每个组件的定义、核心价值、技术实现、落地场景,完全贴合你的学习路径,最后给你可直接复用的通用架构图。

一、四大核心组件详解

1. 规划(Planning):Agent 的「大脑中枢」

核心定义

规划是 Agent 接收用户的模糊 / 复杂目标后,自动拆解任务、制定执行计划、动态调整策略的核心模块,解决大模型「一步错、步步错」的致命问题,让复杂目标可落地。

核心价值

普通大模型只能处理单轮、简单的指令,而 Agent 靠规划模块,能处理「帮我做一个完整的学生管理系统」这种多步骤、跨环节的复杂目标,无需人类逐步骤引导。

核心技术实现(完全对应你之前学的内容)

规划模块的技术,都是你已经学过的 Prompt 工程与推理框架,分为两大核心能力:

(1)目标拆解:把大目标拆成可执行的小步骤
  • 基础方案:CoT 思维链,让 LLM 把大目标拆成连续的执行步骤
  • 进阶方案:ToT 思维树,对复杂任务生成多个分支路径,评估后选最优路径
  • 工业级方案:任务分解 Prompt,强制 LLM 按固定格式拆解任务,输出结构化的执行计划
(2)动态规划与反思:根据执行结果调整计划
  • 核心框架:ReAct 框架(推理 + 行动),每执行一步就先思考「下一步该做什么」,再执行动作
  • 纠错能力:反思机制(Reflection),执行失败后自动复盘问题、修正计划、重新执行
  • 行业方案:Reflexion、RAP 等进阶反思框架,提升复杂任务的完成率

典型示例

用户目标:「帮我做一个学生成绩数据分析报告」规划模块的输出:

  1. 读取本地的 students.csv 文件,检查数据完整性
  2. 处理缺失值、异常值,清洗数据
  3. 执行描述性统计(平均分、最高分、最低分、及格率)
  4. 按班级、性别分组分析成绩差异
  5. 生成可视化图表(直方图、箱线图)
  6. 撰写完整的数据分析报告,输出 markdown 文件

2. 记忆(Memory):Agent 的「知识库 + 日记本」

核心定义

记忆是 Agent 负责存储、检索、管理全生命周期信息的模块,解决大模型「上下文窗口有限、跨会话失忆、无法积累经验」的问题,让 Agent 越用越贴合你的需求。

核心价值

普通大模型的记忆仅限于当前会话的上下文,对话结束就重置;而 Agent 的记忆模块,能长期存储你的偏好、历史任务经验、外部知识库,实现跨会话、跨任务的信息复用。

核心分类与技术实现(对应你学过的上下文管理、嵌入接口)

行业内通用的记忆分层,完全匹配你的学习内容:

表格

记忆类型 核心定义 存储载体 对应你学过的技术 典型用途
短时记忆(工作记忆) 存储当前任务的对话历史、执行步骤、中间结果,生命周期仅限当前任务会话 内存、会话上下文列表 多轮对话的 messages 列表、上下文管理 Prompt 记住当前任务的执行进度、用户的实时指令
长时记忆(永久记忆) 存储用户长期偏好、历史任务经验、外部知识库,生命周期永久 向量数据库(Chroma/Pinecone)、本地文件、数据库 文本嵌入接口、RAG 检索、Prompt 库 记住你的代码风格、学习进度、常用技术栈、私人知识库

核心操作

  1. 存储:把用户输入、执行结果、反思内容,转成嵌入向量,存入向量数据库
  2. 检索:执行新任务时,自动检索相关的历史信息、知识库内容,注入到 LLM 上下文
  3. 遗忘机制:自动过滤无效信息、压缩冗余内容,避免上下文窗口爆炸

典型示例

你之前让 Agent 写过 FastAPI 代码,指定了「代码要符合 PEP8 规范、带完整异常处理、中文注释」,记忆模块会把这个偏好永久存储。下次你再让它写代码时,会自动检索这个偏好,直接生成符合你要求的代码,无需你重复说明。

3. 工具调用(Tool Use):Agent 的「手脚与感官」

核心定义

工具调用是 Agent 突破大模型能力边界,调用外部系统、API、函数、软件来完成大模型本身做不到的事的核心模块,解决大模型「知识截止、无法获取实时信息、无法执行物理操作、无法对接外部系统」的问题。

核心价值

普通大模型只能输出文本,无法和外部世界交互;而 Agent 靠工具调用,能实现搜索、代码执行、文件读写、API 对接、数据库操作等能力,把文本输出变成真实的动作。

核心执行流程(对应你学过的 API 调用、函数调用)

  1. 工具定义:提前给 LLM 声明工具的名称、功能、入参出参规范(比如「天气查询工具,入参是城市名,出参是实时天气数据」)
  2. 工具选择:LLM 自主判断「当前步骤是否需要用工具、用哪个工具、需要传入什么参数」
  3. 工具执行:Agent 调用对应的 API / 函数,执行工具,获取返回结果
  4. 结果处理:把工具返回的结果整理后,注入到 LLM 上下文,继续后续规划

常用工具分类(你可以直接对接使用)

表格

工具类型 典型示例 核心用途
信息检索类 搜索引擎(Serper / 百度搜索)、RAG 知识库检索 获取实时信息、专业知识,解决大模型知识截止问题
代码执行类 PythonREPL、Jupyter 内核、代码沙箱 执行代码、测试代码、数据分析、数学计算
系统交互类 文件读写、终端命令执行、操作系统接口 操作本地文件、安装依赖、启动服务
API 对接类 天气 / 股票 API、飞书 / 企业微信 API、FastAPI 自定义接口 对接第三方服务、自动化办公
数据库类 MySQL、Redis、PostgreSQL 连接器 读写数据库、数据处理

典型示例

用户问:「今天北京朝阳的天气怎么样?适合出门吗?」

  1. LLM 判断:需要调用「天气查询工具」,入参是「北京朝阳」
  2. Agent 调用天气 API,获取实时数据:「晴,22℃,风力 2 级,空气质量优,非常适合出门」
  3. LLM 把结果整理成自然语言,返回给用户

4. 行动(Action / 执行):Agent 的「落地执行器」

核心定义

行动是 Agent 把规划的步骤、工具调用的能力,落地成具体动作、完成闭环执行、校验结果、反馈迭代的核心模块,是 Agent 和普通大模型最核心的区别 —— 普通大模型只输出「想法」,而 Agent 靠行动模块输出「结果」。

核心价值

规划模块只制定了「要做什么」,而行动模块负责「真的去做」,同时完成「执行→校验→反馈→优化」的闭环,无需人类干预就能完成整个任务。

核心执行流程(对应你学过的反思机制、自我纠错)

  1. 动作执行:严格按照规划模块的步骤,调用对应的工具,完成具体动作
  2. 结果校验:自动检查执行是否成功、是否达到预期目标(比如代码是否能运行、接口是否能正常访问)
  3. 反馈迭代:把执行结果反馈给规划模块和记忆模块 —— 执行成功就进入下一步;执行失败就触发反思机制,定位问题、修正计划、重新执行
  4. 终止判断:自动判断用户的最终目标是否完成,完成就终止任务,给用户交付最终结果

典型示例

规划模块制定了「写 FastAPI 学生管理接口→启动服务→测试接口」的步骤:

  1. 行动模块先调用代码生成工具,写出接口代码,保存到本地文件
  2. 校验代码语法是否正确,有没有语法错误
  3. 调用终端工具,安装依赖,启动 FastAPI 服务
  4. 校验服务是否正常启动,端口是否可用
  5. 调用接口测试工具,发送 POST/GET 请求,校验接口是否正常返回
  6. 所有步骤都成功,就给用户交付「代码文件 + 访问地址 + 测试报告」;如果启动失败,就把报错信息反馈给规划模块,重新修改代码,再执行

二、四大组件的协同闭环:Agent 完整执行流程

四大组件不是孤立的,而是围绕 LLM 核心大脑,形成完整的执行闭环,这就是 Agent 工作的完整流程:

  1. 目标输入:用户给 Agent 一个最终目标
  2. 记忆检索:记忆模块检索和目标相关的历史信息、知识库内容,注入 LLM 上下文
  3. 规划拆解:规划模块把目标拆解成可执行的步骤,制定执行计划
  4. 行动执行:行动模块按照计划,调用对应的工具,执行具体动作
  5. 结果校验:行动模块校验执行结果,判断是否成功
  6. 反馈迭代:执行成功就进入下一步;执行失败就触发反思,修正计划后重新执行
  7. 记忆存储:把本次任务的执行过程、结果、经验,存入记忆模块
  8. 结果交付:所有步骤完成后,给用户交付最终结果

三、Agent 通用架构图

我给你两个版本:文本极简版(一眼看懂核心结构) + Mermaid 可运行版(复制就能生成高清架构图)

1. 文本极简版架构图

plaintext

┌─────────────────────────────────────────────────────────────────┐
│                        用户(目标输入/结果接收)                  │
└───────────────────────────────┬─────────────────────────────────┘
                                │
┌───────────────────────────────▼─────────────────────────────────┐
│                    大语言模型 LLM(核心大脑)                    │
│  (负责逻辑推理、指令理解、工具选择、反思优化、内容生成)        │
└───┬───────────────┬───────────────┬───────────────┬────────────┘
    │               │               │               │
┌───▼───┐      ┌───▼───┐      ┌───▼───┐      ┌───▼───┐
│ 规划  │      │ 记忆  │      │工具调用│      │ 行动  │
│Planning│      │Memory │      │Tool Use│      │Action │
└───┬───┘      └───┬───┘      └───┬───┘      └───┬───┘
    │               │               │               │
    └───────────────┼───────────────┼───────────────┘
                    │               │
              ┌─────▼─────┐  ┌─────▼─────┐
              │ 向量数据库 │  │ 外部工具/API │
              └───────────┘  └─────────────┘

2. Mermaid 可运行高清架构图

你可以把下面的代码复制到 Mermaid 在线编辑器、语雀、飞书文档里,直接生成高清的架构图,支持自定义修改。

生成后的架构图,会清晰展示四大组件的位置、协同关系、底层支撑,完全符合工业级 Agent 的通用架构。

四、总结

  1. 四大组件的本质分工:规划模块决定「做什么」,行动模块决定「怎么做」,工具调用模块提供「能力支撑」,记忆模块提供「经验支撑」,四者围绕 LLM 大脑形成完整的自主闭环。
  2. 和普通大模型的核心区别:普通大模型只有 LLM 本身,只能被动问答;而 Agent 靠四大组件,能主动完成复杂任务,实现从「问答工具」到「执行助手」的跨越。
  3. 你的学习路径衔接:你之前学的 CoT/ToT、反思机制、Prompt 工程、API 调用、上下文管理,都是这四大组件的底层技术,现在你已经具备了从零搭建一个完整 Agent 的全部基础。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐