AI Agent:智能体
一句话解释
AI Agent 是能够围绕目标感知环境、规划步骤、调用工具、执行动作、观察结果并持续调整行为的 AI 系统。
如果普通聊天模型更像“回答问题的人”,Agent 则更像“带着工具做事的人”:它不只生成一段答案,还会把任务拆开,查资料、写代码、调用 API、检查结果,然后继续下一步。
为什么最近变火
Agent 不是一个新词。在传统 AI 教科书中,智能体通常被定义为能够感知环境并对环境采取行动的系统。机器人、游戏 AI、自动驾驶系统、推荐策略、强化学习智能体,都可以被放进广义 Agent 框架中。
但 2022 年之后,“AI Agent”在大模型语境中重新变火,原因是 LLM 带来了一个新的通用控制层:自然语言模型不只会回答问题,还能读指令、写计划、解释工具说明、生成函数参数、根据反馈修正行为。这让过去需要大量手写逻辑的自动化流程,开始可以由模型动态组织。
几个关键节点推动了这一轮热度:
- 2022 年,ReAct 提出把 reasoning 和 acting 结合,让语言模型边推理边调用外部工具。
- 2023 年,Toolformer 展示了模型学习调用工具的思路。
- 2023 年,AutoGPT、BabyAGI 等项目让“自主任务循环”的概念出圈,虽然实际可靠性有限。
- 2023 年,Generative Agents 展示了由 LLM 驱动的模拟角色如何存储记忆、反思并计划行为。
- 2023 年,Voyager 展示了 LLM Agent 在 Minecraft 中持续探索、积累技能的可能。
- 2024 年,Claude computer use、SWE-agent、Devin 等让“电脑操作 Agent”和“软件工程 Agent”成为焦点。
- 2024 年底,Anthropic 的 Building effective agents 系统区分了 workflow 和 agent,强调可控设计。
- 2025 年,OpenAI 推出 Responses API、Agents SDK、Operator、Deep Research、ChatGPT agent 等产品和工具,使 Agent 从概念走向平台能力。
Agent 之所以重要,是因为大模型应用正在从“生成内容”走向“完成任务”。写一段文字、回答一个问题,只是单步能力;而真实工作往往需要多步执行、外部系统、错误恢复、权限控制和结果验证。
它解决了什么问题
- 单次问答不够:复杂任务需要拆解成多步,而不是一次回答完。
- 模型无法直接行动:LLM 只能生成文本,Agent 通过工具调用连接外部世界。
- 上下文会变化:执行过程中会产生新信息,Agent 需要根据观察结果调整计划。
- 人工操作重复:查资料、整理表格、写脚本、提交表单等流程可以部分自动化。
- 工具太多太碎:Agent 可以用自然语言作为统一调度层,把搜索、数据库、代码、浏览器、文件系统连接起来。
- 复杂任务需要验证:Agent 可以运行测试、检查结果、重试失败步骤。
- 个性化工作流:Agent 可以结合用户偏好、历史记忆和业务上下文执行任务。
不过,Agent 不是“把模型放进循环里就能自动完成一切”。越自主的系统,越需要约束、评估、权限、日志和人工确认。
核心概念
1. 目标
Agent 必须围绕目标工作。目标可以很简单,例如“总结这篇文章”;也可以很复杂,例如“调研 5 个竞品,生成对比报告,并列出产品建议”。
目标决定 Agent 要规划什么、调用什么工具、何时停止。如果目标模糊,Agent 可能做出看似努力但方向错误的动作。
2. 环境
环境是 Agent 所处的世界。它可以是网页、代码仓库、数据库、文件系统、聊天窗口、游戏世界、机器人所在空间,也可以是企业业务系统。
传统强化学习中,环境会返回状态和奖励;LLM Agent 中,环境常常返回工具结果、网页内容、命令输出、测试结果、用户反馈或错误信息。
3. 工具
工具让 Agent 能够行动。常见工具包括:
| 工具类型 | 例子 | 作用 |
|---|---|---|
| 搜索工具 | Web Search、企业知识库 | 获取外部信息 |
| 文件工具 | 读写文件、解析 PDF | 操作文档和代码 |
| 代码工具 | Python、Shell、测试框架 | 计算、验证、执行脚本 |
| API 工具 | 日历、邮箱、CRM、数据库 | 操作业务系统 |
| 浏览器工具 | 打开网页、点击按钮、填写表单 | 使用图形界面 |
| 多模态工具 | OCR、图像理解、语音识别 | 感知非文本信息 |
工具是 Agent 和现实世界之间的接口。没有工具的 Agent,通常只能“想”和“说”;有工具的 Agent,才可以“查”“算”“改”“发”“提交”。
4. 记忆
记忆让 Agent 能跨步骤保留信息。它可以分成几类:
- 当前任务上下文:这次任务已经做了什么。
- 短期工作记忆:当前计划、临时结果、待办项。
- 长期记忆:用户偏好、项目背景、历史经验。
- 外部知识记忆:RAG 知识库、文档索引、数据库记录。
记忆很有用,但也有风险。错误记忆会污染后续决策,隐私信息也需要严格管理。
5. 规划
规划是把目标拆成步骤。简单任务可能不需要显式计划,复杂任务则需要先判断路径:
目标:写一份竞品分析报告
计划:
1. 明确竞品列表
2. 搜集每个竞品的核心功能和价格
3. 对比目标用户和差异点
4. 生成表格
5. 写结论和建议
6. 标注来源
计划不是一次写完就不变。Agent 执行中可能发现资料不足、工具失败、用户目标需要澄清,于是要重新规划。
6. 观察与反馈
Agent 的关键不只是“执行”,还要观察执行结果。例如运行测试后失败了,Agent 要读错误日志;搜索结果不相关,Agent 要换关键词;用户说方向不对,Agent 要调整。
这形成一个循环:

这也是 Agent 和普通自动化脚本的区别之一。脚本通常按固定流程执行;Agent 更强调根据环境反馈动态调整。
工作原理
一个典型 LLM Agent 可以理解为“模型 + 工具 + 记忆 + 控制循环”。
用户提出目标后,系统把目标、可用工具、约束条件、历史上下文交给模型。模型决定下一步行动:回答、检索、调用函数、执行代码、打开网页、请求用户确认,或结束任务。
工具返回结果后,模型把结果纳入上下文,再决定下一步。

更成熟的 Agent 系统通常会加入:
- 工具 schema:定义工具名称、参数、返回值和限制。
- 状态管理:记录任务进度、已完成步骤和失败原因。
- 权限控制:哪些工具可用,哪些操作需要用户确认。
- 计划器:负责拆解任务和安排顺序。
- 执行器:负责调用工具并处理错误。
- 评估器:检查结果是否满足目标。
- 日志系统:记录每一步操作,便于审计和调试。
Agent 和 Workflow 的差别
Anthropic 在 Building effective agents 中强调一个重要区分:workflow 和 agent 不完全一样。
Workflow 是由开发者预先编排好的流程,模型可能参与其中,但步骤结构相对固定。例如:
用户上传文档 -> 模型总结 -> 检查敏感信息 -> 生成报告
Agent 则更动态。系统给模型目标、工具和环境,模型自己决定如何推进任务、调用哪些工具、什么时候停止。
| 类型 | 特征 | 优点 | 风险 |
|---|---|---|---|
| Workflow | 流程固定,步骤可控 | 稳定、易审计、适合生产 | 灵活性较低 |
| Agent | 模型动态决定行动 | 灵活、适合开放任务 | 不稳定、难预测、需强约束 |
真实产品常常混合二者:外层是可控 workflow,内部某些步骤交给 Agent 灵活处理。
判断一个系统是不是 Agent
不要把“调用了大模型”就等同于 Agent。一个系统越接近 Agent,通常越具备下面几个特征:
| 维度 | 普通 LLM 应用 | Agent 化系统 |
|---|---|---|
| 目标 | 用户提出一个问题,模型回答 | 用户给出目标,系统自己拆解任务 |
| 行动 | 主要生成文本 | 会调用工具、读写文件、访问外部环境 |
| 状态 | 多数状态存在于对话上下文 | 有任务状态、步骤日志、工具结果和中间产物 |
| 反馈 | 用户看答案后再追问 | 系统会根据工具结果或错误继续调整 |
| 停止条件 | 一次回答结束 | 需要判断任务完成、失败或等待人工确认 |
这个判断很重要,因为 Agent 化程度越高,工程要求越高。只做一个“帮我总结文档”的按钮,可能不需要 Agent;让系统连续搜索资料、写代码、运行测试、修复失败、提交结果,就必须考虑权限、沙箱、重试、日志、回滚和人工审批。
典型应用场景
1. 研究和资料整理 Agent
研究 Agent 可以围绕一个问题搜索资料、阅读网页、整理来源、对比观点、生成报告。
例如 OpenAI Deep Research 这类产品,目标就是让模型在较长时间内自主浏览和综合大量信息,输出带引用的研究报告。
这类 Agent 的关键是来源质量和引用准确性。它不能只写得像研究报告,还要让用户能追溯证据。
2. 编程 Agent
编程 Agent 可以阅读代码库、定位 bug、修改文件、运行测试、解释错误、提交补丁。
SWE-agent、Devin、Codex 类工具都属于这个方向。相比普通代码补全,编程 Agent 更像一个能在仓库里行动的助手。
它需要处理:
- 文件定位;
- 代码理解;
- 修改计划;
- 运行测试;
- 失败重试;
- 避免破坏用户已有改动;
- 生成清晰变更说明。
3. 浏览器和电脑操作 Agent
这类 Agent 能打开网页、点击按钮、填写表单、下载文件、阅读截图、操作桌面应用。
Claude computer use、OpenAI Operator、ChatGPT agent 都体现了这个方向。它们让模型从“理解网页内容”进一步走向“使用网页完成任务”。
风险也更高。因为电脑操作可能涉及支付、隐私、发消息、删除文件、提交表单等真实后果,所以必须有权限边界和人工确认。
4. 办公自动化 Agent
办公 Agent 可以帮用户整理日程、写邮件、生成会议纪要、更新表格、同步任务、查询知识库。
这类场景通常不需要完全自主,反而需要安全可控。比如“帮我草拟邮件”可以自动完成,但“发送给所有客户”可能需要用户确认。
5. 数据分析 Agent
数据分析 Agent 可以读取数据表、写 SQL、运行 Python、生成图表、解释趋势。
它的优势是把自然语言问题转成分析步骤。但它也容易犯错,例如误解字段含义、写错 SQL、忽略异常值。因此需要代码执行结果、数据校验和人类审查。
6. 游戏、机器人和具身 Agent
Voyager 在 Minecraft 中展示了一个 LLM Agent 如何探索环境、积累技能并持续改进。机器人 Agent 则需要把语言目标、视觉感知、动作规划和物理控制结合起来。
这类 Agent 更接近传统 AI 中的“感知环境并行动”的定义。难点是现实环境不确定,动作有物理后果,错误成本更高。
和其他概念的区别
| 概念 | 解决的问题 | 和 Agent 的关系 |
|---|---|---|
| LLM | 生成和理解语言 | Agent 通常以 LLM 作为决策核心 |
| RAG | 给模型补充外部知识 | Agent 可以把 RAG 当检索工具 |
| Function Calling | 让模型结构化调用函数 | Agent 执行动作的重要机制 |
| Tool Use | 使用外部工具 | Agent 的核心能力之一 |
| Workflow | 固定流程自动化 | Agent 更动态,workflow 更可控 |
| MCP | 标准化连接工具和数据源 | Agent 可通过 MCP 使用外部系统 |
| Skill | 可复用能力包 | Agent 可加载技能来完成特定任务 |
| Prompt Engineering | 优化单次模型输入 | Agent 需要更系统的上下文和状态管理 |
| Context Engineering | 组织指令、记忆、工具结果 | Agent 的基础工程能力 |
Agent 和聊天机器人有什么区别
聊天机器人主要围绕对话回答。它可以很有帮助,但通常不主动执行多步任务。
Agent 更强调目标、行动和反馈循环。它会在任务中调用工具、观察结果、更新计划,直到完成或请求用户介入。
简单对比:
| 类型 | 用户说 | 系统做 |
|---|---|---|
| 聊天机器人 | “解释一下 RAG” | 生成解释 |
| Agent | “帮我整理 RAG 资料并生成博客草稿” | 搜索资料、阅读来源、写草稿、检查引用 |
一个简单例子
假设用户说:
帮我查一下我们项目里登录失败的原因,并尽量修复。
一个编程 Agent 可能这样工作:

这里的重点是:Agent 不是一次性回答“可能是密码错误”。它会进入代码环境,搜索、运行、观察、修改、验证。这就是 Agent 从“语言助手”走向“任务执行者”的关键变化。
常见误解
误解 1:Agent 越自主越好
不一定。自主性越高,风险也越高。一个能自动搜索资料的 Agent 风险较低;一个能自动发邮件、转账、删除文件、修改生产数据库的 Agent 风险就很高。
好的 Agent 设计不是追求无限自主,而是让系统在合适的地方自主,在高风险操作前请求确认。
误解 2:Agent 就是一个无限循环的 prompt
早期 demo 常把 Agent 做成“模型计划 -> 执行 -> 继续计划”的循环。但生产级 Agent 需要状态管理、工具约束、错误处理、预算限制、权限控制和停止条件。
没有停止条件的 Agent 可能反复搜索、重复尝试、浪费成本,甚至执行错误操作。
误解 3:有了 Agent 就不需要 Workflow
恰恰相反,很多可靠系统需要 workflow。固定流程适合可控业务,Agent 适合开放步骤。成熟应用通常会把 Agent 放在明确边界内,而不是让模型自由决定一切。
误解 4:Agent 会自然学会使用任何工具
不会。工具说明、参数设计、错误反馈、示例、权限和返回格式都会影响模型使用效果。一个接口设计混乱的工具,会让 Agent 频繁误用。
这也是 MCP、Skill、Function Calling 等概念变得重要的原因:它们都在试图让模型更可靠地使用外部能力。
误解 5:Agent 只要模型更强就会自动可靠
模型能力很重要,但可靠 Agent 还依赖系统工程。包括:
- 工具是否安全;
- 日志是否可审计;
- 任务是否有评估;
- 错误是否可恢复;
- 是否能防止越权;
- 是否能处理用户中途修改目标;
- 是否能在不确定时暂停并询问。
Agent 是模型能力和工程边界共同塑造的系统。
未来趋势
1. 从聊天入口到任务入口
未来很多 AI 产品不再只是聊天框,而是任务入口。用户说“帮我完成这件事”,系统会自动组织步骤、调用工具、生成结果。
聊天仍然存在,但它会变成任务控制台,而不只是问答界面。
2. Agentic Coding
编程是 Agent 最适合落地的领域之一,因为代码环境可执行、可测试、可回滚。未来编程 Agent 会更擅长:
- 跨文件修改;
- 自动补测试;
- 阅读报错日志;
- 迁移 API;
- 修复 CI;
- 生成 PR;
- 与人类开发者协作。
真正的挑战不是写出一段代码,而是在复杂代码库里做安全、局部、可验证的修改。
3. 多模态 Agent
Agent 会越来越多地使用视觉、语音和屏幕理解能力。它可以看用户界面、听会议、读图表、理解截图,再执行操作。
这会推动浏览器 Agent、电脑操作 Agent、机器人 Agent 和办公 Agent 的融合。
4. 标准化工具生态
Agent 要可靠使用外部世界,需要标准化接口。Function Calling、MCP、OpenAPI、插件、Skill 等都是这条路上的不同形态。
未来开发者可能不再只写“给人用的 API”,还要写“给 Agent 用的工具说明、权限模型和安全边界”。
5. 可评估、可审计、可控的 Agent
Agent 走向生产,评估会比 demo 更重要。系统需要回答:
- Agent 是否完成了目标?
- 过程中是否调用了正确工具?
- 有没有访问不该访问的数据?
- 是否产生不可逆操作?
- 失败时能否恢复?
- 结果是否有证据和测试支持?
未来 Agent 平台会更重视日志、回放、沙箱、权限、审批、成本控制和任务级评估。
小结
- AI Agent 是能够围绕目标感知环境、规划步骤、调用工具、执行动作并根据反馈调整的系统。
- Agent 是老概念,但 LLM 让它在 2022 年之后重新变热。
- LLM Agent 的关键能力包括目标理解、工具使用、记忆、规划、观察和反馈循环。
- ReAct、Toolformer、Reflexion、AutoGPT、Generative Agents、Voyager 等推动了现代 Agent 研究和产品想象。
- Agent 和 workflow 不同:workflow 更固定可控,Agent 更动态灵活。
- 真实应用常把二者结合,用 workflow 提供边界,用 Agent 处理开放步骤。
- 典型应用包括研究助手、编程 Agent、浏览器/电脑操作 Agent、办公自动化、数据分析和机器人。
- Agent 最大风险来自过度自主、工具误用、权限失控、错误累积和缺乏验证。
- 未来 Agent 会向任务入口、Agentic Coding、多模态操作、标准化工具生态和可审计生产系统发展。
参考资料
- Stuart Russell and Peter Norvig, Artificial Intelligence: A Modern Approach, Intelligent Agents: https://aima.cs.berkeley.edu/
- Shunyu Yao et al., ReAct: Synergizing Reasoning and Acting in Language Models, 2022: https://arxiv.org/abs/2210.03629
- E. Karpas et al., MRKL Systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning, 2022: https://arxiv.org/abs/2205.00445
- Timo Schick et al., Toolformer: Language Models Can Teach Themselves to Use Tools, 2023: https://arxiv.org/abs/2302.04761
- Noah Shinn et al., Reflexion: Language Agents with Verbal Reinforcement Learning, 2023: https://arxiv.org/abs/2303.11366
- Joon Sung Park et al., Generative Agents: Interactive Simulacra of Human Behavior, 2023: https://arxiv.org/abs/2304.03442
- Guanzhi Wang et al., Voyager: An Open-Ended Embodied Agent with Large Language Models, 2023: https://arxiv.org/abs/2305.16291
- AutoGPT GitHub Repository: https://github.com/Significant-Gravitas/AutoGPT
- BabyAGI GitHub Repository: https://github.com/yoheinakajima/babyagi
- John Yang et al., SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, 2024: https://arxiv.org/abs/2405.15793
- Carlos E. Jimenez et al., SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, 2023: https://arxiv.org/abs/2310.06770
- Anthropic, Building effective agents, 2024: https://www.anthropic.com/research/building-effective-agents
- Anthropic, Computer use, 2024: https://www.anthropic.com/news/3-5-models-and-computer-use
- OpenAI, New tools for building agents, 2025: https://openai.com/index/new-tools-for-building-agents/
- OpenAI, Introducing Operator, 2025: https://openai.com/index/introducing-operator/
- OpenAI, Introducing deep research, 2025: https://openai.com/index/introducing-deep-research/
- OpenAI, Introducing ChatGPT agent, 2025: https://openai.com/index/introducing-chatgpt-agent/
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)