Agent到底是个啥？

BCSJ666000

190人浏览 · 2026-04-24 19:10:49

BCSJ666000 · 2026-04-24 19:10:49 发布

到底什么是 Agent？—— 拆解 AI 系统的“能动性”本质

最近，“Agent”一词在 AI 领域高频出现，常被误读为“更强的 ChatGPT”。
但事实是：Agent ≠ 对话模型。它代表的是一种具备自主性、目标导向与执行能力的系统级架构。

简单定义：

Agent 是以大语言模型（LLM）为推理中枢，通过工具调用、任务规划与记忆机制，实现“感知 → 决策 → 执行 → 反馈”闭环的智能体系统。

它不再是“被动应答”，而是主动完成目标。
下面，我们从工程实践角度，拆解 Agent 的四大核心能力。

1. 推理中枢：LLM 作为“大脑”，而非“话筒”

LLM 在 Agent 中扮演的是策略制定者，而非信息响应器。

它需理解任务意图、评估当前状态、生成下一步动作；
其输出不是最终答案，而是动作指令（如：调用 search_api(query="2026年Q2 AI芯片趋势")）；
关键区别：普通对话模型的回答是终点；Agent 的 LLM 输出是路径规划的中间步骤。

✅ 示例：

用户指令：“订一张明天去上海的机票”
Agent 的 LLM 不会直接回复“已为您订票”，而是生成执行序列：

search_flights(departure="北京", destination="上海", date="2026-04-25")

filter_cheapest(results)

book_ticket(flight_id="CA123")
—— 每一步都依赖上下文与工具反馈动态调整

2. 工具调用：决策与执行的解耦

这是 Agent 区别于传统对话模型的核心分水岭。

层级	职责	技术实现
决策层（LLM）	判断需要什么工具、生成参数（JSON Schema）、验证调用合理性	Prompt Engineering + Function Calling
执行层（Executor）	实际调用外部服务（API / DB / CLI / 代码沙箱）	代码封装 + 错误重试 + 超时控制

本质：将“思考”与“动手”分离，使 LLM 专注于策略，而非细节实现。

✅ 典型流程：

用户输入 → LLM 生成 tool_call → Executor 执行 get_weather(city="北京")  
→ 返回结果 → LLM 消化结果 → 决定下一步（如：建议带伞 / 推荐室内活动）

⚠️ 注意：工具调用需严格遵循 Schema 定义，否则易引发幻觉或参数错误。工业级 Agent 通常搭配 Tool Guardrail（工具守卫）机制做校验。

3. 任务规划：从线性执行到树状探索

复杂任务无法靠单步完成。Agent 需具备分步规划与动态纠错能力。

主流实现机制包括：

CoT（Chain-of-Thought）：显式展开推理路径，例如：
“要写技术文章 → 需先收集资料 → 再提炼观点 → 最后组织语言”
ToT（Tree-of-Thought）：在关键节点生成多个可行路径，进行并行探索与评估（如：用不同Prompt调用LLM生成3版大纲，选最优者继续）。
Self-Reflection：执行后对结果进行后验评估（如：“生成的代码无法编译，说明依赖未正确声明 → 需补充环境信息”），触发重试或回退。

工程意义：

规划能力决定了 Agent 能否处理 非原子性任务（如“帮客户部署一套可运行的微服务系统”），这是纯对话模型永远无法做到的。

4. 记忆系统：状态持久化与个性化延续

LLM 本身无状态，而 Agent 必须具备记忆能力，否则无法完成多步协作任务。

类型	作用	实现方式
短期记忆（Session Memory）	保存当前任务执行中的中间状态（如：已查到的航班列表、已计算的折扣价）	上下文窗口 + 摘要压缩（如使用 `summarize_context` 提取关键事实）
长期记忆（Vector Memory）	存储用户偏好、历史行为、领域知识，支持跨会话复用	向量数据库（如 Chroma, Milvus）+ 语义检索（RAG）

✅ 实际价值：

避免“每轮对话从零开始”——用户说“按上次的配置再部署一次”，Agent 能精准复现；
支持个性化：若用户多次查询 Python 相关内容，Agent 会默认优先检索 Python 文档，而非泛泛而谈。

总结：Agent 是一个“系统”，不是“模型”

组件	角色	类比
LLM	策略大脑	军事指挥官
Tool Executor	执行单元	作战部队
Planner	任务分解器	参谋部
Memory	情报与档案系统	作战数据库