大模型 Agent 生态综述
大模型 Agent 生态综述
1. 大模型 Agent 概述
1.1 什么是 AI Agent
AI Agent(智能体)是一种能够自主感知环境、制定决策、调用工具并执行行动以完成目标的 AI 系统。与传统的“提问-回答”式大语言模型(LLM)不同,Agent 具备以下核心特征:
•感知(Perception):接收和理解外部输入,包括用户指令、环境状态、其他 Agent 的消息
•推理(Reasoning):利用 LLM 进行逻辑推理、任务规划和决策分析
•行动(Action):通过工具调用(Function Calling)与外部世界交互,如查询数据库、调用 API、操作文件等
•记忆(Memory):维护对话历史、任务状态和中间结果,支持多轮交互和长期任务
1.2 Agent 的核心架构
Agent 的运作通常遵循一个循环流程:用户提出任务 → Agent 理解并规划 → 选择并调用工具 → 观察工具返回结果 → 继续推理或返回最终答案。这个循环可以多次迭代,直到任务完成。
在这个架构中,Function Calling 和 ReAct 是两种核心的工具调用范式,MCP 和 A2A 是两种关键的通信协议,而 LangGraph 则是用于编排和管理 Agent 工作流的开发框架。
2. Function Calling(函数调用)
2.1 概念介绍
Function Calling(函数调用)是大语言模型原生支持的一种能力,允许模型根据用户输入自动生成结构化的函数调用请求。当模型判断需要调用外部工具时,会输出一个 JSON 格式的函数调用描述,包含函数名和参数,由应用程序执行实际调用并将结果返回给模型。
2.2 工作原理
Function Calling 的工作流程如下:
1.开发者向模型注册可用的函数列表(包含函数名、描述、参数 Schema)
2.用户发送查询,模型分析是否需要调用函数
3.模型返回结构化的函数调用请求(JSON 格式)
4.应用程序执行实际函数并获取结果
5.将函数结果作为新的消息发送给模型,模型生成最终回答
2.3 优势与局限
| 优势 | 局限 |
|---|---|
| 模型原生支持,集成简单 | 依赖模型对 Function Calling 的微调质量 |
| 结构化输出,解析稳定可靠 | 对模型参数量和训练有较高要求 |
| 多函数并行调用支持 | 推理过程不透明,难以追踪决策逻辑 |
| 响应速度快,适合简单任务 | 复杂多步任务的规划能力较弱 |
3. ReAct 框架(推理-行动)
3.1 概念介绍
ReAct(Reasoning + Acting)是一种经典的 Agent 架构范式,源自论文《ReAct: Synergizing Reasoning and Acting in Language Models》。它将推理(Reasoning)和行动(Acting)结合在一起,让模型在每一步都显式地展示其思考过程,然后决定下一步的行动。
3.2 工作原理
ReAct 采用“思考-行动-观察”的交替循环模式:
1.Thought:模型用自然语言表达其当前的思考和推理过程
2.Action:基于推理结果,选择并执行一个工具调用
3.Observation:接收工具返回的结果,作为下一轮推理的输入
4.循环直到模型判断任务完成,输出 Final Answer
3.3 优势与局限
| 优势 | 局限 |
|---|---|
| 推理过程完全透明,可解释性强 | 每步都需要一次完整的 LLM 调用,延迟较高 |
| 对模型要求较低,不依赖原生 FC 支持 | 输出格式为自然语言,解析可能不稳定 |
| 擅长多步推理、复杂规划任务 | 开放式任务中可能出现无限循环 |
| 灵活度高,可处理未预定义的工具 | 提示词设计对效果影响较大 |
4. Function Calling 与 ReAct 对比
两者并非互斥,而是不同的工具调用范式,适用于不同场景:
| 维度 | Function Calling | ReAct |
|---|---|---|
| 设计哲学 | 模型原生能力,结构化调用 | 提示词引导,自然语言推理 |
| 通信方式 | 模型输出 JSON 结构体 | 模型输出自然语言文本 |
| 推理透明度 | 低(只看到调用结果) | 高(每步都有 Thought) |
| 对模型要求 | 高(需微调支持 FC) | 低(通用 LLM 即可) |
| 响应速度 | 快(通常 1-2 轮) | 较慢(多轮循环) |
| 适用场景 | 单步/少量工具调用 | 复杂多步规划任务 |
| 典型框架 | OpenAI Tools、Claude Tools | LangChain ReAct Agent、HuggingGPT |
实际应用中,许多框架(如 LangChain)已经将两者融合:用 Function Calling 作为底层调用机制,用 ReAct 的推理逻辑作为上层规划策略。
5. MCP(模型上下文协议)
5.1 概念介绍
MCP(Model Context Protocol,模型上下文协议)是由 Anthropic 于 2024 年 11 月提出的开放协议,旨在标准化 AI 模型与外部数据源、工具和服务之间的连接方式。MCP 被称为“AI 时代的 HTTP”,它为 Agent 连接工具提供了统一的标准。
截至 2025 年底,MCP 已经发布多个版本规范,并由 Agentic AI Foundation 管理,已成为行业事实上的标准协议。
5.2 核心架构
MCP 采用客户端-服务器(Client-Server)架构,基于 JSON-RPC 2.0 通信:
•MCP Host:宿主应用(如 Claude Desktop、IDE 插件),维护与用户的交互和与 MCP Server 的连接
•MCP Client:协议客户端,与特定的 MCP Server 保持 1:1 连接
•MCP Server:轻量级服务,通过标准化接口向 Client 暴露工具、资源和提示模板
5.3 三大核心能力
| 能力 | 说明 | 示例 |
|---|---|---|
| Tools(工具) | Agent 可调用的函数 | 数据库查询、API 调用、代码执行 |
| Resources(资源) | 向 Agent 提供上下文数据 | 文件内容、数据库记录、内部文档 |
| Prompts(提示) | 可重用的提示模板 | 预设的分析流程、专家角色配置 |
5.4 应用场景
•IDE 集成:让 AI 编码助手访问本地文件、数据库和 API
•企业工具集成:统一接入内部系统(CRM、ERP、知识库)
•数据连接器:标准化数据源接入,如 PostgreSQL、Slack、GitHub 等 MCP Server
•Agent 工具扩展:为 Agent 动态添加新的工具能力,无需修改代码
6. LangGraph(Agent 编排框架)
6.1 概念介绍
LangGraph 是 LangChain 团队开发的用于构建有状态、多步骤 AI 应用的框架。它以图(Graph)的形式对 Agent 工作流进行建模,其中节点(Node)代表处理逻辑,边(Edge)代表控制流。
LangGraph 已于 2025 年达到 v1.0 里程碑,2026 年初发布 v1.1,提供了生产级的持久化状态管理和流式处理能力。
6.2 核心概念
| 概念 | 说明 |
|---|---|
| State(状态) | 共享的数据结构,在节点间传递和累积信息 |
| Node(节点) | 执行特定逻辑的函数,接收状态并返回更新后的状态 |
| Edge(边) | 定义节点之间的转换逻辑,可以是固定路径或条件分支 |
| Checkpoint(检查点) | 状态持久化点,支持中断恢复和时间旅行 |
| Command(命令) | v1.0+ 新增的节点间通信机制,替代传统的 return 方式 |
6.3 核心特性
•持久化状态:执行状态自动持久化,服务重启后可从中断点恢复
•时间旅行:支持回溯和重放任何状态点,便于调试和审计
•人机协作:interrupt() 函数支持在执行过程中暂停等待用户确认
•流式处理:v1.1 引入统一的 v2 流式格式,支持实时输出流
•多 Agent 编排:支持构建多个 Agent 协作的复杂工作流
6.4 应用场景
•多步骤工作流:如文档分析、数据处理管道、自动化流程
•多 Agent 协作:如 Supervisor 模式、层级规划、流式协作
•需要状态管理的对话系统:如客服机器人、项目管理助手
7. A2A(Agent-to-Agent 协议)
7.1 概念介绍
A2A(Agent-to-Agent)是由 Google 于 2025 年 4 月发布的开源协议(Apache-2.0 许可),现由 Linux Foundation 管理。它定义了独立 AI Agent 之间如何发现、认证和交互的标准方式,无论它们使用何种底层实现或托管平台。
7.2 核心组件
| 组件 | 说明 |
|---|---|
| AgentCard | 声明式元数据对象,描述 Agent 的能力、技能和接口,类似于 API 文档 |
| Task | 代表一个需要执行的工作单元,包含状态和历史记录 |
| Message/Part | 结构化消息格式,支持文本、文件、数据等多种类型 |
7.3 核心能力
•服务发现:Agent 通过 AgentCard 自动发现其他 Agent 的能力和接口
•任务委派:支持将子任务委派给其他 Agent 并跟踪执行状态
•流式通信:支持 SSE(Server-Sent Events)实时推送任务更新
•身份认证:内置身份验证和授权机制,确保跨组织安全交互
•状态迁移历史:可选暴露任务的状态变更历史,便于审计和调试
7.4 应用场景
•多 Agent 协作:不同团队开发的 Agent 互相配合完成复杂任务
•跨组织 Agent 交互:企业间的 Agent 安全协作
•Agent 市场生态:构建可以发现和调用彼此服务的 Agent 网络
8. MCP 与 A2A 对比
MCP 和 A2A 并非竞争关系,而是互补的两层协议,共同构成了 Agent 生态的通信基础设施:
| 维度 | MCP | A2A |
|---|---|---|
| 发起方 | Anthropic | Google(Linux Foundation) |
| 核心问题 | Agent 如何连接工具? | Agent 如何与其他 Agent 对话? |
| 通信方向 | Agent → Tool(单向) | Agent ↔ Agent(双向) |
| 通信协议 | JSON-RPC 2.0 | 结构化消息(HTTP/SSE) |
| 状态管理 | 基于上下文的状态追踪 | 基于任务的状态管理 |
| 发现机制 | 工具描述(Tool Descriptions) | AgentCard(声明式元数据) |
| 定位 | 垂直集成层(Agent 连接工具) | 水平协作层(Agent 连接 Agent) |
简单来说:MCP 解决的是“Agent 如何使用工具”的问题,A2A 解决的是“Agent 如何与其他 Agent 协作”的问题。在一个完整的多 Agent 系统中,两者通常会同时使用。
9. 生态全景总结
9.1 技术协议栈
当前大模型 Agent 生态可以理解为一个分层的协议栈:
| 层级 | 技术 | 作用 |
|---|---|---|
| 底层调用范式 | Function Calling / ReAct | Agent 与 LLM 交互的基本方式 |
| 工具集成层 | MCP | Agent 连接外部工具和数据源的标准 |
| Agent 编排层 | LangGraph | 构建和管理复杂 Agent 工作流的框架 |
| Agent 协作层 | A2A | 多 Agent 之间的标准化通信协议 |
9.2 实际应用中的组合
在实际项目中,这些技术通常是组合使用的:
- 单 Agent 场景:LLM + Function Calling/ReAct + MCP 工具连接
- 复杂工作流:LangGraph 编排多个 Agent 节点 + MCP 工具集成
- 多 Agent 协作:LangGraph 编排 + A2A 协作 + MCP 工具连接
- 跨组织网络:A2A 实现不同组织的 Agent 互联互通
9.3 发展趋势
- 协议标准化:MCP 和 A2A 正在成为行业事实标准,Gartner 预测,到 2026 年底,40% 的企业应用将嵌入 AI Agent。
- 工具调用融合:Function Calling 和 ReAct 的融合趋势明显,框架层面统一封装。
- 多 Agent 网络:从单个 Agent 向 Agent 网络演进,A2A 为跨组织协作提供基础。
- 安全与治理:随着 Agent 自主性增强,安全、隐私和治理机制成为重点关注领域。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)