大模型 Agent 生态综述

1. 大模型 Agent 概述

1.1 什么是 AI Agent

AI Agent(智能体)是一种能够自主感知环境、制定决策、调用工具并执行行动以完成目标的 AI 系统。与传统的“提问-回答”式大语言模型(LLM)不同,Agent 具备以下核心特征:
•感知(Perception):接收和理解外部输入,包括用户指令、环境状态、其他 Agent 的消息
•推理(Reasoning):利用 LLM 进行逻辑推理、任务规划和决策分析
•行动(Action):通过工具调用(Function Calling)与外部世界交互,如查询数据库、调用 API、操作文件等
•记忆(Memory):维护对话历史、任务状态和中间结果,支持多轮交互和长期任务
1.2 Agent 的核心架构
Agent 的运作通常遵循一个循环流程:用户提出任务 → Agent 理解并规划 → 选择并调用工具 → 观察工具返回结果 → 继续推理或返回最终答案。这个循环可以多次迭代,直到任务完成。
在这个架构中,Function Calling 和 ReAct 是两种核心的工具调用范式,MCP 和 A2A 是两种关键的通信协议,而 LangGraph 则是用于编排和管理 Agent 工作流的开发框架。

2. Function Calling(函数调用)

2.1 概念介绍
Function Calling(函数调用)是大语言模型原生支持的一种能力,允许模型根据用户输入自动生成结构化的函数调用请求。当模型判断需要调用外部工具时,会输出一个 JSON 格式的函数调用描述,包含函数名和参数,由应用程序执行实际调用并将结果返回给模型。
2.2 工作原理
Function Calling 的工作流程如下:
1.开发者向模型注册可用的函数列表(包含函数名、描述、参数 Schema)
2.用户发送查询,模型分析是否需要调用函数
3.模型返回结构化的函数调用请求(JSON 格式)
4.应用程序执行实际函数并获取结果
5.将函数结果作为新的消息发送给模型,模型生成最终回答
2.3 优势与局限

优势 局限
模型原生支持,集成简单 依赖模型对 Function Calling 的微调质量
结构化输出,解析稳定可靠 对模型参数量和训练有较高要求
多函数并行调用支持 推理过程不透明,难以追踪决策逻辑
响应速度快,适合简单任务 复杂多步任务的规划能力较弱

3. ReAct 框架(推理-行动)

3.1 概念介绍
ReAct(Reasoning + Acting)是一种经典的 Agent 架构范式,源自论文《ReAct: Synergizing Reasoning and Acting in Language Models》。它将推理(Reasoning)和行动(Acting)结合在一起,让模型在每一步都显式地展示其思考过程,然后决定下一步的行动。
3.2 工作原理
ReAct 采用“思考-行动-观察”的交替循环模式:
1.Thought:模型用自然语言表达其当前的思考和推理过程
2.Action:基于推理结果,选择并执行一个工具调用
3.Observation:接收工具返回的结果,作为下一轮推理的输入
4.循环直到模型判断任务完成,输出 Final Answer
3.3 优势与局限

优势 局限
推理过程完全透明,可解释性强 每步都需要一次完整的 LLM 调用,延迟较高
对模型要求较低,不依赖原生 FC 支持 输出格式为自然语言,解析可能不稳定
擅长多步推理、复杂规划任务 开放式任务中可能出现无限循环
灵活度高,可处理未预定义的工具 提示词设计对效果影响较大

4. Function Calling 与 ReAct 对比

两者并非互斥,而是不同的工具调用范式,适用于不同场景:

维度 Function Calling ReAct
设计哲学 模型原生能力,结构化调用 提示词引导,自然语言推理
通信方式 模型输出 JSON 结构体 模型输出自然语言文本
推理透明度 低(只看到调用结果) 高(每步都有 Thought)
对模型要求 高(需微调支持 FC) 低(通用 LLM 即可)
响应速度 快(通常 1-2 轮) 较慢(多轮循环)
适用场景 单步/少量工具调用 复杂多步规划任务
典型框架 OpenAI Tools、Claude Tools LangChain ReAct Agent、HuggingGPT

实际应用中,许多框架(如 LangChain)已经将两者融合:用 Function Calling 作为底层调用机制,用 ReAct 的推理逻辑作为上层规划策略。

5. MCP(模型上下文协议)

5.1 概念介绍
MCP(Model Context Protocol,模型上下文协议)是由 Anthropic 于 2024 年 11 月提出的开放协议,旨在标准化 AI 模型与外部数据源、工具和服务之间的连接方式。MCP 被称为“AI 时代的 HTTP”,它为 Agent 连接工具提供了统一的标准。
截至 2025 年底,MCP 已经发布多个版本规范,并由 Agentic AI Foundation 管理,已成为行业事实上的标准协议。
5.2 核心架构
MCP 采用客户端-服务器(Client-Server)架构,基于 JSON-RPC 2.0 通信:
•MCP Host:宿主应用(如 Claude Desktop、IDE 插件),维护与用户的交互和与 MCP Server 的连接
•MCP Client:协议客户端,与特定的 MCP Server 保持 1:1 连接
•MCP Server:轻量级服务,通过标准化接口向 Client 暴露工具、资源和提示模板
5.3 三大核心能力

能力 说明 示例
Tools(工具) Agent 可调用的函数 数据库查询、API 调用、代码执行
Resources(资源) 向 Agent 提供上下文数据 文件内容、数据库记录、内部文档
Prompts(提示) 可重用的提示模板 预设的分析流程、专家角色配置

5.4 应用场景
•IDE 集成:让 AI 编码助手访问本地文件、数据库和 API
•企业工具集成:统一接入内部系统(CRM、ERP、知识库)
•数据连接器:标准化数据源接入,如 PostgreSQL、Slack、GitHub 等 MCP Server
•Agent 工具扩展:为 Agent 动态添加新的工具能力,无需修改代码

6. LangGraph(Agent 编排框架)

6.1 概念介绍
LangGraph 是 LangChain 团队开发的用于构建有状态、多步骤 AI 应用的框架。它以图(Graph)的形式对 Agent 工作流进行建模,其中节点(Node)代表处理逻辑,边(Edge)代表控制流。
LangGraph 已于 2025 年达到 v1.0 里程碑,2026 年初发布 v1.1,提供了生产级的持久化状态管理和流式处理能力。
6.2 核心概念

概念 说明
State(状态) 共享的数据结构,在节点间传递和累积信息
Node(节点) 执行特定逻辑的函数,接收状态并返回更新后的状态
Edge(边) 定义节点之间的转换逻辑,可以是固定路径或条件分支
Checkpoint(检查点) 状态持久化点,支持中断恢复和时间旅行
Command(命令) v1.0+ 新增的节点间通信机制,替代传统的 return 方式

6.3 核心特性
•持久化状态:执行状态自动持久化,服务重启后可从中断点恢复
•时间旅行:支持回溯和重放任何状态点,便于调试和审计
•人机协作:interrupt() 函数支持在执行过程中暂停等待用户确认
•流式处理:v1.1 引入统一的 v2 流式格式,支持实时输出流
•多 Agent 编排:支持构建多个 Agent 协作的复杂工作流

6.4 应用场景
•多步骤工作流:如文档分析、数据处理管道、自动化流程
•多 Agent 协作:如 Supervisor 模式、层级规划、流式协作
•需要状态管理的对话系统:如客服机器人、项目管理助手

7. A2A(Agent-to-Agent 协议)

7.1 概念介绍
A2A(Agent-to-Agent)是由 Google 于 2025 年 4 月发布的开源协议(Apache-2.0 许可),现由 Linux Foundation 管理。它定义了独立 AI Agent 之间如何发现、认证和交互的标准方式,无论它们使用何种底层实现或托管平台。
7.2 核心组件

组件 说明
AgentCard 声明式元数据对象,描述 Agent 的能力、技能和接口,类似于 API 文档
Task 代表一个需要执行的工作单元,包含状态和历史记录
Message/Part 结构化消息格式,支持文本、文件、数据等多种类型

7.3 核心能力
•服务发现:Agent 通过 AgentCard 自动发现其他 Agent 的能力和接口
•任务委派:支持将子任务委派给其他 Agent 并跟踪执行状态
•流式通信:支持 SSE(Server-Sent Events)实时推送任务更新
•身份认证:内置身份验证和授权机制,确保跨组织安全交互
•状态迁移历史:可选暴露任务的状态变更历史,便于审计和调试
7.4 应用场景
•多 Agent 协作:不同团队开发的 Agent 互相配合完成复杂任务
•跨组织 Agent 交互:企业间的 Agent 安全协作
•Agent 市场生态:构建可以发现和调用彼此服务的 Agent 网络

8. MCP 与 A2A 对比

MCP 和 A2A 并非竞争关系,而是互补的两层协议,共同构成了 Agent 生态的通信基础设施:

维度 MCP A2A
发起方 Anthropic Google(Linux Foundation)
核心问题 Agent 如何连接工具? Agent 如何与其他 Agent 对话?
通信方向 Agent → Tool(单向) Agent ↔ Agent(双向)
通信协议 JSON-RPC 2.0 结构化消息(HTTP/SSE)
状态管理 基于上下文的状态追踪 基于任务的状态管理
发现机制 工具描述(Tool Descriptions) AgentCard(声明式元数据)
定位 垂直集成层(Agent 连接工具) 水平协作层(Agent 连接 Agent)

简单来说:MCP 解决的是“Agent 如何使用工具”的问题,A2A 解决的是“Agent 如何与其他 Agent 协作”的问题。在一个完整的多 Agent 系统中,两者通常会同时使用。

9. 生态全景总结

9.1 技术协议栈
当前大模型 Agent 生态可以理解为一个分层的协议栈:

层级 技术 作用
底层调用范式 Function Calling / ReAct Agent 与 LLM 交互的基本方式
工具集成层 MCP Agent 连接外部工具和数据源的标准
Agent 编排层 LangGraph 构建和管理复杂 Agent 工作流的框架
Agent 协作层 A2A 多 Agent 之间的标准化通信协议

9.2 实际应用中的组合
在实际项目中,这些技术通常是组合使用的:

  • 单 Agent 场景:LLM + Function Calling/ReAct + MCP 工具连接
  • 复杂工作流:LangGraph 编排多个 Agent 节点 + MCP 工具集成
  • 多 Agent 协作:LangGraph 编排 + A2A 协作 + MCP 工具连接
  • 跨组织网络:A2A 实现不同组织的 Agent 互联互通

9.3 发展趋势

  • 协议标准化:MCP 和 A2A 正在成为行业事实标准,Gartner 预测,到 2026 年底,40% 的企业应用将嵌入 AI Agent。
  • 工具调用融合:Function Calling 和 ReAct 的融合趋势明显,框架层面统一封装。
  • 多 Agent 网络:从单个 Agent 向 Agent 网络演进,A2A 为跨组织协作提供基础。
  • 安全与治理:随着 Agent 自主性增强,安全、隐私和治理机制成为重点关注领域。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐