大模型 Agent 生态综述

是你就无限615

596人浏览 · 2026-05-21 19:48:30

是你就无限615 · 2026-05-21 19:48:30 发布

大模型 Agent 生态综述

1. 大模型 Agent 概述

1.1 什么是 AI Agent

AI Agent（智能体）是一种能够自主感知环境、制定决策、调用工具并执行行动以完成目标的 AI 系统。与传统的“提问-回答”式大语言模型（LLM）不同，Agent 具备以下核心特征：
•感知（Perception）：接收和理解外部输入，包括用户指令、环境状态、其他 Agent 的消息
•推理（Reasoning）：利用 LLM 进行逻辑推理、任务规划和决策分析
•行动（Action）：通过工具调用（Function Calling）与外部世界交互，如查询数据库、调用 API、操作文件等
•记忆（Memory）：维护对话历史、任务状态和中间结果，支持多轮交互和长期任务
1.2 Agent 的核心架构
Agent 的运作通常遵循一个循环流程：用户提出任务 → Agent 理解并规划 → 选择并调用工具 → 观察工具返回结果 → 继续推理或返回最终答案。这个循环可以多次迭代，直到任务完成。
在这个架构中，Function Calling 和 ReAct 是两种核心的工具调用范式，MCP 和 A2A 是两种关键的通信协议，而 LangGraph 则是用于编排和管理 Agent 工作流的开发框架。

2. Function Calling（函数调用）

2.1 概念介绍
Function Calling（函数调用）是大语言模型原生支持的一种能力，允许模型根据用户输入自动生成结构化的函数调用请求。当模型判断需要调用外部工具时，会输出一个 JSON 格式的函数调用描述，包含函数名和参数，由应用程序执行实际调用并将结果返回给模型。
2.2 工作原理
Function Calling 的工作流程如下：
1.开发者向模型注册可用的函数列表（包含函数名、描述、参数 Schema）
2.用户发送查询，模型分析是否需要调用函数
3.模型返回结构化的函数调用请求（JSON 格式）
4.应用程序执行实际函数并获取结果
5.将函数结果作为新的消息发送给模型，模型生成最终回答
2.3 优势与局限

优势	局限
模型原生支持，集成简单	依赖模型对 Function Calling 的微调质量
结构化输出，解析稳定可靠	对模型参数量和训练有较高要求
多函数并行调用支持	推理过程不透明，难以追踪决策逻辑
响应速度快，适合简单任务	复杂多步任务的规划能力较弱

3. ReAct 框架（推理-行动）

3.1 概念介绍
ReAct（Reasoning + Acting）是一种经典的 Agent 架构范式，源自论文《ReAct: Synergizing Reasoning and Acting in Language Models》。它将推理（Reasoning）和行动（Acting）结合在一起，让模型在每一步都显式地展示其思考过程，然后决定下一步的行动。
3.2 工作原理
ReAct 采用“思考-行动-观察”的交替循环模式：
1.Thought：模型用自然语言表达其当前的思考和推理过程
2.Action：基于推理结果，选择并执行一个工具调用
3.Observation：接收工具返回的结果，作为下一轮推理的输入
4.循环直到模型判断任务完成，输出 Final Answer
3.3 优势与局限

优势	局限
推理过程完全透明，可解释性强	每步都需要一次完整的 LLM 调用，延迟较高
对模型要求较低，不依赖原生 FC 支持	输出格式为自然语言，解析可能不稳定
擅长多步推理、复杂规划任务	开放式任务中可能出现无限循环
灵活度高，可处理未预定义的工具	提示词设计对效果影响较大

4. Function Calling 与 ReAct 对比

两者并非互斥，而是不同的工具调用范式，适用于不同场景：

维度	Function Calling	ReAct
设计哲学	模型原生能力，结构化调用	提示词引导，自然语言推理
通信方式	模型输出 JSON 结构体	模型输出自然语言文本
推理透明度	低（只看到调用结果）	高（每步都有 Thought）
对模型要求	高（需微调支持 FC）	低（通用 LLM 即可）
响应速度	快（通常 1-2 轮）	较慢（多轮循环）
适用场景	单步/少量工具调用	复杂多步规划任务
典型框架	OpenAI Tools、Claude Tools	LangChain ReAct Agent、HuggingGPT

实际应用中，许多框架（如 LangChain）已经将两者融合：用 Function Calling 作为底层调用机制，用 ReAct 的推理逻辑作为上层规划策略。

5. MCP（模型上下文协议）

5.1 概念介绍
MCP（Model Context Protocol，模型上下文协议）是由 Anthropic 于 2024 年 11 月提出的开放协议，旨在标准化 AI 模型与外部数据源、工具和服务之间的连接方式。MCP 被称为“AI 时代的 HTTP”，它为 Agent 连接工具提供了统一的标准。
截至 2025 年底，MCP 已经发布多个版本规范，并由 Agentic AI Foundation 管理，已成为行业事实上的标准协议。
5.2 核心架构
MCP 采用客户端-服务器（Client-Server）架构，基于 JSON-RPC 2.0 通信：
•MCP Host：宿主应用（如 Claude Desktop、IDE 插件），维护与用户的交互和与 MCP Server 的连接
•MCP Client：协议客户端，与特定的 MCP Server 保持 1:1 连接
•MCP Server：轻量级服务，通过标准化接口向 Client 暴露工具、资源和提示模板
5.3 三大核心能力

能力	说明	示例
Tools（工具）	Agent 可调用的函数	数据库查询、API 调用、代码执行
Resources（资源）	向 Agent 提供上下文数据	文件内容、数据库记录、内部文档
Prompts（提示）	可重用的提示模板	预设的分析流程、专家角色配置

5.4 应用场景
•IDE 集成：让 AI 编码助手访问本地文件、数据库和 API
•企业工具集成：统一接入内部系统（CRM、ERP、知识库）
•数据连接器：标准化数据源接入，如 PostgreSQL、Slack、GitHub 等 MCP Server
•Agent 工具扩展：为 Agent 动态添加新的工具能力，无需修改代码

6. LangGraph（Agent 编排框架）

6.1 概念介绍
LangGraph 是 LangChain 团队开发的用于构建有状态、多步骤 AI 应用的框架。它以图（Graph）的形式对 Agent 工作流进行建模，其中节点（Node）代表处理逻辑，边（Edge）代表控制流。
LangGraph 已于 2025 年达到 v1.0 里程碑，2026 年初发布 v1.1，提供了生产级的持久化状态管理和流式处理能力。
6.2 核心概念

概念	说明
State（状态）	共享的数据结构，在节点间传递和累积信息
Node（节点）	执行特定逻辑的函数，接收状态并返回更新后的状态
Edge（边）	定义节点之间的转换逻辑，可以是固定路径或条件分支
Checkpoint（检查点）	状态持久化点，支持中断恢复和时间旅行
Command（命令）	v1.0+ 新增的节点间通信机制，替代传统的 return 方式

6.3 核心特性
•持久化状态：执行状态自动持久化，服务重启后可从中断点恢复
•时间旅行：支持回溯和重放任何状态点，便于调试和审计
•人机协作：interrupt() 函数支持在执行过程中暂停等待用户确认
•流式处理：v1.1 引入统一的 v2 流式格式，支持实时输出流
•多 Agent 编排：支持构建多个 Agent 协作的复杂工作流

6.4 应用场景
•多步骤工作流：如文档分析、数据处理管道、自动化流程
•多 Agent 协作：如 Supervisor 模式、层级规划、流式协作
•需要状态管理的对话系统：如客服机器人、项目管理助手

7. A2A（Agent-to-Agent 协议）

7.1 概念介绍
A2A（Agent-to-Agent）是由 Google 于 2025 年 4 月发布的开源协议（Apache-2.0 许可），现由 Linux Foundation 管理。它定义了独立 AI Agent 之间如何发现、认证和交互的标准方式，无论它们使用何种底层实现或托管平台。
7.2 核心组件

组件	说明
AgentCard	声明式元数据对象，描述 Agent 的能力、技能和接口，类似于 API 文档
Task	代表一个需要执行的工作单元，包含状态和历史记录
Message/Part	结构化消息格式，支持文本、文件、数据等多种类型

7.3 核心能力
•服务发现：Agent 通过 AgentCard 自动发现其他 Agent 的能力和接口
•任务委派：支持将子任务委派给其他 Agent 并跟踪执行状态
•流式通信：支持 SSE（Server-Sent Events）实时推送任务更新
•身份认证：内置身份验证和授权机制，确保跨组织安全交互
•状态迁移历史：可选暴露任务的状态变更历史，便于审计和调试
7.4 应用场景
•多 Agent 协作：不同团队开发的 Agent 互相配合完成复杂任务
•跨组织 Agent 交互：企业间的 Agent 安全协作
•Agent 市场生态：构建可以发现和调用彼此服务的 Agent 网络

8. MCP 与 A2A 对比

MCP 和 A2A 并非竞争关系，而是互补的两层协议，共同构成了 Agent 生态的通信基础设施：

维度	MCP	A2A
发起方	Anthropic	Google（Linux Foundation）
核心问题	Agent 如何连接工具？	Agent 如何与其他 Agent 对话？
通信方向	Agent → Tool（单向）	Agent ↔ Agent（双向）
通信协议	JSON-RPC 2.0	结构化消息（HTTP/SSE）
状态管理	基于上下文的状态追踪	基于任务的状态管理
发现机制	工具描述（Tool Descriptions）	AgentCard（声明式元数据）
定位	垂直集成层（Agent 连接工具）	水平协作层（Agent 连接 Agent）

简单来说：MCP 解决的是“Agent 如何使用工具”的问题，A2A 解决的是“Agent 如何与其他 Agent 协作”的问题。在一个完整的多 Agent 系统中，两者通常会同时使用。

9. 生态全景总结

9.1 技术协议栈
当前大模型 Agent 生态可以理解为一个分层的协议栈：

层级	技术	作用
底层调用范式	Function Calling / ReAct	Agent 与 LLM 交互的基本方式
工具集成层	MCP	Agent 连接外部工具和数据源的标准
Agent 编排层	LangGraph	构建和管理复杂 Agent 工作流的框架
Agent 协作层	A2A	多 Agent 之间的标准化通信协议