从 Function Calling 到 MCP：一文看懂 AI Agent 的完整技术体系（2026）

找藉口是失败者的习惯

692人浏览 · 2026-03-15 22:14:46

找藉口是失败者的习惯 · 2026-03-15 22:14:46 发布

文章目录

前言
一、什么是 AI Agent？
二、AI Agent 的完整系统架构
三、Function Calling：AI 调用工具的核心能力
四、Skill：Agent 的能力模块
五、Tool：Agent 连接现实世界的接口
六、Memory：让 Agent 具有记忆
七、RAG：让 AI 访问私有知识
八、Planner：任务规划系统
九、MCP：AI 工具的统一接口标准
十、Agent 的完整执行流程
十一、Agent Workflow vs Agent
十二、A2A：Agent 与 Agent 的协作
十三、未来趋势：AI OS
总结

前言

AI 正从“聊天机器人”走向“数字员工”

过去两年，大模型技术迅速发展。从ChatGPT到Claude再到Gemini
AI 的能力已经远远超越传统 NLP 系统。

但如果仔细观察就会发现：
绝大多数 AI 应用仍然停留在问答模式。

   LLM发展
     ↓
   AI很强
     ↓
AI仍然只是问答
     ↓
现实需求是执行任务
     ↓
  Agent出现

一、什么是 AI Agent？

AI Agent 是一种能够自主理解任务、规划步骤、调用工具并完成目标的智能系统。
可以用一个简单公式理解：
AI Agent = LLM + Tool + Memory + Planner

传统 AI 架构：
用户 → LLM → 回复

Agent 架构

用户
 ↓
任务理解
 ↓
任务规划
 ↓
调用工具
 ↓
执行操作
 ↓
返回结果

换句话说：
LLM 负责思考
Agent 负责行动

二、AI Agent 的完整系统架构

一个完整的 AI Agent 系统通常包含以下模块

                ┌──────────────┐
                │     User     │
                └──────┬───────┘
                       │
                ┌──────▼──────┐
                │     LLM     │
                └──────┬──────┘
                       │
                ┌──────▼──────┐
                │   Planner   │
                └──────┬──────┘
                       │
       ┌───────────────┼───────────────┐
       │               │               │
   Function        Memory            RAG
   Calling
       │               │               │
       └───────────────┼───────────────┘
                       │
                   Skills
                       │
                    Tools
                       │
                     APIs

核心模块包括：

LLM
Planner
Function Calling
Skills
Tools
Memory
RAG

三、Function Calling：AI 调用工具的核心能力

Function Calling 是现代 Agent 的基础能力。
最早由OpenAI在 GPT 系列中提出。

作用是：
让大模型可以调用函数。
例如定义一个函数：

{
  "name": "get_weather",
  "description": "查询城市天气",
  "parameters": {
    "city": "string"
  }
}

用户说：
上海今天冷不冷
模型会输出：

call_function("get_weather", city="上海")

系统执行函数后：

返回天气数据

LLM 再生成最终回答。

完整流程：

用户输入
 ↓
LLM 判断是否调用函数
 ↓
调用 API
 ↓
返回结果
 ↓
LLM生成最终回复

这就是 Agent 的基础执行机制。

四、Skill：Agent 的能力模块

Skill 可以理解为：
Agent 的能力包

例如一个旅行 Agent 可能有：

Skill	作用
航班查询	查询航班
酒店预订	订酒店
天气查询	查询天气
路线规划	生成路线

Skill 本质上是：

多个 Tool 的组合能力。

结构：

Skill：旅行规划
   ├── Tool：航班API
   ├── Tool：酒店API
   └── Tool：天气API

五、Tool：Agent 连接现实世界的接口

Tool 是 Agent 可以调用的 外部能力。

例如：

HTTP API
数据库
文件系统
操作系统
IoT设备
企业系统

示例：

def search_flight(from_city, to_city):
    return flight_api.search(from_city, to_city)

Agent 执行：

call_tool("search_flight")

Tool 是 AI 连接真实世界的桥梁。

六、Memory：让 Agent 具有记忆

如果没有 Memory，AI 只能进行 单轮对话。

Memory 让 Agent 拥有：

用户历史
上下文理解
个性化服务

Memory 一般分为三种。

1 短期记忆

当前会话上下文。
例如：

最近10轮对话

2 长期记忆

用户长期信息。
例如：

用户偏好
用户历史行为
用户画像

3 向量记忆

用于知识检索。
技术实现：

Embedding
Vector Database

常见数据库：

Pinecone
Milvus
Weaviate

七、RAG：让 AI 访问私有知识

RAG 全称：Retrieval Augmented Generation

作用：让 AI 能访问私有知识库。

流程：

用户问题
 ↓
向量检索
 ↓
相关文档
 ↓
LLM生成回答

例如企业应用：

知识来源：

产品文档
技术手册
公司知识库
SDK文档

通过 RAG：

AI 可以回答：

我们的SDK如何初始化？

八、Planner：任务规划系统

Planner 负责：
把复杂任务拆解成步骤。

例如用户说：

帮我规划上海三日游

Planner 生成任务：

1 查询热门景点
2 查询酒店
3 规划路线
4 生成行程

执行流程：

Step1 查询景点
Step2 查询酒店
Step3 生成路线
Step4 输出行程

常见推理模式包括：

ReAct
Plan & Execute
Tree of Thoughts

九、MCP：AI 工具的统一接口标准

MCP 全称：Model Context Protocol

MCP 的目标是：
统一 AI 与工具之间的通信方式。

可以把 MCP 理解为：
AI世界的USB接口

MCP 架构：

Client
 │
MCP Protocol
 │
MCP Server
 │
Tools / APIs

例如 AI 客户端：

IDE
AI助手
编程工具

可以通过 MCP 访问：

GitHub
数据库
文件系统
搜索引擎
等等。。。

十、Agent 的完整执行流程

假设用户输入：
帮我订一张明天北京到上海最便宜的机票

Agent 执行流程如下。

第一步：任务理解

LLM 分析用户意图：
任务：订机票
出发地：北京
目的地：上海
时间：明天
要求：最便宜

第二步：任务规划

Planner 生成步骤：
1 查询航班
2 按价格排序
3 选择最便宜航班
4 预订航班

第三步：调用工具

Agent 调用：
search_flight("北京","上海","明天")
返回航班列表。

第四步：推理选择

LLM 进行分析：
筛选最低价格

第五步：执行操作

调用：
book_flight(flight_id)
完成预订。

第六步：更新记忆

Memory 记录：
用户订了北京→上海航班

第七步：返回结果

AI 回复：
已为你订好明天北京到上海的航班，
价格520元，18:30起飞。

十一、Agent Workflow vs Agent

很多系统其实不是 Agent，而是 Workflow。
区别如下：

类型	特点
Workflow	固定流程
Agent	自主决策

Workflow：

步骤A → 步骤B → 步骤C

Agent：

AI决定下一步做什么

Agent 更灵活，但也更复杂。

十二、A2A：Agent 与 Agent 的协作

未来 AI 系统不会只有一个 Agent。

而是 Agent 团队协作。

架构：

User
 ↓
Manager Agent
 ↓
 ├── Travel Agent
 ├── Finance Agent
 ├── Data Agent
 └── Coding Agent

例如用户说：

帮我做一份销售分析报告

系统可能分配：

Data Agent → 获取数据
Analysis Agent → 数据分析
Writer Agent → 生成报告

这种模式叫：
A2A（Agent to Agent）

十三、未来趋势：AI OS

随着 Agent 技术成熟，软件架构可能演变为：

AI OS
 │
Agent Layer
 │
Skills
 │
Tools
 │
Services

未来的软件可能变成：

App + Agent + LLM

甚至出现新的操作系统形态：

AI Native OS

总结

AI Agent 的核心可以用一句话总结：

组件	作用
LLM	负责思考与推理，理解用户意图并生成决策
Function Calling	让大模型能够调用函数或 API，从而触发实际能力
Skill	提供能力模块，将多个工具能力进行组合封装
Tool	连接现实世界的接口，例如 API、数据库、设备能力等
Memory	提供记忆能力，记录用户信息、历史对话和行为
RAG	提供知识来源，通过检索外部知识库增强模型回答能力
Planner	负责任务规划，将复杂任务拆解为多个可执行步骤
MCP	统一 AI 与工具之间的通信协议，标准化工具调用方式
Multi-Agent	实现多个 Agent 协作，组成智能体团队完成复杂任务