从 Function Calling 到 MCP:一文看懂 AI Agent 的完整技术体系(2026)
文章目录
前言
AI 正从“聊天机器人”走向“数字员工”
过去两年,大模型技术迅速发展。从ChatGPT到Claude再到Gemini
AI 的能力已经远远超越传统 NLP 系统。
但如果仔细观察就会发现:
绝大多数 AI 应用仍然停留在 问答模式。
LLM发展
↓
AI很强
↓
AI仍然只是问答
↓
现实需求是执行任务
↓
Agent出现
一、什么是 AI Agent?
AI Agent 是一种 能够自主理解任务、规划步骤、调用工具并完成目标的智能系统。
可以用一个简单公式理解:
AI Agent = LLM + Tool + Memory + Planner
传统 AI 架构:
用户 → LLM → 回复
Agent 架构
用户
↓
任务理解
↓
任务规划
↓
调用工具
↓
执行操作
↓
返回结果
换句话说:
LLM 负责思考
Agent 负责行动
二、AI Agent 的完整系统架构
一个完整的 AI Agent 系统通常包含以下模块
┌──────────────┐
│ User │
└──────┬───────┘
│
┌──────▼──────┐
│ LLM │
└──────┬──────┘
│
┌──────▼──────┐
│ Planner │
└──────┬──────┘
│
┌───────────────┼───────────────┐
│ │ │
Function Memory RAG
Calling
│ │ │
└───────────────┼───────────────┘
│
Skills
│
Tools
│
APIs
核心模块包括:
- LLM
- Planner
- Function Calling
- Skills
- Tools
- Memory
- RAG
三、Function Calling:AI 调用工具的核心能力
Function Calling 是现代 Agent 的基础能力。
最早由OpenAI在 GPT 系列中提出。
作用是:
让大模型可以调用函数。
例如定义一个函数:
{
"name": "get_weather",
"description": "查询城市天气",
"parameters": {
"city": "string"
}
}
用户说:
上海今天冷不冷
模型会输出:
call_function("get_weather", city="上海")
系统执行函数后:
返回天气数据
LLM 再生成最终回答。
完整流程:
用户输入
↓
LLM 判断是否调用函数
↓
调用 API
↓
返回结果
↓
LLM生成最终回复
这就是 Agent 的基础执行机制。
四、Skill:Agent 的能力模块
Skill 可以理解为:
Agent 的能力包
例如一个旅行 Agent 可能有:
| Skill | 作用 |
|---|---|
| 航班查询 | 查询航班 |
| 酒店预订 | 订酒店 |
| 天气查询 | 查询天气 |
| 路线规划 | 生成路线 |
Skill 本质上是:
多个 Tool 的组合能力。
结构:
Skill:旅行规划
├── Tool:航班API
├── Tool:酒店API
└── Tool:天气API
五、Tool:Agent 连接现实世界的接口
Tool 是 Agent 可以调用的 外部能力。
例如:
- HTTP API
- 数据库
- 文件系统
- 操作系统
- IoT设备
- 企业系统
示例:
def search_flight(from_city, to_city):
return flight_api.search(from_city, to_city)
Agent 执行:
call_tool("search_flight")
Tool 是 AI 连接真实世界的桥梁。
六、Memory:让 Agent 具有记忆
如果没有 Memory,AI 只能进行 单轮对话。
Memory 让 Agent 拥有:
- 用户历史
- 上下文理解
- 个性化服务
Memory 一般分为三种。
1 短期记忆
当前会话上下文。
例如:
最近10轮对话
2 长期记忆
用户长期信息。
例如:
用户偏好
用户历史行为
用户画像
3 向量记忆
用于知识检索。
技术实现:
Embedding
Vector Database
常见数据库:
- Pinecone
- Milvus
- Weaviate
七、RAG:让 AI 访问私有知识
RAG 全称:Retrieval Augmented Generation
作用:让 AI 能访问私有知识库。
流程:
用户问题
↓
向量检索
↓
相关文档
↓
LLM生成回答
例如企业应用:
知识来源:
产品文档
技术手册
公司知识库
SDK文档
通过 RAG:
AI 可以回答:
我们的SDK如何初始化?
八、Planner:任务规划系统
Planner 负责:
把复杂任务拆解成步骤。
例如用户说:
帮我规划上海三日游
Planner 生成任务:
1 查询热门景点
2 查询酒店
3 规划路线
4 生成行程
执行流程:
Step1 查询景点
Step2 查询酒店
Step3 生成路线
Step4 输出行程
常见推理模式包括:
- ReAct
- Plan & Execute
- Tree of Thoughts
九、MCP:AI 工具的统一接口标准
MCP 全称:Model Context Protocol
MCP 的目标是:
统一 AI 与工具之间的通信方式。
可以把 MCP 理解为:
AI世界的USB接口
MCP 架构:
Client
│
MCP Protocol
│
MCP Server
│
Tools / APIs
例如 AI 客户端:
- IDE
- AI助手
- 编程工具
可以通过 MCP 访问:
GitHub
数据库
文件系统
搜索引擎
等等。。。
十、Agent 的完整执行流程
假设用户输入:
帮我订一张明天北京到上海最便宜的机票
Agent 执行流程如下。
第一步:任务理解
LLM 分析用户意图:
任务:订机票
出发地:北京
目的地:上海
时间:明天
要求:最便宜
第二步:任务规划
Planner 生成步骤:
1 查询航班
2 按价格排序
3 选择最便宜航班
4 预订航班
第三步:调用工具
Agent 调用:
search_flight("北京","上海","明天")
返回航班列表。
第四步:推理选择
LLM 进行分析:
筛选最低价格
第五步:执行操作
调用:
book_flight(flight_id)
完成预订。
第六步:更新记忆
Memory 记录:
用户订了北京→上海航班
第七步:返回结果
AI 回复:
已为你订好明天北京到上海的航班,
价格520元,18:30起飞。
十一、Agent Workflow vs Agent
很多系统其实不是 Agent,而是 Workflow。
区别如下:
| 类型 | 特点 |
|---|---|
| Workflow | 固定流程 |
| Agent | 自主决策 |
Workflow:
步骤A → 步骤B → 步骤C
Agent:
AI决定下一步做什么
Agent 更灵活,但也更复杂。
十二、A2A:Agent 与 Agent 的协作
未来 AI 系统不会只有一个 Agent。
而是 Agent 团队协作。
架构:
User
↓
Manager Agent
↓
├── Travel Agent
├── Finance Agent
├── Data Agent
└── Coding Agent
例如用户说:
帮我做一份销售分析报告
系统可能分配:
Data Agent → 获取数据
Analysis Agent → 数据分析
Writer Agent → 生成报告
这种模式叫:
A2A(Agent to Agent)
十三、未来趋势:AI OS
随着 Agent 技术成熟,软件架构可能演变为:
AI OS
│
Agent Layer
│
Skills
│
Tools
│
Services
未来的软件可能变成:
App + Agent + LLM
甚至出现新的操作系统形态:
AI Native OS
总结
AI Agent 的核心可以用一句话总结:
| 组件 | 作用 |
|---|---|
| LLM | 负责思考与推理,理解用户意图并生成决策 |
| Function Calling | 让大模型能够调用函数或 API,从而触发实际能力 |
| Skill | 提供能力模块,将多个工具能力进行组合封装 |
| Tool | 连接现实世界的接口,例如 API、数据库、设备能力等 |
| Memory | 提供记忆能力,记录用户信息、历史对话和行为 |
| RAG | 提供知识来源,通过检索外部知识库增强模型回答能力 |
| Planner | 负责任务规划,将复杂任务拆解为多个可执行步骤 |
| MCP | 统一 AI 与工具之间的通信协议,标准化工具调用方式 |
| Multi-Agent | 实现多个 Agent 协作,组成智能体团队完成复杂任务 |
AI 正在从 聊天机器人 进化为 数字员工系统。
而 AI Agent,很可能就是未来软件架构的核心。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)