前言

AI 正从“聊天机器人”走向“数字员工”

过去两年,大模型技术迅速发展。从ChatGPT到Claude再到Gemini
AI 的能力已经远远超越传统 NLP 系统。

但如果仔细观察就会发现:
绝大多数 AI 应用仍然停留在 问答模式。

   LLM发展
     ↓
   AI很强
     ↓
AI仍然只是问答
     ↓
现实需求是执行任务
     ↓
  Agent出现

一、什么是 AI Agent?

AI Agent 是一种 能够自主理解任务、规划步骤、调用工具并完成目标的智能系统。
可以用一个简单公式理解:
AI Agent = LLM + Tool + Memory + Planner

传统 AI 架构:
用户 → LLM → 回复

Agent 架构

用户
 ↓
任务理解
 ↓
任务规划
 ↓
调用工具
 ↓
执行操作
 ↓
返回结果

换句话说:
LLM 负责思考
Agent 负责行动

二、AI Agent 的完整系统架构

一个完整的 AI Agent 系统通常包含以下模块

                ┌──────────────┐
                │     User     │
                └──────┬───────┘
                       │
                ┌──────▼──────┐
                │     LLM     │
                └──────┬──────┘
                       │
                ┌──────▼──────┐
                │   Planner   │
                └──────┬──────┘
                       │
       ┌───────────────┼───────────────┐
       │               │               │
   Function        Memory            RAG
   Calling
       │               │               │
       └───────────────┼───────────────┘
                       │
                   Skills
                       │
                    Tools
                       │
                     APIs

核心模块包括:

  • LLM
  • Planner
  • Function Calling
  • Skills
  • Tools
  • Memory
  • RAG

三、Function Calling:AI 调用工具的核心能力

Function Calling 是现代 Agent 的基础能力。
最早由OpenAI在 GPT 系列中提出。

作用是:
让大模型可以调用函数。
例如定义一个函数:

{
  "name": "get_weather",
  "description": "查询城市天气",
  "parameters": {
    "city": "string"
  }
}

用户说:
上海今天冷不冷
模型会输出:

call_function("get_weather", city="上海")

系统执行函数后:

返回天气数据

LLM 再生成最终回答。

完整流程:

用户输入
 ↓
LLM 判断是否调用函数
 ↓
调用 API
 ↓
返回结果
 ↓
LLM生成最终回复

这就是 Agent 的基础执行机制。

四、Skill:Agent 的能力模块

Skill 可以理解为:
Agent 的能力包

例如一个旅行 Agent 可能有:

Skill 作用
航班查询 查询航班
酒店预订 订酒店
天气查询 查询天气
路线规划 生成路线

Skill 本质上是:

多个 Tool 的组合能力。

结构:

Skill:旅行规划
   ├── Tool:航班API
   ├── Tool:酒店API
   └── Tool:天气API

五、Tool:Agent 连接现实世界的接口

Tool 是 Agent 可以调用的 外部能力

例如:

  • HTTP API
  • 数据库
  • 文件系统
  • 操作系统
  • IoT设备
  • 企业系统

示例:

def search_flight(from_city, to_city):
    return flight_api.search(from_city, to_city)

Agent 执行:

call_tool("search_flight")

Tool 是 AI 连接真实世界的桥梁。

六、Memory:让 Agent 具有记忆

如果没有 Memory,AI 只能进行 单轮对话

Memory 让 Agent 拥有:

  • 用户历史
  • 上下文理解
  • 个性化服务

Memory 一般分为三种。

1 短期记忆

当前会话上下文。
例如:

最近10轮对话

2 长期记忆

用户长期信息。
例如:

用户偏好
用户历史行为
用户画像

3 向量记忆

用于知识检索。
技术实现:

Embedding
Vector Database

常见数据库:

  • Pinecone
  • Milvus
  • Weaviate

七、RAG:让 AI 访问私有知识

RAG 全称:Retrieval Augmented Generation

作用:让 AI 能访问私有知识库。

流程:

用户问题
 ↓
向量检索
 ↓
相关文档
 ↓
LLM生成回答

例如企业应用:

知识来源:

产品文档
技术手册
公司知识库
SDK文档

通过 RAG:

AI 可以回答:

我们的SDK如何初始化?

八、Planner:任务规划系统

Planner 负责:
把复杂任务拆解成步骤。

例如用户说:

帮我规划上海三日游

Planner 生成任务:

1 查询热门景点
2 查询酒店
3 规划路线
4 生成行程

执行流程:

Step1 查询景点
Step2 查询酒店
Step3 生成路线
Step4 输出行程

常见推理模式包括:

  • ReAct
  • Plan & Execute
  • Tree of Thoughts

九、MCP:AI 工具的统一接口标准

MCP 全称:Model Context Protocol

MCP 的目标是:
统一 AI 与工具之间的通信方式。

可以把 MCP 理解为:
AI世界的USB接口

MCP 架构:

Client
 │
MCP Protocol
 │
MCP Server
 │
Tools / APIs

例如 AI 客户端:

  • IDE
  • AI助手
  • 编程工具

可以通过 MCP 访问:

GitHub
数据库
文件系统
搜索引擎
等等。。。

十、Agent 的完整执行流程

假设用户输入:
帮我订一张明天北京到上海最便宜的机票

Agent 执行流程如下。

第一步:任务理解

LLM 分析用户意图:
任务:订机票
出发地:北京
目的地:上海
时间:明天
要求:最便宜

第二步:任务规划

Planner 生成步骤:
1 查询航班
2 按价格排序
3 选择最便宜航班
4 预订航班

第三步:调用工具

Agent 调用:
search_flight("北京","上海","明天")
返回航班列表。

第四步:推理选择

LLM 进行分析:
筛选最低价格

第五步:执行操作

调用:
book_flight(flight_id)
完成预订。

第六步:更新记忆

Memory 记录:
用户订了北京→上海航班

第七步:返回结果

AI 回复:
已为你订好明天北京到上海的航班,
价格520元,18:30起飞。

十一、Agent Workflow vs Agent

很多系统其实不是 Agent,而是 Workflow。
区别如下:

类型 特点
Workflow 固定流程
Agent 自主决策

Workflow:

步骤A → 步骤B → 步骤C

Agent:

AI决定下一步做什么

Agent 更灵活,但也更复杂。

十二、A2A:Agent 与 Agent 的协作

未来 AI 系统不会只有一个 Agent。

而是 Agent 团队协作。

架构:

User
 ↓
Manager Agent
 ↓
 ├── Travel Agent
 ├── Finance Agent
 ├── Data Agent
 └── Coding Agent

例如用户说:

帮我做一份销售分析报告

系统可能分配:

Data Agent → 获取数据
Analysis Agent → 数据分析
Writer Agent → 生成报告

这种模式叫:
A2A(Agent to Agent)

十三、未来趋势:AI OS

随着 Agent 技术成熟,软件架构可能演变为:

AI OS
 │
Agent Layer
 │
Skills
 │
Tools
 │
Services

未来的软件可能变成:

App + Agent + LLM

甚至出现新的操作系统形态:

AI Native OS

总结

AI Agent 的核心可以用一句话总结:

组件 作用
LLM 负责思考与推理,理解用户意图并生成决策
Function Calling 让大模型能够调用函数或 API,从而触发实际能力
Skill 提供能力模块,将多个工具能力进行组合封装
Tool 连接现实世界的接口,例如 API、数据库、设备能力等
Memory 提供记忆能力,记录用户信息、历史对话和行为
RAG 提供知识来源,通过检索外部知识库增强模型回答能力
Planner 负责任务规划,将复杂任务拆解为多个可执行步骤
MCP 统一 AI 与工具之间的通信协议,标准化工具调用方式
Multi-Agent 实现多个 Agent 协作,组成智能体团队完成复杂任务

AI 正在从 聊天机器人 进化为 数字员工系统。

而 AI Agent,很可能就是未来软件架构的核心。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐