AI 应用架构讲三层能力结构详解
·
LLM → RAG → Agent:AI 系统的三层能力结构,从模型能力 → 到知识增强 → 再到自动执行系统
一、三层架构总览
┌─────────────────────────────────────────────────────────────┐
│ 第3层 │ Agent │ 行动系统 │ 让 AI 开始"做事" │
│ │ │ │ 自主执行任务 → 调用工具 → 自动完成工作 │
├─────────────────────────────────────────────────────────────┤
│ 第2层 │ RAG │ 知识库 │ 给 AI 接入外部知识 │
│ │ │ │ 接入企业知识 → 减少幻觉 │
├─────────────────────────────────────────────────────────────┤
│ 第1层 │ LLM │ 大脑 │ AI 的大脑 │
│ │ │ │ 通用智能能力 → 语言理解与生成 │
└─────────────────────────────────────────────────────────────┘
一句话总结:LLM 是大脑,RAG 是知识库,Agent 是行动系统
二、逐层详解
第1层:LLM —— AI 的大脑
核心定位:通用智能能力 → 语言理解与生成
能力矩阵:
| 能力 | 说明 |
|---|---|
| 📝 文本理解 | 理解自然语言的含义、情感、意图 |
| ✍️ 内容生成 | 生成文章、报告、邮件等各类文本 |
| 🌐 语言翻译 | 跨语言转换,保持语义准确 |
| 💬 智能问答 | 基于知识回答问题 |
| 💻 代码生成 | 编写、解释、调试代码 |
训练数据来源:
- 🌐 网页文本
- 📚 书籍文献
<>代码仓库- 💬 对话数据
- 🎨 多模态数据
本质特征:
大模型通过海量数据训练,具备通用语言理解与生成能力。
LLM = 基础能力,但不具备实时知识与行动能力
第2层:RAG —— 给 AI 接入外部知识
核心定位:接入企业知识 → 减少幻觉
完整流程:
数据准备 Embedding 向量化 相似度检索 LLM 推理
(文档/PDF/数据库) → (知识库/Wiki/业务文档) → (文本→向量表示) → (向量数据库) → (问题向量化) → (TopK 相关知识) → (Prompt 拼接) → (Query + Context) → (最终回答)
Milvus, Pinecone, Weaviate
RAG 解决 LLM 的三大问题:
| 问题 | 表现 | RAG 解决方案 |
|---|---|---|
| 🔴 知识过时 | 模型训练数据有截止日期,不知道最新事件 | 实时检索最新文档 |
| 🔴 业务知识缺失 | 不了解企业内部专有知识 | 接入企业知识库 |
| 🔴 幻觉问题 | 编造不存在的信息 | 基于检索到的真实内容回答 |
技术本质:
- Embedding 向量化:将文本转换为高维向量,实现语义级别的相似度计算
- 向量数据库:Milvus、Pinecone、Weaviate 等专用数据库,存储和检索向量
- Prompt 拼接:将检索到的相关知识与用户问题拼接,作为上下文输入 LLM
第3层:Agent —— 让 AI 开始"做事"
核心定位:自主执行任务 → 调用工具 → 自动完成工作
智能体公式:
智能体 = LLM + 记忆 + 工具 + 规划
Agent 的四大核心组件
| 组件 | 子能力 | 说明 |
|---|---|---|
| 🧠 记忆系统 | 短期记忆 / 长期记忆 / 向量记忆 | 保存对话历史、事实知识、语义检索 |
| 🛠️ 工具调用 | 搜索 / 计算器 / 代码执行 / API | 连接外部世界,执行具体操作 |
| 📋 规划能力 | 任务拆解 / 子目标规划 / 步骤执行 | 将复杂任务分解为可执行的步骤 |
| 🔍 反思能力 | 自我评估 / 错误修复 / 结果优化 | 执行中发现问题并自我修正 |
Agent 执行流程
用户目标 → 任务拆解 → 工具调用 → 结果反馈 → 自我反思 → 循环执行 → 任务完成
Agent 工具生态
| 工具能力 | 示例 |
|---|---|
| 🔍 搜索 | 联网检索信息 |
| 🗄️ 数据库 | 查询结构化数据 |
| 🌐 浏览器 | 网页浏览与操作 |
| 💻 代码解释器 | 执行 Python/SQL 等代码 |
| 🔗 第三方 API | 调用外部服务接口 |
Agent 协作系统(Multi-Agent)
┌─────────────────────────────────────────┐
│ Multi-Agent 多智能体 │
├─────────────────────────────────────────┤
│ 👤 Planner Agent │ 规划者:制定任务计划 │
│ 👤 Worker Agent │ 执行者:完成具体任务 │
│ 👤 Tool Agent │ 工具专家:调用工具 │
│ 👤 Memory Agent │ 记忆员:管理信息存储 │
└─────────────────────────────────────────┘
三、三层关系深度解析
层次依赖关系
┌─────────────┐
│ Agent │ ← 最上层:依赖 LLM 和 RAG
│ (行动层) │ 需要大脑思考 + 知识支撑
└──────┬──────┘
│ 调用
┌────────────┼────────────┐
│ │ │
┌─────▼─────┐ ┌────▼────┐ ┌────▼────┐
│ 记忆 │ │ 工具 │ │ 规划 │
└───────────┘ └─────────┘ └─────────┘
│ │
└────────────┼────────────┘
│ 依赖
┌──────▼──────┐
│ RAG │ ← 中间层:为 LLM 提供外部知识
│ (知识层) │ 解决知识过时、幻觉问题
└──────┬──────┘
│ 增强
┌──────▼──────┐
│ LLM │ ← 最底层:基础能力层
│ (能力层) │ 提供语言理解与生成
└─────────────┘
类比理解
| 层级 | 类比 | 关系说明 |
|---|---|---|
| LLM | 🧠 大脑 | 像人类大脑,有基础思考能力,但孤陋寡闻(知识截止)、手无缚鸡之力(不能行动) |
| RAG | 📚 图书馆 + 搜索引擎 | 给大脑装上"外接硬盘"和"实时资讯",想查什么随时检索,不再靠死记硬背 |
| Agent | 🤖 机器人身体 + 神经系统 | 给大脑装上"手脚"和"反射弧",能自主规划、调用工具、执行动作、反馈修正 |
能力递进关系
LLM 单独使用:
用户提问 → LLM 推理 → 回答(可能过时/幻觉/无法操作外部系统)
LLM + RAG:
用户提问 → 检索知识库 → 拼接上下文 → LLM 推理 → 基于事实的回答(减少幻觉)
LLM + RAG + Agent:
用户目标 → Agent 规划 → 调用工具/检索知识 → LLM 推理 → 执行动作 →
结果反馈 → 自我反思 → 循环优化 → 自动完成任务(完整闭环)
四、架构演进逻辑
阶段一:纯 LLM
┌─────────┐
│ LLM │ ← 只能聊天、写作、简单问答
└─────────┘
阶段二:LLM + RAG
┌─────────┐ ┌─────────┐
│ LLM │ ←── │ 知识库 │ ← 能基于私有知识回答
└─────────┘ └─────────┘
阶段三:LLM + RAG + Agent(完整架构)
┌─────────┐ ┌─────────┐ ┌─────────┐
│ LLM │ ←── │ 知识库 │ ←── │ Agent │ ← 能自主完成复杂任务
└─────────┘ └─────────┘ └─────────┘
│
┌────┴────┐
│ 工具生态 │
└─────────┘
五、核心要点总结
| 维度 | LLM | RAG | Agent |
|---|---|---|---|
| 定位 | 大脑 | 知识库 | 行动系统 |
| 解决什么问题 | 语言理解与生成 | 知识过时、幻觉 | 无法行动、复杂任务 |
| 核心能力 | 推理、生成 | 检索、增强 | 规划、执行、反思 |
| 依赖关系 | 基础层 | 依赖 LLM | 依赖 LLM + RAG |
| 技术关键词 | Transformer、预训练 | Embedding、向量数据库 | ReAct、CoT、工具调用 |
| 使用场景 | 聊天、写作、翻译 | 企业知识问答、客服 | 自动化办公、数据分析 |
六、一句话记住三层架构
"LLM 是大脑,能思考但不会查资料也不能动手;RAG 是知识库,给大脑装上实时资料和百科全书;Agent 是行动系统,给大脑装上手脚和规划能力,让它能自主完成复杂任务。三者结合,才是完整的 AI 应用架构。"
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)