2026年必学的五大AI技术：LLM、RAG、Agent、MCP、Skill全面解析

我先测了

652人浏览 · 2026-05-10 21:21:13

我先测了 · 2026-05-10 21:21:13 发布

文章目录

更新至2026年5月最新技术格局，深度解析LLM、RAG、Agent、MCP、Skill五大核心技术栈的演进逻辑与实践应用

在这里插入图片描述

📊 技术栈演进全景图

┌──────────────────────────────────────────────────────────┐
│            AI技术栈演进路径（2023→2026）                  │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  第一层：LLM（大语言模型）— 智能基石                     │
│  ├─ 核心能力：语言理解与生成、多模态融合                  │
│  ├─ 2026代表：GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro  │
│  │              DeepSeek V4、GLM-5.1                     │
│  └─ 关键突破：MoE架构、百万Token上下文、原生计算机使用    │
│          ↓                                               │
│  第二层：RAG（检索增强生成）— 知识增强                   │
│  ├─ 三代演进：Naive RAG → Advanced RAG → Agentic RAG    │
│  ├─ 新范式：GraphRAG、CAG、Agentic RAG                  │
│  └─ 核心价值：解决幻觉、知识截止、领域专业性              │
│          ↓                                               │
│  第三层：Agent（智能代理）— 自主执行                     │
│  ├─ 核心特征：自主决策、工具调用、长程任务                │
│  ├─ 2026突破：8小时级持续工作、Computer Use              │
│  └─ 代表框架：LangChain、OpenClaw、Hermes Agent          │
│          ↓                                               │
│  第四层：MCP（模型上下文协议）— 协议标准                 │
│  ├─ 核心价值：标准化工具交互，AI的USB-C                  │
│  ├─ 2026生态：数千服务器、捐赠至Linux基金会              │
│  └─ 行业采用：OpenAI、Google、Microsoft、国内BAT         │
│          ↓                                               │
│  第五层：Skill（技能模块）— 能力封装                     │
│  ├─ 核心理念：专业化、可插拔、自我进化                    │
│  ├─ 设计原则：单一职责、可组合、可学习                    │
│  └─ 应用方向：垂直领域深耕、Agent能力扩展                 │
│                                                          │
└──────────────────────────────────────────────────────────┘

一、LLM（Large Language Model）— 智能基石

1.1 核心定义

大语言模型（LLM） 是基于Transformer架构的深度学习模型，通过海量文本数据预训练，具备强大的语言理解和生成能力，是当代AI技术的核心基础设施。

1.2 2026年模型格局

2026年的大模型格局已从"一超多强"演变为"多极争霸"，闭源与开源模型齐头并进，中国模型首次在核心榜单登顶。

旗舰模型对比

模型	开发者	发布时间	上下文窗口	核心特点	定价（输入/输出$/M tokens）
GPT-5.4	OpenAI	2026.03	1M tokens	原生Computer Use、思考过程预览	2.50/15.00
Claude Opus 4.7	Anthropic	2026.04	1M tokens	编程最强、视觉3倍提升、金融分析领先	5.00/25.00
Gemini 3.1 Pro	Google	2026.02	1M tokens	推理之王(ARC-AGI-2 77.1%)、原生SVG/3D	2.00/12.00
DeepSeek V4-Pro	DeepSeek	2026.04	1M tokens	开源MoE、1.6T参数/49B激活、国产算力闭环	开源免费
GLM-5.1	智谱AI	2026.04	200K tokens	8小时长程任务、SWE-Bench Pro全球第一	1.00/3.20

各模型核心突破

GPT-5.4 — 全能型专业工作模型

核心突破：
✅ 首个原生Computer Use的通用GPT模型
   - OSWorld-Verified: 75.0%（超越人类72.4%）
✅ 思考过程预览：中途可调整方向
✅ GDPval知识工作: 83.0%达到或超过行业专业水平
✅ 工具搜索（Tool Search）：高效发现并使用正确工具
✅ Token效率最高：较GPT-5.2显著减少消耗

Claude Opus 4.7 — 编程与Agent之王

核心突破：
✅ SWE-bench Pro: 64.3%（行业领先）
✅ 图像处理最高2576像素，视觉细节捕捉提升3倍+
✅ 金融分析代理测试全球最高分
✅ 新增xhigh模式、任务预算功能
✅ Claude Code /ultrareview 代码审查命令
✅ Project Glasswing网络安全防护

Gemini 3.1 Pro — 推理与科学之王

核心突破：
✅ ARC-AGI-2: 77.1%（推理性能是Gemini 3 Pro的2倍+）
✅ GPQA Diamond: 94.3%（科学推理最高分）
✅ 原生SVG和3D代码渲染
✅ 1M上下文 + 65K输出
✅ 三档思考系统（Low/Medium/High）
✅ MCP Atlas工具协调: 69.2%

DeepSeek V4-Pro — 开源效率之王

核心突破：
✅ 1.6T总参数/49B激活参数（Ultra-MoE架构）
✅ 1M上下文，推理FLOPs仅为V3的27%
✅ Codeforces评分3206（排名23，超越多数人类选手）
✅ 深度适配华为昇腾950PR/910C（国产算力闭环）
✅ 完全开源，MIT License
✅ V4-Flash版：284B/13B激活，极致轻量

GLM-5.1 — 长程任务之王

核心突破：
✅ 全球首个8小时级持续工作的开源模型
✅ SWE-Bench Pro: 58.4分（超越GPT-5.4的57.7和Opus 4.6的57.3）
✅ 国产模型首次在编程核心榜单登顶全球第一
✅ 754B总参数/40B激活（MoE架构）
✅ 自主编写Triton/CUDA Kernel
✅ 提价10%对标国际定价，从价格竞争转向价值竞争

2026年LLM三大技术趋势

趋势一：MoE架构成为主流
━━━━━━━━━━━━━━━━━━━━━
DeepSeek V4: 1.6T/49B（激活比 32:1）
GLM-5.1: 754B/40B（激活比 18:1）
→ 用极低推理成本获得超大模型容量

趋势二：百万Token上下文成为标配
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
GPT-5.4: 1M tokens
Claude Opus 4.7: 1M tokens
Gemini 3.1 Pro: 1M tokens
DeepSeek V4: 1M tokens
→ 整个代码库/整本书一次性处理

趋势三：从"分钟级交互"到"小时级工作"
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
GLM-5.1: 8小时持续工作
Claude Opus 4.7: 长时任务自我验证
GPT-5.4: 长周期任务规划执行验证
→ AI从"回答问题"进化为"完成项目"

1.3 LLM的固有缺陷与演进

尽管2026年的LLM能力已远超前代，但核心痛点依然存在，只是解决方式发生了变化：

2023年的痛点              2026年的演进
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
知识截止性        →      RAG/Agentic RAG 实时检索
幻觉问题          →      Self-RAG + 来源引用验证
缺乏行动能力      →      Computer Use + MCP工具调用
短期记忆有限      →      百万Token上下文 + 文件记忆
领域专业性不足    →      RAG知识增强 + 专业微调
无法持续工作      →      长程任务能力（8小时+）

二、RAG（Retrieval-Augmented Generation）— 知识增强

在这里插入图片描述

2.1 RAG的三代演进

RAG技术已从简单的"检索-生成"管道，演进为具备自主推理能力的智能知识系统。

┌──────────────────────────────────────────────────────────┐
│                RAG三代演进路径                            │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  第一代：Naive RAG（2023年）                             │
│  ├─ 流程：查询 → 向量检索 → LLM生成                     │
│  ├─ 问题：检索精度低、无反馈机制                         │
│  └─ 准确率：60-70%                                       │
│          ↓                                               │
│  第二代：Advanced RAG（2024年）                          │
│  ├─ 优化：查询改写、重排序、Self-RAG、CRAG              │
│  ├─ 突破：自我修正机制、混合检索策略                     │
│  └─ 准确率：75-85%                                       │
│          ↓                                               │
│  第三代：Agentic RAG（2025-2026年）                      │
│  ├─ 核心：AI Agent自主决定检索策略                       │
│  ├─ 能力：多步推理、跨源检索、自我验证                   │
│  ├─ 架构：迭代循环（非线性管道）                         │
│  └─ 准确率：85-95%                                       │
│                                                          │
└──────────────────────────────────────────────────────────┘

2.2 Agentic RAG — 2026年的主流范式

传统RAG是"检索管道"，Agentic RAG是"自主知识运行时"。

Naive RAG（线性管道）：
用户查询 → 向量检索 → LLM生成 → 输出

Agentic RAG（迭代循环）：
用户查询 → Agent理解意图 → 制定检索策略
    ↑                          ↓
    ← 验证结果 ← 检索+推理 ←
    ↓ (不满足)
    改写查询 → 重新检索 → 再推理 → ...
    ↓ (满足)
    输出精准答案 + 来源引用

特性	Naive RAG	Agentic RAG
工作流	线性管道	迭代循环
推理能力	最小（仅上下文）	高（自我修正）
错误处理	无	幻觉检查+重试
多源检索	不支持	跨数据库/API/网页
准确率	60-70%	85-95%

2.3 GraphRAG — 关系推理的突破

传统向量检索擅长语义匹配，但无法理解实体间关系。GraphRAG通过知识图谱解决这一问题。

传统RAG：
"CEO的前创业经历如何影响当前产品架构？"
→ 可能找到CEO信息和架构文档，但无法连接"影响"关系

GraphRAG：
→ 通过知识图谱遍历，发现CEO前公司 → 技术选型 → 当前架构的因果链
→ 搜索精度可达99%（复杂企业查询场景）

GraphRAG核心价值：

✅ 理解实体关系（非仅文本相似度）
✅ 支持多跳推理（跨文档关联）
✅ 提供结构化知识（可解释性）
✅ 准确率提升20-50个百分点
✅ Token成本降低10-100倍

2.4 2026年RAG技术架构

┌──────────────────────────────────────────────────────────┐
│              2026年RAG系统完整架构                        │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  1️⃣ 用户查询                                            │
│     ↓                                                    │
│  2️⃣ Agent理解意图 + 查询改写                            │
│     ↓                                                    │
│  3️⃣ 自适应检索策略                                      │
│     ├─ 简单查询：单次向量检索（k=3）                     │
│     ├─ 复杂查询：多源并行检索 + 重排序                   │
│     └─ 关系查询：知识图谱遍历（GraphRAG）                │
│     ↓                                                    │
│  4️⃣ 检索结果验证                                        │
│     ├─ 相关性评估                                        │
│     ├─ 不满足 → 改写查询重新检索                         │
│     └─ 满足 → 进入生成阶段                               │
│     ↓                                                    │
│  5️⃣ 上下文构建 + Prompt组装                             │
│     ↓                                                    │
│  6️⃣ LLM生成（基于增强上下文）                           │
│     ↓                                                    │
│  7️⃣ 输出：精准答案 + 来源引用 + 置信度                  │
│                                                          │
└──────────────────────────────────────────────────────────┘

在这里插入图片描述

2.5 RAG核心组件

1. 向量数据库

数据库	特点	适用场景
ChromaDB	轻量级，快速原型	开发测试
Pinecone	托管服务，易扩展	生产部署
Milvus	高性能，大规模	企业级应用
Weaviate	混合搜索，功能丰富	通用场景
Qdrant	Rust实现，高吞吐	性能敏感场景

2. Embedding模型

2026年主流Embedding模型：
- OpenAI text-embedding-3-large
- BGE-M3（多语言、多粒度、多功能）
- GTE-Qwen2（阿里，中文优化）
- Cohere Embed v3（多语言）

3. 检索策略

2026年检索策略演进：
- 语义检索：向量相似度匹配
- 关键词检索：BM25算法
- 混合检索：语义+关键词融合
- 自适应检索：Agent根据查询复杂度动态选择
- 图谱检索：GraphRAG实体关系遍历
- 重排序：Cross-Encoder精排

2.6 RAG市场数据

RAG市场规模：

全球市场：
- 2023年：$1.04B
- 2026年估计：$3.5B+
- 2031年预测：$17B
- CAGR：43.4% (2024-2031)

亚太地区：
- 2024年：$284.3M
- 2030年预测：$2.86B
- CAGR：46.9%

三、Agent（智能代理）— 自主执行

3.1 Agent的定义

Agent（智能代理） 是基于LLM的自主决策系统，能够理解目标、规划步骤、调用工具、执行任务。2026年的Agent已从"分钟级对话助手"进化为"小时级自主工作者"。

在这里插入图片描述

3.2 2026年Agent的范式转变

┌──────────────────────────────────────────────────────────┐
│            Agent能力演进三阶段                            │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  Vibe Coding时代（2023-2024）                            │
│  ├─ 特征：单轮对话，AI写完代码等人打分                   │
│  ├─ 时长：分钟级                                         │
│  └─ 本质：聪明的助手                                     │
│          ↓                                               │
│  Agentic Engineering时代（2025）                         │
│  ├─ 特征：30分钟内完成系统工程任务                       │
│  ├─ 能力：自主规划、执行、测试                           │
│  └─ 本质：初级工程师                                     │
│          ↓                                               │
│  Long-Horizon Task时代（2026）                           │
│  ├─ 特征：8小时+持续工作，交付完整工程成果               │
│  ├─ 能力：目标分解→执行→自评→纠正→进化→继续执行         │
│  └─ 本质：全自治数字员工                                 │
│                                                          │
└──────────────────────────────────────────────────────────┘

3.3 Agent核心组件架构

┌──────────────────────────────────────────────────────────┐
│              2026年Agent架构                              │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  ┌──────────────────────────────────────────────┐      │
│  │              大脑（LLM）                      │      │
│  │  - 理解任务 / 规划步骤 / 决策判断            │      │
│  │  - 长程推理 / 自我验证 / 策略调整            │      │
│  └──────────────────────────────────────────────┘      │
│              ↓          ↓          ↓                     │
│  ┌──────────┐  ┌──────────┐  ┌──────────────┐         │
│  │  规划器  │  │  记忆    │  │  工具箱      │         │
│  │ Planner  │  │ Memory   │  │ Tools        │         │
│  │ CoT/ReAct│  │ 短期+长期│  │ MCP协议      │         │
│  │ Plan&Solve│ │ 文件记忆 │  │ Computer Use │         │
│  └──────────┘  └──────────┘  └──────────────┘         │
│       ↓             ↓              ↓                     │
│  ┌──────────────────────────────────────────────┐      │
│  │              执行引擎                        │      │
│  │  - 工具调用 / 结果处理 / 反馈循环            │      │
│  │  - 自我纠正 / 策略切换 / 进度汇报            │      │
│  └──────────────────────────────────────────────┘      │
│                                                          │
└──────────────────────────────────────────────────────────┘

1. 规划器（Planner）

规划方法演进：
- Chain of Thought (CoT)：思维链推理
- ReAct：推理+行动交替
- Plan-and-Solve：先规划后执行
- 自适应规划：根据任务复杂度动态调整
- 长程规划：8小时+任务的目标分解与里程碑管理

2. 记忆系统（Memory）

2026年记忆系统：

┌─────────────────────────────────────┐
│  短期记忆（对话上下文）             │
│  - 百万Token上下文窗口              │
│  - 当前对话完整历史                 │
├─────────────────────────────────────┤
│  长期记忆（持久化存储）             │
│  - 向量数据库存储                   │
│  - 文件系统记忆（跨会话保留笔记）   │
│  - 知识图谱记忆                     │
├─────────────────────────────────────┤
│  工作记忆（任务执行状态）           │
│  - 当前任务进度                     │
│  - 中间结果缓存                     │
│  - 自我纠正记录                     │
├─────────────────────────────────────┤
│  进化记忆（自我学习）               │
│  - 任务经验沉淀                     │
│  - 自动生成Skill文件                │
│  - 错误模式记忆                     │
└─────────────────────────────────────┘

3. 工具箱（Tools）

2026年Agent工具生态：

1. 信息检索
   - 搜索引擎、知识库、数据库

2. 代码执行
   - Python/Shell执行、沙箱环境（E2B）

3. Computer Use（2026核心突破）
   - 截图 + 键盘鼠标操作
   - 跨应用工作流自动化
   - GPT-5.4: OSWorld 75.0%（超越人类）

4. MCP工具调用
   - 标准化协议连接数千工具
   - 即插即用，无需定制开发

5. 专业工具
   - 数据分析、可视化、机器学习
   - 文件处理、文档生成

3.4 Computer Use — 2026年Agent的关键能力

Computer Use是2026年Agent最重要的突破之一，让AI能够像人类一样操作计算机。

Computer Use工作方式：

方式一：截图模式
┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│  截取屏幕   │ ──→ │  LLM理解    │ ──→ │  生成操作   │
│  截图       │     │  界面元素   │     │  鼠标/键盘  │
└─────────────┘     └─────────────┘     └─────────────┘

方式二：代码模式
┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│  获取DOM    │ ──→ │  LLM分析    │ ──→ │  执行代码   │
│  /可访问树  │     │  结构与操作 │     │  完成任务   │
└─────────────┘     └─────────────┘     └─────────────┘

各模型Computer Use能力对比：

模型	OSWorld-Verified	说明
GPT-5.4	75.0%	首个原生Computer Use的通用GPT模型
Claude Opus 4.7	72.7%	Claude Cowork功能
人类基线	72.4%	—

3.5 Agent框架对比（2026版）

框架	语言	特点	适用场景
LangChain	Python/JS	生态丰富，组件多	通用Agent开发
OpenClaw	—	无损上下文引擎，长期记忆	开发者工具
Hermes Agent	—	自我进化，自动生成Skill	智能助手
CrewAI	Python	多Agent协作	团队协作场景
MetaGPT	Python	角色扮演，软件公司模拟	软件开发
Claude Code	CLI	编程Agent，/ultrareview	代码开发

3.6 Agent工作流程示例

ReAct框架

用户："分析这个网站的SEO优化建议"

Agent执行过程：

Thought 1: 需要先获取网站内容
Action 1: 使用web_scraper工具抓取网站
Observation 1: 成功获取HTML内容

Thought 2: 分析HTML结构和内容
Action 2: 使用html_analyzer工具解析
Observation 2: 发现缺少meta标签，图片无alt属性

Thought 3: 检查网站加载速度
Action 3: 使用speed_test工具测试
Observation 3: 首页加载时间3.2秒，偏慢

Thought 4: 综合分析生成报告
Action 4: 使用report_generator生成建议
Observation 4: 生成完整SEO优化报告

Final Answer: 提供详细的SEO优化建议

长程任务示例（2026新范式）

用户："把这个项目从Python 3.9升级到3.12，确保所有测试通过"

GLM-5.1 长程任务执行（8小时级）：

阶段1（0-30min）：项目分析
  → 扫描代码库，识别兼容性问题
  → 生成升级计划

阶段2（30min-2h）：代码修改
  → 逐模块修改语法和API调用
  → 更新依赖版本

阶段3（2h-5h）：测试与修复
  → 运行测试套件
  → 修复失败的测试用例
  → 迭代优化

阶段4（5h-7h）：性能验证
  → 运行性能基准测试
  → 对比升级前后性能

阶段5（7h-8h）：报告生成
  → 生成升级报告
  → 列出所有变更和注意事项

四、MCP（Model Context Protocol）— 协议标准

4.1 MCP的诞生与演进

MCP（模型上下文协议） 是Anthropic于2024年11月推出的开放标准，被誉为"AI的USB-C端口"。2025年12月，Anthropic将MCP捐赠给Linux基金会下的Agentic AI Foundation（AAIF），标志着其从企业项目转变为行业标准。

MCP发展时间线：

2024.11  Anthropic发布MCP规范
2025.03  OpenAI宣布支持MCP
2025.04  Google DeepMind宣布支持MCP
2025.05  5000+活跃MCP服务器
2025.12  捐赠至Linux基金会（AAIF）
2026.02  数千MCP服务器，官方SDK覆盖5+语言
2026    Gartner预测：75% API网关厂商将支持MCP

4.2 MCP解决的核心问题

N×M → N+M 的复杂度降维

传统方式（N×M问题）：
10个AI应用 × 50个工具 = 500个定制集成

MCP方式（N+M问题）：
10个AI应用实现MCP客户端 + 50个工具实现MCP服务器 = 60个集成
减少88%的集成工作量

场景	AI应用(N)	工具(M)	传统集成(N×M)	MCP集成(N+M)	减少比例
小团队	3	10	30	13	57%
中型企业	8	30	240	38	84%
大型企业	15	100	1500	115	92%
行业级	50	500	25000	550	98%

4.3 MCP架构设计

┌──────────────────────────────────────────────────────────┐
│                  MCP三层架构                              │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  Layer 1: Hosts（宿主应用）                              │
│  ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐  │
│  │  Claude  │ │  Cursor  │ │ ChatGPT  │ │ Windsurf │  │
│  │ Desktop  │ │   IDE    │ │          │ │          │  │
│  └──────────┘ └──────────┘ └──────────┘ └──────────┘  │
│                      ↕ MCP协议                           │
│  Layer 2: Clients（协议连接器）                          │
│  ┌──────────────────────────────────────────────┐      │
│  │  1:1连接Server / 协议协商 / 能力交换         │      │
│  └──────────────────────────────────────────────┘      │
│                      ↕                                   │
│  Layer 3: Servers（能力提供者）                          │
│  ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐  │
│  │ GitHub   │ │ Postgre  │ │  Slack   │ │ Filesys  │  │
│  │ Server   │ │  SQL     │ │ Server   │ │  tem     │  │
│  └──────────┘ └──────────┘ └──────────┘ └──────────┘  │
│                                                          │
│  三大原语：                                              │
│  🔧 Tools    — 可调用的函数                              │
│  📄 Resources — 可读取的数据                             │
│  📝 Prompts  — 可复用的提示词模板                        │
│                                                          │
└──────────────────────────────────────────────────────────┘

4.4 MCP生态全景（2026年）

主要客户端

客户端	开发者	传输协议	主要用途
Claude Desktop	Anthropic	stdio, HTTP/SSE	通用AI助手
Claude Code	Anthropic	stdio, HTTP/SSE	终端开发工作流
Cursor	Anysphere	stdio, HTTP/SSE	AI代码编辑器
ChatGPT	OpenAI	HTTP/SSE	通用AI助手
Windsurf	Codeium	stdio, HTTP/SSE	AI代码编辑器
Zed	Zed Industries	stdio	协作编辑器
Continue	Continue.dev	stdio, HTTP/SSE	VS Code/JetBrains插件

企业级MCP服务器

基础设施与数据：
- PostgreSQL / SQLite / Supabase — 数据库
- Filesystem — 文件操作
- AWS KB Retrieval — 企业知识库

开发工具：
- GitHub / GitLab — 代码仓库管理
- Sentry — 错误监控
- Terraform — 基础设施即代码

通信协作：
- Slack — 团队沟通
- Google Drive — 文档协作
- Atlassian (Jira/Confluence) — 项目管理

云服务：
- Cloudflare — 边缘计算
- Azure — 微软云
- DigitalOcean — 基础设施管理

浏览器自动化：
- Microsoft Playwright — 浏览器操作
- Puppeteer — 网页抓取

集成平台：
- Zapier — 5000+应用连接
- Pipedream — 无服务器工作流

官方SDK

2026年MCP官方SDK：
- TypeScript SDK: 11,255+ GitHub Stars
- Python SDK
- Java SDK
- Kotlin SDK
- C# SDK
- Swift SDK
- Go SDK

4.5 MCP的核心价值

1. 标准化接口
   传统：tool_a.call(params_a) / tool_b.execute(params_b, auth_b)
   MCP：mcp.call_tool("tool_name", params)  # 统一接口

2. 即插即用
   一个MCP Server可服务所有MCP兼容的AI应用

3. 生态互通
   开发一次，Claude/ChatGPT/Cursor等所有客户端可用

4. 安全可控
   细粒度权限控制、审计日志、工具审批UI

5. 企业就绪
   网关/代理模式、集中认证、SLA合规

五、Skill（技能模块）— 能力封装

5.1 Skill的定义

Skill（技能模块） 是Agent能力的专业化封装，将特定领域的知识、流程和工具组合成可插拔、可复用、可组合的能力单元。

5.2 2026年Skill的进化

Skill演进路径：

第一代：静态技能（2024）
├─ 预定义的Prompt模板
├─ 固定的工具组合
└─ 人工编写和维护

第二代：动态技能（2025）
├─ 基于MCP的工具组合
├─ 可配置的参数和流程
└─ 社区共享和复用

第三代：自进化技能（2026）
├─ Agent从任务中自动学习
├─ 自动生成Skill文件
├─ 错误纠正后自动更新
└─ 经验沉淀为可复用能力

5.3 Skill设计原则

┌─────────────────────────────────────┐
│        Skill设计五原则              │
├─────────────────────────────────────┤
│  1. 单一职责：一个Skill做一件事     │
│  2. 可组合性：Skill之间可自由组合   │
│  3. 可学习性：从使用中自动进化      │
│  4. 可移植性：跨Agent/平台复用      │
│  5. 可验证性：输出结果可检验        │
└─────────────────────────────────────┘

5.4 自进化Skill实例

以Hermes Agent为例，展示2026年Skill的自动进化机制：

自进化触发条件：
- 工具调用超5次 → 值得记忆
- 中途出错并修复 → 经验沉淀
- 用户纠正 → 错误模式记忆

自动生成Skill文件：
~/.hermes/skills/
  ├── code-review.md      # 代码审查技能
  ├── bug-fix-pattern.md  # Bug修复模式
  ├── api-testing.md      # API测试技能
  └── deploy-checklist.md # 部署检查清单

下次遇到类似任务：
→ 直接调用已有Skill，无需从零开始
→ "你纠正过它一次，下次不会再犯"

5.5 Skill与MCP的关系

Skill vs MCP：

MCP = 工具的标准化接口（"插座"）
Skill = 能力的专业化封装（"电器"）

关系：
Skill内部通过MCP调用工具
Skill是MCP工具的高层编排

示例：
"代码审查"Skill = 
  MCP GitHub Server (读取PR) +
  MCP Filesystem Server (读取代码) +
  LLM推理 (分析代码质量) +
  MCP GitHub Server (提交Review)

六、技术栈整合应用

6.1 五层技术栈协同工作

┌──────────────────────────────────────────────────────────┐
│              AI技术栈协同架构                             │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  用户需求："帮我审查这个PR的代码质量并修复Bug"           │
│                                                          │
│  LLM层：Claude Opus 4.7 理解任务、规划步骤              │
│     ↓                                                    │
│  Agent层：自主决策审查流程、调用工具                     │
│     ↓                                                    │
│  RAG层：检索项目编码规范、历史Bug模式                    │
│     ↓                                                    │
│  MCP层：通过GitHub Server读取PR、提交Review              │
│     ↓                                                    │
│  Skill层：调用"代码审查"技能、复用历史经验               │
│     ↓                                                    │
│  输出：代码审查报告 + Bug修复 + 提交Review               │
│                                                          │
└──────────────────────────────────────────────────────────┘

6.2 2026年典型应用场景

场景一：企业知识库智能问答

技术栈组合：LLM + RAG + MCP + Skill

架构：
用户提问 → Agent理解意图
  → RAG检索企业知识库（GraphRAG增强）
  → MCP连接数据库/API获取实时数据
  → Skill调用"企业问答"技能
  → LLM生成精准答案 + 来源引用

价值：
✅ 7×24小时智能客服
✅ 准确率85-95%（Agentic RAG）
✅ 支持多跳推理和关系查询

场景二：自动化测试Agent

技术栈组合：LLM + Agent + MCP + Skill

架构：
任务输入 → Agent规划测试策略
  → MCP连接代码仓库/测试框架
  → Skill调用"测试生成"技能
  → Agent执行测试、分析结果
  → 长程任务：8小时持续测试+修复

价值：
✅ 自动生成测试用例
✅ 自动执行和Bug定位
✅ 持续测试+自动修复循环

场景三：金融分析Agent

技术栈组合：LLM + RAG + Agent + MCP + Skill

架构：
分析需求 → Agent制定研究计划
  → RAG检索行业报告/历史数据
  → MCP连接金融数据API
  → Skill调用"金融分析"技能
  → Claude Opus 4.7（金融分析全球最高分）

价值：
✅ 自动生成专业分析报告
✅ 多源数据交叉验证
✅ 合规性检查

6.3 技术选型决策树

你的需求是什么？
│
├─ 纯文本对话/创作
│  └─ LLM即可（GPT-5.4 / Claude / Gemini）
│
├─ 需要实时/专业知识
│  └─ LLM + RAG
│     ├─ 简单查询 → Naive RAG
│     ├─ 复杂推理 → Agentic RAG
│     └─ 关系查询 → GraphRAG
│
├─ 需要自动执行任务
│  └─ LLM + Agent
│     ├─ 短任务（<30min）→ 任意Agent框架
│     └─ 长任务（>1h）→ GLM-5.1 / Claude Opus 4.7
│
├─ 需要连接外部工具
│  └─ LLM + MCP
│     ├─ 已有MCP Server → 直接使用
│     └─ 需要定制 → 开发自定义MCP Server
│
└─ 需要完整自动化工作流
   └─ LLM + RAG + Agent + MCP + Skill
      ├─ 编程场景 → Claude Opus 4.7 + Claude Code
      ├─ 科学研究 → Gemini 3.1 Pro + Deep Research
      ├─ 通用场景 → GPT-5.4 + Computer Use
      └─ 成本敏感 → DeepSeek V4 / GLM-5.1（开源）

七、2026年AI技术栈关键趋势

7.1 六大趋势

趋势一：Agentic AI成为主导
━━━━━━━━━━━━━━━━━━━━━━━━
- 2026年占AI总价值17%，预计2028年达29%
- 从"实验"到"转型"，Agent是关键工具

趋势二：开源模型追平闭源
━━━━━━━━━━━━━━━━━━━━━━━━
- DeepSeek V4、GLM-5.1在核心榜单超越闭源模型
- 开源模型全球市场份额达15%
- 自托管盈亏平衡点：15-40M tokens/月

趋势三：MCP成为行业标准
━━━━━━━━━━━━━━━━━━━━━━━━
- 捐赠至Linux基金会，由AAIF治理
- Gartner预测75% API网关厂商将支持MCP
- 30%企业应用厂商将推出自己的MCP Server

趋势四：RAG架构分叉
━━━━━━━━━━━━━━━━━━
- 静态数据 → CAG（Cache-Augmented Generation）
- 动态推理 → Agentic RAG
- 实体关系 → GraphRAG
- 三种范式并存，按场景选择

趋势五：Edge AI与SLM崛起
━━━━━━━━━━━━━━━━━━━━━━━━
- 小模型在端侧运行：iPhone 20-30 tok/s
- 隐私合规驱动本地化部署
- 量化技术（4-bit）让SLM实用化

趋势六：从价格竞争到价值竞争
━━━━━━━━━━━━━━━━━━━━━━━━━━
- GLM-5.1提价10%对标国际定价
- RaaS（结果计费）取代SaaS（功能交付）
- 国产模型首次获得定价权

7.2 基准测试全景（2026年5月）

基准测试	测评方向	第一名	第二名	第三名
SWE-Bench Pro	真实软件开发	GLM-5.1 (58.4)	GPT-5.4 (57.7)	Opus 4.6 (57.3)
SWE-Bench Verified	代码修复	Opus 4.6 (80.8)	Gemini 3.1 Pro (80.6)	GPT-5.2 (80.0)
ARC-AGI-2	抽象推理	Gemini 3.1 Pro (77.1%)	GPT-5.4 (73.3%)	Opus 4.6 (68.8%)
GPQA Diamond	科学推理	Gemini 3.1 Pro (94.3%)	GPT-5.4 (92.8%)	GPT-5.2 (92.4%)
OSWorld-Verified	计算机使用	GPT-5.4 (75.0%)	Opus 4.7 (72.7%)	人类 (72.4%)
GDPval	知识工作	GPT-5.4 (83.0%)	Opus 4.6 (78.0%)	GPT-5.2 (70.9%)
Terminal-Bench 2.0	终端操作	GPT-5.4 (75.1%)	Gemini 3.1 Pro (68.5%)	Opus 4.6 (65.4%)
MCP Atlas	工具协调	Opus 4.7 (77.3%)	Gemini 3.1 Pro (69.2%)	GPT-5.4 (67.2%)

附录：关键术语速查

术语	全称	定义
LLM	Large Language Model	大语言模型，AI技术基石
RAG	Retrieval-Augmented Generation	检索增强生成，解决知识截止和幻觉
Agentic RAG	Agent-based RAG	第三代RAG，Agent自主决定检索策略
GraphRAG	Graph + RAG	融合知识图谱的RAG，支持关系推理
CAG	Cache-Augmented Generation	缓存增强生成，适用于静态数据场景
Agent	AI Agent	智能代理，自主决策和执行任务
MCP	Model Context Protocol	模型上下文协议，AI的USB-C
Skill	—	技能模块，Agent能力的专业化封装
MoE	Mixture of Experts	混合专家架构，稀疏激活降低推理成本
Computer Use	—	计算机使用能力，AI操作计算机
AAIF	Agentic AI Foundation	Linux基金会下的MCP治理机构
RaaS	Result as a Service	结果计费模式，按交付结果付费