【系统学AI】06 AI Agent学习总览：从Chatbot到Agent OS的进化

qcx23

355人浏览 · 2026-05-27 19:21:22

qcx23 · 2026-05-27 19:21:22 发布

2024年最热的AI话题是大模型，2026年最热的不是更大的模型，而是让模型"动手干活"——这就是Agent。从早期的AutoGPT到现在的Computer Use Agent、Manus、Claude Code，Agent已经从"实验"进入"操作系统层"。

一句话总结

AI Agent = LLM + 感知 + 规划 + 工具调用 + 记忆 + 长程自主。它不只是聊天，而是能自主完成多步骤任务。从Chatbot到Agent，是从"回答问题"到"解决问题"的质变；2026年的Agent又进一步——从"调用API"进化到"操作真实电脑"，AI正在从"答题层"变成"操作层"。

1. 什么是AI Agent？

1.1 定义

Agent是一个能感知环境、做出决策、采取行动以实现目标的自主系统。

在LLM语境下：

LLM（大脑）+ 工具（手和脚）+ 记忆（经验）+ 规划（策略）+ 长程自主（耐力）= Agent

💡 2026年的关键变化：原来Agent的"工具"只是API调用，现在加上了"操作真实电脑"（Computer Use）——Agent可以直接看屏幕、移动鼠标、点击按钮、敲键盘。这把Agent的能力边界从"程序员定义的API集合"扩展到了"任何人类能在电脑上做的事"。

1.2 与Chatbot的区别

维度	Chatbot	Agent
交互模式	一问一答	多步自主执行
工具使用	无	可调用API/搜索/代码执行/操作电脑
记忆	无/短期	短期+长期记忆+持续学习
目标	回答好一个问题	完成一个任务
自主时长	单轮（秒级）	数分钟到数小时（GLM-5.1可达8小时）
示例	“解释量子力学”	“帮我调研竞品并写综述报告”

1.3 生活中的类比

概念	类比
LLM	一个只会说话的顾问
Chatbot	顾问+电话（只能对话）
Agent	顾问+电脑+手机+秘书（能执行任务）
Computer Use Agent	会用你电脑的实习生（可以打开任何应用、操作任何界面）

2. Agent的核心组件（2026六大件）

2.1 六大组件

┌─────────────────────────────────────────────────┐
│                    Agent                         │
│  ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │
│  │ 规划 │ │ 记忆 │ │ 工具 │ │感知层│ │自主层│ │
│  │Plan  │ │Memory│ │Tools │ │Sense │ │Auto  │ │
│  └──┬───┘ └──┬───┘ └──┬───┘ └──┬───┘ └──┬───┘ │
│     └────────┼────────┼────────┼────────┘     │
│              │        │        │              │
│              └────────┼────────┘              │
│                  ┌────┴────┐                   │
│                  │   LLM   │                   │
│                  │ (大脑)  │                   │
│                  └─────────┘                   │
└─────────────────────────────────────────────────┘

规划（Planning）：把大目标拆成小步骤，决定执行顺序

记忆（Memory）：⭐ 2026年Agent发展最快的领域

短期记忆：当前对话上下文
长期记忆：历史交互、知识库、用户画像
Memory工程：MEMENTO（微软）、claude-mem、cognee、Zep等专项工具爆发

工具（Tools）：

搜索引擎、代码执行器、API调用
文件读写、数据库查询
MCP协议：2024年11月Anthropic推出，2025年12月捐赠Linux基金会，2026年成事实标准，全球5000+ MCP Server可用

感知层（Sense）：⭐ 2025-2026 新增能力

屏幕理解（Computer Use）
多模态输入（图像、视频、音频）

自主层（Autonomy）：⭐ 2026新维度

长程任务执行（GLM-5.1单任务可跑8小时/1700步）
定时调度（Claude Code的/schedule）
事件驱动（Routines研究预览）

LLM（大脑）：理解指令、推理决策、生成响应

2.2 Agent Loop

Agent的核心运行循环：

1. 接收任务/观察环境
2. LLM思考：当前状态是什么？下一步该做什么？
3. 选择并执行动作（调用工具/操作电脑/生成文本）
4. 观察执行结果
5. 更新记忆（短期+长期）
6. 回到步骤2，直到任务完成

这是经典的 OODA循环（Observe-Orient-Decide-Act），2026年加上了"Memorize"，变成 OODA-M循环。

💡 OODA循环：观察-定向-决策-行动循环，由美军飞行员John Boyd提出，原本用于战斗机空战决策。AI Agent借用这个框架描述"持续感知环境并行动"的运行机制。

3. Agent vs Workflow：关键区分

这是理解Agent最重要的一组概念。

3.1 Workflow（工作流）

人定义路径，AI执行步骤。

用户 → 步骤1(搜索) → 步骤2(总结) → 步骤3(翻译) → 输出

路径是固定的
AI只在每个步骤内做"填空"
确定性高，可控性强
适合流程明确的任务

3.2 Agent（自主代理）

AI定义路径，自主决策。

用户 → Agent思考 → 调用工具A → 观察结果 → Agent思考 → 调用工具B → ... → 输出

路径是动态的，由Agent实时决定
Agent根据中间结果调整策略
灵活性高，可控性低
适合开放性、探索性任务

3.3 何时用Workflow，何时用Agent？

场景	推荐方案	原因
客服FAQ	Workflow	流程确定，不需要探索
数据分析	Workflow	步骤固定：获取→清洗→分析→可视化
市场调研	Agent	需要搜索、判断、迭代
代码debug	Agent	需要试错和动态调整
多轮谈判	Agent	不可预测，需要策略
浏览器自动化	Computer Use Agent	网页结构复杂，规则难穷举

Anthropic的建议：从Workflow开始，只在Workflow无法覆盖时引入Agent。简单问题用复杂方案是过度工程。

4. 2026年Agent生态全景图

4.1 商业Agent四象限

                  通用任务
                     ▲
         Manus       │       ChatGPT Agent Mode
        (中国)       │        (OpenAI)
                     │
         ────────────┼────────────→ 自主性高
                     │
       Devin         │       Claude Agents
      (代码专精)     │     (Claude Code + Agent SDK)
                     │
                  代码任务

4.2 主流Agent产品

产品	厂商	定位	杀手特性	月费
Claude Agents	Anthropic	通用Agent基础设施	Claude Code + Agent SDK + Subagents，2026最可靠生产方案	$20-200
Manus	Monica（中国/新加坡）	全球首款通用AI Agent	GAIA基准86.5%，2025年3月发布即爆火，2025.12 ARR破1亿美元	$39
Devin	Cognition	AI软件工程师	专精GitHub Issue修复，自主写代码+开PR	$500
OpenAI Operator / Agent Mode	OpenAI	浏览器Agent	消费场景下单/订票/填表，集成ChatGPT Pro	含$200/月
GLM-5.1	智谱AI	长程自主Agent	单任务可执行8小时/1700步，纯华为昇腾910B训练	按API

💡 Manus：2025年3月6日由Monica团队发布，被誉为"全球首款通用AI Agent"。能自主筛简历、找房、做股票分析、规划旅行——给个任务就走人，云端异步跑完通知你。GAIA基准86.5%超越OpenAI Deep Research。2025年12月Meta以约20亿美元收购，2026年4月被中国发改委叫停（《外商投资安全审查办法》2021年实施以来首个被禁的AI收购案）。

💡 Devin：Cognition公司2024年推出的AI软件工程师Agent。点GitHub Issue让它修，会自己写代码+跑测试+开PR。但2026年实测发现：定义清晰的小任务（bug修复、依赖升级）能做好；模糊任务会跑几小时然后产出无用PR。$500/月起。

💡 GLM-5.1：智谱AI 2026年5月发布的长程自主Agent模型。SWE-Bench Pro 58.4%，Terminal-Bench 2.0 63.5%，AIME 2026 95.3%。最炸裂的是"长程自主"——单任务可连续运行8小时、1700步。"2024年Agent能做20步，GLM-5.1能做1700步"是其团队Lou的原话。

4.3 Agent OS：2026年的临界点

2026年4月业界出现一个新概念：Agent OS——AI不再是聊天框里的助手，而是"操作系统层的存在"。

传统AI：       浏览器/聊天框
                    ↓
                 Plugins
                    ↓
              Connectors

2026 Agent OS:  操作系统
                    ↓
              Computer Use（操作屏幕）
                    ↓
                MCP（连接工具）
                    ↓
              Subagents（多智能体并行）
                    ↓
              Scheduled Tasks（定时执行）

💡 Agent OS的关键认知：AI从"答题层"（answering layer）变成"操作层"（operating layer）。Anthropic Computer Use让Claude能控制电脑，OpenAI Codex桌面化让Codex成为多Agent指挥中心，MCP成为跨工具的通信协议——这三条线在2026年4月W16同周合流，“用电脑的AI”+“写代码的AI”+"标准化协议"在OS层统一了。

5. 2026年五大范式（从三大升级）

5.1 ReAct

边想边做——每步先思考，再行动，观察结果，继续思考。

Thought: 我需要搜索最新的AI新闻
Action: search("AI news 2026")
Observation: [搜索结果...]
Thought: 找到了3篇相关文章，我需要总结
Action: summarize([文章1, 文章2, 文章3])
...

适用：通用任务、动态决策。

5.2 Plan-then-Execute

先想好再做——先制定完整计划，再逐步执行。

Plan:
1. 搜索AI新闻
2. 筛选最近3天的
3. 总结要点
4. 翻译成中文
5. 发送到企业微信

Execute step 1 → step 2 → step 3 → ...

适用：步骤可预定义、Web Agent场景（成功率比ReAct高80%）。

5.3 Multi-Agent

分工协作——多个Agent各司其职，通过协调机制配合。

Researcher Agent → 收集信息
Writer Agent → 撰写内容
Reviewer Agent → 审核质量

2026年主流实现：

Anthropic Subagents：Claude Code的核心机制，主Agent调度子Agent并行干活
OpenAI Swarm/Agents SDK：2025年发布，对话驱动的多Agent
CrewAI：角色化Multi-Agent框架

5.4 Computer Use Agent ⭐ 2025-2026新增

操作电脑而非调用API——Agent通过看屏幕、移鼠标、敲键盘来完成任务。

任务：打开Excel，填入财报数据，导出PDF
1. 截屏 → LLM看屏幕
2. LLM决策："点击Excel图标"
3. 执行鼠标点击坐标(100, 200)
4. 截屏 → 验证Excel已打开
5. ... 循环至任务完成

代表产品：

Anthropic Computer Use（2024.10公测API）
OpenAI Operator（2025初）
Anthropic Claude桌面应用 Computer Use（2026.03，Pro/Max用户）
OpenClaw（2025-2026开源爆款，奥地利独立开发者）

适用：浏览器自动化、桌面应用操作、传统软件无API的场景。

5.5 Long-Horizon Autonomous Agent ⭐ 2026新增

长程自主执行——单任务可持续数小时甚至数天。

2024年: Agent能跑20步
2025年: Devin能跑数百步
2026年: GLM-5.1能跑1700步/8小时

关键技术：

自动上下文压缩（Memory Compaction）：长任务中Claude Code能压缩历史对话
持久化记忆：MEMENTO、claude-mem把推理中间态存为可寻址记忆
定时调度：Claude Code的/schedule、Routines

适用：CI修复、大型代码迁移、多日数据分析。

6. Agent发展简史（2025-2026更新版）

时间	里程碑	意义
2023.03	AutoGPT / BabyAGI	最早爆火的Agent项目，证明LLM可以"自主执行"
2023.06	LangChain 0.1	Agent开发框架化
2023.10	ReAct论文广泛实践	Thought-Action-Observation成为标准范式
2024.03	Devin（Cognition）	第一个"AI软件工程师"Agent
2024.10	Anthropic Computer Use	Claude首发"操作电脑"能力，Agent进入OS层
2024.11	MCP协议发布	Anthropic推出，统一工具调用协议
2025.02	Claude Code发布	Agent化的命令行编程工具，Boris Cherny用它完成100%日常编码
2025.03	Manus发布	全球首款通用AI Agent，GAIA 86.5%，邀请码炒到5-10万
2025.05	Claude Code GA	跟Claude 4一起正式商用
2025.09	Claude Agent SDK开放	Python/TypeScript两个版本，Agent基础设施开放
2025-26	Devin/Manus商业化	Manus年底ARR破1亿美元
2025.12	MCP捐赠Linux基金会	跨厂商标准协议，Apple/OpenAI跟进
2026.01	Apple Xcode原生支持MCP	MCP成跨平台标准
2026.03	Claude Code集成Computer Use	SWE-Bench 80.8%（2024年还是个位数）
2026.04	Codex多Agent指挥中心	OpenAI对标Claude，Agent OS之争白热化
2026.04	GLM-5.1长程自主	单任务1700步/8小时，纯华为昇腾训练
2026.05	Pinecone Nexus发布	向量数据库厂商转型Agent知识引擎

7. Agent的挑战

挑战	说明	2026进展
可靠性	Agent可能走错路、死循环	Claude 4.7知道何时停止 + 主动求澄清
成本	多步调用消耗大量Token	Memory Compaction + 小模型路由（DeepSeek V4-Flash）
可观测性	难以追踪Agent的决策过程	Langfuse、Phoenix、Arize、LangSmith等成熟
安全性	Agent调用工具可能造成损害	沙箱 + 权限控制 + Constitutional AI 2.0
评测	Agent行为多样性大，难以标准化	Terminal-Bench 2.0、SWE-Bench Pro、GAIA成熟
审计取证	2026新增：Agent操作和人类操作没法区分	业界尚未解决——Computer Use模糊了"人vs AI"的取证边界

💡 审计困境：当Agent就是用户本身（同一个鼠标、键盘、屏幕）的时候，传统取证手段没法区分人类和AI的操作。这是2026年Agent OS化带来的全新合规问题，企业级部署绕不开。

8. 本系列学习路线（2026版）

篇序	主题	核心问题
1（本篇）	Agent学习总览	Agent是什么？2026生态全景？
2	ReAct	如何"边想边做"？
3	Plan-then-Execute	如何"先规划再执行"？
4	Multi-Agent架构	多Agent如何协调？
5	Anthropic Agent设计	业界标杆怎么设计Agent？
6	Agent开发框架	用什么框架开发Agent？

9. 面试高频问题

Q1：Agent和Workflow的核心区别？

Workflow是人定义执行路径，AI只做"填空"；Agent是AI自己决定执行路径。Workflow确定性高但灵活性低，Agent灵活性高但可控性低。

Q2：为什么不是所有场景都适合Agent？

Agent有三个固有风险：(1) 可能走错路且难以预判；(2) 成本不可控（多步调用）；(3) 调试困难。流程明确的任务用Workflow更可靠。

Q3：Agent的记忆如何实现？

短期记忆用对话上下文（prompt window）；长期记忆用向量数据库（存储历史交互的embedding，检索时取回相关片段）。2026年还有Memory Compaction（自动压缩历史）、专项Memory工具（MEMENTO、claude-mem、Zep）等新方案。

Q4：Computer Use和传统Tool Calling的本质区别？

Tool Calling是"调用程序员预先定义好的API"，Computer Use是"像人一样操作任何软件"。前者受限于API开放程度，后者覆盖了所有桌面应用——包括没有API的传统软件。代价是不稳定（屏幕识别可能错位）和慢（每步都要截屏+理解）。

Q5：MCP协议解决了什么问题？

MCP（Model Context Protocol）是2024年11月Anthropic推出的开放标准，类似"AI界的USB-C"。原来每个AI应用要自己适配每个工具（GitHub/Slack/数据库），MCP统一了协议——任何MCP兼容的AI可以即插即用5000+ MCP Server。2025年12月捐赠Linux基金会后成为跨厂商标准。

Q6：2026年的Agent和2024年的有什么本质区别？

三个维度：(1) 从API到OS层：Computer Use让Agent能操作真实电脑；(2) 从单步到长程：从20步到1700步的自主能力；(3) 从孤立到协议化：MCP+A2A让多Agent生态互通。本质上是"从工具到员工"的跃迁。

总结

概念	关键点
Agent定义	LLM + 感知 + 规划 + 工具 + 记忆 + 长程自主
vs Chatbot	从"回答问题"到"解决问题"
vs Workflow	AI定义路径 vs 人定义路径
五大范式	ReAct / Plan-then-Execute / Multi-Agent / Computer Use / Long-Horizon Autonomous
2026新维度	Agent OS / MCP生态 / Memory工程 / Subagents
核心挑战	可靠性、成本、可观测性、安全性、审计取证

Agent是LLM从"聊天工具"到"生产力工具"的关键跃迁。2026年的Agent已经不只是"调用API的智能体"，而是能在操作系统层运转、连续工作数小时、跨多个应用协作的"数字员工"。理解Agent架构，是构建下一代AI应用的基础。

路易乔布斯 © 2026 | AI Agent & RAG学习计划 · 模块01-Agent · 第一篇

参考文献：

Anthropic, “Building Effective Agents”, 2024.12

Yao et al., “ReAct: Synergizing Reasoning and Acting in Language Models”, 2022

Anthropic, “Computer Use API”, 2024.10

Manus, “GAIA Benchmark Results”, 2025.03

Z.ai, “GLM-5.1: Long-Horizon Autonomous Agent”, 2026.04