当 AI 开始「做梦」：下一步不是更聪明，而是更会沉淀经验

m0_56766596

339人浏览 · 2026-05-18 08:22:06

m0_56766596 · 2026-05-18 08:22:06 发布

开篇

最近，Anthropic 为Claude Managed Agent更新了三个功能：Dreaming（做梦）、Outcomes（成果评估）、Multi-agent（多智能体编排）。仔细拆解这些功能后会发现：真正决定 Agent 下一阶段壁垒的，不再是单纯的智商比拼，而是如何构建一套机制，让 Agent 能够像人类一样沉淀经验、自我进化。

这篇文章，是根据 Anthropic 的这次博客更新，以及最近对 AI 时代的软件范式跃迁的一些思考，做的一次结合梳理～一共会分为以下四个部分：

LLM的上下文局限：治不好的失忆症
柔性软件和做梦机制：从「流水线西装」到「高定裁缝」
做梦、评估与协作：如何构成自我迭代的飞轮
产品思考：从「被动工具」到「持久伙伴」的范式转移

参考资料：https://claude.com/blog/new-in-claude-managed-agents

LLM的局限：高智商的失忆症患者

上下文窗口本质上是人类的工作记忆（RAM），它是临时的、易失的。

当一个 Agent 运行了几十个回合，它的上下文里堆满了零散的工具调用日志、报错记录、重复的中间思考。这会导致两个致命后果：

注意力稀释（Lost in the Middle）：上下文越长，模型越容易忽视关键的指令，产生幻觉，甚至连简单的遵循指令能力都会退化。

跨会话的彻底遗忘：一旦当前任务结束（Session 关闭），这个容纳了无数踩坑经验和用户偏好的上下文窗口就会被瞬间清空。下次见面，一切清零。

因此我们需要一种机制，让 Agent 学会沉淀经验。👇

流水线西装与高定裁缝的《VIP客户小本本》

为了更好地理解 Anthropic 的这次三项功能更新，我们现在可以先建立一个日常的心理模型。

在奇点思考：Agent重塑软件与互联网产业新范式中，提到了一个非常重要的概念：柔性软件。如果我们把软件开发比作做衣服，那么：

1、传统软件：流水线批量生产的标准款西装

传统软件的第一性原理是复用性。

因为程序员太贵了，软件公司只能开发大一统的标准产品（比如 Photoshop、Word）。这就像商场里批量生产的标准款西装，不管你是高矮胖瘦，产品经理已经给你框定了唯一的尺码体系。你能穿，但永远做不到完美贴合你的个人习惯。

2、柔性软件：现场为你剪裁的高定裁缝（Agent）

有了 Agent 的加持，软件进入了「可塑时代」。

柔性软件有着稳定的底层 API（布料），但在运行态（交互层），Agent 就像一位全能的高级裁缝，完全根据你当天的身材、场合和心情，现场为你即时剪裁、生成你专属的操作界面和业务流。

3、做梦（Dreaming）：高定裁缝的《VIP客户小本本》

然而，如果这位高级裁缝（Agent）没有长期的记忆机制，体验也是灾难性的。你每次走进裁缝铺，他都得从头用皮尺量你的肩宽、胸围，询问你的喜好。虽然最终做出来的衣服（柔性软件）合身，但等待和沟通的成本太高了。

而 Anthropic 提出的做梦功能，完美补齐了这部分👇

做梦机制，就等同于这位裁缝在每天夜里打烊后，悄悄把你过往所有的穿搭习惯、身材变化、甚至随口抱怨过的一句“领口太紧”，整理提炼，详细地写进他的《VIP客户小本本》📝（Memory Store）里。

没有这个《小本本》（做梦机制），裁缝（Agent）每次见你都得从头量尺寸，他做出来的衣服（柔性软件）就永远不可能做到真正的默契与合身。

那么，裁缝是如何在睡梦中进化的呢？

顺着《小本本》的比喻，我们来看看 Anthropic 是如何在工程底层实现这个做梦功能的。👇

在真实的 Agent 工作流中，Agent 每次干活都会往记忆库里写东西，但这些记录是递增的、碎片化的。时间一长，记忆库里一团糟，充满了过时的报错和相互矛盾的信息。

做梦则是一个在两次任务间隙（Session 之间）运行的定时异步任务。它会同时读取 Agent 现有的记忆库和过去最多 100 个会话的完整记录，做三件事情：

去重与合并：把零散的知识点缝合在一起。
破旧立新：用最新验证正确的值，替换掉过去陈旧或矛盾的条目。
挖掘宏观规律：从大量的历史会话中，反刍出 Agent 在单一局部会话中根本注意不到的隐藏模式。（比如：“我发现这个用户每次周五提交的代码都需要格外检查安全漏洞。”）

这种机制在本质上复刻了人类大脑的「记忆巩固」过程：白天，大脑像海绵一样高频吸收短期的工作记忆（上下文）；而在夜间休息时，它会自动回放经历，强化有价值的信息节点，剔除冗余噪音，最终将碎片化的输入整合成稳固的长期认知。

并且，Dreaming 永远不会直接污染原始的输入记忆库。它输出的是一份全新的《VIP小本本》。开发者就像是裁缝铺的老板，可以实时查阅裁缝深夜写日记的过程，随时打断或审查结果，甚至通过指令去引导它「今晚该做什么主题的梦」。💤

👉 这种将经验沉淀从实时的、昂贵的上下文中剥离出来，转为异步离线处理的架构，是走向企业级智能体平台的必经之路。

闭环的形成：评估（Outcomes）与协作（Multi-agent）

一个只会做梦反思的裁缝是不够的🙂‍↔️，他还需要知道自己做的衣服到底好不好看，以及在面对超大型订单时懂得团队协作。👇

1、成果评估：让经验有迹可循

在之前的深度复盘小红书AI搜索一文中提到过评测（Evals）即新一代 PRD。我们不再用静态文档告诉模型应该怎么做，而是用黄金评测集和打分器告诉模型什么才是好。

Anthropic 的 Outcomes 机制，就是这一理念在框架层的完美落地。

开发者不需要再写冗长复杂的提示词让 Agent 自己检查自己，而是直接写一份 Markdown 格式的评分标准：比如“交付的财务模型必须引用过去五年的历史数据，且必须包含敏感性分析”。

系统会分配一个完全独立的评估器在隔离的上下文中对照标准打分。如果没达标，评估器会精准指出差在哪里，打回让 Agent 修改。

👉 这种干活的 Agent 与打分的法官物理隔离的设计，避免了 Agent 陷入自我证实的逻辑盲区，也让每一次做梦沉淀下来的经验，都是经得起检验的。

2、多智能体编排：分工带来的认知解耦

当我们需要打造一套极其复杂的柔性软件系统时，单个 Agent 的能力和上下文容量是会触顶的。

通过多智能体编排，一个主控 Agent（Lead Agent）可以将任务拆解，分发给搭载不同模型、不同专有工具的专家 Agent。它们在彼此隔离的线程中工作，但共享同一个文件系统。

结合之前在上下文不等于记忆所讲的，多 Agent 的本质是通过引入团队白板和共识机制，解决复杂任务中的状态不一致和通信爆炸。主控 Agent 只需要关注顶层逻辑和最终交付，而无需被子 Agent 繁琐的工具调用日志污染上下文。

👉 当 Dreaming、Outcomes 和 Multi-agent 结合在一起时，我们看到的是：由主干 Agent 统筹规划，专家 Agent 并行执行，评估官严格把控质量，最后在夜深人静时，系统通过 Dreaming 自动提炼今天的成功与失败，固化为明天的长期记忆。

最后

过去的计算，像是在执行一套被人写好的控制流程；而今天的智能，更像是在上下文中调用过去沉淀下来的经验。

Agent 的下一步，不是单纯追求模型参数的变大或逻辑推理的绝对完美。真正的壁垒，在于能否为它设计一套 Harness，一套完善的记忆系统，让它具备时间感。

当一万个用户使用同一套底座软件时，借助柔性软件的范式和做梦沉淀的记忆，Agent 能在数字世界里，为每个人裁剪出其心仪的定制西装。

它不再是一个用完即抛、每次都要重新调教的生硬工具，而是一个真正懂你、会随着岁月与你共同成长的持久伙伴。🥰

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI电商助手项目策划书（Demo版）

用AI理解用户评论，再用AI生成更有转化能力的直播话术。

AtomGit开源社区

LangGraph 状态快照与回滚：Agent 跑飞时的“时光机”恢复方案

在 LangGraph 构建的复杂 Agent 系统（如代码助手、企业级客服机器人、多模态内容创作平台、AI 研究助手）中，“Agent跑飞”（Agent Drift/Agent Hallucination Loop/Agent Infinite Loop）无限循环（Infinite Hallucination Loop）：Agent 反复调用相同/相似的工具却无法收敛到预期结果，或陷入自我修正的

AtomGit开源社区

AI Agent工作流自动化实战：RPA融合与业务流程重塑的完整方法论

概念定义核心能力RPA（机器人流程自动化）模拟人类操作桌面软件、网页、业务系统的自动化工具原子操作执行、跨系统操作、低代码配置AI Agent（智能代理）具备感知、记忆、决策、执行能力的自主智能实体，基于大语言模型驱动非结构化数据理解、智能决策、异常自修复、规则自学习工作流自动化对业务流程的全链路进行编排、调度、监控的系统流程编排、任务调度、状态管理、异常流转。