开篇

最近,Anthropic 为Claude Managed Agent更新了三个功能:Dreaming(做梦)、Outcomes(成果评估)、Multi-agent(多智能体编排)。仔细拆解这些功能后会发现:真正决定 Agent 下一阶段壁垒的,不再是单纯的智商比拼,而是如何构建一套机制,让 Agent 能够像人类一样沉淀经验、自我进化。

这篇文章,是根据 Anthropic 的这次博客更新,以及最近对 AI 时代的软件范式跃迁的一些思考,做的一次结合梳理~一共会分为以下四个部分:

  • LLM的上下文局限:治不好的失忆症

  • 柔性软件和做梦机制:从「流水线西装」到「高定裁缝」

  • 做梦、评估与协作:如何构成自我迭代的飞轮

  • 产品思考:从「被动工具」到「持久伙伴」的范式转移

参考资料:https://claude.com/blog/new-in-claude-managed-agents

LLM的局限:高智商的失忆症患者

上下文窗口本质上是人类的工作记忆(RAM),它是临时的、易失的。

当一个 Agent 运行了几十个回合,它的上下文里堆满了零散的工具调用日志、报错记录、重复的中间思考。这会导致两个致命后果:

注意力稀释(Lost in the Middle):上下文越长,模型越容易忽视关键的指令,产生幻觉,甚至连简单的遵循指令能力都会退化。

跨会话的彻底遗忘:一旦当前任务结束(Session 关闭),这个容纳了无数踩坑经验和用户偏好的上下文窗口就会被瞬间清空。下次见面,一切清零。

因此我们需要一种机制,让 Agent 学会沉淀经验。👇

流水线西装与高定裁缝的《VIP客户小本本》

为了更好地理解 Anthropic 的这次三项功能更新,我们现在可以先建立一个日常的心理模型。

奇点思考:Agent重塑软件与互联网产业新范式中,提到了一个非常重要的概念:柔性软件。如果我们把软件开发比作做衣服,那么:

1、传统软件:流水线批量生产的标准款西装

传统软件的第一性原理是复用性。

因为程序员太贵了,软件公司只能开发大一统的标准产品(比如 Photoshop、Word)。这就像商场里批量生产的标准款西装,不管你是高矮胖瘦,产品经理已经给你框定了唯一的尺码体系。你能穿,但永远做不到完美贴合你的个人习惯。

2、柔性软件:现场为你剪裁的高定裁缝(Agent)

有了 Agent 的加持,软件进入了「可塑时代」。

柔性软件有着稳定的底层 API(布料),但在运行态(交互层),Agent 就像一位全能的高级裁缝,完全根据你当天的身材、场合和心情,现场为你即时剪裁、生成你专属的操作界面和业务流。

3、做梦(Dreaming):高定裁缝的《VIP客户小本本》

然而,如果这位高级裁缝(Agent)没有长期的记忆机制,体验也是灾难性的。你每次走进裁缝铺,他都得从头用皮尺量你的肩宽、胸围,询问你的喜好。虽然最终做出来的衣服(柔性软件)合身,但等待和沟通的成本太高了。

而 Anthropic 提出的做梦功能,完美补齐了这部分👇

做梦机制,就等同于这位裁缝在每天夜里打烊后,悄悄把你过往所有的穿搭习惯、身材变化、甚至随口抱怨过的一句“领口太紧”,整理提炼,详细地写进他的《VIP客户小本本》📝(Memory Store)里。

没有这个《小本本》(做梦机制),裁缝(Agent)每次见你都得从头量尺寸,他做出来的衣服(柔性软件)就永远不可能做到真正的默契与合身。

那么,裁缝是如何在睡梦中进化的呢?

顺着《小本本》的比喻,我们来看看 Anthropic 是如何在工程底层实现这个做梦功能的。👇

在真实的 Agent 工作流中,Agent 每次干活都会往记忆库里写东西,但这些记录是递增的、碎片化的。时间一长,记忆库里一团糟,充满了过时的报错和相互矛盾的信息。

做梦则是一个在两次任务间隙(Session 之间)运行的定时异步任务。它会同时读取 Agent 现有的记忆库和过去最多 100 个会话的完整记录,做三件事情:

  • 去重与合并:把零散的知识点缝合在一起。

  • 破旧立新:用最新验证正确的值,替换掉过去陈旧或矛盾的条目。

  • 挖掘宏观规律:从大量的历史会话中,反刍出 Agent 在单一局部会话中根本注意不到的隐藏模式。(比如:“我发现这个用户每次周五提交的代码都需要格外检查安全漏洞。”)

这种机制在本质上复刻了人类大脑的「记忆巩固」过程:白天,大脑像海绵一样高频吸收短期的工作记忆(上下文);而在夜间休息时,它会自动回放经历,强化有价值的信息节点,剔除冗余噪音,最终将碎片化的输入整合成稳固的长期认知。

并且,Dreaming 永远不会直接污染原始的输入记忆库。它输出的是一份全新的《VIP小本本》。开发者就像是裁缝铺的老板,可以实时查阅裁缝深夜写日记的过程,随时打断或审查结果,甚至通过指令去引导它「今晚该做什么主题的梦」。💤

👉 这种将经验沉淀从实时的、昂贵的上下文中剥离出来,转为异步离线处理的架构,是走向企业级智能体平台的必经之路。

闭环的形成:评估(Outcomes)与协作(Multi-agent)

一个只会做梦反思的裁缝是不够的🙂‍↔️,他还需要知道自己做的衣服到底好不好看,以及在面对超大型订单时懂得团队协作。👇

1、成果评估:让经验有迹可循

在之前的深度复盘小红书AI搜索一文中提到过评测(Evals)即新一代 PRD。我们不再用静态文档告诉模型应该怎么做,而是用黄金评测集和打分器告诉模型什么才是好。

Anthropic 的 Outcomes 机制,就是这一理念在框架层的完美落地。

开发者不需要再写冗长复杂的提示词让 Agent 自己检查自己,而是直接写一份 Markdown 格式的评分标准:比如“交付的财务模型必须引用过去五年的历史数据,且必须包含敏感性分析”。

系统会分配一个完全独立的评估器在隔离的上下文中对照标准打分。如果没达标,评估器会精准指出差在哪里,打回让 Agent 修改。

👉 这种干活的 Agent 与打分的法官物理隔离的设计,避免了 Agent 陷入自我证实的逻辑盲区,也让每一次做梦沉淀下来的经验,都是经得起检验的。

2、多智能体编排:分工带来的认知解耦

当我们需要打造一套极其复杂的柔性软件系统时,单个 Agent 的能力和上下文容量是会触顶的。

通过多智能体编排,一个主控 Agent(Lead Agent)可以将任务拆解,分发给搭载不同模型、不同专有工具的专家 Agent。它们在彼此隔离的线程中工作,但共享同一个文件系统。

结合之前在上下文不等于记忆所讲的,多 Agent 的本质是通过引入团队白板和共识机制,解决复杂任务中的状态不一致和通信爆炸。主控 Agent 只需要关注顶层逻辑和最终交付,而无需被子 Agent 繁琐的工具调用日志污染上下文。

👉 当 Dreaming、Outcomes 和 Multi-agent 结合在一起时,我们看到的是:由主干 Agent 统筹规划,专家 Agent 并行执行,评估官严格把控质量,最后在夜深人静时,系统通过 Dreaming 自动提炼今天的成功与失败,固化为明天的长期记忆。

最后

过去的计算,像是在执行一套被人写好的控制流程;而今天的智能,更像是在上下文中调用过去沉淀下来的经验。

Agent 的下一步,不是单纯追求模型参数的变大或逻辑推理的绝对完美。真正的壁垒,在于能否为它设计一套 Harness,一套完善的记忆系统,让它具备时间感。

当一万个用户使用同一套底座软件时,借助柔性软件的范式和做梦沉淀的记忆,Agent 能在数字世界里,为每个人裁剪出其心仪的定制西装。

它不再是一个用完即抛、每次都要重新调教的生硬工具,而是一个真正懂你、会随着岁月与你共同成长的持久伙伴。🥰

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐