Agent自我进化：从 Auto Dream 到 Hermes，构建真正会学习的 AI Agent

还有你Y

343人浏览 · 2026-05-22 16:52:33

还有你Y · 2026-05-22 16:52:33 发布

我们在让Agent实现自我进化方面，正取得前所未有的突破。从早期自动Agent Persia（受 Andrew Ng 自动研究概念启发），到利用 Claude Code 实现自我进化的代码Agent，再到在电子表格和终端分支任务中双双拿下第一的壮举——生态正在以惊人的速度迭代。更有开发者从 Anthropic 泄露的源代码中挖出了隐藏的 Auto Dream（自动梦境） 功能，能将计算代码转化为学习经验与最佳实践。正是在这种背景下，超级流行的 Hermes Agent从对话中涌现，其强大的记忆与学习能力几乎让它脱离了 OpenClaw 原有的生态位，因为Agent能够真正记住所学内容，并随着使用变得越来越聪明。

但问题随之而来：所有这些自我学习机制背后的实际原理是什么？当前最前沿的实现方案有哪些可供你直接借鉴？这就是我今天想带你一探究竟的内容——我们构建自我进化Agent的最新方法，以及为什么说“用得越多，它就越聪明”。

首先，你得把这两类项目分开

在深入之前，必须明确一个关键区别：自动Agent / 自动研究 与 自学习Agent，本质上服务于完全不同的目的。

自动Agent（Auto Agents）/ 自动研究（Auto Research） 的目标是改进Agent工具或软件本身。这是一个持续运行的循环机制：你通过 MD 文件定义愿景或产品需求文档（PRD），明确该Agent模型应执行的任务。Agent读取程序后，会尝试改进系统本身——可能是Agent工具、运行时环境，或是模型与脚本。接着它运行评估，对比新版本与基准性能，决定保留还是舍弃改动，并无限循环此过程。最终生成的工具或模型会被“冻结”，输出是一个更高效的Agent工具。这种方法需要你预先建立任务数据库，并具备编程式评估与验证的能力。
自学习Agent（如 Hermes、Auto Dream 及其他自学习技能）则聚焦于 学习与记忆。它们让Agent真正记住自己的操作与反馈，以便在下次做出更好的判断。这样的Agent不会在生成后冻结，而是持续进化——你使用的时间越长，它就变得越聪明。

对于大多数实际应用场景而言，第二类才是今天真正实用且值得深挖的组件。因此，接下来让我们打开代码，启动 Hermes Agent，逐一审视它们在自我进化部分的不同配置与实现。

记忆、技能与历史：自学习的三大支柱

任何让Agent持续从行动反馈中学习的机制，都由三个核心支柱支撑：

记忆：通常区分“热内存”与“温内存”。热内存是始终加载的系统提示内容；温内存则是按需加载的部分。在实现中常体现为用户 MD 文件、记忆 MD 文件等。
技能：一项技能包含执行特定任务所需的领域知识与流程。Agent可以通过技能管理工具创建、更新、删除技能，把可复用的程序性知识沉淀下来。
历史记录：锁定角色的对话线程，让Agent可以回溯参考。理想的系统应支持对对话历史的搜索。

每个Agent系统——无论是 Claude Code、OpenClaw 还是 Hermes——都在以不同的方式触碰这三大支柱，并由此衍生出截然不同的自学习体验。

Claude Code 的三层记忆与隐藏的 Auto Dream

很多人对 Claude Code 的认知还停留在最初的单一 MD 文件阶段。那时，大家会把大量偏好和护栏写进一个 CLAUDE.md 文件，导入Agent系统属性，导致文件很快臃肿不堪。随后，社区普及了“热温记忆”设置——热记忆常驻系统，温记忆按需加载——这也是如今 99% 用户的使用方式。

但许多人不知道的是，Claude Code 已经大幅进化，并内置了 三层记忆系统。

当开启 Claude Code 的 自动记忆功能 后，Agent会依据内置的提示指令，自行判断何时保存记忆以及哪些内容值得记住。它会在项目文件夹中生成结构化的记忆文件，并包含一个作为索引的记忆 MD 文件。Claude Code 对不同类型记忆（用户相关、反馈、项目规范等）有约定式的分类，Agent会按需将其加载为系统提示。

然而，这个完全基于提示的系统有一个致命弱点：随着会话次数的增加，记忆会不断积累——过时的相对日期失去意义、相互矛盾的条目同时存在、同一构建命令被记录了三次、已删除文件的调试方案仍然保留，而 MEMORY.md 的索引一旦超过 200 行，超出的部分在启动时根本不会被加载。Agent可能由此产生幻觉，或被淹没在噪声中丢失重要指令。

这正是 Auto Dream（自动梦境） 应运而生的原因——它是 Anthropic 源码中被发现的一个隐藏功能，本质上是一种 记忆整合 机制。正如神经科学中人类在 REM 睡眠期间重放白天经历、强化有用连接并丢弃无关信息一样，Auto Dream 对 Claude Code 的记忆笔记做着完全相同的事情。

Auto Dream 的工作方式非常精巧，分为四个阶段：

Phase 1：定向。 子Agent扫描记忆目录，读取 MEMORY.md 以了解当前状态，构建一张现有内容的完整地图。
Phase 2：信号采集。 子Agent搜索最近的会话记录（JSONL 文件），识别高价值模式——用户纠正、显式保存、反复出现的主题、重要决策。
Phase 3：整合。 这是核心工作：将“昨天”转换为绝对日期（如“2026-03-24”），移除已经过时的矛盾条目，合并重复内容，清理已删除文件的过时笔记。
Phase 4：修剪与索引。 更新 MEMORY.md，移除过时指针，引用新文件，解决矛盾，并将索引保持在启动加载阈值 200 行以下。

这个进程的触发机制设计得相当克制——并非每次会话后都运行，而是需要同时满足两个条件：距上次整合至少经过 24 小时，且至少累积了 5 次会话。这一双重门槛防止了不活跃项目上的无谓运行，同时确保活跃项目能得到定期清理。整个过程在 Claude Code 未运行的状态下异步完成，不会阻塞当前会话。

这就构成了 Claude Code 的三层记忆架构：热记忆（系统提示中始终加载的 MEMORY.md 索引）→ 温记忆（按需加载的具体记忆文件）→ 后台自主整合进程（Auto Dream）。这套方案虽然简洁，却代表了当前记忆系统的最前沿——它不需要人类介入，单个后台进程即可保持记忆常新。

但局限性也很明显：它主要处理事实类记忆，而技能、领域知识以及可审计的可搜索历史则不在其核心覆盖范围内。

OpenClaw：把记忆当作一等公民

OpenClaw 的出现填补了一部分空白。这个由奥地利开发者 Peter Steinberger 于 2025 年 11 月创建的开源项目，通过 Gateway-Agent-Skills-Memory 四层架构，实现了从数据采集到任务执行的完整闭环。它把记忆作为系统的一等公民来对待：拥有一组含义明确的内存文件列表，各自代表不同维度的信息；同时配备引导 MD 文件，指导Agent主动从用户对话中提取并分类信息；还有每日日志提供高层次快照。

最重要的是，OpenClaw 内置了 内存搜索工具，可以遍历所有内存文件以及真实的对话历史。正是这一点，让 OpenClaw 给人一种“能跨会话记住一切”的感觉。其Agent有明确指令，可以自主跳转搜索更多技能，并随时添加、更新技能。

但问题仍然存在：所有记忆的创建与搜索仍需要人类正确引导，缺少异步自主更新记忆的主动流程。而这正是 Hermes Agent要解决的缺口。

Hermes Agent：自主技能生成与记忆审查

Hermes Agent 是由 Nous Research 开发的自我进化型 AI 智能体，其最大亮点在于内置了一个完整的闭环学习机制——它能从经验中自动创建技能、在使用中持续改进、跨会话检索记忆，并逐渐建立对用户的深度认知模型。它所代表的“执行—反思—沉淀—复用”闭环，标志着 AI 智能体从“被动执行指令”向“自主进化”的关键跃升。

Hermes 引入了两个让Agent表现脱胎换骨的关键机制：自主技能生成 和 记忆审查。

Hermes 会统计Agent执行的步骤。当 Agent 连续执行超过 10 步却未创建任何技能时，系统会启动一个新的子Agent——它不阻塞主线程，而是在后台审查已完成的工作，判断是否能生成有用技能，以便将复杂的流程稳定下来。这个技能审查Agent会审视对话内容，如果发现某方法非同寻常且通过试错有效完成任务，便将其创建为标准化技能。同时，Agent配备了技能管理工具，可创建新技能、修补现有技能、删除或修改文件。更有主动提示要求Agent：一旦发现技能过时、不完整或错误，立即修补，无需等待询问。“未维护的技能将成为负担”——正是这一哲学，让 Hermes 拥有了“从经验中学习并下次做得更好”的能力。

值得注意的是，Hermes 的自主进化并非毫无边界的通用智能跃迁。它被严格限定在技能沉淀、记忆复用与执行路径优化这三个可验证的维度内，进化依赖于明确的任务反馈、结构化的错误日志以及用户确认的技能存档动作。在最新版本中，技能审查还引入了以评分标准为基础的规范性判断，取代了原先的自由形式判断。

在安全性上，所有新技能都会经过 skilled_guard_python 文件的安全扫描，拒绝模式一旦触发即自动删除技能并通知Agent调整，确保自主生成的安全性。

在记忆效应方面，Hermes 也同样把异步自主流程贯彻到底。它拥有四类主要记忆层级：

用户 MD 文件：存储偏好、风格、工作流程和习惯。
记忆 MD 文件：记录环境信息、项目规范与事实。
技能（Skill）管理：按需加载的领域知识。
对话历史：保存在本地并可被 SQLite FTS5 全文检索，还支持接入语义记忆层（如 Honcho 等）。

前两者每次运行都会更新，且受严格字符限制（总计不足四千字符），这逼迫Agent必须把大量任务知识沉淀为技能。同时，Hermes 还设有异步后台记忆审查者：每 10 回合后若未曾提取记忆，则启动特殊提示的Agent，自我审查人格特质、用户偏好和期望行为方式，并保存至记忆文件。

Hermes 与 OpenClaw 的设计哲学也因此形成鲜明对比：OpenClaw 走的是“广度连接”路线，强调可控执行与规则定义；Hermes 走的则是“深度进化”路线，让Agent自主成长。一个让你掌控执行逻辑，一个让Agent学会自己做事——两者并无绝对优劣，关键在于你的使用场景更偏爱哪种范式。

在技能与记忆层面，Hermes 都部署了同步的自主流程，加上可搜索的对话日志，这就是为什么它看起来比其他Agent“更聪明”的根本原因。“记忆 + 技能”双飞轮是 Hermes 的关键设计：大多数 Agent 只有短期上下文，而 Hermes 通过记忆持久化与技能自动创建构建了真正的长期积累机制，让它越用越聪明，而不是每次从零开始。

你不必从零开始：增强现有Agent的自学习配置

梳理到现在，自学习Agent的最优路径已经非常清晰：用技能捕捉领域知识，用记忆存储事实，用可搜索、可回溯的历史提供上下文，并且尽可能采用异步自主流程，让知识的提取和维护不再依赖人类或Agent的“自觉”。

如果你已经在使用 OpenClaw，其实完全不必切换到 Hermes 就能获得类似体验。社区已有现成的技能可以接入，直接增强你的 OpenClaw 或 Claude Code 的记忆与自学习配置。这里我测试过三种技能（表格详情可查阅原文），其中“自我改进Agent技能”最受欢迎——它引入简洁的记忆结构，在学习文件夹中存放学习要点、功能与任务时间定义，并巧用钩子确保记忆创建和更新更完善：例如在用户发送消息后捕获并生成提示，确保Agent遵循记忆生成模式；在每个 bash 命令执行后检查结果，若匹配则生成学习要点。此外，启动时还会以系统属性注入自我改进提醒 MD 文件。

这意味着，一个已经使用一段时间的Agent，无需推倒重来，只需一次迁移即可完成向自学习Agent的进化。整个过程其实出人意料地简单。

架构选择：不总是更智能才更好

在构建Agent系统时，很多人有一个误区：认为更多参数、更复杂的架构总是更好。但实际情况并非如此。你可以构建从单一模型调用到工作流链式系统（像 Zapier 那样），再到能做决策、生成技能并持续进化的Agent系统。关键是根据用例选择合适的架构：需要确定性和可预测性时，选择结构化工作流；需要灵活适应时，才拥抱自我进化的代际系统。

事实上，自我进化 AI 智能体的研究正在学术界快速推进。最近的综述文章提出了一个统一的概念框架，将自我进化智能体系统设计背后的反馈循环抽象为四个关键组件：系统输入、智能体系统、环境和优化器——为理解和比较不同策略奠定了基础。从 MOBIMEM 等记忆中心的Agent系统到 SAGE 等反思增强框架，研究界正在系统性地推进这一领域。HubSpot 提供的 AI Agent速查表 对此有极佳的拆解，涵盖不同Agent系统的原理、架构设计与适用场景，还有实用技巧与避坑指南，是学习Agent架构设计的可靠参考（下方链接可免费下载，感谢 HubSpot 赞助）。

你的Agent，从现在开始进化

如果你正在构建自己的Agent框架，希望今天的梳理对你有帮助。归根结底，让Agent真正“学习”的方法并不神秘——它就是记忆、技能、历史三条支柱的组合，加上自主异步流程的设计选择。一旦接入了合适的自学习配置，你的Agent将从今天开始，随着每一次对话，实实在在地变得更强。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【COZE-07】插件(Plugin)开发与集成 - 从API注册到生产环境实战

在前几篇文章中，我们已经深入探讨了扣子平台的智能体设计、技能开发和工作流编排。今天我们要聊的是扣子生态中另一个核心能力——插件(Plugin)系统。插件是扣子平台的能力倍增器。通过插件，智能体可以调用任意外部API，将互联网服务、企业内部系统、第三方工具的能力无缝接入AI应用。掌握插件开发，就意味着掌握了扣子平台与万千世界连接的钥匙。本文结构。

AtomGit开源社区

TheR1Dshell_gpt：命令行AI生产力工具

ShellGPT是一款基于大语言模型的命令行AI工具，已在GitHub获得12k+星标。它支持跨平台使用，能直接生成shell命令、代码片段和技术文档，无需额外搜索。核心功能包括：智能生成适配当前系统的命令、代码注释与优化、交互式对话模式以及函数调用扩展。支持OpenAI API和本地模型部署，通过pip安装即可使用。特别适合开发者快速查询命令、批量生成代码以及构建AI工作流。该工具显著提升了命令