Agent自我进化:从 Auto Dream 到 Hermes,构建真正会学习的 AI Agent
我们在让Agent实现自我进化方面,正取得前所未有的突破。从早期自动Agent Persia(受 Andrew Ng 自动研究概念启发),到利用 Claude Code 实现自我进化的代码Agent,再到在电子表格和终端分支任务中双双拿下第一的壮举——生态正在以惊人的速度迭代。更有开发者从 Anthropic 泄露的源代码中挖出了隐藏的 Auto Dream(自动梦境) 功能,能将计算代码转化为学习经验与最佳实践。正是在这种背景下,超级流行的 Hermes Agent从对话中涌现,其强大的记忆与学习能力几乎让它脱离了 OpenClaw 原有的生态位,因为Agent能够真正记住所学内容,并随着使用变得越来越聪明。
但问题随之而来:所有这些自我学习机制背后的实际原理是什么?当前最前沿的实现方案有哪些可供你直接借鉴?这就是我今天想带你一探究竟的内容——我们构建自我进化Agent的最新方法,以及为什么说“用得越多,它就越聪明”。
首先,你得把这两类项目分开
在深入之前,必须明确一个关键区别:自动Agent / 自动研究 与 自学习Agent,本质上服务于完全不同的目的。
- 自动Agent(Auto Agents)/ 自动研究(Auto Research) 的目标是改进Agent工具或软件本身。这是一个持续运行的循环机制:你通过 MD 文件定义愿景或产品需求文档(PRD),明确该Agent模型应执行的任务。Agent读取程序后,会尝试改进系统本身——可能是Agent工具、运行时环境,或是模型与脚本。接着它运行评估,对比新版本与基准性能,决定保留还是舍弃改动,并无限循环此过程。最终生成的工具或模型会被“冻结”,输出是一个更高效的Agent工具。这种方法需要你预先建立任务数据库,并具备编程式评估与验证的能力。
- 自学习Agent(如 Hermes、Auto Dream 及其他自学习技能)则聚焦于 学习与记忆。它们让Agent真正记住自己的操作与反馈,以便在下次做出更好的判断。这样的Agent不会在生成后冻结,而是持续进化——你使用的时间越长,它就变得越聪明。
对于大多数实际应用场景而言,第二类才是今天真正实用且值得深挖的组件。因此,接下来让我们打开代码,启动 Hermes Agent,逐一审视它们在自我进化部分的不同配置与实现。
记忆、技能与历史:自学习的三大支柱
任何让Agent持续从行动反馈中学习的机制,都由三个核心支柱支撑:
- 记忆:通常区分“热内存”与“温内存”。热内存是始终加载的系统提示内容;温内存则是按需加载的部分。在实现中常体现为用户 MD 文件、记忆 MD 文件等。
- 技能:一项技能包含执行特定任务所需的领域知识与流程。Agent可以通过技能管理工具创建、更新、删除技能,把可复用的程序性知识沉淀下来。
- 历史记录:锁定角色的对话线程,让Agent可以回溯参考。理想的系统应支持对对话历史的搜索。
每个Agent系统——无论是 Claude Code、OpenClaw 还是 Hermes——都在以不同的方式触碰这三大支柱,并由此衍生出截然不同的自学习体验。
Claude Code 的三层记忆与隐藏的 Auto Dream
很多人对 Claude Code 的认知还停留在最初的单一 MD 文件阶段。那时,大家会把大量偏好和护栏写进一个 CLAUDE.md 文件,导入Agent系统属性,导致文件很快臃肿不堪。随后,社区普及了“热温记忆”设置——热记忆常驻系统,温记忆按需加载——这也是如今 99% 用户的使用方式。
但许多人不知道的是,Claude Code 已经大幅进化,并内置了 三层记忆系统。
当开启 Claude Code 的 自动记忆功能 后,Agent会依据内置的提示指令,自行判断何时保存记忆以及哪些内容值得记住。它会在项目文件夹中生成结构化的记忆文件,并包含一个作为索引的记忆 MD 文件。Claude Code 对不同类型记忆(用户相关、反馈、项目规范等)有约定式的分类,Agent会按需将其加载为系统提示。
然而,这个完全基于提示的系统有一个致命弱点:随着会话次数的增加,记忆会不断积累——过时的相对日期失去意义、相互矛盾的条目同时存在、同一构建命令被记录了三次、已删除文件的调试方案仍然保留,而 MEMORY.md 的索引一旦超过 200 行,超出的部分在启动时根本不会被加载。Agent可能由此产生幻觉,或被淹没在噪声中丢失重要指令。
这正是 Auto Dream(自动梦境) 应运而生的原因——它是 Anthropic 源码中被发现的一个隐藏功能,本质上是一种 记忆整合 机制。正如神经科学中人类在 REM 睡眠期间重放白天经历、强化有用连接并丢弃无关信息一样,Auto Dream 对 Claude Code 的记忆笔记做着完全相同的事情。
Auto Dream 的工作方式非常精巧,分为四个阶段:
- Phase 1:定向。 子Agent扫描记忆目录,读取 MEMORY.md 以了解当前状态,构建一张现有内容的完整地图。
- Phase 2:信号采集。 子Agent搜索最近的会话记录(JSONL 文件),识别高价值模式——用户纠正、显式保存、反复出现的主题、重要决策。
- Phase 3:整合。 这是核心工作:将“昨天”转换为绝对日期(如“2026-03-24”),移除已经过时的矛盾条目,合并重复内容,清理已删除文件的过时笔记。
- Phase 4:修剪与索引。 更新 MEMORY.md,移除过时指针,引用新文件,解决矛盾,并将索引保持在启动加载阈值 200 行以下。
这个进程的触发机制设计得相当克制——并非每次会话后都运行,而是需要同时满足两个条件:距上次整合至少经过 24 小时,且至少累积了 5 次会话。这一双重门槛防止了不活跃项目上的无谓运行,同时确保活跃项目能得到定期清理。整个过程在 Claude Code 未运行的状态下异步完成,不会阻塞当前会话。
这就构成了 Claude Code 的三层记忆架构:热记忆(系统提示中始终加载的 MEMORY.md 索引)→ 温记忆(按需加载的具体记忆文件)→ 后台自主整合进程(Auto Dream)。这套方案虽然简洁,却代表了当前记忆系统的最前沿——它不需要人类介入,单个后台进程即可保持记忆常新。
但局限性也很明显:它主要处理事实类记忆,而技能、领域知识以及可审计的可搜索历史则不在其核心覆盖范围内。
OpenClaw:把记忆当作一等公民
OpenClaw 的出现填补了一部分空白。这个由奥地利开发者 Peter Steinberger 于 2025 年 11 月创建的开源项目,通过 Gateway-Agent-Skills-Memory 四层架构,实现了从数据采集到任务执行的完整闭环。它把记忆作为系统的一等公民来对待:拥有一组含义明确的内存文件列表,各自代表不同维度的信息;同时配备引导 MD 文件,指导Agent主动从用户对话中提取并分类信息;还有每日日志提供高层次快照。
最重要的是,OpenClaw 内置了 内存搜索工具,可以遍历所有内存文件以及真实的对话历史。正是这一点,让 OpenClaw 给人一种“能跨会话记住一切”的感觉。其Agent有明确指令,可以自主跳转搜索更多技能,并随时添加、更新技能。
但问题仍然存在:所有记忆的创建与搜索仍需要人类正确引导,缺少异步自主更新记忆的主动流程。而这正是 Hermes Agent要解决的缺口。
Hermes Agent:自主技能生成与记忆审查
Hermes Agent 是由 Nous Research 开发的自我进化型 AI 智能体,其最大亮点在于内置了一个完整的闭环学习机制——它能从经验中自动创建技能、在使用中持续改进、跨会话检索记忆,并逐渐建立对用户的深度认知模型。它所代表的“执行—反思—沉淀—复用”闭环,标志着 AI 智能体从“被动执行指令”向“自主进化”的关键跃升。
Hermes 引入了两个让Agent表现脱胎换骨的关键机制:自主技能生成 和 记忆审查。
Hermes 会统计Agent执行的步骤。当 Agent 连续执行超过 10 步却未创建任何技能时,系统会启动一个新的子Agent——它不阻塞主线程,而是在后台审查已完成的工作,判断是否能生成有用技能,以便将复杂的流程稳定下来。这个技能审查Agent会审视对话内容,如果发现某方法非同寻常且通过试错有效完成任务,便将其创建为标准化技能。同时,Agent配备了技能管理工具,可创建新技能、修补现有技能、删除或修改文件。更有主动提示要求Agent:一旦发现技能过时、不完整或错误,立即修补,无需等待询问。“未维护的技能将成为负担”——正是这一哲学,让 Hermes 拥有了“从经验中学习并下次做得更好”的能力。
值得注意的是,Hermes 的自主进化并非毫无边界的通用智能跃迁。它被严格限定在技能沉淀、记忆复用与执行路径优化这三个可验证的维度内,进化依赖于明确的任务反馈、结构化的错误日志以及用户确认的技能存档动作。在最新版本中,技能审查还引入了以评分标准为基础的规范性判断,取代了原先的自由形式判断。
在安全性上,所有新技能都会经过 skilled_guard_python 文件的安全扫描,拒绝模式一旦触发即自动删除技能并通知Agent调整,确保自主生成的安全性。
在记忆效应方面,Hermes 也同样把异步自主流程贯彻到底。它拥有四类主要记忆层级:
- 用户 MD 文件:存储偏好、风格、工作流程和习惯。
- 记忆 MD 文件:记录环境信息、项目规范与事实。
- 技能(Skill)管理:按需加载的领域知识。
- 对话历史:保存在本地并可被 SQLite FTS5 全文检索,还支持接入语义记忆层(如 Honcho 等)。
前两者每次运行都会更新,且受严格字符限制(总计不足四千字符),这逼迫Agent必须把大量任务知识沉淀为技能。同时,Hermes 还设有异步后台记忆审查者:每 10 回合后若未曾提取记忆,则启动特殊提示的Agent,自我审查人格特质、用户偏好和期望行为方式,并保存至记忆文件。
Hermes 与 OpenClaw 的设计哲学也因此形成鲜明对比:OpenClaw 走的是“广度连接”路线,强调可控执行与规则定义;Hermes 走的则是“深度进化”路线,让Agent自主成长。一个让你掌控执行逻辑,一个让Agent学会自己做事——两者并无绝对优劣,关键在于你的使用场景更偏爱哪种范式。
在技能与记忆层面,Hermes 都部署了同步的自主流程,加上可搜索的对话日志,这就是为什么它看起来比其他Agent“更聪明”的根本原因。“记忆 + 技能”双飞轮是 Hermes 的关键设计:大多数 Agent 只有短期上下文,而 Hermes 通过记忆持久化与技能自动创建构建了真正的长期积累机制,让它越用越聪明,而不是每次从零开始。
你不必从零开始:增强现有Agent的自学习配置
梳理到现在,自学习Agent的最优路径已经非常清晰:用技能捕捉领域知识,用记忆存储事实,用可搜索、可回溯的历史提供上下文,并且尽可能采用异步自主流程,让知识的提取和维护不再依赖人类或Agent的“自觉”。
如果你已经在使用 OpenClaw,其实完全不必切换到 Hermes 就能获得类似体验。社区已有现成的技能可以接入,直接增强你的 OpenClaw 或 Claude Code 的记忆与自学习配置。这里我测试过三种技能(表格详情可查阅原文),其中“自我改进Agent技能”最受欢迎——它引入简洁的记忆结构,在学习文件夹中存放学习要点、功能与任务时间定义,并巧用钩子确保记忆创建和更新更完善:例如在用户发送消息后捕获并生成提示,确保Agent遵循记忆生成模式;在每个 bash 命令执行后检查结果,若匹配则生成学习要点。此外,启动时还会以系统属性注入自我改进提醒 MD 文件。
这意味着,一个已经使用一段时间的Agent,无需推倒重来,只需一次迁移即可完成向自学习Agent的进化。整个过程其实出人意料地简单。
架构选择:不总是更智能才更好
在构建Agent系统时,很多人有一个误区:认为更多参数、更复杂的架构总是更好。但实际情况并非如此。你可以构建从单一模型调用到工作流链式系统(像 Zapier 那样),再到能做决策、生成技能并持续进化的Agent系统。关键是根据用例选择合适的架构:需要确定性和可预测性时,选择结构化工作流;需要灵活适应时,才拥抱自我进化的代际系统。
事实上,自我进化 AI 智能体的研究正在学术界快速推进。最近的综述文章提出了一个统一的概念框架,将自我进化智能体系统设计背后的反馈循环抽象为四个关键组件:系统输入、智能体系统、环境和优化器——为理解和比较不同策略奠定了基础。从 MOBIMEM 等记忆中心的Agent系统到 SAGE 等反思增强框架,研究界正在系统性地推进这一领域。HubSpot 提供的 AI Agent速查表 对此有极佳的拆解,涵盖不同Agent系统的原理、架构设计与适用场景,还有实用技巧与避坑指南,是学习Agent架构设计的可靠参考(下方链接可免费下载,感谢 HubSpot 赞助)。
你的Agent,从现在开始进化
如果你正在构建自己的Agent框架,希望今天的梳理对你有帮助。归根结底,让Agent真正“学习”的方法并不神秘——它就是记忆、技能、历史三条支柱的组合,加上自主异步流程的设计选择。一旦接入了合适的自学习配置,你的Agent将从今天开始,随着每一次对话,实实在在地变得更强。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)