又一个 Agent?这次我多看了两眼

2026 年开年到现在,Agent 圈的新项目多到让人有点疲惫。Claude Code 还没玩透,OpenClaw 的龙虾热刚散,Cursor 又换了代,每隔几周就冒一个号称"颠覆性"的新框架出来。大多数看一眼就过去了。

Hermes Agent 是 2 月份冒出来的那一个。第一次在 X 上刷到的时候,我的反应和你现在一样:又来?

后来让我坐下来认真把它拆开看的,是 Nous Research这几个字。

Nous Research 这个实验室在开源 AI 圈算是一股"安静的狠劲"。人不多,几乎不做营销,但他们的 Hermes 模型系列(从 8B 到 405B)被圈内当作"纯靠后训练能做到什么程度"的参考答案。这帮人突然从出模型跳去出 Agent 框架,不太像凑热闹的样子。

花了几天把文档和代码翻完之后,我把 Hermes 是什么用一段话说清楚。

它是一个开源的自主 Agent 框架,MIT 许可证,一行curl命令装完,可以跑在一台 $5/月的VPS。装完之后你会拿到一个住在服务器上的 AI:你可以在终端里和它聊,也可以把它接到 Telegram、Discord、Slack、WhatsApp、Signal 这一串十几个消息平台。所有入口背后是同一个大脑:你早上在 Telegram 问的事,中午回到电脑前用 CLI 接着聊,它知道你在说什么。配置只有一个 ~/.hermes/config.yaml,数据全部在 ~/.hermes/ 这一个目录下,没有云端、没有 telemetry、没有"哪天 API 改了把你锁死"的隐患。想搬家?打包这个目录就行。

这些都是表层信息。Hermes 真正的特别之处是它官网顶上的那句 slogan:

An agent that grows with you.

一个会随你一起长大的 Agent。

这句话听起来像产品宣传,但背后是一整套有具体技术落地的机制:学习循环、三层记忆、Skill 自改进、Honcho 用户建模,每一块都值得单独拆开讲。

这篇文章想把这些都说清楚:Hermes 是什么、它靠什么实现"成长"、和 Claude Code、OpenClaw 比起来到底怎么选、以及哪些地方你得冷静点看。

为什么不能用 ChatGPT 或 Claude Code 做同样的事

在进入机制之前,先回答一个你可能正在想的问题:Hermes 做的这些事,ChatGPT 不能做吗?Claude Code 不够用吗?

ChatGPT 是金鱼。你每次打开新对话,它就像第一次见你:你得重新解释你是谁、在做什么项目、偏好什么风格。聊了三个月,它不记得你们讨论过的任何东西。这不是 ChatGPT 的 bug,是它的设计。它从头到尾就没打算记住你。

Claude Code 好一些。CLAUDE.md 加 auto-memory 让它在项目内有了上下文,改代码时它知道你的项目结构、偏好、上次踩过的坑。但它有两个绕不开的约束:它住在你的电脑里,而且只在你坐在电脑前时工作。你一关终端它就停了。凌晨两点服务器挂了?它不会帮你看。上班路上突然想到一个点子想让 AI 帮你调研?对不起,等到晚上打开电脑再说。

Hermes 做的是另一件事:它在你不在场的时候也在工作

这话听起来像 SaaS 广告词,但它是一个技术事实。Hermes 住在 VPS 上不关机,你通过 Telegram 找它,收到消息就响应,处理完了可以主动推回来。它还能跑 cron:你让它"每天早上 9 点给我推今日热点",它就真的每天早上 9 点给你推,不需要你打开任何窗口。这些事 Claude Code 的定位决定了它做不了,不是能力不够,是它根本不在那个位置上。

这个定位上的差异,决定了 Hermes 必须解决几个别的工具不用解决的问题。长期记忆怎么存?经验怎么复用?跨平台之间怎么保持连续性?用得越久怎么让它越来越懂你?

下面一层层拆开看。

核心机制一:「学习循环」,它自己给自己造缰绳

学习循环是 Hermes 的心脏,也是它和其他 Agent 最大的区别。

一句话描述:每次完成任务,Agent 自动复盘——该记住什么、该提炼成什么 Skill、现有 Skill 要不要改。整个循环自动转,不需要你触发。

听起来简单,展开看是五个环节。我一个一个说。

第一环,策划记忆。每轮对话结束后,Agent 主动决定哪些信息值得持久化。注意是"主动决定",不是被动存整段对话,而是像人写日记:今天发生了什么值得记?用户表达了什么偏好?有什么新发现?然后把筛选后的内容写进 SQLite 数据库。

大多数人以为 AI 的"记忆"就是存聊天记录。这是最粗暴的方案,也是最常见的方案。但它有个致命问题:聊得越多上下文越长,直到撑不下为止。Hermes 更像人:一天聊几千字,睡前回想一下,真正值得记的可能就三五条。

系统还有个小细节叫 nudge****机制,它定时戳一下 Agent:"你最近有什么该记的吗?"有点像手机日记 app 弹的"今天有什么值得记录的?"这个小东西挺关键的,没有它,Agent 容易顾着干活忘了总结;有了它,反思就成了循环里的硬性环节。

第二环,自己创建 Skill。完成一个稍微复杂点的任务后,Agent 会问自己一个问题:这个解法以后还会用到吗?如果答案是 yes,它就把解决过程蒸馏成一个 markdown 文件,存到 ~/.hermes/skills/ 目录下。触发条件、执行步骤、用户偏好、常见陷阱都在里面。

下次你再提出类似任务,它不是从零开始,而是加载这个 Skill,按验证过的路径直接执行。

举个具体例子你会更有感觉。假设你每天早上会让 Hermes 帮你整理一份"今日热点简报"——科技圈发生了什么、有没有你关注的公司新动作、有没有值得展开聊的社会议题。前几次你每次都得把需求重复一遍:"给我挑三条科技新闻、一条财经、一条社会,每条两句话总结,不要标题党,标注来源。“大概到第三四次之后,你去 ~/.hermes/skills/ 目录下看一眼,会发现那里悄悄多了一个 daily-briefing.md——里面记着触发条件、筛选规则、你说过的每一条偏好。你没让它写,它自己写的。从这一刻起,你只需要说一句"给我看今天的简报”,Hermes 就知道该做什么。

第三环,Skill 自改进。这是 Hermes 最有意思的一环,也是它和所有其他 Skill 系统最大的区别。

OpenClaw 的 ClawHub 上有四万多个社区 Skill,质量很高,但那些 Skill 是静态的:写完就不变了。你觉得哪里不好?自己去改。Hermes 不一样。你对结果不满意,告诉它哪里不对,它不只是这次调整,它会回去修改 Skill 文件本身。下次再用,新版本就是默认版本。

这个过程挺像软件开发里的持续改进:每次上线出问题,修好之后不只打个补丁,还要更新文档防止同类问题再发生。只不过这里的"修文档"是 Agent 自己做的。

第四环,FTS5 跨会话召回。存了这么多东西,关键是能在对的时候找到。Hermes 用 SQLite 的 FTS5 扩展建全文索引。新对话开始时,它根据当前话题搜历史记忆,只加载最相关的片段。

这个设计被严重低估。对比一下就知道价值在哪——传统记忆方案有两种:要么不记得,要么把所有历史全塞进上下文。前者等于没有,后者几个月后就撑爆。Hermes 的做法是:你问数据库的事它翻数据库相关的记忆,你问前端的事它翻前端相关的记忆。更像一个整理得很好的笔记系统,有目录有索引,需要什么查什么——而不是一盘越来越长的录像带。

第五环,Honcho 用户建模。这是可选的外部集成,Plastic Labs 做的。它做的事比"记住你说过什么"再深一步——它在推理你是什么样的人。

举个具体点的例子。假设一个用户连续用了几周之后,Honcho 可能会推断出这样一些东西:这个用户不是纯新手但也不是专家(能看懂代码但偶尔写不出来)、习惯晚上 9-11 点活跃(可能是下班后的个人项目)、喜欢先看结果再问原理(不爱读长篇分析)、代码报错时会有点急躁(这时候简洁直接的回复效果更好)。

最有意思的是它会抓你"言行不一致"的地方。比如你嘴上说要写完整注释,但实际 review 代码时从来不看注释——辩证式建模就是同时关注这两种信号,而且相信行动而不是相信口头声明。

这些推断不会直接告诉你,而是作为隐形上下文注入到后续的 prompt 里。你看不到,但你会感受到 Hermes****变得更懂你

五个环节串起来就是一个正反馈飞轮:记忆喂养 Skill,Skill 在使用中产生新反馈,反馈触发 Skill 改进,改进后的 Skill 带来更好的结果,更好的结果让用户建模更准确,更准确的画像又让下一次的记忆策划更有针对性。每转一圈,系统在几个维度上同时变强。

核心机制二:「三层记忆」,从金鱼到老友

学习循环是发动机,三层记忆是底盘。发动机再强,底盘不行也跑不快。

Hermes 的记忆分三层,而且这三层不是随便分的,对应的是认知科学里的三种记忆类型。它架构决策背后有个挺清晰的隐喻:它在模仿人脑是怎么记住事情的

第一层,会话记忆,对应人脑里的情景记忆。回答的问题是:发生了什么。对话原文、工具调用、返回结果全部写进 SQLite,同时建 FTS5 索引。这对应海马体的职能:记录一个个具体事件。

关键设计前面说过:按需检索而不是全量加载。相当于你随身带一页笔记,需要细节时再去翻档案柜。

第二层,持久记忆,对应语义记忆。回答的问题是:你是谁。这层存的不是对话原文,是从对话里提炼出的持久状态:编码偏好、项目结构习惯、常用工具链、工作节奏。跨会话保持,不会因为开了新对话就丢。

这层是纯文件级的,没有外部服务器。你可以把 ~/.hermes/ 备份到 U 盘、挂到 Docker 卷、多设备之间用网盘同步。便携性这件事被严重低估了——很多 AI 工具的记忆锁在云端,你换个工具就得从零开始。Hermes 的记忆是你自己的文件,想怎么搬怎么搬。

第三层,Skill 记忆,对应程序性记忆。回答的问题是:怎么做事。每个 Skill 一个 markdown 文件,可读可编辑。这对应你学会骑自行车后那种"不用思考就能执行"的肌肉记忆。

三层一起工作的时候大概是这样的。你说"帮我部署这个项目"——Hermes 先用 FTS5 搜会话记忆,找到你上次部署时遇到的端口冲突(情景);再查持久记忆,知道你用的是阿里云 ECS、Nginx 反向代理(语义);最后加载 deployment-checklist 这个 Skill,按你验证过的步骤执行(程序性)。三层各司其职,像人脑处理熟悉任务的方式。

标题那句"从金鱼到老友",说的就是这个。金鱼不是没有眼睛,是没有记忆——每次看到你都像第一次见面。大多数 AI 工具是这样的。老友不一样,老友知道你的脾气、你的习惯,知道你嘴上说不在意其实很在意,你不需要每次都解释背景,因为背景已经在那了。

Hermes 走的就是从金鱼到老友这条路。

不过得提一个警告:记忆污染****是个真实的问题。如果 Hermes 早期记住了错误信息,这个错误可能会一直影响它的后续行为。比如它误判你偏好 Python 2,之后生成的代码可能都带着 Python 2 的语法。目前它没有自动过期机制,长期使用需要你偶尔打开**~/.hermes/skills/****看看,删掉不合适的,**修正错了的推断。

就像整理笔记本一样。偶尔翻翻,你会发现不少需要更新的东西。

核心机制三:Skill 系统和 agentskills.io

Skill 这块还有个细节值得单独说——开放标准 agentskills.io

Hermes 不是封闭生态。它兼容的这个 Skill 标准目前已经被 30 多个工具采用,包括 Claude Code、Cursor、Copilot、Gemini CLI。

这件事的长远影响可能比 Hermes 本身还大。因为它在说:不管你选哪个 Agent,Skill 都是通用的。你花在写 Skill 上的时间不会因为换工具而浪费。你积累的 Skill 是你自己的资产,不是某个平台的附属品。

OpenClaw 的 ClawHub 上有四万多个社区 Skill——理论上这些都可以被 Hermes 直接调用。Hermes 甚至专门内置了一个 hermes claw migrate 命令,带 dry-run 预览,专门帮 OpenClaw 用户把旧的 Skill 资产平滑搬过来。这很克制,也很聪明,与其和 OpenClaw 抢生态,不如直接把它的生态接过来。

还有一个值得留意的信号:Nous Research 自己开了一个叫 hermes-agent-self-evolution 的子项目,用 DSPy + GEPA 做 Skill、prompt 和代码的演化式自改进。目前还在实验阶段,但方向很清楚——他们想把 Skill 的进化从"基于反馈的线性修改"升级到"基于搜索的全局优化"。这可能是 Agent 自改进能力的下一个台阶。

核心机制四:工具、沙箱和多 Agent——Hermes 对"能力越多越好"的反话

这一节的主题其实只有一句话:Hermes****相信"约束"和"能力"同样重要

大多数 Agent 框架的路数是"我接入了多少工具"——越多越好,越全越强。Hermes 的路数是反的:工具很多,但默认不全开;能并行,但并发有上限;能跑代码,但必须在沙箱。这些看起来像限制的设计,每一条都有它要回答的具体问题。

先看工具层。Hermes 内置 40 多个工具,分五大类:执行、信息、媒体、记忆、协调。再加上 MCP 协议可以接入任何外部服务。但它提供了一个叫 Toolset 的概念,让你在 config.yaml 里按需启用工具,而不是默认全开。

为什么?两个原因。

一个是效率:启用的工具越少,Agent 决策越聚焦、响应越快、token 消耗越少。40 个工具摆在模型面前,每次调用都要多算一层"我该用哪个"的选择。

另一个是约束:帮你整理日程的 Agent 没有理由拥有 code_execution 权限,管你代码仓库的 Agent 也不需要 Home Assistant。**Toolset 不是效率工具,是权限边界,**把"这个 Agent 能碰什么"写在配置里,而不是交给模型临场发挥。

再看多 Agent 这一层。Hermes 有一个 delegate_task 工具,允许主 Agent 生成子 Agent 并行执行任务。每个子 Agent 有独立的上下文、独立的终端、独立的工具集。但硬性规定:最多 3 个并发。

这个上限是刻意的。Nous Research 在测试里发现,超过 3 个之后主 Agent 的汇总质量会急剧下降,不是算力问题,是注意力问题。大模型在整合过多独立信息源时会变笨。一个容易被"再多一点就更强"这种执念牵着走的参数,他们选择了老老实实承认瓶颈。这个决定背后的成熟度比参数本身更值得注意。

子 Agent 的独立工具集也不是顺手设计,它是安全机制。想象一个场景:你让一个子 Agent 去网上搜一段示例代码,它搜到了一段藏有恶意指令的片段。如果这个子 Agent 同时持有 terminal 权限,这段代码可能被当场执行;但如果它只有 web 权限,返回的就只是一段无害的文本,等着主 Agent 审查。最小权限原则**,在 Agent 层面依然成立**,而且比在人类团队里更重要——因为 Agent 更容易被诱导。

最后是****执行环境。Hermes 支持六种终端后端:local、Docker、SSH、Singularity、Daytona、Modal。Docker 默认就做了只读根文件系统、capability 降级、命名空间隔离这些加固。Daytona 和 Modal 提供 serverless 持久化:空闲时休眠、收消息时唤醒,会话间成本趋近于零。

把这三层放在一起看:工具按需启用、子 Agent 受限委派、代码沙箱隔离这是Hermes对"一个 7x24 运行、随时会接触到不可信输入的自主 Agent"给出的完整回应。不是"能做的事越多越好",而是"能做的事必须在可控边界内"。

这一层设计上的克制,和前面学习循环的那种"放手让它长大"其实是一枚硬币的两面。放手不等于失控,成长不等于无边界。这是Hermes整个产品哲学里最有分量的一条。

Hermes、OpenClaw、Claude Code:三匹马怎么驾

到这里,你应该已经能感觉到:把这三个工具放在一起比较"谁更好"是个伪命题。它们解决的根本不是同一个问题。

先看一张对照表理清位置:

维度 Claude Code OpenClaw Hermes Agent
核心理念 交互式结对编码 配置即行为(SOUL.md) 自主后台 + 自改进
你的角色 坐在终端前实时指挥 写配置定义人格 部署后偶尔检查
记忆机制 CLAUDE.md + auto-memory 多层记忆,人工维护为主 三层自动记忆 + FTS5
Skill 来源 手动编写安装 ClawHub 四万多个社区 Skill Agent 自创 + 社区 Hub
运行模式 按需启动 按需启动 7x24 后台常驻
最擅长 实时代码生产力 透明、可审计、可复制 持久性、自动化、跨平台

我更愿意把这三个工具理解成三种不同的认知分工

Claude Code 在处理"在场的、需要实时判断的、反馈必须快的事"。你打开终端坐下来,它就上岗——你写一行它跟一行,你改一次它学一次,决策的权重始终在你这边。这种工具最适合处理短周期、高不确定性、需要人类在环的任务。写代码、做产品原型、改一份正在改的稿子,都属于这一类。它的核心价值不是"能做多少事",而是"反馈延迟有多低"。

OpenClaw 在处理"需要透明、可复制、别人也能理解的事"。SOUL.md 让 Agent 的一切变成可读的文本——什么场景下它会做什么、它的偏好是什么、它的禁区在哪里,一眼看得清楚。这种特性在个人使用时价值一般,但当你要把 Agent 交给团队、交给合规部门、交给一个你不能完全信任的场景时,透明度本身就是一种基础设施。OpenClaw 最被低估的一点是:它让"我的 Agent 做了什么"这件事可以被第三方审查。

Hermes 在处理"长期的、无人值守的、随时间累积的事"。它的核心价值不在任何一次对话里,而在几十次对话之后——当你发现它开始主动提议你需要的东西、当你发现它在没有配置的情况下已经按你偏好的方式工作、当你发现 ~/.hermes/skills/ 下的 Skill 越来越像为你定制的。这种价值是 Claude Code 和 OpenClaw 的设计都给不出来的,因为它们的交互模型里根本没有"长期累积"这一维。

所以真正的问题不是"选哪个",而是哪些任务放在哪匹马身上。一个合理的组合方式:把所有需要你在场做判断的事交给 Claude Code,它反馈最快;把所有需要透明可审计的协作场景交给 OpenClaw,它配置最清晰;把所有你希望"用着用着它自己变好"的持续性工作交给 Hermes,它最擅长随时间成长。

agentskills.io 让这个组合的切换成本接近为零——你在一个工具里攒下的 Skill,可以直接被另一个工具读取。这意味着选择不是一次性的,组合方式可以随你的需求演化。

一句话收尾:Claude Code 让你更快,OpenClaw 让你更可控,Hermes让你更长久。三件事都重要,但它们发生在不同的时间尺度上。

几个该冷静的地方

Hermes 有它的漂亮,也有它的硬伤。下面几件事值得你在决定部署前先想清楚。

记忆质量随时间会****衰减。持续增长的记忆必然积累噪音。Skill 自动生成很方便,但相互矛盾的 Skill 怎么处理、过时的流程怎么剪枝——目前没有非常成熟的方案。重度使用半年之后,记忆库是资产还是负担,取决于你愿不愿意定期整理。这也是为什么 Nous Research 在推那个 self-evolution 子项目,他们自己也意识到单靠"堆积 + 线性修改"撑不住长期使用。

工具调用准确率依赖底层模型。40 多个工具加上 MCP,暴露给模型的选择空间很大,弱一些的模型经常选错。起步阶段建议用强一点的模型,熟悉了再尝试切到更便宜的方案。

自改进有一个根本性的反馈信号问题。学习循环依赖一个关键假设:Agent 能判断自己的改进是好是坏。你在场给反馈时循环是有效的;你不在场时,它只能用自己的评估标准。但"更快"和"更准"不等于"更对"——有些错误需要领域知识才能发现,Agent 不知道自己不知道什么。

自改进让 Agent 在已知方向上越跑越快。但方向本身,还是得人来定。

Kief Morris 之前提过一个很经典的担忧,我记得很清楚:如果 junior 开发者不接触代码细节,将来谁来设计 harness?在 Hermes 的语境下这个问题变成:如果 Agent 自己设计自己的缰绳,将来谁来判断缰绳设计得对不对?

我也没有确定答案。我的观察是:完全撒手不管的自改进 Agent,会在效率上赢、在方向上输。最健康的使用方式不是 in the loop 也不是 out of the loop,而是 on the loop 的某种轻量形态——不审查每一行代码,但理解整个系统在做什么、为什么这么做。每周花十分钟翻一眼 ~/.hermes/skills/ 下新长出来的 Skill,就是保持 on the loop 的最低投入。

花这点时间我觉得值。毕竟它是在替你做决策,你多少得知道它现在是什么样子的。

最后

Hermes Agent 提出了一个值得认真对待的问题:如果一个 AI Agent 能把它做过的每一件事转化为可复用的能力,那么随着时间的推移,它能成长到什么程度?

目前,大多数 Agent 框架解决的是"如何让 AI 完成一项任务"的问题。Hermes 在此基础上加了一个维度:如何让 AI 从每次任务中学习,让下一次任务变得更轻松。

这是一个关于复利的设计。初始的 Agent 和使用了三个月后的 Agent,技能库规模不同,记忆深度不同,对你的了解程度也不同。这种随时间积累的差异化,是目前大多数 AI 工具都不具备的能力。

对于愿意自托管、关注数据主权、希望 AI 工具真正"属于自己"的开发者和研究者来说,Hermes Agent 值得认真评估——不是作为另一个聊天机器人,而是作为一个会随你成长的系统。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐