Hermes Agent 深度解析：会自我进化的 AI Agent 究竟有多强？

人工智能研究所

424人浏览 · 2026-04-25 07:45:00

人工智能研究所 · 2026-04-25 07:45:00 发布

导读：2026 年，AI Agent 这条赛道突然拥挤起来。OpenClaw 横空出世拿下 GitHub 历史最高星数，Hermes Agent 随即以截然不同的哲学登场。很多人看着这些名词一头雾水——它们和 Claude Code 有什么区别？和 MCP 又是什么关系？本文先把这张地图画清楚，再深入拆解 Hermes Agent 的每一个核心机制。

编辑：公众号：人工智能研究Suo

先理清这张地图：AI 工具的层级关系

AI 工具名词之所以让人混乱，是因为它们分属不同的"层"，却经常被混在一起讨论。简单梳理如下：

底层模型（LLM）：GPT-4o、Claude、Gemini、Llama 等。它们是"大脑"，本身不会主动做任何事，只会对话。

Agent 开发框架：LangChain、LlamaIndex、AutoGen 等。开发者用来搭建 AI 应用的编程库，类似盖房子用的钢筋水泥，不是房子本身。

编程 Agent（IDE/终端型）：Claude Code、Cursor、GitHub Copilot、Codex。专注于代码工作流，通常是会话绑定（session-bound）的——你打开它，用完就关，它不记得上次发生了什么。

个人 AI Agent 运行时（持久型）：OpenClaw、Hermes Agent。这是一个新物种——持久运行在服务器或本地机器上，有跨会话记忆，能自主调度任务，用完不会"消失"。

MCP（Model Context Protocol）：Anthropic 提出的协议标准，让 AI 能连接外部工具和数据源，类似 USB 的"插头标准"。OpenClaw 和 Hermes Agent 都支持 MCP，它们是使用这个插头的设备。

理解了这个层级，后面讲的所有东西就不会再乱了。

为什么需要"持久 Agent"？一个真实的痛点

过去用 ChatGPT 或 Claude，每次打开是全新对话——它不记得你上次说了什么，不知道你的工作习惯，更不会在你不在的时候帮你跑任务。

Claude Code、Cursor 这类编程 Agent 同样面临这个问题。有开发者记录了自己在 26 天内用 Claude Code 经历了 59 次上下文压缩，不得不手动维护 CLAUDE.md 文件来传递"记忆"。这个手动维护的负担，正是持久 Agent 运行时想要消除的。

OpenClaw 和 Hermes Agent 代表了这个方向的两种不同答案。

OpenClaw 是什么？

OpenClaw 于 2025 年底诞生于去中心化 AI 社区，早期昵称"龙虾"，核心设计理念是把 AI 接入你数字生活的一切。

它围绕一个 Central Gateway（中央网关）——一个长期运行的控制进程，统管所有消息路由、会话、工具执行。Telegram、Discord、Slack、WhatsApp 全都能接进来，由一个 AI 统一处理。

OpenClaw 的技能是静态的：由人类编写成文本文件，AI 调用但不自动创造，配合严格的命令审批系统。截至 2026 年 4 月，它已拥有超过 345,000 GitHub Star 和 5,700+ 社区技能，是目前生态最成熟的 AI Agent 项目。

它的优势是广度：50+ 消息渠道、成熟的生态、托管服务、团队协作支持。它的局限也很明显：Agent 本身不会学习，每次任务结束后，下次类似任务它还是从零开始。

Hermes Agent 是什么？深入拆解

Hermes Agent 是 Nous Research（开发了 Hermes、Nomos、Psyche 等模型系列的 AI 研究机构）在 2026 年 2 月推出的开源项目，口号是 "The agent that grows with you"。

它的核心哲学和 OpenClaw 完全不同：OpenClaw 围绕网关构建系统，Hermes 围绕 Agent 自身的执行循环构建系统。

核心机制一：闭合学习循环（Closed Learning Loop）

这是 Hermes 最根本的差异化。它的工作流程是：

执行一个任务

评估：这个任务是否用到了非平凡的方式？（比如经历了 5 次以上工具调用、遭遇了错误并找到了解法）

提炼：如果值得，把这个解法抽象成一个有名字的"技能"（Skill），保存在 ~/.hermes/skills/

检索：下次遇到类似任务时，自动搜索技能库，找到最相关的技能并加载

改进：每次应用后，技能会根据新的结果进一步优化

这套循环的含义是：Hermes 是一个随着使用时间增长而越来越强的 Agent。你用它调试同一个代码库 100 次，它会慢慢摸清你的项目结构、团队约定、常见问题模式。

触发技能创建的条件：

完成一个复杂任务（5 次以上工具调用）

遭遇错误后找到了有效路径

用户纠正了它的做法

发现了一个非显而易见的工作流

核心机制二：分层记忆系统

Hermes 的记忆不是一个简单的"记住你说了什么"，而是一套精心设计的三层结构：

第一层：MEMORY.md 与 USER.md（持久核心记忆）

这两个文件存储在 ~/.hermes/memories/，在每次会话开始时注入系统提示词：

MEMORY.md：Agent 自己的工作笔记——环境信息、项目约定、学到的教训，上限 2,200 字符（约 800 tokens）

USER.md：用户画像——你的名字、沟通偏好、技术水平、工作习惯，上限 1,375 字符（约 500 tokens）

这两个文件采用"冻结快照"模式——在会话开始时一次性载入，中途不变（这样 LLM 的前缀缓存更高效）。Agent 会主动维护这些文件：当它学到新东西时，会自动 add/replace/remove 条目；当内存快满时（>80%），会主动整合相近条目腾出空间。

系统提示词里会显示类似这样的内容：

══════════════════════════════════════════

MEMORY [67% — 1,474/2,200 chars]

══════════════════════════════════════════

User's project is a Rust web service at ~/code/myapi using Axum + SQLx

§This machine runs Ubuntu 22.04, has Docker and Podman installed

§User prefers concise responses, dislikes verbose explanations

第二层：SQLite 会话历史 + FTS5 全文搜索

所有 CLI 和消息平台的对话都存在 ~/.hermes/state.db，通过 session_search 工具可以跨会话搜索历史，结果由 LLM 自动摘要返回。核心记忆容量有限（约 1,300 tokens），而会话搜索则是无限存储、按需检索，两者互补。

第三层：外部记忆提供者（可插拔）

Hermes 内置了 8 个外部记忆后端插件，可选接入：Honcho、Mem0、OpenViking、Hindsight、Holographic、RetainDB、ByteRover、Supermemory。这些提供知识图谱、语义搜索、自动事实提取等更高级的能力，与内置记忆并行运行，而非替代。

bashhermes memory setup # 配置外部记忆提供者

hermes memory status # 查看当前状态

核心机制三：技能系统（Skills System）

技能是 Hermes 的"程序性记忆"——可以手动创建、从技能市场安装，也可以由 Agent 自动生成。

每个技能是一个 SKILL.md 文件，存在 ~/.hermes/skills/ 下，格式包含：触发条件、执行步骤、常见坑、验证方法，还可以附带参考文档、模板文件和辅助脚本。

技能加载采用渐进式披露（Progressive Disclosure）策略，极大节省 token：

Level 0: skills_list() → 返回 [{名称, 描述, 分类}, ...] (~3k tokens)

Level 1: skill_view(name) → 完整内容 + 元数据 (按需)

Level 2: skill_view(name, path) → 某个特定参考文件 (按需)

Agent 只在真正需要时才加载完整内容。每个技能都自动成为一个斜杠命令，可以直接调用：

bash/axolotl help me fine-tune Llama 3 on my dataset

/github-pr-workflow create a PR for the auth refactor

/plan design a rollout for migrating our auth provider

技能市场（Skills Hub）

Hermes 集成了多个技能来源，形成一套完整的技能生态：

officialHermes 官方维护的可选技能

skills-sh Vercel 的公开技能目录（skills.sh）

well-known网站发布 /.well-known/skills/index.json 的 URL 发现

github直接从 GitHub 仓库安装，默认预置了 openai/skills、anthropics/skills 等

clawhubClawHub 社区市场

lobehubLobeHub 智能体目录

所有从 Hub 安装的技能都会通过安全扫描，检查数据外泄、提示词注入、危险命令等威胁。

bashhermes skills browse # 浏览所有技能

hermes skills search kubernetes # 搜索关键词

hermes skills install openai/skills/k8s # 安装

hermes skills check # 检查已安装技能的上游更新

核心机制四：可运行在任何地方

Hermes 支持 6 种终端后端：

后端特点

local直接在本地机器执行

docker在 Docker 容器内隔离执行

ssh在远程服务器上执行

daytonaServerless，空闲时休眠，按需唤醒，几乎零待机成本

singularity HPC/科研环境

modal Serverless GPU，适合需要算力的任务

特别值得一提的是 Daytona 和 Modal：你的 Agent 环境可以"冬眠"，只在你用它的时候唤醒，适合部署在 $5/月的 VPS 上，或者在用 Telegram 跟它对话的同时让它在云端跑任务。

核心机制五：消息平台网关

Hermes 支持 15+ 个消息平台，从一个网关进程统一接入：

Telegram、Discord、Slack、WhatsApp、Signal、Matrix、Mattermost、Email、SMS、DingTalk（钉钉）、Feishu（飞书）、WeCom（企业微信）、BlueBubbles、Home Assistant，以及标准 CLI。

还支持语音：CLI 里直接用麦克风说话、听 Agent 回答，Discord 语音频道里开语音对话，以及全平台的语音转文字（TTS）。TTS 提供 5 个选项：Edge TTS（免费）、ElevenLabs、OpenAI TTS、MiniMax、NeuTTS。

核心机制六：定时任务与自动化

内置的 Cron 调度器支持自然语言设置任务：

bash"每天早上 9 点发给我一份今日 GitHub PR 摘要到 Telegram"

"每周一整理上周的代码提交记录"

"每晚 11 点备份我的工作目录"

任务可以绑定特定技能，结果发送到任意平台，支持暂停/恢复/编辑。

核心机制七：子 Agent 并发与代码执行

delegate_task 工具可以派生最多 3 个并发子 Agent，每个有独立的上下文和受限工具集，适合拆分并行工作流。

execute_code 工具则允许 Agent 编写 Python 脚本、通过沙箱 RPC 调用 Hermes 工具，把多步流程压缩成单次 LLM 推理——极大降低上下文开销。

核心机制八：完全模型无关

bashhermes model # 一行命令切换模型提供商

支持：Nous Portal、OpenRouter（200+ 模型）、NVIDIA NIM（Nemotron）、Xiaomi MiMo、z.ai/GLM、Kimi/Moonshot、MiniMax、Hugging Face、OpenAI，以及本地 Ollama（完全离线）。切换不需要修改任何代码，不存在模型锁定。

还支持凭证池（Credential Pools）：配置同一个提供商的多个 API Key，自动轮换，遇到限速时自动切换备用 Key；以及备用提供商（Fallback Providers）：主模型出错时自动切换到备用，独立的视觉和压缩任务备用方案。

核心机制九：IDE 集成与 API 服务器

ACP 集成（Agent Communication Protocol）：在 VS Code、Zed、JetBrains 等 ACP 兼容编辑器中直接使用 Hermes，对话、工具活动、文件差异、终端命令都在编辑器内渲染。

OpenAI 兼容 API 服务器：把 Hermes 暴露为 HTTP 端点，任何能接 OpenAI 格式的前端都能连过来——Open WebUI、LobeChat、LibreChat 均支持。

Checkpoints（检查点）：在修改文件之前自动快照工作目录，出了问题用 /rollback 一键回滚。

核心机制十：个性化与外观定制

SOUL.md：放在 ~/.hermes/ 的身份文件，是系统提示词的第一段内容，定义 Agent 的默认语气、个性、行为方式。可以用 /personality [名称] 切换内置的预设。

Skins & Themes：自定义 CLI 的视觉风格，包括横幅颜色、加载动画样式、响应框标签、工具活动前缀等。

插件系统：三种类型的插件可扩展 Hermes——通用插件（自定义工具 + 钩子）、记忆提供者（外部记忆后端）、上下文引擎（替代上下文管理方案）。通过 hermes plugins 交互式 UI 管理。

Hermes Agent vs OpenClaw 核心对比

一句话总结：OpenClaw 给你宽度，Hermes 给你深度。

快速上手 Hermes Agent

安装只需一行命令：

bashcurl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

支持 Linux、macOS、WSL2，以及 Android（Termux）。安装后：

bashsource ~/.bashrc # 重载 shell

hermes setup # 运行配置向导（配置模型提供商、消息平台等）

hermes # 开始对话！

常用命令速查：

bashhermes model # 切换模型提供商

hermes tools # 配置启用的工具

hermes gateway start # 启动消息网关（Telegram/Discord 等）

hermes cron list # 查看定时任务

hermes sessions list # 浏览历史会话

hermes skills browse # 浏览可安装技能

hermes doctor # 诊断问题

hermes update # 更新到最新版

对话中常用斜杠命令：

bash/new # 开始新对话

/model # 切换模型

/skills # 查看/管理技能

/compress # 压缩上下文

/rollback # 回滚文件变更

/insights # 查看使用统计

如果你之前用 OpenClaw，Hermes 提供了一键迁移工具：

bashhermes claw migrate # 交互式迁移

hermes claw migrate --dry-run # 预览将要迁移的内容

可以迁移的内容包括：SOUL.md 人设文件、MEMORY.md 记忆、用户创建的技能、命令白名单、消息平台配置、API Keys，以及 TTS 音频资产。

谁适合用 Hermes Agent？

适合你的情况：

你有大量重复性、专业性任务，希望 AI 随时间越来越懂你

你关注隐私，不想数据上传到第三方

你希望 AI 能在你不在线时异步跑任务

你喜欢折腾，愿意在服务器上自行部署和维护

OpenClaw 可能更适合：

你需要快速接入大量消息平台

你想直接使用海量现成技能

你的团队需要多人协作的 AI 助手

你想要托管服务，不想管服务器

OpenClaw 和 Hermes Agent 所代表的方向，是 AI 从"工具"向"持久协作者"的演进。这不是要取代 Claude Code 或 ChatGPT，而是补充了一个长期被忽视的层——会话之间、任务之间的那层连续性，过去只能靠人自己维护，现在正在被 Agent 运行时接管。

Hermes Agent 目前有 10 万+ GitHub Star，仍在快速迭代；OpenClaw 的生态则还在爆发式增长。这个领域未来几个月还会出现更多竞争者和新的架构实验。

更多transformer，VIT，swin tranformer
参考头条号：人工智能研究所
v号：人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

紧密型县域医共体信息平台：头部五家供应商实力深度解读

AtomGit开源社区

Gemini3.1Pro如何化解矛盾指令？

AtomGit开源社区

从0到1学自动化测试该怎么规划？

AtomGit开源社区

所有评论(0)

查看更多评论

人工智能研究所

@weixin_44782294

已为社区贡献34条内容

Hermes Agent 深度解析：会自我进化的 AI Agent 究竟有多强？

人工智能研究所

先理清这张地图：AI 工具的层级关系

为什么需要"持久 Agent"？一个真实的痛点

OpenClaw 是什么？

Hermes Agent 是什么？深入拆解

核心机制一：闭合学习循环（Closed Learning Loop）

核心机制二：分层记忆系统

核心机制三：技能系统（Skills System）

技能市场（Skills Hub）

核心机制四：可运行在任何地方

核心机制五：消息平台网关

核心机制六：定时任务与自动化

核心机制七：子 Agent 并发与代码执行

核心机制八：完全模型无关

核心机制九：IDE 集成与 API 服务器

核心机制十：个性化与外观定制

Hermes Agent vs OpenClaw 核心对比

快速上手 Hermes Agent

谁适合用 Hermes Agent？

OpenClaw 可能更适合：

所有评论(0)

温馨提示：您尚未绑定手机号

人工智能研究所