Hermes Agent 深度解析:会自我进化的 AI Agent 究竟有多强?
导读:2026 年,AI Agent 这条赛道突然拥挤起来。OpenClaw 横空出世拿下 GitHub 历史最高星数,Hermes Agent 随即以截然不同的哲学登场。很多人看着这些名词一头雾水——它们和 Claude Code 有什么区别?和 MCP 又是什么关系?本文先把这张地图画清楚,再深入拆解 Hermes Agent 的每一个核心机制。
编辑:公众号:人工智能研究Suo
先理清这张地图:AI 工具的层级关系
AI 工具名词之所以让人混乱,是因为它们分属不同的"层",却经常被混在一起讨论。简单梳理如下:
底层模型(LLM):GPT-4o、Claude、Gemini、Llama 等。它们是"大脑",本身不会主动做任何事,只会对话。
Agent 开发框架:LangChain、LlamaIndex、AutoGen 等。开发者用来搭建 AI 应用的编程库,类似盖房子用的钢筋水泥,不是房子本身。
编程 Agent(IDE/终端型):Claude Code、Cursor、GitHub Copilot、Codex。专注于代码工作流,通常是会话绑定(session-bound)的——你打开它,用完就关,它不记得上次发生了什么。

个人 AI Agent 运行时(持久型):OpenClaw、Hermes Agent。这是一个新物种——持久运行在服务器或本地机器上,有跨会话记忆,能自主调度任务,用完不会"消失"。
MCP(Model Context Protocol):Anthropic 提出的协议标准,让 AI 能连接外部工具和数据源,类似 USB 的"插头标准"。OpenClaw 和 Hermes Agent 都支持 MCP,它们是使用这个插头的设备。
理解了这个层级,后面讲的所有东西就不会再乱了。
为什么需要"持久 Agent"?一个真实的痛点
过去用 ChatGPT 或 Claude,每次打开是全新对话——它不记得你上次说了什么,不知道你的工作习惯,更不会在你不在的时候帮你跑任务。
Claude Code、Cursor 这类编程 Agent 同样面临这个问题。有开发者记录了自己在 26 天内用 Claude Code 经历了 59 次上下文压缩,不得不手动维护 CLAUDE.md 文件来传递"记忆"。这个手动维护的负担,正是持久 Agent 运行时想要消除的。
OpenClaw 和 Hermes Agent 代表了这个方向的两种不同答案。

OpenClaw 是什么?
OpenClaw 于 2025 年底诞生于去中心化 AI 社区,早期昵称"龙虾",核心设计理念是把 AI 接入你数字生活的一切。
它围绕一个 Central Gateway(中央网关)——一个长期运行的控制进程,统管所有消息路由、会话、工具执行。Telegram、Discord、Slack、WhatsApp 全都能接进来,由一个 AI 统一处理。
OpenClaw 的技能是静态的:由人类编写成文本文件,AI 调用但不自动创造,配合严格的命令审批系统。截至 2026 年 4 月,它已拥有超过 345,000 GitHub Star 和 5,700+ 社区技能,是目前生态最成熟的 AI Agent 项目。
它的优势是广度:50+ 消息渠道、成熟的生态、托管服务、团队协作支持。它的局限也很明显:Agent 本身不会学习,每次任务结束后,下次类似任务它还是从零开始。

Hermes Agent 是什么?深入拆解
Hermes Agent 是 Nous Research(开发了 Hermes、Nomos、Psyche 等模型系列的 AI 研究机构)在 2026 年 2 月推出的开源项目,口号是 "The agent that grows with you"。
它的核心哲学和 OpenClaw 完全不同:OpenClaw 围绕网关构建系统,Hermes 围绕 Agent 自身的执行循环构建系统。
核心机制一:闭合学习循环(Closed Learning Loop)
这是 Hermes 最根本的差异化。它的工作流程是:
执行一个任务
评估:这个任务是否用到了非平凡的方式?(比如经历了 5 次以上工具调用、遭遇了错误并找到了解法)
提炼:如果值得,把这个解法抽象成一个有名字的"技能"(Skill),保存在 ~/.hermes/skills/
检索:下次遇到类似任务时,自动搜索技能库,找到最相关的技能并加载
改进:每次应用后,技能会根据新的结果进一步优化
这套循环的含义是:Hermes 是一个随着使用时间增长而越来越强的 Agent。你用它调试同一个代码库 100 次,它会慢慢摸清你的项目结构、团队约定、常见问题模式。
触发技能创建的条件:
完成一个复杂任务(5 次以上工具调用)
遭遇错误后找到了有效路径
用户纠正了它的做法
发现了一个非显而易见的工作流

核心机制二:分层记忆系统
Hermes 的记忆不是一个简单的"记住你说了什么",而是一套精心设计的三层结构:
第一层:MEMORY.md 与 USER.md(持久核心记忆)
这两个文件存储在 ~/.hermes/memories/,在每次会话开始时注入系统提示词:
MEMORY.md:Agent 自己的工作笔记——环境信息、项目约定、学到的教训,上限 2,200 字符(约 800 tokens)
USER.md:用户画像——你的名字、沟通偏好、技术水平、工作习惯,上限 1,375 字符(约 500 tokens)
这两个文件采用"冻结快照"模式——在会话开始时一次性载入,中途不变(这样 LLM 的前缀缓存更高效)。Agent 会主动维护这些文件:当它学到新东西时,会自动 add/replace/remove 条目;当内存快满时(>80%),会主动整合相近条目腾出空间。
系统提示词里会显示类似这样的内容:
══════════════════════════════════════════
MEMORY [67% — 1,474/2,200 chars]
══════════════════════════════════════════
User's project is a Rust web service at ~/code/myapi using Axum + SQLx
§This machine runs Ubuntu 22.04, has Docker and Podman installed
§User prefers concise responses, dislikes verbose explanations
第二层:SQLite 会话历史 + FTS5 全文搜索
所有 CLI 和消息平台的对话都存在 ~/.hermes/state.db,通过 session_search 工具可以跨会话搜索历史,结果由 LLM 自动摘要返回。核心记忆容量有限(约 1,300 tokens),而会话搜索则是无限存储、按需检索,两者互补。
第三层:外部记忆提供者(可插拔)
Hermes 内置了 8 个外部记忆后端插件,可选接入:Honcho、Mem0、OpenViking、Hindsight、Holographic、RetainDB、ByteRover、Supermemory。这些提供知识图谱、语义搜索、自动事实提取等更高级的能力,与内置记忆并行运行,而非替代。
bashhermes memory setup # 配置外部记忆提供者
hermes memory status # 查看当前状态
核心机制三:技能系统(Skills System)
技能是 Hermes 的"程序性记忆"——可以手动创建、从技能市场安装,也可以由 Agent 自动生成。
每个技能是一个 SKILL.md 文件,存在 ~/.hermes/skills/ 下,格式包含:触发条件、执行步骤、常见坑、验证方法,还可以附带参考文档、模板文件和辅助脚本。
技能加载采用渐进式披露(Progressive Disclosure)策略,极大节省 token:
Level 0: skills_list() → 返回 [{名称, 描述, 分类}, ...] (~3k tokens)
Level 1: skill_view(name) → 完整内容 + 元数据 (按需)
Level 2: skill_view(name, path) → 某个特定参考文件 (按需)
Agent 只在真正需要时才加载完整内容。每个技能都自动成为一个斜杠命令,可以直接调用:
bash/axolotl help me fine-tune Llama 3 on my dataset
/github-pr-workflow create a PR for the auth refactor
/plan design a rollout for migrating our auth provider
技能市场(Skills Hub)
Hermes 集成了多个技能来源,形成一套完整的技能生态:
officialHermes 官方维护的可选技能
skills-sh Vercel 的公开技能目录(skills.sh)
well-known网站发布 /.well-known/skills/index.json 的 URL 发现
github直接从 GitHub 仓库安装,默认预置了 openai/skills、anthropics/skills 等
clawhubClawHub 社区市场
lobehubLobeHub 智能体目录
所有从 Hub 安装的技能都会通过安全扫描,检查数据外泄、提示词注入、危险命令等威胁。
bashhermes skills browse # 浏览所有技能
hermes skills search kubernetes # 搜索关键词
hermes skills install openai/skills/k8s # 安装
hermes skills check # 检查已安装技能的上游更新
核心机制四:可运行在任何地方
Hermes 支持 6 种终端后端:
后端 特点
local直接在本地机器执行
docker在 Docker 容器内隔离执行
ssh在远程服务器上执行
daytonaServerless,空闲时休眠,按需唤醒,几乎零待机成本
singularity HPC/科研环境
modal Serverless GPU,适合需要算力的任务
特别值得一提的是 Daytona 和 Modal:你的 Agent 环境可以"冬眠",只在你用它的时候唤醒,适合部署在 $5/月 的 VPS 上,或者在用 Telegram 跟它对话的同时让它在云端跑任务。
核心机制五:消息平台网关
Hermes 支持 15+ 个消息平台,从一个网关进程统一接入:
Telegram、Discord、Slack、WhatsApp、Signal、Matrix、Mattermost、Email、SMS、DingTalk(钉钉)、Feishu(飞书)、WeCom(企业微信)、BlueBubbles、Home Assistant,以及标准 CLI。
还支持语音:CLI 里直接用麦克风说话、听 Agent 回答,Discord 语音频道里开语音对话,以及全平台的语音转文字(TTS)。TTS 提供 5 个选项:Edge TTS(免费)、ElevenLabs、OpenAI TTS、MiniMax、NeuTTS。
核心机制六:定时任务与自动化
内置的 Cron 调度器支持自然语言设置任务:
bash"每天早上 9 点发给我一份今日 GitHub PR 摘要到 Telegram"
"每周一整理上周的代码提交记录"
"每晚 11 点备份我的工作目录"
任务可以绑定特定技能,结果发送到任意平台,支持暂停/恢复/编辑。
核心机制七:子 Agent 并发与代码执行
delegate_task 工具可以派生最多 3 个并发子 Agent,每个有独立的上下文和受限工具集,适合拆分并行工作流。
execute_code 工具则允许 Agent 编写 Python 脚本、通过沙箱 RPC 调用 Hermes 工具,把多步流程压缩成单次 LLM 推理——极大降低上下文开销。
核心机制八:完全模型无关
bashhermes model # 一行命令切换模型提供商
支持:Nous Portal、OpenRouter(200+ 模型)、NVIDIA NIM(Nemotron)、Xiaomi MiMo、z.ai/GLM、Kimi/Moonshot、MiniMax、Hugging Face、OpenAI,以及本地 Ollama(完全离线)。切换不需要修改任何代码,不存在模型锁定。
还支持凭证池(Credential Pools):配置同一个提供商的多个 API Key,自动轮换,遇到限速时自动切换备用 Key;以及备用提供商(Fallback Providers):主模型出错时自动切换到备用,独立的视觉和压缩任务备用方案。
核心机制九:IDE 集成与 API 服务器
ACP 集成(Agent Communication Protocol):在 VS Code、Zed、JetBrains 等 ACP 兼容编辑器中直接使用 Hermes,对话、工具活动、文件差异、终端命令都在编辑器内渲染。
OpenAI 兼容 API 服务器:把 Hermes 暴露为 HTTP 端点,任何能接 OpenAI 格式的前端都能连过来——Open WebUI、LobeChat、LibreChat 均支持。
Checkpoints(检查点):在修改文件之前自动快照工作目录,出了问题用 /rollback 一键回滚。
核心机制十:个性化与外观定制
SOUL.md:放在 ~/.hermes/ 的身份文件,是系统提示词的第一段内容,定义 Agent 的默认语气、个性、行为方式。可以用 /personality [名称] 切换内置的预设。
Skins & Themes:自定义 CLI 的视觉风格,包括横幅颜色、加载动画样式、响应框标签、工具活动前缀等。
插件系统:三种类型的插件可扩展 Hermes——通用插件(自定义工具 + 钩子)、记忆提供者(外部记忆后端)、上下文引擎(替代上下文管理方案)。通过 hermes plugins 交互式 UI 管理。
Hermes Agent vs OpenClaw 核心对比


一句话总结:OpenClaw 给你宽度,Hermes 给你深度。
快速上手 Hermes Agent
安装只需一行命令:
bashcurl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
支持 Linux、macOS、WSL2,以及 Android(Termux)。安装后:
bashsource ~/.bashrc # 重载 shell
hermes setup # 运行配置向导(配置模型提供商、消息平台等)
hermes # 开始对话!
常用命令速查:
bashhermes model # 切换模型提供商
hermes tools # 配置启用的工具
hermes gateway start # 启动消息网关(Telegram/Discord 等)
hermes cron list # 查看定时任务
hermes sessions list # 浏览历史会话
hermes skills browse # 浏览可安装技能
hermes doctor # 诊断问题
hermes update # 更新到最新版
对话中常用斜杠命令:
bash/new # 开始新对话
/model # 切换模型
/skills # 查看/管理技能
/compress # 压缩上下文
/rollback # 回滚文件变更
/insights # 查看使用统计
如果你之前用 OpenClaw,Hermes 提供了一键迁移工具:
bashhermes claw migrate # 交互式迁移
hermes claw migrate --dry-run # 预览将要迁移的内容
可以迁移的内容包括:SOUL.md 人设文件、MEMORY.md 记忆、用户创建的技能、命令白名单、消息平台配置、API Keys,以及 TTS 音频资产。
谁适合用 Hermes Agent?
适合你的情况:
你有大量重复性、专业性任务,希望 AI 随时间越来越懂你
你关注隐私,不想数据上传到第三方
你希望 AI 能在你不在线时异步跑任务
你喜欢折腾,愿意在服务器上自行部署和维护
OpenClaw 可能更适合:
你需要快速接入大量消息平台
你想直接使用海量现成技能
你的团队需要多人协作的 AI 助手
你想要托管服务,不想管服务器
OpenClaw 和 Hermes Agent 所代表的方向,是 AI 从"工具"向"持久协作者"的演进。这不是要取代 Claude Code 或 ChatGPT,而是补充了一个长期被忽视的层——会话之间、任务之间的那层连续性,过去只能靠人自己维护,现在正在被 Agent 运行时接管。
Hermes Agent 目前有 10 万+ GitHub Star,仍在快速迭代;OpenClaw 的生态则还在爆发式增长。这个领域未来几个月还会出现更多竞争者和新的架构实验。
更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:人工智能研究Suo, 启示AI科技
动画详解transformer 在线视频教程


AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)