本文将简单介绍hermes发展历史,以及一些实测案例,是否需要安装,取决于自己需求。

太长不看版:

相比大家所更熟悉的立足于项目的AI(比如claude code),hermes立足于整个电脑,以及还能通过gateway来访问。有如下需求可以考虑:
1. 随时随地用手机操控
2. 全局记忆
3. 自动对重复工作进行总结并创建skill
4. 定时执行某些需要一定智能的任务


一、发展史 / 背景理解

🕐 时间线(AI 编码 Agent 演化史)

1. GitHub Copilot — 2021 年 6 月(预览版)

里程碑:第一个大规模商用的 AI 代码补全工具- 在 IDE 中实时给出代码建议,改变了开发者的工作方式- 之后演进出 Copilot Chat(2023 秋),进入"对话式"阶段

2. ChatGPT — 2022 年 11 月

里程碑:AI 走向大众,聊天式代码生成- GPT-3.5 发布,首次让"跟 AI 聊代码"成为日常- 2023 年 3 月 GPT-4 发布,推理能力质变,为后续 Agent 奠定基础

3. Cursor — 2023 年 3 月

里程碑:首个深度集成 AI 的 IDE,能直接修改文件- 不再只是"聊天给代码",而是"AI 帮你改代码并直接应用到文件里"

4. AutoGPT — 2023 年 3 月

里程碑:第一个真正自主的 Agent——自动规划、循环执行- 能自主分解任务、上网搜索、写文件、循环执行直到完成- "持续完成一个任务"的能力其实始于 AutoGPT- 虽然实用性有限,但概念上开创了 Agent 范式

5. Aider — 2023 年中

里程碑:开源 CLI 对编程助手,支持多模型- 在终端中与 AI 结对编程,能编辑代码、执行命令- Claude Code 的"前辈",纯开源

6. Devin — 2024 年 3 月

里程碑:首个"AI 软件工程师",全自主多步骤开发- 能独立规划、写代码、修 bug、部署

7. Claude Code — 2025 年 2 月

里程碑:终端优先的 AI 编码 Agent,Anthropic 出品- 可在终端中执行 shell 命令、编辑代码、运行测试

8. OpenClaw — 2024-2025 年

里程碑:全平台 AI Agent 网关 + 定时任务 + 聊天软件接入

  • 官网: open-claw.org |文档: docs.openclaw.ai |GitHub: openclaw/openclaw
  • 自托管 AI Agent 网关,连接 WhatsApp、Telegram、Discord、Slack、Signal、iMessage 等 10+ 聊天平台到 AI 编码 Agent(如内置的 Pi)
  • 核心特性:
  • 🧩技能系统(Skills)— 类似 Hermes,可编写可复用工作流
  • 后台定时任务(Cron)— 心跳检测、主动提醒、“24/7 持续在线”
  • 🌐Web 控制面板— 浏览器管理会话、配置、频道
  • 📱移动端节点— iOS/Android 端支持- 🎯多 Agent 路由— 不同会话路由到不同 Agent
  • freeCodeCamp 有完整教程《How to Build and Secure a Personal AI Agent with OpenClaw》
9. Hermes Agent — 2025 年

里程碑:记忆持久化 + 技能系统


二、能力边界总览

相比于大家所熟悉的、立足于特定项目或代码库的 AI 编码助手(如 Claude Code、Cursor),Hermes 的定位是立足于“整个电脑/操作系统”的个人 AI 助理

基于这种系统级的定位和 Gateway 接入能力,Hermes 拥有以下核心能力边界和独有特点:

  1. 📱 随时随地跨设备操控:无需打开电脑终端,通过微信、飞书、Telegram 等网关(Gateway)即可在手机上向电脑下达指令、获取文件。
  2. 🧠 真正的全局记忆:记忆不仅停留在单个项目里,而是持久化存在于整个操作系统层级。
  3. ⚙️ 自动沉淀技能(Skill):对于重复性工作,它能够自主总结并将其固化为永久的 Skill,越用越顺手。
  4. ⏰ 持续并定时执行长期任务:它是一个常驻后台的进程,可以按计划定时执行具备一定智能的自动化任务(Cron),不受 IDE 启停限制。
  5. 🪟 打破应用和终端的壁垒:可以直接访问整个电脑的文件系统并与终端交互。

三、试用场景 & 实测

3.1 实测发现记录

📸 场景 1:让hermes自己接入飞书

飞书接入飞书绑定

📸 场景 2:微信端操控电脑 & 文件传输

接入微信后,可以通过手机上的微信直接操作电脑,执行读写文件等任务:微信访问电脑读写文件2而且还能直接让 Hermes 在微信发送本地文件给你:发送文件(注意:目前 Hermes 在微信上还无法发送语音消息)无法发语音

📸 场景 3:成本与缓存效率(以 DeepSeek 为例)

目前由于 DeepSeek 模型本身的计费便宜,且请求过程中大部分命中了 Prompt Caching,实际使用成本非常低:费用不贵DeepSeek价格优势缓存命中

3.2 试用中发现的限制与常见问题

  • WSL 环境依赖与限制:目前 Hermes 没有原生 Windows 版,依靠安装 WSL 子系统来运行。这也导致了它目前无法直接调用和操控 Windows 桌面端的 GUI 界面程序**。无法调用GUI
  • 浏览器调用暂时受限:由于 WSL 环境没有默认配置好可视化的浏览器(如 Chromium),目前的浏览器自动化工具暂时无法调用。浏览器无法调用
  • AI 幻觉仍然存在:与其他大模型 Agent 类似,Hermes 在复杂长链推理时偶尔仍然会出现幻觉,比如甚至可能认为OpenClaw不存在。模型幻觉

四、技术架构简析

4.1 Hermes Agent 是什么

Hermes Agent 与 Claude Code、Cursor 等编码助手不同,它的定位是一个长期运行的自主助手

核心区别:它不是"对话完就结束",而是一个持续运行的"系统级进程"。

4.2 核心特性

Table 1

4.3 架构示意

Diagram 1

4.4 与同类工具的对比

Table 2

4.5 解决的核心痛点

  1. 上下文断裂 → 跨会话持久记忆,不再每次从零开始
  2. 工具碎片化 → 一个 Agent 统管终端、浏览器、文件、消息平台
  3. 重复劳动 → Skill 自动总结可复用流程 + Cron 定时自动执行
  4. 平台切换成本 → 微信聊一句 = 在终端执行操作,同一 Agent 无处不在
  5. 模型锁定 → 随时切换模型/提供商,不被单一厂商绑定

五、上手教程

  • 安装(windows版其实是需要在wsl安装):https://github.com/NousResearch/hermes-agent

  • hermes接微信教程: https://zhuanlan.zhihu.com/p/2027522966762657259

  • hermes接飞书教程:https://zhuanlan.zhihu.com/p/2028895886046971029


六、总结 & 评价

优势

  • 记忆系统是真正的差异化优势 — 同类工具中做得最好的

  • 技能系统让 Agent 越用越聪明 — 不是静态工具,而是可成长的

  • 多平台覆盖广 — 微信/飞书也能用,国内友好

  • 模型自由 — 不被单一厂商锁定

  • 开源透明 — 代码可审查、可自定义、可贡献

  • 本地模型支持 — 隐私敏感场景可用

不足 / 注意事项

  • ⚠️ 学习曲线 — 配置项较多,初学者需要时间上手

  • ⚠️ 技能生态尚在早期 — 社区技能较少,主要靠官方 + 自己写

  • ⚠️ 长期运行的稳定性 — 作为后台进程可能有资源消耗问题

  • ⚠️ 安全边界 — 高权限操作需要用户审慎授权

  • ⚠️ LLM 本身局限 — 长链推理仍有出错可能,需要用户判断

适用人群

  • 🧑‍💻 开发者:日常编码、调试、项目管理

  • 🔬 研究人员:文献检索、实验管理、知识整理

  • 🧑‍🔧 运维/DevOps:服务器管理、监控告警、定时任务

  • 📝 内容创作者:跨平台内容整理、发布

  • 🏠 极客玩家:自动化家居、个人助理

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐