Hermes Agent 简介 & 试用

butchohare

441人浏览 · 2026-04-28 18:41:32

butchohare · 2026-04-28 18:41:32 发布

本文将简单介绍hermes发展历史，以及一些实测案例，是否需要安装，取决于自己需求。

太长不看版：

相比大家所更熟悉的立足于项目的AI（比如claude code），hermes立足于整个电脑，以及还能通过gateway来访问。有如下需求可以考虑：
1. 随时随地用手机操控
2. 全局记忆
3. 自动对重复工作进行总结并创建skill
4. 定时执行某些需要一定智能的任务

一、发展史 / 背景理解

🕐 时间线（AI 编码 Agent 演化史）

1. GitHub Copilot — 2021 年 6 月（预览版）

里程碑：第一个大规模商用的 AI 代码补全工具- 在 IDE 中实时给出代码建议，改变了开发者的工作方式- 之后演进出 Copilot Chat（2023 秋），进入"对话式"阶段

2. ChatGPT — 2022 年 11 月

里程碑：AI 走向大众，聊天式代码生成- GPT-3.5 发布，首次让"跟 AI 聊代码"成为日常- 2023 年 3 月 GPT-4 发布，推理能力质变，为后续 Agent 奠定基础

3. Cursor — 2023 年 3 月

里程碑：首个深度集成 AI 的 IDE，能直接修改文件- 不再只是"聊天给代码"，而是"AI 帮你改代码并直接应用到文件里"

4. AutoGPT — 2023 年 3 月

里程碑：第一个真正自主的 Agent——自动规划、循环执行- 能自主分解任务、上网搜索、写文件、循环执行直到完成- "持续完成一个任务"的能力其实始于 AutoGPT- 虽然实用性有限，但概念上开创了 Agent 范式

5. Aider — 2023 年中

里程碑：开源 CLI 对编程助手，支持多模型- 在终端中与 AI 结对编程，能编辑代码、执行命令- Claude Code 的"前辈"，纯开源

6. Devin — 2024 年 3 月

里程碑：首个"AI 软件工程师"，全自主多步骤开发- 能独立规划、写代码、修 bug、部署

7. Claude Code — 2025 年 2 月

里程碑：终端优先的 AI 编码 Agent，Anthropic 出品- 可在终端中执行 shell 命令、编辑代码、运行测试

8. OpenClaw — 2024-2025 年

里程碑：全平台 AI Agent 网关 + 定时任务 + 聊天软件接入

官网: open-claw.org |文档: docs.openclaw.ai |GitHub: openclaw/openclaw
自托管 AI Agent 网关，连接 WhatsApp、Telegram、Discord、Slack、Signal、iMessage 等 10+ 聊天平台到 AI 编码 Agent（如内置的 Pi）
核心特性：
🧩技能系统（Skills）— 类似 Hermes，可编写可复用工作流
⏰后台定时任务（Cron）— 心跳检测、主动提醒、“24/7 持续在线”
🌐Web 控制面板— 浏览器管理会话、配置、频道
📱移动端节点— iOS/Android 端支持- 🎯多 Agent 路由— 不同会话路由到不同 Agent
freeCodeCamp 有完整教程《How to Build and Secure a Personal AI Agent with OpenClaw》

9. Hermes Agent — 2025 年

里程碑：记忆持久化 + 技能系统

二、能力边界总览

相比于大家所熟悉的、立足于特定项目或代码库的 AI 编码助手（如 Claude Code、Cursor），Hermes 的定位是立足于“整个电脑/操作系统”的个人 AI 助理。

基于这种系统级的定位和 Gateway 接入能力，Hermes 拥有以下核心能力边界和独有特点：

📱 随时随地跨设备操控：无需打开电脑终端，通过微信、飞书、Telegram 等网关（Gateway）即可在手机上向电脑下达指令、获取文件。
🧠 真正的全局记忆：记忆不仅停留在单个项目里，而是持久化存在于整个操作系统层级。
⚙️ 自动沉淀技能（Skill）：对于重复性工作，它能够自主总结并将其固化为永久的 Skill，越用越顺手。
⏰ 持续并定时执行长期任务：它是一个常驻后台的进程，可以按计划定时执行具备一定智能的自动化任务（Cron），不受 IDE 启停限制。
🪟 打破应用和终端的壁垒：可以直接访问整个电脑的文件系统并与终端交互。

三、试用场景 & 实测

3.1 实测发现记录

📸 场景 1：让hermes自己接入飞书

飞书接入飞书绑定

📸 场景 2：微信端操控电脑 & 文件传输

接入微信后，可以通过手机上的微信直接操作电脑，执行读写文件等任务：微信访问电脑读写文件2 而且还能直接让 Hermes 在微信发送本地文件给你：发送文件 (注意：目前 Hermes 在微信上还无法发送语音消息) 无法发语音

📸 场景 3：成本与缓存效率（以 DeepSeek 为例）

目前由于 DeepSeek 模型本身的计费便宜，且请求过程中大部分命中了 Prompt Caching，实际使用成本非常低：费用不贵 DeepSeek价格优势缓存命中

3.2 试用中发现的限制与常见问题

WSL 环境依赖与限制：目前 Hermes 没有原生 Windows 版，依靠安装 WSL 子系统来运行。这也导致了它目前无法直接调用和操控 Windows 桌面端的 GUI 界面程序**。
浏览器调用暂时受限：由于 WSL 环境没有默认配置好可视化的浏览器（如 Chromium），目前的浏览器自动化工具暂时无法调用。
AI 幻觉仍然存在：与其他大模型 Agent 类似，Hermes 在复杂长链推理时偶尔仍然会出现幻觉，比如甚至可能认为OpenClaw不存在。

四、技术架构简析

4.1 Hermes Agent 是什么

Hermes Agent 与 Claude Code、Cursor 等编码助手不同，它的定位是一个长期运行的自主助手。

核心区别：它不是"对话完就结束"，而是一个持续运行的"系统级进程"。

4.2 核心特性

Table 1

4.3 架构示意

Diagram 1

4.4 与同类工具的对比

Table 2

4.5 解决的核心痛点

上下文断裂 → 跨会话持久记忆，不再每次从零开始
工具碎片化 → 一个 Agent 统管终端、浏览器、文件、消息平台
重复劳动 → Skill 自动总结可复用流程 + Cron 定时自动执行
平台切换成本 → 微信聊一句 = 在终端执行操作，同一 Agent 无处不在
模型锁定 → 随时切换模型/提供商，不被单一厂商绑定

五、上手教程

安装（windows版其实是需要在wsl安装）：https://github.com/NousResearch/hermes-agent
hermes接微信教程： https://zhuanlan.zhihu.com/p/2027522966762657259
hermes接飞书教程：https://zhuanlan.zhihu.com/p/2028895886046971029

六、总结 & 评价

优势

✅ 记忆系统是真正的差异化优势 — 同类工具中做得最好的
✅ 技能系统让 Agent 越用越聪明 — 不是静态工具，而是可成长的
✅ 多平台覆盖广 — 微信/飞书也能用，国内友好
✅ 模型自由 — 不被单一厂商锁定
✅ 开源透明 — 代码可审查、可自定义、可贡献
✅ 本地模型支持 — 隐私敏感场景可用

不足 / 注意事项

⚠️ 学习曲线 — 配置项较多，初学者需要时间上手
⚠️ 技能生态尚在早期 — 社区技能较少，主要靠官方 + 自己写
⚠️ 长期运行的稳定性 — 作为后台进程可能有资源消耗问题
⚠️ 安全边界 — 高权限操作需要用户审慎授权
⚠️ LLM 本身局限 — 长链推理仍有出错可能，需要用户判断

适用人群

🧑‍💻 开发者：日常编码、调试、项目管理
🔬 研究人员：文献检索、实验管理、知识整理
🧑‍🔧 运维/DevOps：服务器管理、监控告警、定时任务
📝 内容创作者：跨平台内容整理、发布
🏠 极客玩家：自动化家居、个人助理

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

GSV9001E 高速信号放大芯片@ACP#RTX Spark AI 设备长线材外设信号增强专用方案

AtomGit开源社区

16.1深入讲解 LangGraph 的静态配置（Static Context）

概念说明本例中的应用在单次执行期间不变的只读数据tenant_iduser_idmodel_name键中专门用于存放静态配置的保留字段显式传递在节点函数签名中声明参数类型安全配置使用TypedDict定义配置结构动态模型选择根据配置动态切换 LLM 模型model_name配置影响使用的模型配置与状态分离配置（静态）与状态（动态）各司其职，不互相污染配置存tenant_id，状态存。