OpenHuman 是一个开源桌面 AI 助手,GitHub 地址是 tinyhumansai/openhuman。2026 年 2 月发布,现在 17.5k stars。我用一个下午翻了它的源码和文档,下面是我的调研结果。

它解决什么问题

AI 模型本身没有记忆。你敲一段 prompt,得到一段回复,上下文就没了。即使带"记忆"功能的,存的也不过是几个要点。

OpenHuman 想解决的是:让 AI 真正知道你的事,而不是每个会话从头猜。

它的做法是:把所有能接的数据源(Gmail、Slack、GitHub、Notion……)接入后,走一条确定的管道——转成 Markdown → 切成 ≤3k tokens 的块 → 打分 → 按源/主题/天维度归纳成摘要树。全部存在本地 SQLite 里。

技术栈

技术
核心逻辑 Rust(15.5 MB 代码)
桌面壳 Tauri v2 + Chromium Embedded Framework (CEF)
前端 React + TypeScript + Vite + Tailwind
前端包管理 pnpm
本地 AI Ollama / LM Studio
云 AI Anthropic、OpenAI、Google、Groq 等 30+ 提供商
集成网关 Composio(118+ 第三方服务)
数据库 SQLite + FTS5 全文搜索 + 向量嵌入 + 知识图谱
许可证 GPL-3.0

桌面壳(Tauri)内置了 Chromium 渲染引擎(CEF),不依赖系统浏览器。这个设计让它可以:

  • 用 CDP(Chrome DevTools Protocol)控制网页
  • 注入脚本来操作 Discord / Slack / Telegram 等网页版
  • 在 Google Meet 里以真实参与者身份接入(有虚拟摄像头和虚拟麦克风)

核心功能

记忆树(Memory Tree)

这是 OpenHuman 最有差异化的功能。架构如下:

数据源 → 标准化 Markdown → ≤3k-token 分块 → 多维评分 →
  每源摘要树 → 每主题摘要树 → 每日全局摘要 → SQLite 存储
  同时生成 Obsidian 兼容 .md 文件

评分信号包括:交互频率、源权重、token 数量、唯一性。不依赖纯向量搜索,而是结构化分级摘要。官方说法是"最多 10 亿 tokens"的记忆容量。

每 20 分钟后台自动抓取一次已连接的数据源,新内容自动进入管道。

桌面角色(Mascot)

一个在桌面上显示的角色,有面部表情,能说话,会对环境做反应。它能:

  • 语音对话(Native TTS/STT)
  • 以真实参与者身份加入 Google Meet(有自己的画面和声音)
  • 在后台持续思考(Subconscious Loop)
  • 关掉 App 窗口后仍然运行

从代码看,实现了虚拟摄像头注入、音频桥接、字幕监听、主动发言,一套完整的会议交互管道。

118+ 第三方集成

通过 Composio 网关做 OAuth 一键连接。在代码里看到了 Gmail、Slack、Discord、Telegram、WhatsApp、Google Calendar、Google Drive、GitHub、Notion、Linear、Jira、Stripe 等。

每个集成暴露为类型化的工具,有单独的触发器(比如新邮件自动触发摘要)。

模型路由

根据任务类型自动选择模型:

提示前缀 用途
hint:reasoning 多步推理、规划
hint:agentic 通用 Agent 任务
hint:coding 代码生成
hint:summarization 摘要、轻量任务

路由表可以在运行时修改,不用重启核心进程。

原生工具

以下工具开箱就有,不需要额外配置:

  • Web 搜索 + 网页内容抓取
  • 代码编辑(读文件、写文件、补丁、全文搜索、Git 命令)
  • 浏览器控制 + 桌面控制(CDP + 截图)
  • Cron 定时任务
  • 子代理调度(派生子任务、并行 agent)
  • 记忆工具(存储/召回/遗忘)
  • TTS 语音输出
  • MCP 客户端 + MCP 服务器

智能 Token 压缩(TokenJuice)

代码里有一个独立的 tokenjuice 模块,实现了智能压缩,降低推理成本。

价格

从代码看,OpenHuman 使用 Stripe 订阅制 + 信用点充值:

  • 有计划层级:proenterprise
  • 支持信用点按需充值(top-up)
  • 支持自动充值(auto-recharge)
  • 支持优惠券兑换

具体价格在后端服务里,不在开源代码中。官网主页只说 “One Subscription. That’s it.”

架构特点

核心逻辑(Rust)以进程内任务(tokio task)运行在 Tauri 壳里,前后端通过 HTTP JSON-RPC 通信,端口随机分配,请求头带单次启动的 Bearer Token。

没有独立的后端侧车进程(sidecar),前端关了核心也关了。核心功能通过 RPC 暴露给前端,前端只负责展示和交互编排。

安装方式

# macOS / Linux
curl -fsSL https://raw.githubusercontent.com/tinyhumansai/openhuman/main/scripts/install.sh | bash

# Windows
irm https://raw.githubusercontent.com/tinyhumansai/openhuman/main/scripts/install.ps1 | iex

也可以在官网 tinyhumans.ai/openhuman 下载 DMG / EXE。


与 Hermes Agent 的对比

下面从几个关键维度看两者的差异和各自的定位。

形态与使用场景

OpenHuman Hermes Agent
形态 桌面 GUI App(Tauri) CLI + TUI + 消息平台网关
适用场景 个人桌面助手、“私人 AI 超级智能” 开发、运维、自动化、多平台消息
安装 下载安装包 / 一行脚本 pip install hermes-agent / 安装脚本
启动 点图标开 App 终端敲 hermes

OpenHuman 是桌面 App——你安装完、登录、接上数据源,它就一直在后台跑着,桌面有个角色时不时看一下。Hermes Agent 是终端工具——你要用就敲命令,也可以用网关挂在 Telegram/Discord/飞书上。

技术栈与本地模型支持

OpenHuman Hermes Agent
核心语言 Rust(15.5 MB 代码) Python
UI 形态 Tauri v2 + CEF(桌面壳) Rich TUI(prompt_toolkit)
数据存储 SQLite + FTS5 + 向量 + 图 SQLite + agentmemory / Honcho / Mem0
云模型 Anthropic / OpenAI / Google / Groq 等 30+ 20+ 提供商 + 自定义端点
本地推理 Ollama / LM Studio(限制多:MVP 只允许 gemma3:1b) Ollama / vLLM / GGUF(无限制)

记忆系统

OpenHuman Hermes Agent
记忆架构 Memory Tree:分块→评分→分级摘要→SQLite agentmemory:BM25 + 向量 + 知识图谱(可选)
记忆容量 “最多 10 亿 tokens” 取决于后端配置
本地存储 SQLite + 文件系统 SQLite / agentmemory 服务
Obsidian 集成 原生支持(自动生成 .md 文件) 无原生支持

OpenHuman 的记忆系统设计更精细——分块→评分→分级摘要这条管道有完整的文档和代码。Hermes 相比之下更灵活,可以接不同的后端(agentmemory、Honcho、Mem0)。

集成能力

OpenHuman Hermes Agent
集成方式 Composio 一键 OAuth(118+) MCP 协议(stdio / HTTP)
消息平台 无(桌面 App,不接 IM) Telegram / Discord / Slack / 飞书 / 微信 / 钉钉 / Email / SMS / Signal / Matrix……
MCP 协议 内置 MCP 客户端 + 服务器 原生 MCP 客户端 + MCP 服务端模式
手动配置 有(Composio 也支持手动) 需要手动配 API key / MCP 服务器

Hermes Agent 的核心优势之一是多消息平台网关——写一篇文章,可以让它同时发布到 CSDN、微信公众号,再通知到 Telegram。OpenHuman 是桌面 App,不做消息平台对接。

工具与 Agent 系统

OpenHuman Hermes Agent
浏览器控制 ✅ CDP + 截图 ✅ Browserbase / Camofox / 本地 Chromium
电脑控制 ✅ 桌面截图 ✅ cua-driver(macOS)
代码编辑 ✅ 读/写/补丁/搜索/Git ✅ 读/写/补丁/搜索/Git
子代理 ✅ spawn_subagent / spawn_parallel ✅ delegate_task
Cron ✅ 内置 ✅ 内置(带脚本/通知/链式)
会议参与 ✅ Google Meet(有画面有声音)
Agent 数量 十几个预置子 Agent 按需触发 + 子代理调度
后台思考 Subconscious Loop(持续后台) 无(按需执行)
技能系统 技能注册表(ops_install/ops_create) 技能 Skills(SKILL.md 格式,hub 安装)

OpenHuman 预置了十几个专用子 Agent,每个有独立的 prompt 和工具集,通过调度器分发:

  • 研究员(researcher)
  • 程序员(coder)
  • 代码审查(code_reviewer)
  • 摘要(summarizer)
  • 工具制造(tool_maker)
  • 触发响应(trigger_reactor / trigger_triage)
  • 技能创建(skill_creator)
  • 欢迎引导(welcome)
  • 等等

每个子 Agent 有独立的 prompt 和工具集,通过调度器分发任务。

总结

看中什么 选哪个
桌面 App、开机即用、有个"AI 伙伴"的感觉 OpenHuman
终端里搞开发、写代码、自动发布 Hermes Agent
多消息平台(TG/飞书/微信/钉钉) Hermes Agent
本地数据隐私优先 两者都支持,OpenHuman 更彻底(全本地 SQLite)
需要接 100+ 第三方服务 两者各有方案
需要 AI 参与视频会议 OpenHuman(独有)
需要 CI/CD 和自动化集成 Hermes Agent

OpenHuman 定位是个人桌面 AI 助手,让你电脑上跑一个始终在线、认识你的 AI。Hermes Agent 定位是开发者和效率工具,适合终端重度用户和多平台自动化场景。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐