很多人装好 Hermes 之后,第一反应是:

“好,现在该让它省钱了。”

第二反应通常是:

“本地模型到底怎么接?”

第三反应则是:

“怎么又是 custom endpoint?”

其实这事没那么玄。
你可以把 Hermes 理解成一个会干活的总管家,
而本地模型就是你自己家厨房里的灶台。

以前它可能老去外面饭馆吃饭,
现在你想让它改成在家做。
那你要做的,不是和它讲大道理,
而是把厨房地址、灶台名字、有没有钥匙这些信息告诉它。

说白了,Hermes 切到本地模型的核心就一句话:

把本地推理服务作为 Custom endpoint 配进去。


一、先别急着切,先搞清楚两件事

Hermes 这里有两个容易混淆的命令:

1)hermes model

这个是在 终端里执行 的。
它负责做“正式配置”:

  • 加新的 Provider
  • 改默认模型
  • 配 API Key
  • 配 Custom endpoint
  • 保存到配置里

它更像“后台设置页”。

2)/model

这个是在 Hermes 聊天会话里输入 的。
它负责做“会话内切换”。

但注意,它只能在已经配置过的模型和 Provider 之间切。
它不是万能钥匙。
如果你还没把本地模型配进去,
那你在会话里敲 /model,它也不会凭空给你变出一个 Ollama。

所以新手记住一句话:

第一次接本地模型,用 hermes model
会话里临时切换,才用 /model


二、本地模型这件事,本质上就是“你得先有一个本地服务”

Hermes 自己不是推理引擎。
它不是那种“敲个命令模型就从天而降开始算”的东西。

它更像一个调度者。
所以你得先准备好一个本地推理服务,比如:

  • Ollama
  • vLLM
  • llama.cpp server
  • SGLang
  • 其他兼容 OpenAI API 的本地服务

Hermes 要的是啥?
要的是一个能对外提供接口的模型服务。

也就是说,它不是直接问你:

“你电脑里有没有模型文件?”

而是在问:

“有没有一个我能访问的模型接口?”

这点特别重要。
因为很多人会误以为:

“我本地已经下了模型,所以 Hermes 应该自动懂。”

不会。
AI 不读心,Hermes 也不读你硬盘。


三、最常见的本地方案:Ollama

如果你只是想尽快把 Hermes 切到本地模型,
最省事、最常见的路线,通常是 Ollama。

思路大概是这样:

第一步:先把 Ollama 跑起来

你先确认本地模型服务已经启动。
模型也已经拉下来,并且能正常响应。

比如你本地已经跑着某个模型,
那就说明“厨房已经开火了”。

第二步:再让 Hermes 指向它

Hermes 不负责帮你猜厨房在哪。
你得明确告诉它:

  • API 地址是什么
  • 模型名是什么
  • 上下文长度大概是多少
  • 这个服务要不要 key

常见的 Ollama 地址,一般就是:

http://localhost:11434/v1

你可以把它理解成:

“喂,Hermes,以后做饭别去外面了,
咱家厨房就在这个门牌号。”


四、正式切到本地模型的做法

最稳的办法,就是在终端里执行:

hermes model

然后按这个思路选:

  1. 选择 Custom endpoint
  2. 填本地服务地址
  3. 填模型名
  4. 填 API key(如果本地服务不需要,可以按提示处理)
  5. 填上下文长度
  6. 保存配置

比如如果你接的是 Ollama,思路通常就是:

  • Base URL:本地地址
  • Model name:你实际跑的模型名
  • Context length:按你本地模型和服务的实际情况填

这里最容易出错的不是地址,
而是模型名和上下文长度

模型名别写成“我觉得应该叫这个”

一定要写你本地服务里真实存在的模型名。

比如你本地拉的是:

qwen2.5-coder:32b

那你就别手写成:

qwen-coder

Hermes 不是算命先生,
你写错了,它不会替你脑补。

上下文长度别瞎填

很多人对这项特别随缘,
心态基本是:

“既然 32768 看起来很专业,那我就填它吧。”

不行。
你最好按自己本地服务和模型的实际支持来配。

因为上下文长度填得太离谱,
后面 Hermes 工作起来就可能表现得像一个刚通宵完的实习生:

  • 记不住前文
  • 任务跑一半开始迷糊
  • 工具链一长就掉链子

五、如果你不想走交互界面,也可以直接改配置

有些人不爱交互式配置,
就喜欢直接改文件。
这也行。

Hermes 的模型配置核心在 ~/.hermes/config.yaml

思路一般类似这样:

model:
  default: qwen2.5-coder:32b
  provider: custom
  base_url: http://localhost:11434/v1
  context_length: 32768

如果你的本地服务需要 key,也可以配上。
如果不需要,就按你实际环境来。

这种方式的优点是:

  • 直观
  • 好改
  • 好备份
  • 好对比

缺点也很明显:

  • 容易手滑
  • 容易缩进写歪
  • 容易把自己改进坑里

所以如果你是第一次折腾,
还是建议先用 hermes model
至少它不会让你在 YAML 缩进上体验人生起伏。


六、切完之后怎么验证自己真的换到本地了?

这一步特别重要。

很多人做完配置就一拍大腿:

“成了!”

结果 Hermes 其实还在走云端模型,
只是你自己沉浸在一种“本地部署成功”的感动里。

建议你做三个检查:

1)重新开一个 Hermes 会话

别在旧会话里瞎猜。
重新启动一轮最稳。

2)问一个简单问题

先别一上来让它写十个文件、跑一堆工具。
先让它正常回一句话。

3)观察响应速度和日志表现

如果你接的是本地模型,
尤其是参数比较大的模型,
你通常会明显感觉到节奏不一样。

有些本地模型回答时的感觉,会很像:

“它不是不会,只是它在认真地慢慢想。”

尤其你机器资源没那么豪横时,
那种延迟感会更明显。


七、已经配好的模型,怎么在会话里来回切?

如果你本地模型已经配置过了,
这时候你就可以在 Hermes 会话里用:

/model

或者更明确一点,直接指定:

/model custom:你的模型名

如果你之前还保留了云端模型,也可以在它们之间切来切去。
这时候 Hermes 就像一个会换厨师的餐厅经理:

  • 想省钱,用本地
  • 想快点,用云端
  • 想大活交给更强模型,也可以切回去

这个玩法很适合日常:

  • 简单任务给本地
  • 关键任务给云端
  • 调试时本地多跑
  • 真正重活再上更强模型

这样钱包和显卡,至少能有一方不那么痛苦。


八、最常见的坑,我直接帮你避一下

1)本地服务没启动

这属于最经典的问题。

你以为是 Hermes 不行,
其实是 Ollama 根本没开火。

先确认你的本地服务能正常响应,
再怪 Hermes。

2)地址写错

最常见的错误包括:

  • 少写 /v1
  • 端口写错
  • localhost 写成了别的
  • 复制时多了奇怪空格

程序员最怕的不是大错,
是这种“看起来像对,其实就是不对”的小错。

3)模型名写错

上面提过,但值得再说一次。
模型名一定以你本地服务里实际存在的名字为准。

4)本地模型太弱,还想让它干重活

这个也很现实。

有些人本地跑了个小模型,
然后要求 Hermes:

  • 长链路推理
  • 复杂多步任务
  • 大段代码修改
  • 一边思考一边调工具

最后发现效果一般,
就开始怀疑 Hermes。

其实很多时候不是 Hermes 的锅,
是你让一辆小电驴去拉高铁。

本地模型能干活,
但你也得尊重一下它的体格。


九、我建议的最实用用法

如果你不是纯本地信仰玩家,
最舒服的方式其实往往不是“全都切本地”,
而是:

让 Hermes 同时保留云端和本地两套路子。

这样你就有很大的灵活度:

  • 日常聊天、本地测试、简单任务 → 本地模型
  • 长上下文、复杂任务、质量要求高 → 云端模型
  • 钱包紧张时 → 多用本地
  • 着急交付时 → 切回更强的远程模型

程序员成熟的标志之一,
不是永远只选一种方案,
而是知道什么时候该省,什么时候该狠。


十、最后一句

Hermes 切到本地模型这件事,听起来像很硬核,
其实核心逻辑非常朴素:

先把本地模型服务跑起来,
再用 hermes model 把它登记成 Custom endpoint。

说到底,Hermes 不在乎你模型是在云上、机房里,还是蹲在你电脑风扇旁边。
它只在乎一件事:

这个模型服务,我能不能顺利连上。

连上了,它就开始干活。
连不上,它就只能站在门口,像一个找不到厨房的总管家。

所以别把“切本地”想得太神秘。
本质上,这只是一次很普通的“改地址”。

只不过这次改的不是收货地址,
是你家 AI 厨房的门牌号。


如果这类真实使用记录对你有帮助,欢迎关注公众号「AI边用边记」。
后面会继续分享 AI 工具、Agent、智能体和大模型应用在实际工作中的用法、坑点和思考。
在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐