Hermes 如何把模型切换到本地模型

今天空调有点猛

748人浏览 · 2026-04-21 20:06:32

今天空调有点猛 · 2026-04-21 20:06:32 发布

很多人装好 Hermes 之后，第一反应是：

“好，现在该让它省钱了。”

第二反应通常是：

“本地模型到底怎么接？”

第三反应则是：

“怎么又是 custom endpoint？”

其实这事没那么玄。
你可以把 Hermes 理解成一个会干活的总管家，
而本地模型就是你自己家厨房里的灶台。

以前它可能老去外面饭馆吃饭，
现在你想让它改成在家做。
那你要做的，不是和它讲大道理，
而是把厨房地址、灶台名字、有没有钥匙这些信息告诉它。

说白了，Hermes 切到本地模型的核心就一句话：

把本地推理服务作为 Custom endpoint 配进去。

一、先别急着切，先搞清楚两件事

Hermes 这里有两个容易混淆的命令：

1）`hermes model`

这个是在 终端里执行 的。
它负责做“正式配置”：

加新的 Provider
改默认模型
配 API Key
配 Custom endpoint
保存到配置里

它更像“后台设置页”。

2）`/model`

这个是在 Hermes 聊天会话里输入 的。
它负责做“会话内切换”。

但注意，它只能在已经配置过的模型和 Provider 之间切。
它不是万能钥匙。
如果你还没把本地模型配进去，
那你在会话里敲 /model，它也不会凭空给你变出一个 Ollama。

所以新手记住一句话：

第一次接本地模型，用 hermes model。
会话里临时切换，才用 /model。

二、本地模型这件事，本质上就是“你得先有一个本地服务”

Hermes 自己不是推理引擎。
它不是那种“敲个命令模型就从天而降开始算”的东西。

它更像一个调度者。
所以你得先准备好一个本地推理服务，比如：

Ollama
vLLM
llama.cpp server
SGLang
其他兼容 OpenAI API 的本地服务

Hermes 要的是啥？
要的是一个能对外提供接口的模型服务。

也就是说，它不是直接问你：

“你电脑里有没有模型文件？”

而是在问：

“有没有一个我能访问的模型接口？”

这点特别重要。
因为很多人会误以为：

“我本地已经下了模型，所以 Hermes 应该自动懂。”

不会。
AI 不读心，Hermes 也不读你硬盘。

三、最常见的本地方案：Ollama

如果你只是想尽快把 Hermes 切到本地模型，
最省事、最常见的路线，通常是 Ollama。

思路大概是这样：

第一步：先把 Ollama 跑起来

你先确认本地模型服务已经启动。
模型也已经拉下来，并且能正常响应。

比如你本地已经跑着某个模型，
那就说明“厨房已经开火了”。

第二步：再让 Hermes 指向它

Hermes 不负责帮你猜厨房在哪。
你得明确告诉它：

API 地址是什么
模型名是什么
上下文长度大概是多少
这个服务要不要 key

常见的 Ollama 地址，一般就是：

http://localhost:11434/v1

你可以把它理解成：

“喂，Hermes，以后做饭别去外面了，
咱家厨房就在这个门牌号。”

四、正式切到本地模型的做法

最稳的办法，就是在终端里执行：

hermes model

然后按这个思路选：

选择 Custom endpoint
填本地服务地址
填模型名
填 API key（如果本地服务不需要，可以按提示处理）
填上下文长度
保存配置

比如如果你接的是 Ollama，思路通常就是：

Base URL：本地地址
Model name：你实际跑的模型名
Context length：按你本地模型和服务的实际情况填

这里最容易出错的不是地址，
而是模型名和上下文长度。

模型名别写成“我觉得应该叫这个”

一定要写你本地服务里真实存在的模型名。

比如你本地拉的是：

qwen2.5-coder:32b

那你就别手写成：

qwen-coder

Hermes 不是算命先生，
你写错了，它不会替你脑补。

上下文长度别瞎填

很多人对这项特别随缘，
心态基本是：

“既然 32768 看起来很专业，那我就填它吧。”

不行。
你最好按自己本地服务和模型的实际支持来配。

因为上下文长度填得太离谱，
后面 Hermes 工作起来就可能表现得像一个刚通宵完的实习生：

记不住前文
任务跑一半开始迷糊
工具链一长就掉链子

五、如果你不想走交互界面，也可以直接改配置

有些人不爱交互式配置，
就喜欢直接改文件。
这也行。

Hermes 的模型配置核心在 ~/.hermes/config.yaml。

思路一般类似这样：

model:
  default: qwen2.5-coder:32b
  provider: custom
  base_url: http://localhost:11434/v1
  context_length: 32768

如果你的本地服务需要 key，也可以配上。
如果不需要，就按你实际环境来。

这种方式的优点是：

直观
好改
好备份
好对比

缺点也很明显：

容易手滑
容易缩进写歪
容易把自己改进坑里

所以如果你是第一次折腾，
还是建议先用 hermes model。
至少它不会让你在 YAML 缩进上体验人生起伏。

六、切完之后怎么验证自己真的换到本地了？

这一步特别重要。

很多人做完配置就一拍大腿：

“成了！”

结果 Hermes 其实还在走云端模型，
只是你自己沉浸在一种“本地部署成功”的感动里。

建议你做三个检查：

1）重新开一个 Hermes 会话

别在旧会话里瞎猜。
重新启动一轮最稳。

2）问一个简单问题

先别一上来让它写十个文件、跑一堆工具。
先让它正常回一句话。

3）观察响应速度和日志表现

如果你接的是本地模型，
尤其是参数比较大的模型，
你通常会明显感觉到节奏不一样。

有些本地模型回答时的感觉，会很像：

“它不是不会，只是它在认真地慢慢想。”

尤其你机器资源没那么豪横时，
那种延迟感会更明显。

七、已经配好的模型，怎么在会话里来回切？

如果你本地模型已经配置过了，
这时候你就可以在 Hermes 会话里用：

/model

或者更明确一点，直接指定：

/model custom:你的模型名

如果你之前还保留了云端模型，也可以在它们之间切来切去。
这时候 Hermes 就像一个会换厨师的餐厅经理：

想省钱，用本地
想快点，用云端
想大活交给更强模型，也可以切回去

这个玩法很适合日常：

简单任务给本地
关键任务给云端
调试时本地多跑
真正重活再上更强模型

这样钱包和显卡，至少能有一方不那么痛苦。

八、最常见的坑，我直接帮你避一下

1）本地服务没启动

这属于最经典的问题。

你以为是 Hermes 不行，
其实是 Ollama 根本没开火。

先确认你的本地服务能正常响应，
再怪 Hermes。

2）地址写错

最常见的错误包括：

少写 /v1
端口写错
把 localhost 写成了别的
复制时多了奇怪空格

程序员最怕的不是大错，
是这种“看起来像对，其实就是不对”的小错。

3）模型名写错

上面提过，但值得再说一次。
模型名一定以你本地服务里实际存在的名字为准。

4）本地模型太弱，还想让它干重活

这个也很现实。

有些人本地跑了个小模型，
然后要求 Hermes：

长链路推理
复杂多步任务
大段代码修改
一边思考一边调工具

最后发现效果一般，
就开始怀疑 Hermes。

其实很多时候不是 Hermes 的锅，
是你让一辆小电驴去拉高铁。

本地模型能干活，
但你也得尊重一下它的体格。

九、我建议的最实用用法

如果你不是纯本地信仰玩家，
最舒服的方式其实往往不是“全都切本地”，
而是：

让 Hermes 同时保留云端和本地两套路子。

这样你就有很大的灵活度：

日常聊天、本地测试、简单任务 → 本地模型
长上下文、复杂任务、质量要求高 → 云端模型
钱包紧张时 → 多用本地
着急交付时 → 切回更强的远程模型

程序员成熟的标志之一，
不是永远只选一种方案，
而是知道什么时候该省，什么时候该狠。

十、最后一句

Hermes 切到本地模型这件事，听起来像很硬核，
其实核心逻辑非常朴素：

先把本地模型服务跑起来，
再用 hermes model 把它登记成 Custom endpoint。

说到底，Hermes 不在乎你模型是在云上、机房里，还是蹲在你电脑风扇旁边。
它只在乎一件事：

这个模型服务，我能不能顺利连上。

连上了，它就开始干活。
连不上，它就只能站在门口，像一个找不到厨房的总管家。

所以别把“切本地”想得太神秘。
本质上，这只是一次很普通的“改地址”。

只不过这次改的不是收货地址，
是你家 AI 厨房的门牌号。

如果这类真实使用记录对你有帮助，欢迎关注公众号「AI边用边记」。
后面会继续分享 AI 工具、Agent、智能体和大模型应用在实际工作中的用法、坑点和思考。
在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

考虑扰动的欠驱动船舶轨迹跟踪自适应滑模控制Matlab/simulink实现模型

本文针对欠驱动船舶在复杂海洋环境中受模型不确定性和外界扰动影响下的轨迹跟踪控制问题，提出了一种基于自适应滑模控制的创新方法。通过引入超螺旋滑模算法与参数自适应调节机制，结合非线性速度观测器与积分滑模面设计，实现了对船舶运动状态的高精度跟踪。仿真与实船实验结果表明，该方法在强风浪干扰下仍能保持轨迹跟踪误差小于0.5米，验证了其鲁棒性与工程实用性。