Hermes 如何把模型切换到本地模型
很多人装好 Hermes 之后,第一反应是:
“好,现在该让它省钱了。”
第二反应通常是:
“本地模型到底怎么接?”
第三反应则是:
“怎么又是 custom endpoint?”
其实这事没那么玄。
你可以把 Hermes 理解成一个会干活的总管家,
而本地模型就是你自己家厨房里的灶台。
以前它可能老去外面饭馆吃饭,
现在你想让它改成在家做。
那你要做的,不是和它讲大道理,
而是把厨房地址、灶台名字、有没有钥匙这些信息告诉它。
说白了,Hermes 切到本地模型的核心就一句话:
把本地推理服务作为 Custom endpoint 配进去。
一、先别急着切,先搞清楚两件事
Hermes 这里有两个容易混淆的命令:
1)hermes model
这个是在 终端里执行 的。
它负责做“正式配置”:
- 加新的 Provider
- 改默认模型
- 配 API Key
- 配 Custom endpoint
- 保存到配置里
它更像“后台设置页”。
2)/model
这个是在 Hermes 聊天会话里输入 的。
它负责做“会话内切换”。
但注意,它只能在已经配置过的模型和 Provider 之间切。
它不是万能钥匙。
如果你还没把本地模型配进去,
那你在会话里敲 /model,它也不会凭空给你变出一个 Ollama。
所以新手记住一句话:
第一次接本地模型,用 hermes model。
会话里临时切换,才用 /model。
二、本地模型这件事,本质上就是“你得先有一个本地服务”
Hermes 自己不是推理引擎。
它不是那种“敲个命令模型就从天而降开始算”的东西。
它更像一个调度者。
所以你得先准备好一个本地推理服务,比如:
- Ollama
- vLLM
- llama.cpp server
- SGLang
- 其他兼容 OpenAI API 的本地服务
Hermes 要的是啥?
要的是一个能对外提供接口的模型服务。
也就是说,它不是直接问你:
“你电脑里有没有模型文件?”
而是在问:
“有没有一个我能访问的模型接口?”
这点特别重要。
因为很多人会误以为:
“我本地已经下了模型,所以 Hermes 应该自动懂。”
不会。
AI 不读心,Hermes 也不读你硬盘。
三、最常见的本地方案:Ollama
如果你只是想尽快把 Hermes 切到本地模型,
最省事、最常见的路线,通常是 Ollama。
思路大概是这样:
第一步:先把 Ollama 跑起来
你先确认本地模型服务已经启动。
模型也已经拉下来,并且能正常响应。
比如你本地已经跑着某个模型,
那就说明“厨房已经开火了”。
第二步:再让 Hermes 指向它
Hermes 不负责帮你猜厨房在哪。
你得明确告诉它:
- API 地址是什么
- 模型名是什么
- 上下文长度大概是多少
- 这个服务要不要 key
常见的 Ollama 地址,一般就是:
http://localhost:11434/v1
你可以把它理解成:
“喂,Hermes,以后做饭别去外面了,
咱家厨房就在这个门牌号。”
四、正式切到本地模型的做法
最稳的办法,就是在终端里执行:
hermes model
然后按这个思路选:
- 选择 Custom endpoint
- 填本地服务地址
- 填模型名
- 填 API key(如果本地服务不需要,可以按提示处理)
- 填上下文长度
- 保存配置
比如如果你接的是 Ollama,思路通常就是:
- Base URL:本地地址
- Model name:你实际跑的模型名
- Context length:按你本地模型和服务的实际情况填
这里最容易出错的不是地址,
而是模型名和上下文长度。
模型名别写成“我觉得应该叫这个”
一定要写你本地服务里真实存在的模型名。
比如你本地拉的是:
qwen2.5-coder:32b
那你就别手写成:
qwen-coder
Hermes 不是算命先生,
你写错了,它不会替你脑补。
上下文长度别瞎填
很多人对这项特别随缘,
心态基本是:
“既然 32768 看起来很专业,那我就填它吧。”
不行。
你最好按自己本地服务和模型的实际支持来配。
因为上下文长度填得太离谱,
后面 Hermes 工作起来就可能表现得像一个刚通宵完的实习生:
- 记不住前文
- 任务跑一半开始迷糊
- 工具链一长就掉链子
五、如果你不想走交互界面,也可以直接改配置
有些人不爱交互式配置,
就喜欢直接改文件。
这也行。
Hermes 的模型配置核心在 ~/.hermes/config.yaml。
思路一般类似这样:
model:
default: qwen2.5-coder:32b
provider: custom
base_url: http://localhost:11434/v1
context_length: 32768
如果你的本地服务需要 key,也可以配上。
如果不需要,就按你实际环境来。
这种方式的优点是:
- 直观
- 好改
- 好备份
- 好对比
缺点也很明显:
- 容易手滑
- 容易缩进写歪
- 容易把自己改进坑里
所以如果你是第一次折腾,
还是建议先用 hermes model。
至少它不会让你在 YAML 缩进上体验人生起伏。
六、切完之后怎么验证自己真的换到本地了?
这一步特别重要。
很多人做完配置就一拍大腿:
“成了!”
结果 Hermes 其实还在走云端模型,
只是你自己沉浸在一种“本地部署成功”的感动里。
建议你做三个检查:
1)重新开一个 Hermes 会话
别在旧会话里瞎猜。
重新启动一轮最稳。
2)问一个简单问题
先别一上来让它写十个文件、跑一堆工具。
先让它正常回一句话。
3)观察响应速度和日志表现
如果你接的是本地模型,
尤其是参数比较大的模型,
你通常会明显感觉到节奏不一样。
有些本地模型回答时的感觉,会很像:
“它不是不会,只是它在认真地慢慢想。”
尤其你机器资源没那么豪横时,
那种延迟感会更明显。
七、已经配好的模型,怎么在会话里来回切?
如果你本地模型已经配置过了,
这时候你就可以在 Hermes 会话里用:
/model
或者更明确一点,直接指定:
/model custom:你的模型名
如果你之前还保留了云端模型,也可以在它们之间切来切去。
这时候 Hermes 就像一个会换厨师的餐厅经理:
- 想省钱,用本地
- 想快点,用云端
- 想大活交给更强模型,也可以切回去
这个玩法很适合日常:
- 简单任务给本地
- 关键任务给云端
- 调试时本地多跑
- 真正重活再上更强模型
这样钱包和显卡,至少能有一方不那么痛苦。
八、最常见的坑,我直接帮你避一下
1)本地服务没启动
这属于最经典的问题。
你以为是 Hermes 不行,
其实是 Ollama 根本没开火。
先确认你的本地服务能正常响应,
再怪 Hermes。
2)地址写错
最常见的错误包括:
- 少写
/v1 - 端口写错
- 把
localhost写成了别的 - 复制时多了奇怪空格
程序员最怕的不是大错,
是这种“看起来像对,其实就是不对”的小错。
3)模型名写错
上面提过,但值得再说一次。
模型名一定以你本地服务里实际存在的名字为准。
4)本地模型太弱,还想让它干重活
这个也很现实。
有些人本地跑了个小模型,
然后要求 Hermes:
- 长链路推理
- 复杂多步任务
- 大段代码修改
- 一边思考一边调工具
最后发现效果一般,
就开始怀疑 Hermes。
其实很多时候不是 Hermes 的锅,
是你让一辆小电驴去拉高铁。
本地模型能干活,
但你也得尊重一下它的体格。
九、我建议的最实用用法
如果你不是纯本地信仰玩家,
最舒服的方式其实往往不是“全都切本地”,
而是:
让 Hermes 同时保留云端和本地两套路子。
这样你就有很大的灵活度:
- 日常聊天、本地测试、简单任务 → 本地模型
- 长上下文、复杂任务、质量要求高 → 云端模型
- 钱包紧张时 → 多用本地
- 着急交付时 → 切回更强的远程模型
程序员成熟的标志之一,
不是永远只选一种方案,
而是知道什么时候该省,什么时候该狠。
十、最后一句
Hermes 切到本地模型这件事,听起来像很硬核,
其实核心逻辑非常朴素:
先把本地模型服务跑起来,
再用 hermes model 把它登记成 Custom endpoint。
说到底,Hermes 不在乎你模型是在云上、机房里,还是蹲在你电脑风扇旁边。
它只在乎一件事:
这个模型服务,我能不能顺利连上。
连上了,它就开始干活。
连不上,它就只能站在门口,像一个找不到厨房的总管家。
所以别把“切本地”想得太神秘。
本质上,这只是一次很普通的“改地址”。
只不过这次改的不是收货地址,
是你家 AI 厨房的门牌号。
如果这类真实使用记录对你有帮助,欢迎关注公众号「AI边用边记」。
后面会继续分享 AI 工具、Agent、智能体和大模型应用在实际工作中的用法、坑点和思考。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)