Windows 11 本地部署 Hermes 完整教程(从零开始,亲测成功)
前言
最近 Hermes 系列模型(如 Nous-Hermes 等)在开源社区热度极高,其强大的推理和微调能力吸引了大量开发者。今天就为大家带来一篇 Win11 环境下本地部署 Hermes 的超详细教程。
本文将以最主流、最高效的 Ollama(适合小白快速推理)和 LM Studio(适合需要可视化界面的朋友)为例,带你一步步完成部署。
环境准备
在开始之前,请确保你的电脑满足以下基本配置:
-
操作系统:Windows 11(已启用硬件加速)
-
显卡(GPU):NVIDIA 显卡优先(建议 RTX 3060 及以上,显存 $\ge$ 8GB;若纯 CPU 运行速度会较慢)
-
内存:16GB 或以上
-
存储空间:固态硬盘(SSD),预留至少 20GB 空间
decontamination 核心教程一:使用 Ollama 极速部署(推荐)
Ollama 是目前本地运行大模型最轻量、最方便的工具。
1. 下载并安装 Ollama
-
访问 Ollama 官网:https://ollama.com
-
点击 Download for Windows,下载
OllamaSetup.exe。 -
双击安装,一路点击 Install 即可。安装完成后,任务栏右下角会出现一个小蜗牛图标。
2. 配置环境变量(修改模型存储路径)
⚠️ 重要提示:Ollama 默认将模型下载在 C 盘。为了防止 C 盘爆炸,建议修改路径!
-
右键点击
此电脑->属性->高级系统设置->环境变量。 -
在 用户变量 或 系统变量 中新建一个变量:
-
变量名:
OLLAMA_MODELS -
变量值:你想存放模型的路径(例如
D:\OllamaModels)
-
-
点击确定保存,并重启电脑或重启命令行生效。
3. 一键拉取并运行 Hermes
打开 Windows 的 PowerShell 或 CMD,输入以下命令:
Bash
ollama run hermes3
注:
hermes3是目前较新的版本(通常为 8B 参数量)。如果需要特定版本(如 Llama-3-Nous-Hermes),可以去 Ollama Model Library 搜索对应标签。
系统会自动开始下载模型组件,下载完成后,你就可以直接在终端里和 Hermes 对话了!
核心教程二:使用 LM Studio 图形化部署(适合小白)
如果你喜欢像 ChatGPT 那样的可视化聊天界面,LM Studio 是最好的选择。
1. 下载 LM Studio
-
访问官网:https://lmstudio.ai
-
选择 Windows 版本下载并安装。
2. 搜索并下载 Hermes 模型
-
打开 LM Studio,点击左侧的 放大镜(Search) 图标。
-
在顶部搜索框输入:
Nous Hermes或Hermes 3。 -
在右侧列表中会看到很多量化版本(GGUF格式)。
-
推荐选择:带有
Q4_K_M或Q5_K_M标签的版本(在速度和效果之间平衡最好)。
-
-
点击 Download 开始下载。
3. 开启聊天
-
下载完成后,点击左侧的 聊天(AI Chat) 图标(对话气泡)。
-
在顶部中间的 "Select a model to load" 下拉菜单中,选择你刚刚下载的 Hermes 模型。
-
稍等片刻,模型加载到显存后,即可在下方输入框开始对话!
💡 避坑指南:如果在右侧的
Hardware Settings中勾选 GPU Offload,并将滑块拉满,可以大幅提升生成速度。
进阶:如何通过 API 调用(Python 示例)
成功部署后,如果你想在自己的代码中调用本地的 Hermes,可以通过 Ollama 提供的本地 API。
首先在终端确保 Ollama 正在运行,然后安装 OpenAI 库:
Bash
pip install openai
编写 Python 脚本 test_hermes.py:
Python
from openai import OpenAI
# Ollama 默认本地端口为 11434
client = OpenAI(
base_url='http://localhost:11434/v1',
api_key='ollama', # 随便填一个字符串即可
)
response = client.chat.completions.create(
model="hermes3",
messages=[
{"role": "system", "content": "你是一个乐于助人的 AI 助手。"},
{"role": "user", "content": "请解释一下什么是大语言模型的量化。"}
]
)
print(response.choices[0].message.content)
常见问题与解决方案 (FAQ)
Q1: 下载速度太慢怎么办?
A: Ollama 和 LM Studio 的服务器在国外。如果下载卡住,建议使用科学上网工具;或者在 LM Studio 中复制 Hugging Face 的模型链接,使用迅雷等下载工具下载 .gguf 文件后,再手动导入 LM Studio。
Q2: 运行提示 OOM (Out of Memory) 爆显存怎么办?
A: 如果你的显存是 8GB,强行运行 8B 的未量化模型可能会吃满。请选择 Q4_K_M(4位量化)版本的模型,它只需要约 5-6GB 的显存即可流畅运行。
Q3: 为什么模型回答是英文?
A: Hermes 原生对英文支持极好。你可以通过 System Prompt(系统提示词)强制它:"Please always reply in Chinese."(请始终用中文回答。) 来引导它输出中文。
总结
通过以上两种方法,你已经成功在 Win11 上驯服了 Hermes 模型!无论是用于日常调戏、代码辅助还是本地隐私数据处理,本地部署都是最安全、最省钱的选择。
如果你在部署过程中遇到任何问题,欢迎在评论区留言,我们一起讨论解决!
如果你觉得这篇教程对你有帮助,欢迎 👍点赞、⭐收藏、📝评论 三连支持一下作者!
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)