Windows 11 本地部署 Hermes 完整教程（从零开始，亲测成功）

zjxgkxkgx

931人浏览 · 2026-05-27 23:45:22

zjxgkxkgx · 2026-05-27 23:45:22 发布

前言

最近 Hermes 系列模型（如 Nous-Hermes 等）在开源社区热度极高，其强大的推理和微调能力吸引了大量开发者。今天就为大家带来一篇 Win11 环境下本地部署 Hermes 的超详细教程。

本文将以最主流、最高效的 Ollama（适合小白快速推理）和 LM Studio（适合需要可视化界面的朋友）为例，带你一步步完成部署。

环境准备

在开始之前，请确保你的电脑满足以下基本配置：

操作系统：Windows 11（已启用硬件加速）
显卡(GPU)：NVIDIA 显卡优先（建议 RTX 3060 及以上，显存 $\ge$ 8GB；若纯 CPU 运行速度会较慢）
内存：16GB 或以上
存储空间：固态硬盘（SSD），预留至少 20GB 空间

decontamination 核心教程一：使用 Ollama 极速部署（推荐）

Ollama 是目前本地运行大模型最轻量、最方便的工具。

1. 下载并安装 Ollama

访问 Ollama 官网：https://ollama.com
点击 Download for Windows，下载 OllamaSetup.exe。
双击安装，一路点击 Install 即可。安装完成后，任务栏右下角会出现一个小蜗牛图标。

2. 配置环境变量（修改模型存储路径）

⚠️ 重要提示：Ollama 默认将模型下载在 C 盘。为了防止 C 盘爆炸，建议修改路径！

右键点击 此电脑 -> 属性 -> 高级系统设置 -> 环境变量。
在 用户变量 或 系统变量 中新建一个变量：
- 变量名：OLLAMA_MODELS
- 变量值：你想存放模型的路径（例如 D:\OllamaModels）
点击确定保存，并重启电脑或重启命令行生效。

3. 一键拉取并运行 Hermes

打开 Windows 的 PowerShell 或 CMD，输入以下命令：

Bash

ollama run hermes3

注：hermes3 是目前较新的版本（通常为 8B 参数量）。如果需要特定版本（如 Llama-3-Nous-Hermes），可以去 Ollama Model Library 搜索对应标签。

系统会自动开始下载模型组件，下载完成后，你就可以直接在终端里和 Hermes 对话了！

核心教程二：使用 LM Studio 图形化部署（适合小白）

如果你喜欢像 ChatGPT 那样的可视化聊天界面，LM Studio 是最好的选择。

1. 下载 LM Studio

访问官网：https://lmstudio.ai
选择 Windows 版本下载并安装。

2. 搜索并下载 Hermes 模型

打开 LM Studio，点击左侧的 放大镜（Search） 图标。
在顶部搜索框输入：Nous Hermes 或 Hermes 3。
在右侧列表中会看到很多量化版本（GGUF格式）。
- 推荐选择：带有 Q4_K_M 或 Q5_K_M 标签的版本（在速度和效果之间平衡最好）。
点击 Download 开始下载。

3. 开启聊天

下载完成后，点击左侧的 聊天（AI Chat） 图标（对话气泡）。
在顶部中间的 "Select a model to load" 下拉菜单中，选择你刚刚下载的 Hermes 模型。
稍等片刻，模型加载到显存后，即可在下方输入框开始对话！

💡 避坑指南：如果在右侧的 Hardware Settings 中勾选 GPU Offload，并将滑块拉满，可以大幅提升生成速度。

进阶：如何通过 API 调用（Python 示例）

成功部署后，如果你想在自己的代码中调用本地的 Hermes，可以通过 Ollama 提供的本地 API。

首先在终端确保 Ollama 正在运行，然后安装 OpenAI 库：

Bash

pip install openai

编写 Python 脚本 test_hermes.py：

Python

from openai import OpenAI

# Ollama 默认本地端口为 11434
client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama', # 随便填一个字符串即可
)

response = client.chat.completions.create(
  model="hermes3",
  messages=[
    {"role": "system", "content": "你是一个乐于助人的 AI 助手。"},
    {"role": "user", "content": "请解释一下什么是大语言模型的量化。"}
  ]
)

print(response.choices[0].message.content)