前言

最近 Hermes 系列模型(如 Nous-Hermes 等)在开源社区热度极高,其强大的推理和微调能力吸引了大量开发者。今天就为大家带来一篇 Win11 环境下本地部署 Hermes 的超详细教程

本文将以最主流、最高效的 Ollama(适合小白快速推理)和 LM Studio(适合需要可视化界面的朋友)为例,带你一步步完成部署。

环境准备

在开始之前,请确保你的电脑满足以下基本配置:

  • 操作系统:Windows 11(已启用硬件加速)

  • 显卡(GPU):NVIDIA 显卡优先(建议 RTX 3060 及以上,显存 $\ge$ 8GB;若纯 CPU 运行速度会较慢)

  • 内存:16GB 或以上

  • 存储空间:固态硬盘(SSD),预留至少 20GB 空间

decontamination 核心教程一:使用 Ollama 极速部署(推荐)

Ollama 是目前本地运行大模型最轻量、最方便的工具。

1. 下载并安装 Ollama

  1. 访问 Ollama 官网:https://ollama.com

  2. 点击 Download for Windows,下载 OllamaSetup.exe

  3. 双击安装,一路点击 Install 即可。安装完成后,任务栏右下角会出现一个小蜗牛图标。

2. 配置环境变量(修改模型存储路径)

⚠️ 重要提示:Ollama 默认将模型下载在 C 盘。为了防止 C 盘爆炸,建议修改路径!

  1. 右键点击 此电脑 -> 属性 -> 高级系统设置 -> 环境变量

  2. 用户变量系统变量 中新建一个变量:

    • 变量名OLLAMA_MODELS

    • 变量值:你想存放模型的路径(例如 D:\OllamaModels

  3. 点击确定保存,并重启电脑重启命令行生效。

3. 一键拉取并运行 Hermes

打开 Windows 的 PowerShellCMD,输入以下命令:

Bash

ollama run hermes3

注:hermes3 是目前较新的版本(通常为 8B 参数量)。如果需要特定版本(如 Llama-3-Nous-Hermes),可以去 Ollama Model Library 搜索对应标签。

系统会自动开始下载模型组件,下载完成后,你就可以直接在终端里和 Hermes 对话了!

核心教程二:使用 LM Studio 图形化部署(适合小白)

如果你喜欢像 ChatGPT 那样的可视化聊天界面,LM Studio 是最好的选择。

1. 下载 LM Studio

  1. 访问官网:https://lmstudio.ai

  2. 选择 Windows 版本下载并安装。

2. 搜索并下载 Hermes 模型

  1. 打开 LM Studio,点击左侧的 放大镜(Search) 图标。

  2. 在顶部搜索框输入:Nous HermesHermes 3

  3. 在右侧列表中会看到很多量化版本(GGUF格式)。

    • 推荐选择:带有 Q4_K_MQ5_K_M 标签的版本(在速度和效果之间平衡最好)。

  4. 点击 Download 开始下载。

3. 开启聊天

  1. 下载完成后,点击左侧的 聊天(AI Chat) 图标(对话气泡)。

  2. 在顶部中间的 "Select a model to load" 下拉菜单中,选择你刚刚下载的 Hermes 模型。

  3. 稍等片刻,模型加载到显存后,即可在下方输入框开始对话!

💡 避坑指南:如果在右侧的 Hardware Settings 中勾选 GPU Offload,并将滑块拉满,可以大幅提升生成速度。

进阶:如何通过 API 调用(Python 示例)

成功部署后,如果你想在自己的代码中调用本地的 Hermes,可以通过 Ollama 提供的本地 API。

首先在终端确保 Ollama 正在运行,然后安装 OpenAI 库:

Bash

pip install openai

编写 Python 脚本 test_hermes.py

Python

from openai import OpenAI

# Ollama 默认本地端口为 11434
client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama', # 随便填一个字符串即可
)

response = client.chat.completions.create(
  model="hermes3",
  messages=[
    {"role": "system", "content": "你是一个乐于助人的 AI 助手。"},
    {"role": "user", "content": "请解释一下什么是大语言模型的量化。"}
  ]
)

print(response.choices[0].message.content)

常见问题与解决方案 (FAQ)

Q1: 下载速度太慢怎么办?

A: Ollama 和 LM Studio 的服务器在国外。如果下载卡住,建议使用科学上网工具;或者在 LM Studio 中复制 Hugging Face 的模型链接,使用迅雷等下载工具下载 .gguf 文件后,再手动导入 LM Studio。

Q2: 运行提示 OOM (Out of Memory) 爆显存怎么办?

A: 如果你的显存是 8GB,强行运行 8B 的未量化模型可能会吃满。请选择 Q4_K_M(4位量化)版本的模型,它只需要约 5-6GB 的显存即可流畅运行。

Q3: 为什么模型回答是英文?

A: Hermes 原生对英文支持极好。你可以通过 System Prompt(系统提示词)强制它:"Please always reply in Chinese."(请始终用中文回答。) 来引导它输出中文。

总结

通过以上两种方法,你已经成功在 Win11 上驯服了 Hermes 模型!无论是用于日常调戏、代码辅助还是本地隐私数据处理,本地部署都是最安全、最省钱的选择。

如果你在部署过程中遇到任何问题,欢迎在评论区留言,我们一起讨论解决!

如果你觉得这篇教程对你有帮助,欢迎 👍点赞、⭐收藏、📝评论 三连支持一下作者!

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐