Hermes + Qwen3.6 本地最强 Agent 组合

brucelee186

372人浏览 · 2026-05-15 09:58:20

brucelee186 · 2026-05-15 09:58:20 发布

2026年5月15日 · AI / 本地大模型 / Agent

最近在做本地大模型 + Agent 系统的整合，最终稳定下来的一套方案是：

Hermes + Qwen3.6 + llama.cpp

整体体验下来，这套组合属于目前“性价比 + 可控性 + 可扩展性”都比较均衡的一种方案。

为什么会选这套组合

之前也尝试过几种方案：

vLLM（性能强，但部署复杂）
DFlash（不稳定）
各类云端 Agent（受限 Token）

最后还是回到本地方案，原因很简单：

数据完全本地
不依赖 API
可以长期运行
Agent 能真正执行任务

一、WSL2 环境安装

wsl --install           # 装 Ubuntu 24.04
wsl --set-default-version 2

然后：

wsl --install -d Ubuntu-24.04

进入系统后验证 GPU：

nvidia-smi

二、基础依赖安装

sudo apt update && sudo apt install -y python3-pip python3-venv

如果遇到驱动问题，通常是显卡驱动版本较旧，需要更新 Windows NVIDIA 驱动（WSL2 会自动继承）。

三、安装 llama.cpp

sudo apt install -y cmake build-essential git
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

如果报 CUDA 相关错误：

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-8

然后配置环境变量：

export PATH=/usr/local/cuda-12.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH

echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

重新编译：

cd ~/llama.cpp
rm -rf build
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

遇到问题:

CMake Error at /home/bruce/llama.cpp/scripts/xxd.cmake:10 (file):
  file failed to open for reading (No such file or directory):CMake Error at /home/bruce/llama.cpp/scripts/xxd.cmake:13 (string):
  string sub-command LENGTH requires two arguments.

解决方式:

✅ 彻底关闭 WebUI（必须做）

1️⃣ 清理 build

cd ~/llama.cpp
rm -rf build

2️⃣ 重新编译（关键）

cmake -B build \
  -DGGML_CUDA=ON \
  -DCMAKE_CUDA_ARCHITECTURES=89 \
  -DLLAMA_BUILD_SERVER=ON \
  -DLLAMA_BUILD_WEBUI=OFF

cmake --build build -j$(nproc)

3️⃣ 启动（纯 API）

./build/bin/llama-server \
  --host 0.0.0.0 \
  --port 8080

四、下载模型（Qwen3.6）

hf download unsloth/Qwen3.6-27B-GGUF \
  Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --local-dir ~/models/

遇到问题:

hf download unsloth/Qwen3.6-27B-GGUF \ Qwen3.6-27B-UD-Q4_K_XL.gguf \ --local-dir ~/models/ hf: command not found

修好 hf 命令

你需要先装 CLI：

1️⃣ 创建虚拟环境（避免系统限制）

python3 -m venv ~/hf-env
source ~/hf-env/bin/activate

2️⃣ 安装 huggingface 工具

pip install -U huggingface_hub

3️⃣ 重新试 hf

hf --help

4️⃣ 再下载

hf download unsloth/Qwen3.6-27B-GGUF \
  Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --local-dir ~/models/

模型大小约 17GB。

这里我用的是 27B Q4 版本，主要是因为本机显存是 24GB。

五、启动模型服务

~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --port 8080

访问：

http://localhost:8080

（可选）关闭 Thinking 模式

~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --chat-template-kwargs '{"enable_thinking":false}' \
  --port 8080

六、安装 Hermes Agent

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

配置：

URL: http://localhost:8080/v1
API Key: 12345678
Model: 自动识别

七、自动启动脚本

cat > ~/start-llm.sh << 'EOF'
#!/bin/bash
~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 65536 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --port 8080 \
  --host 0.0.0.0 &
EOF

chmod +x ~/start-llm.sh

WSL 自动启动：

echo '# Auto-start llama-server' >> ~/.bashrc
echo 'if ! pgrep -f "llama-server" > /dev/null 2>&1; then' >> ~/.bashrc
echo '    ~/start-llm.sh' >> ~/.bashrc
echo 'fi' >> ~/.bashrc

结尾（实际体验）

这一套跑下来之后，本地 AI 系统基本具备：

完整推理能力（Qwen3.6）
Agent 执行能力（Hermes）
本地推理引擎（llama.cpp）
OpenAI API 兼容接口
可扩展自动化能力

整体已经不只是“跑模型”，更像是在本地搭了一套 AI 工作系统。

如果你下一步要继续优化，我可以帮你做：

低显存版本（8GB / 12GB）
Docker 一键部署版
Hermes 自动化工作流模板
多模型路由架构（Qwen + Llama + Mistral）

直接说你要哪一个方向就行。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

C++内存管理终极指南：从智能指针到RAII

AtomGit开源社区

LlamaFactory v0.9.5 发布：Qwen3.5/Qwen3.6/Gemma4 全面支持，Transformers v5 兼容性正式到位

代码地址：github.com/hiyouga/LlamaFactory总体来看，LlamaFactory v0.9.5 是一个覆盖面极广、工程含量很高的版本。它的重点并不只是“新增几个模型”，而是围绕这个核心目标，把模型支持、训练框架、分布式能力、多模态处理、模板配置、CI 环境、文档说明一起往前推进了一大步。Qwen3.5Qwen3.6Gemma4FSDP2DeepSpeed量化多模态v1 训