Hermes + Qwen3.6 本地最强 Agent 组合
2026年5月15日 · AI / 本地大模型 / Agent
最近在做本地大模型 + Agent 系统的整合,最终稳定下来的一套方案是:
Hermes + Qwen3.6 + llama.cpp
整体体验下来,这套组合属于目前“性价比 + 可控性 + 可扩展性”都比较均衡的一种方案。
为什么会选这套组合
之前也尝试过几种方案:
-
vLLM(性能强,但部署复杂)
-
DFlash(不稳定)
-
各类云端 Agent(受限 Token)
最后还是回到本地方案,原因很简单:
-
数据完全本地
-
不依赖 API
-
可以长期运行
-
Agent 能真正执行任务
一、WSL2 环境安装
wsl --install # 装 Ubuntu 24.04
wsl --set-default-version 2
然后:
wsl --install -d Ubuntu-24.04
进入系统后验证 GPU:
nvidia-smi
二、基础依赖安装
sudo apt update && sudo apt install -y python3-pip python3-venv
如果遇到驱动问题,通常是显卡驱动版本较旧,需要更新 Windows NVIDIA 驱动(WSL2 会自动继承)。
三、安装 llama.cpp
sudo apt install -y cmake build-essential git
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)
如果报 CUDA 相关错误:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-8
然后配置环境变量:
export PATH=/usr/local/cuda-12.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH
echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
重新编译:
cd ~/llama.cpp
rm -rf build
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)
遇到问题:
CMake Error at /home/bruce/llama.cpp/scripts/xxd.cmake:10 (file):
file failed to open for reading (No such file or directory):CMake Error at /home/bruce/llama.cpp/scripts/xxd.cmake:13 (string):
string sub-command LENGTH requires two arguments.
解决方式:
✅ 彻底关闭 WebUI(必须做)
1️⃣ 清理 build
cd ~/llama.cpp
rm -rf build
2️⃣ 重新编译(关键)
cmake -B build \
-DGGML_CUDA=ON \
-DCMAKE_CUDA_ARCHITECTURES=89 \
-DLLAMA_BUILD_SERVER=ON \
-DLLAMA_BUILD_WEBUI=OFF
cmake --build build -j$(nproc)
3️⃣ 启动(纯 API)
./build/bin/llama-server \
--host 0.0.0.0 \
--port 8080
四、下载模型(Qwen3.6)
hf download unsloth/Qwen3.6-27B-GGUF \
Qwen3.6-27B-UD-Q4_K_XL.gguf \
--local-dir ~/models/
遇到问题:
hf download unsloth/Qwen3.6-27B-GGUF \ Qwen3.6-27B-UD-Q4_K_XL.gguf \ --local-dir ~/models/ hf: command not found
修好 hf 命令
你需要先装 CLI:
1️⃣ 创建虚拟环境(避免系统限制)
python3 -m venv ~/hf-env
source ~/hf-env/bin/activate
2️⃣ 安装 huggingface 工具
pip install -U huggingface_hub
3️⃣ 重新试 hf
hf --help
4️⃣ 再下载
hf download unsloth/Qwen3.6-27B-GGUF \
Qwen3.6-27B-UD-Q4_K_XL.gguf \
--local-dir ~/models/
模型大小约 17GB。
这里我用的是 27B Q4 版本,主要是因为本机显存是 24GB。
五、启动模型服务
~/llama.cpp/build/bin/llama-server \
--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
--ctx-size 32768 \
--flash-attn on \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--presence-penalty 1.5 \
--port 8080
访问:
(可选)关闭 Thinking 模式
~/llama.cpp/build/bin/llama-server \
--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
--ctx-size 32768 \
--flash-attn on \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--presence-penalty 1.5 \
--chat-template-kwargs '{"enable_thinking":false}' \
--port 8080
六、安装 Hermes Agent
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
配置:
URL: http://localhost:8080/v1
API Key: 12345678
Model: 自动识别
七、自动启动脚本
cat > ~/start-llm.sh << 'EOF'
#!/bin/bash
~/llama.cpp/build/bin/llama-server \
--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
--ctx-size 65536 \
--flash-attn on \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--presence-penalty 1.5 \
--port 8080 \
--host 0.0.0.0 &
EOF
chmod +x ~/start-llm.sh
WSL 自动启动:
echo '# Auto-start llama-server' >> ~/.bashrc
echo 'if ! pgrep -f "llama-server" > /dev/null 2>&1; then' >> ~/.bashrc
echo ' ~/start-llm.sh' >> ~/.bashrc
echo 'fi' >> ~/.bashrc
结尾(实际体验)
这一套跑下来之后,本地 AI 系统基本具备:
-
完整推理能力(Qwen3.6)
-
Agent 执行能力(Hermes)
-
本地推理引擎(llama.cpp)
-
OpenAI API 兼容接口
-
可扩展自动化能力
整体已经不只是“跑模型”,更像是在本地搭了一套 AI 工作系统。
如果你下一步要继续优化,我可以帮你做:
-
低显存版本(8GB / 12GB)
-
Docker 一键部署版
-
Hermes 自动化工作流模板
-
多模型路由架构(Qwen + Llama + Mistral)
直接说你要哪一个方向就行。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)