2026年5月15日 · AI / 本地大模型 / Agent

最近在做本地大模型 + Agent 系统的整合,最终稳定下来的一套方案是:

Hermes + Qwen3.6 + llama.cpp

整体体验下来,这套组合属于目前“性价比 + 可控性 + 可扩展性”都比较均衡的一种方案。


为什么会选这套组合

之前也尝试过几种方案:

  • vLLM(性能强,但部署复杂)

  • DFlash(不稳定)

  • 各类云端 Agent(受限 Token)

最后还是回到本地方案,原因很简单:

  • 数据完全本地

  • 不依赖 API

  • 可以长期运行

  • Agent 能真正执行任务


一、WSL2 环境安装

wsl --install           # 装 Ubuntu 24.04
wsl --set-default-version 2

然后:

wsl --install -d Ubuntu-24.04

进入系统后验证 GPU:

nvidia-smi

二、基础依赖安装

sudo apt update && sudo apt install -y python3-pip python3-venv

如果遇到驱动问题,通常是显卡驱动版本较旧,需要更新 Windows NVIDIA 驱动(WSL2 会自动继承)。


三、安装 llama.cpp

sudo apt install -y cmake build-essential git
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

如果报 CUDA 相关错误:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-8

然后配置环境变量:

export PATH=/usr/local/cuda-12.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH

echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

重新编译:

cd ~/llama.cpp
rm -rf build
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

遇到问题:

CMake Error at /home/bruce/llama.cpp/scripts/xxd.cmake:10 (file):
  file failed to open for reading (No such file or directory):CMake Error at /home/bruce/llama.cpp/scripts/xxd.cmake:13 (string):
  string sub-command LENGTH requires two arguments.

解决方式:

✅ 彻底关闭 WebUI(必须做)

1️⃣ 清理 build


cd ~/llama.cpp
rm -rf build

2️⃣ 重新编译(关键)


cmake -B build \
  -DGGML_CUDA=ON \
  -DCMAKE_CUDA_ARCHITECTURES=89 \
  -DLLAMA_BUILD_SERVER=ON \
  -DLLAMA_BUILD_WEBUI=OFF

cmake --build build -j$(nproc)

3️⃣ 启动(纯 API)


./build/bin/llama-server \
  --host 0.0.0.0 \
  --port 8080

四、下载模型(Qwen3.6)

hf download unsloth/Qwen3.6-27B-GGUF \
  Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --local-dir ~/models/

遇到问题:

hf download unsloth/Qwen3.6-27B-GGUF \ Qwen3.6-27B-UD-Q4_K_XL.gguf \ --local-dir ~/models/ hf: command not found

修好 hf 命令

你需要先装 CLI:

1️⃣ 创建虚拟环境(避免系统限制)


python3 -m venv ~/hf-env
source ~/hf-env/bin/activate

2️⃣ 安装 huggingface 工具


pip install -U huggingface_hub

3️⃣ 重新试 hf


hf --help

4️⃣ 再下载


hf download unsloth/Qwen3.6-27B-GGUF \
  Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --local-dir ~/models/


模型大小约 17GB。

这里我用的是 27B Q4 版本,主要是因为本机显存是 24GB。


五、启动模型服务

~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --port 8080

访问:

http://localhost:8080


(可选)关闭 Thinking 模式

~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --chat-template-kwargs '{"enable_thinking":false}' \
  --port 8080

六、安装 Hermes Agent

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

配置:

URL: http://localhost:8080/v1
API Key: 12345678
Model: 自动识别

七、自动启动脚本

cat > ~/start-llm.sh << 'EOF'
#!/bin/bash
~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 65536 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --port 8080 \
  --host 0.0.0.0 &
EOF

chmod +x ~/start-llm.sh

WSL 自动启动:

echo '# Auto-start llama-server' >> ~/.bashrc
echo 'if ! pgrep -f "llama-server" > /dev/null 2>&1; then' >> ~/.bashrc
echo '    ~/start-llm.sh' >> ~/.bashrc
echo 'fi' >> ~/.bashrc

结尾(实际体验)

这一套跑下来之后,本地 AI 系统基本具备:

  • 完整推理能力(Qwen3.6)

  • Agent 执行能力(Hermes)

  • 本地推理引擎(llama.cpp)

  • OpenAI API 兼容接口

  • 可扩展自动化能力

整体已经不只是“跑模型”,更像是在本地搭了一套 AI 工作系统。


如果你下一步要继续优化,我可以帮你做:

  • 低显存版本(8GB / 12GB)

  • Docker 一键部署版

  • Hermes 自动化工作流模板

  • 多模型路由架构(Qwen + Llama + Mistral)

直接说你要哪一个方向就行。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐