大家好,今天分享一台真正极限性价比的本地大模型部署方案:

总硬件成本不到 1万元,却拥有 96GB VRAM + 支持图片输入,能流畅跑 Qwen3.5-35B-A3B(MoE),单请求 44 t/s,16 并发吞吐量突破 103 t/s

这套方案在 2026 年依然是最划算的 96GB 本地方案

一、硬件明细 & 真实价格(2026 年 3 月二手市场)

部件 规格 数量 单价(二手) 小计 备注
Supermicro 7048GR-TR 4U 塔式/机架,8卡位 1 ¥1,280~1,990 ¥1,600 含双路 E5 CPU
Tesla P40 24GB GDDR5 4 ¥1,590~2,250 ¥7,200 Pascal 经典矿卡
系统内存 DDR4 16GB 1 ¥600~800 ¥700 ECC 推荐
系统盘 480GB SSD 1 ¥150 ¥150 -
总计 - - - ≈ ¥9,650 含运费税费不到 1.1 万

极限性价比亮点
96GB 显存只要 1 万出头,同等显存的 4090×4 要 4 万+,A100 80GB 更是天价。这套方案是目前最便宜的 96GB 本地大模型平台

二、完整部署步骤(亲测可用)

1. 准备环境

sudo apt update && sudo apt install -y git build-essential cmake python3-pip wget
pip install huggingface_hub

2. 编译 llama.cpp(P40 专用)

cd ~
git clone --depth 1 https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
mkdir -p build && cd build
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
cmake .. -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=61 -DGGML_CUDA_F16=ON
make -j$(nproc) llama-server

3. 下载模型(主模型 + mmproj)

mkdir -p ~/models
cd ~/models
python -c '
from huggingface_hub import snapshot_download
import os
os.makedirs("~/models", exist_ok=True)
snapshot_download(
    repo_id="HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive",
    allow_patterns=["*Q5_K_M.gguf", "mmproj*.gguf"],
    local_dir="~/models",
    local_dir_use_symlinks=False
)
'

4. 最终启动命令(128K 上下文 + 32 并发 + 图片支持)

pkill -9 -f llama-server
cd ~/llama.cpp/build/bin
nohup ./llama-server \
  -m ~/models/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q5_K_M.gguf \
  --mmproj ~/models/mmproj-Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  --host 0.0.0.0 --port 8000 \
  -ngl 99 --tensor-split 0,0,0,0 \
  -c 131072 --ctx-size 131072 \
  --parallel 32 --batch-size 8192 --ubatch-size 2048 \
  --no-warmup --flash-attn on --threads $(nproc) \
  > ~/llama-server.log 2>&1 &

5. 开机自启动 + Cherry Studio 配置
(systemd 服务文件见上篇文档,已包含 mmproj)

三、真实测试数据(亲测)

模型:Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q5_K_M(+mmproj)

测试场景 并发数 上下文 单请求速度 总吞吐量 备注
单客户端 1 128K 44.3 t/s 44 t/s 首字延迟 800ms 左右
16 并发压测 16 128K - 103.6 t/s 总耗时 79s 生成 8192 tokens
图片输入(Cherry Studio) 多轮 128K 正常 正常 无 “image input is not supported” 报错

nvidia-smi 显示 4 张卡负载均匀,每张卡显存占用 ≈18-20GB(Q5_K_M + KV Cache)。

四、性能分析

为什么这套方案性价比极高?

  1. 显存利用率极高:96GB 几乎全用上,Q5_K_M 下 35B MoE 模型仅占 23GB 主显存,剩余全给 KV Cache。
  2. Pascal 架构依然强悍:虽然没有 Tensor Core,但 llama.cpp 的 GGML_CUDA + Flash Attention 优化后,P40 依然能打出 100+ t/s 吞吐量。
  3. 多模态零成本:只需加 --mmproj 就支持图片输入,远比 vLLM/SGLang 简单。
  4. 成本只有新卡 1/4:同等 96GB 配置,4090×4 要 4-5 万,这套只要 1 万。

一句话总结
在 2026 年,用 1 万块钱跑 35B 多模态大模型,还能 100+ t/s,这就是目前能做到的极限性价比

五、缺陷 & 不足(必须说清楚)

  1. 架构老旧:Pascal(SM 6.1)无法运行 SGLang、最新 vLLM 等新 kernel,后续大模型更新可能需要等 llama.cpp 适配。
  2. 功耗较高:4 张 P40 满载约 900-1000W,电费和散热压力比 4090 大。
  3. 上下文极限:256K 虽然能开,但实际稳定在 128K 更保险(256K 会吃掉大量 KV Cache)。
  4. 驱动与维护:CUDA 12.2 较老,未来可能需要手动维护。
  5. 无官方商业支持:纯开源方案,遇到问题只能靠社区。

总体评价
如果你预算有限、追求极致性价比 + 多模态 + 稳定运行,这套 4×P40 方案目前仍是最优解
如果你追求极致速度和未来兼容性,建议等预算升级到 4090/A6000。


欢迎收藏、点赞、转发!
有相同硬件的朋友欢迎评论区交流实际跑分~
我还会持续更新更高并发、结构化输出等进阶玩法。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐