大模型本地部署极限性价比 —— 4×Tesla P40 96GB 显存 Qwen3.5-35B 多模态实战(llama.cpp)
大家好,今天分享一台真正极限性价比的本地大模型部署方案:
总硬件成本不到 1万元,却拥有 96GB VRAM + 支持图片输入,能流畅跑 Qwen3.5-35B-A3B(MoE),单请求 44 t/s,16 并发吞吐量突破 103 t/s。
这套方案在 2026 年依然是最划算的 96GB 本地方案。
一、硬件明细 & 真实价格(2026 年 3 月二手市场)
| 部件 | 规格 | 数量 | 单价(二手) | 小计 | 备注 |
|---|---|---|---|---|---|
| Supermicro 7048GR-TR | 4U 塔式/机架,8卡位 | 1 | ¥1,280~1,990 | ¥1,600 | 含双路 E5 CPU |
| Tesla P40 | 24GB GDDR5 | 4 | ¥1,590~2,250 | ¥7,200 | Pascal 经典矿卡 |
| 系统内存 | DDR4 16GB | 1 | ¥600~800 | ¥700 | ECC 推荐 |
| 系统盘 | 480GB SSD | 1 | ¥150 | ¥150 | - |
| 总计 | - | - | - | ≈ ¥9,650 | 含运费税费不到 1.1 万 |
极限性价比亮点:
96GB 显存只要 1 万出头,同等显存的 4090×4 要 4 万+,A100 80GB 更是天价。这套方案是目前最便宜的 96GB 本地大模型平台。
二、完整部署步骤(亲测可用)
1. 准备环境
sudo apt update && sudo apt install -y git build-essential cmake python3-pip wget
pip install huggingface_hub
2. 编译 llama.cpp(P40 专用)
cd ~
git clone --depth 1 https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
mkdir -p build && cd build
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
cmake .. -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=61 -DGGML_CUDA_F16=ON
make -j$(nproc) llama-server
3. 下载模型(主模型 + mmproj)
mkdir -p ~/models
cd ~/models
python -c '
from huggingface_hub import snapshot_download
import os
os.makedirs("~/models", exist_ok=True)
snapshot_download(
repo_id="HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive",
allow_patterns=["*Q5_K_M.gguf", "mmproj*.gguf"],
local_dir="~/models",
local_dir_use_symlinks=False
)
'
4. 最终启动命令(128K 上下文 + 32 并发 + 图片支持)
pkill -9 -f llama-server
cd ~/llama.cpp/build/bin
nohup ./llama-server \
-m ~/models/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q5_K_M.gguf \
--mmproj ~/models/mmproj-Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
--host 0.0.0.0 --port 8000 \
-ngl 99 --tensor-split 0,0,0,0 \
-c 131072 --ctx-size 131072 \
--parallel 32 --batch-size 8192 --ubatch-size 2048 \
--no-warmup --flash-attn on --threads $(nproc) \
> ~/llama-server.log 2>&1 &
5. 开机自启动 + Cherry Studio 配置
(systemd 服务文件见上篇文档,已包含 mmproj)
三、真实测试数据(亲测)
模型:Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q5_K_M(+mmproj)
| 测试场景 | 并发数 | 上下文 | 单请求速度 | 总吞吐量 | 备注 |
|---|---|---|---|---|---|
| 单客户端 | 1 | 128K | 44.3 t/s | 44 t/s | 首字延迟 800ms 左右 |
| 16 并发压测 | 16 | 128K | - | 103.6 t/s | 总耗时 79s 生成 8192 tokens |
| 图片输入(Cherry Studio) | 多轮 | 128K | 正常 | 正常 | 无 “image input is not supported” 报错 |
nvidia-smi 显示 4 张卡负载均匀,每张卡显存占用 ≈18-20GB(Q5_K_M + KV Cache)。
四、性能分析
为什么这套方案性价比极高?
- 显存利用率极高:96GB 几乎全用上,Q5_K_M 下 35B MoE 模型仅占 23GB 主显存,剩余全给 KV Cache。
- Pascal 架构依然强悍:虽然没有 Tensor Core,但 llama.cpp 的 GGML_CUDA + Flash Attention 优化后,P40 依然能打出 100+ t/s 吞吐量。
- 多模态零成本:只需加
--mmproj就支持图片输入,远比 vLLM/SGLang 简单。 - 成本只有新卡 1/4:同等 96GB 配置,4090×4 要 4-5 万,这套只要 1 万。
一句话总结:
在 2026 年,用 1 万块钱跑 35B 多模态大模型,还能 100+ t/s,这就是目前能做到的极限性价比。
五、缺陷 & 不足(必须说清楚)
- 架构老旧:Pascal(SM 6.1)无法运行 SGLang、最新 vLLM 等新 kernel,后续大模型更新可能需要等 llama.cpp 适配。
- 功耗较高:4 张 P40 满载约 900-1000W,电费和散热压力比 4090 大。
- 上下文极限:256K 虽然能开,但实际稳定在 128K 更保险(256K 会吃掉大量 KV Cache)。
- 驱动与维护:CUDA 12.2 较老,未来可能需要手动维护。
- 无官方商业支持:纯开源方案,遇到问题只能靠社区。
总体评价:
如果你预算有限、追求极致性价比 + 多模态 + 稳定运行,这套 4×P40 方案目前仍是最优解。
如果你追求极致速度和未来兼容性,建议等预算升级到 4090/A6000。
欢迎收藏、点赞、转发!
有相同硬件的朋友欢迎评论区交流实际跑分~
我还会持续更新更高并发、结构化输出等进阶玩法。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)