大模型本地部署极限性价比 —— 4×Tesla P40 96GB 显存 Qwen3.5-35B 多模态实战（llama.cpp）

hupaolo

757人浏览 · 2026-03-29 02:46:54

hupaolo · 2026-03-29 02:46:54 发布

大家好，今天分享一台真正极限性价比的本地大模型部署方案：

总硬件成本不到 1万元，却拥有 96GB VRAM + 支持图片输入，能流畅跑 Qwen3.5-35B-A3B（MoE），单请求 44 t/s，16 并发吞吐量突破 103 t/s。

这套方案在 2026 年依然是最划算的 96GB 本地方案。

一、硬件明细 & 真实价格（2026 年 3 月二手市场）

部件	规格	数量	单价（二手）	小计	备注
Supermicro 7048GR-TR	4U 塔式/机架，8卡位	1	¥1,280～1,990	¥1,600	含双路 E5 CPU
Tesla P40	24GB GDDR5	4	¥1,590～2,250	¥7,200	Pascal 经典矿卡
系统内存	DDR4 16GB	1	¥600～800	¥700	ECC 推荐
系统盘	480GB SSD	1	¥150	¥150	-
总计	-	-	-	≈ ¥9,650	含运费税费不到 1.1 万

极限性价比亮点：
96GB 显存只要 1 万出头，同等显存的 4090×4 要 4 万+，A100 80GB 更是天价。这套方案是目前最便宜的 96GB 本地大模型平台。

二、完整部署步骤（亲测可用）

1. 准备环境

sudo apt update && sudo apt install -y git build-essential cmake python3-pip wget
pip install huggingface_hub

2. 编译 llama.cpp（P40 专用）

cd ~
git clone --depth 1 https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
mkdir -p build && cd build
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
cmake .. -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=61 -DGGML_CUDA_F16=ON
make -j$(nproc) llama-server

3. 下载模型（主模型 + mmproj）

mkdir -p ~/models
cd ~/models
python -c '
from huggingface_hub import snapshot_download
import os
os.makedirs("~/models", exist_ok=True)
snapshot_download(
    repo_id="HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive",
    allow_patterns=["*Q5_K_M.gguf", "mmproj*.gguf"],
    local_dir="~/models",
    local_dir_use_symlinks=False
)
'

4. 最终启动命令（128K 上下文 + 32 并发 + 图片支持）

pkill -9 -f llama-server
cd ~/llama.cpp/build/bin
nohup ./llama-server \
  -m ~/models/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q5_K_M.gguf \
  --mmproj ~/models/mmproj-Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  --host 0.0.0.0 --port 8000 \
  -ngl 99 --tensor-split 0,0,0,0 \
  -c 131072 --ctx-size 131072 \
  --parallel 32 --batch-size 8192 --ubatch-size 2048 \
  --no-warmup --flash-attn on --threads $(nproc) \
  > ~/llama-server.log 2>&1 &

5. 开机自启动 + Cherry Studio 配置
（systemd 服务文件见上篇文档，已包含 mmproj）

三、真实测试数据（亲测）

模型：Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q5_K_M（+mmproj）

测试场景	并发数	上下文	单请求速度	总吞吐量	备注
单客户端	1	128K	44.3 t/s	44 t/s	首字延迟 800ms 左右
16 并发压测	16	128K	-	103.6 t/s	总耗时 79s 生成 8192 tokens
图片输入（Cherry Studio）	多轮	128K	正常	正常	无 “image input is not supported” 报错

nvidia-smi 显示 4 张卡负载均匀，每张卡显存占用 ≈18-20GB（Q5_K_M + KV Cache）。

四、性能分析

为什么这套方案性价比极高？

显存利用率极高：96GB 几乎全用上，Q5_K_M 下 35B MoE 模型仅占 23GB 主显存，剩余全给 KV Cache。
Pascal 架构依然强悍：虽然没有 Tensor Core，但 llama.cpp 的 GGML_CUDA + Flash Attention 优化后，P40 依然能打出 100+ t/s 吞吐量。
多模态零成本：只需加 --mmproj 就支持图片输入，远比 vLLM/SGLang 简单。
成本只有新卡 1/4：同等 96GB 配置，4090×4 要 4-5 万，这套只要 1 万。

一句话总结：
在 2026 年，用 1 万块钱跑 35B 多模态大模型，还能 100+ t/s，这就是目前能做到的极限性价比。

五、缺陷 & 不足（必须说清楚）

架构老旧：Pascal（SM 6.1）无法运行 SGLang、最新 vLLM 等新 kernel，后续大模型更新可能需要等 llama.cpp 适配。
功耗较高：4 张 P40 满载约 900-1000W，电费和散热压力比 4090 大。
上下文极限：256K 虽然能开，但实际稳定在 128K 更保险（256K 会吃掉大量 KV Cache）。
驱动与维护：CUDA 12.2 较老，未来可能需要手动维护。
无官方商业支持：纯开源方案，遇到问题只能靠社区。

总体评价：
如果你预算有限、追求极致性价比 + 多模态 + 稳定运行，这套 4×P40 方案目前仍是最优解。
如果你追求极致速度和未来兼容性，建议等预算升级到 4090/A6000。

欢迎收藏、点赞、转发！
有相同硬件的朋友欢迎评论区交流实际跑分～
我还会持续更新更高并发、结构化输出等进阶玩法。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从词嵌入到RNN（其一）

AtomGit开源社区

AI Agent Harness Engineering 私有化部署：难点、成本与最佳实践

本文将带你深入探讨AI Agent Harness Engineering私有化部署的全过程。我们将从什么是AI Agent Harness Engineering开始，逐步深入到私有化部署的技术难点、成本分析，最后分享业界的最佳实践。AI Agent Harness Engineering的核心概念和架构私有化部署的必要性和适用场景技术栈选择和环境准备部署过程中的关键难点和解决方案成本构成分析和

AtomGit开源社区

ragflow v0.25.4 版本更新：RESTful API 数据源连接器、Agent 标签管理、Widget 持久化、GPT-5.4 模型支持全面升级

本次更新中，Widget 自定义和持久化也是一个非常值得关注的改进点。Widget 往往是界面中承担展示、操作或信息汇总功能的组件。能够自定义 Widget，说明用户可以根据自己的使用习惯或业务需求，对界面组件进行更灵活的配置。这会让界面更贴近实际使用，而不是只停留在固定布局和固定展示方式上。这一项已经在前面详细说明，本次更新明确包含了这项能力，说明它是本版的重要改进之一。代码地址：github.