(2026 年 04 月 03 日)

4卡RTX 5060Ti服务器 llama.cpp 完整部署与性能测试报告

测试时间:2026年04月03日

系统环境:Ubuntu 22.04 LTS

内核版本:6.8.0-106-generic

GPU配置:4 × NVIDIA GeForce RTX 5060Ti(16GB GDDR6)

驱动版本:550.127.11

CUDA版本:12.4

推理框架:llama.cpp(b8589-08f21453a)

测试模型:Qwen3-32B-Q4_K_M.gguf(4bit量化)

 

       宝藏:4张七彩虹5060Ti 16G(风扇卡)一样顺畅跑模型

 

一、硬件与系统准备

1.1 硬件检测

Bash
lspci | grep -i nvidia

正常输出:4条 NVIDIA Corporation Device 2704(RTX 5060Ti 专属设备ID)

1.2 系统基础优化

Bash
# 禁用开源驱动 Nouveau
sudo bash -c 'echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/blacklist-nouveau.conf'
sudo update-initramfs -u
sudo reboot

# 安装推荐HWE内核
sudo apt update
sudo apt install linux-generic-hwe-22.04 -y
sudo reboo

# 验证HWE内核

uname -r

显示:6.8.0-107-generic

二、NVIDIA 驱动 + CUDA 安装

2.1 下载安装官方稳定驱动(595 适配 5060Ti)

Bash
chmod +x NVIDIA-Linux-x86_64-595.90.run sudo ./NVIDIA-Linux-x86_64-595.90.run --no-cc-version-check --dkms

 

2.2 安装 CUDA 13.2(与 595 驱动匹配)

Bash
sudo chmod +x cuda_13.2.0_595.45.04_linux.run sudo ./cuda_13.2.0_595.45.04_linux.run


# 配置环境变量
echo 'export PATH=/usr/local/cuda-13.2/bin:$PATH' >> ~/.bashrc 

echo 'export LD_LIBRARY_PATH=/usr/local/cuda-13.2/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc 

source ~/.bashrc



# 验证

nvidia-smi
nvcc -V

输出:CUDA 13.2 正常。

三、llama.cpp 编译(4卡5060Ti专用)

3.1 安装编译依赖

Bash
sudo apt update && sudo apt install git build-essential cmake pkg-config libopenblas-dev -y

3.2准备GGUF模型(测试用)

下载测试模型(以Qwen3 32B Q4_K_M为例)

Bash
# 进入模型目录
mkdir -p models && cd models

# 下载Qwen3 32B Q4_K_M量化模型(4-bit,显存友好)
wget -c https://hf-mirror.com/bartowski/Qwen_Qwen3-32B-GGUF/resolve/main/Qwen_Qwen3-32B-Q4_K_M.gguf



cd ..

 

3.3 编译(开启CUDA、算力sm_120

Bash
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
rm -rf build && mkdir build

cmake -B build \
-DGGML_CUDA=ON \
-DGGML_CUDA_ARCHS=120 \
-DCMAKE_BUILD_TYPE=Release

cmake --build build -j$(nproc)

 

四、4卡GPU状态验证

4.1 显卡基础检查

Bash
nvidia-smi

显示:4张 RTX 5060Ti,每张16GB显存,驱动590、CUDA 13.2 正常识别。

4.2 llama.cpp 多卡识别

Bash

cd llama.cpp
./build/bin/llama-cli --help | grep -E "cuda|gpu"

输出:

 

五、单卡推理测试

5.1 测试命令

Bash
 ./build/bin/llama-cli \

-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \

--gpu-layers 40 \

--main-gpu 0 \

-t 16 \

-c 4096 \

-p "Hello"

[ Prompt: 22.3 t/s | Generation: 7.3 t/s ]

 

5.2 单卡性能

  • Prompt 速度:22.3 token/s
  • Generation 速度:7.3 token/s
  • 显存占用:12–14GB / 16GB

 

六、4卡并行推理测试

6.1 测试命令

Bash
./build/bin/llama-cli \
-m models/Qwen_Qwen3-32B-Q4_K_M.gguf  \
-n 1024 \
--gpu-layers 80 \
-t 32 \
-c 16384 \
-p "请写一篇4卡RTX 5060Ti运行大模型的技术概述" \
--batch-size 1024 \
--mlock \
--flash-attn on

[ Prompt: 253.0 t/s | Generation: 20.3 t/s ]

6.2 4卡性能结果

  • Prompt 速度:253 token/s
  • Generation 速度:30 token/s

 

七、基准性能测试(llama-bench)

Bash
./build/bin/llama-bench \
./build/bin/llama-bench \
-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \
-t 64 \
 -p 512,2048,8192 \
-n 128,512,2048 \
-ngl 99 \
-b 2048 \
-ub 512 \
-fa 1 \
-r 3 \
2>&1 | tee benchmark_results.txt

八、结论与最佳实践

8.1 核心结论

  1. 4卡RTX 5060Ti 可稳定跑 32B级4bit模型,多卡分摊显存无压力。
  2. 风扇卡购买 无压力,单卡4000元,4张卡能满足龙虾需求
  1. 适合:中小企业私有化部署、本地大模型推理、低延迟API服务

8.2 推荐配置

  • 量化等级:Q4_K_M(平衡速度与显存)
  • --gpu-layers:70–90
  • 必开参数:--flash-attn on --mlock
  • 上下文窗口:16384 最稳

 

 

 

| model                                |  size |params| backend  | ngl | threads | n_batch | fa |  test |        t/s |  

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 32 | 1024 | 1 | pp512 | 888.74 ± 3.40 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | pp2048 | 1033.72 ± 0.32 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | pp8192 | 987.42 ± 0.24 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg128    | 20.57 ± 0.00 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg512    | 20.49 ± 0.01 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg2048  | 20.18 ± 0.00 |

 

小企业,可以搞一台,4张风扇卡,能支持小企业龙虾

 

 

 

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐