4卡RTX 5060Ti服务器 llama.cpp 测试

永远的菜鸟

1143人浏览 · 2026-04-03 22:02:48

永远的菜鸟 · 2026-04-03 22:02:48 发布

（2026 年 04 月 03 日）

4卡RTX 5060Ti服务器 llama.cpp 完整部署与性能测试报告

测试时间：2026年04月03日

系统环境：Ubuntu 22.04 LTS

内核版本：6.8.0-106-generic

GPU配置：4 × NVIDIA GeForce RTX 5060Ti（16GB GDDR6）

驱动版本：550.127.11

CUDA版本：12.4

推理框架：llama.cpp（b8589-08f21453a）

测试模型：Qwen3-32B-Q4_K_M.gguf（4bit量化）

宝藏：4张七彩虹5060Ti 16G（风扇卡）一样顺畅跑模型

一、硬件与系统准备

1.1 硬件检测

Bash
lspci | grep -i nvidia

正常输出：4条 NVIDIA Corporation Device 2704（RTX 5060Ti 专属设备ID）

1.2 系统基础优化

Bash
# 禁用开源驱动 Nouveau
sudo bash -c 'echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/blacklist-nouveau.conf'
sudo update-initramfs -u
sudo reboot

# 安装推荐HWE内核
sudo apt update
sudo apt install linux-generic-hwe-22.04 -y
sudo reboo

# 验证HWE内核

uname -r

显示：6.8.0-107-generic

二、NVIDIA 驱动 + CUDA 安装

2.1 下载安装官方稳定驱动（595 适配 5060Ti）

Bash
chmod +x NVIDIA-Linux-x86_64-595.90.run sudo ./NVIDIA-Linux-x86_64-595.90.run --no-cc-version-check --dkms

2.2 安装 CUDA 13.2（与 595 驱动匹配）

Bash
sudo chmod +x cuda_13.2.0_595.45.04_linux.run sudo ./cuda_13.2.0_595.45.04_linux.run

# 配置环境变量
echo 'export PATH=/usr/local/cuda-13.2/bin:$PATH' >> ~/.bashrc

echo 'export LD_LIBRARY_PATH=/usr/local/cuda-13.2/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

source ~/.bashrc

# 验证

nvidia-smi
nvcc -V

输出：CUDA 13.2 正常。

三、llama.cpp 编译（4卡5060Ti专用）

3.1 安装编译依赖

Bash
sudo apt update && sudo apt install git build-essential cmake pkg-config libopenblas-dev -y

3.2准备GGUF模型（测试用）

下载测试模型（以Qwen3 32B Q4_K_M为例）

Bash
# 进入模型目录
mkdir -p models && cd models

# 下载Qwen3 32B Q4_K_M量化模型（4-bit，显存友好）
wget -c https://hf-mirror.com/bartowski/Qwen_Qwen3-32B-GGUF/resolve/main/Qwen_Qwen3-32B-Q4_K_M.gguf

cd ..

3.3 编译（开启CUDA、算力sm_120）

Bash
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
rm -rf build && mkdir build

cmake -B build \
-DGGML_CUDA=ON \
-DGGML_CUDA_ARCHS=120 \
-DCMAKE_BUILD_TYPE=Release

cmake --build build -j$(nproc)

四、4卡GPU状态验证

4.1 显卡基础检查

Bash
nvidia-smi

显示：4张 RTX 5060Ti，每张16GB显存，驱动590、CUDA 13.2 正常识别。

4.2 llama.cpp 多卡识别

Bash

cd llama.cpp
./build/bin/llama-cli --help | grep -E "cuda|gpu"

输出：

五、单卡推理测试

5.1 测试命令

Bash
./build/bin/llama-cli \

-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \

--gpu-layers 40 \

--main-gpu 0 \

-t 16 \

-c 4096 \

-p "Hello"

[ Prompt: 22.3 t/s | Generation: 7.3 t/s ]

5.2 单卡性能

Prompt 速度：22.3 token/s

Generation 速度：7.3 token/s

显存占用：12–14GB / 16GB

六、4卡并行推理测试

6.1 测试命令

Bash
./build/bin/llama-cli \
-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \
-n 1024 \
--gpu-layers 80 \
-t 32 \
-c 16384 \
-p "请写一篇4卡RTX 5060Ti运行大模型的技术概述" \
--batch-size 1024 \
--mlock \
--flash-attn on

[ Prompt: 253.0 t/s | Generation: 20.3 t/s ]

6.2 4卡性能结果

Prompt 速度：253 token/s

Generation 速度：30 token/s

七、基准性能测试（llama-bench）

Bash
./build/bin/llama-bench \
./build/bin/llama-bench \
-m models/Qwen_Qwen3-32B-Q4_K_M.gguf \
-t 64 \
-p 512,2048,8192 \
-n 128,512,2048 \
-ngl 99 \
-b 2048 \
-ub 512 \
-fa 1 \
-r 3 \
2>&1 | tee benchmark_results.txt

八、结论与最佳实践

8.1 核心结论

4卡RTX 5060Ti 可稳定跑 32B级4bit模型，多卡分摊显存无压力。
风扇卡购买无压力，单卡4000元，4张卡能满足龙虾需求

适合：中小企业私有化部署、本地大模型推理、低延迟API服务。

8.2 推荐配置

量化等级：Q4_K_M（平衡速度与显存）

--gpu-layers：70–90

必开参数：--flash-attn on --mlock

上下文窗口：16384 最稳

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 32 | 1024 | 1 | pp512 | 888.74 ± 3.40 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | pp2048 | 1033.72 ± 0.32 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | pp8192 | 987.42 ± 0.24 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg128 | 20.57 ± 0.00 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg512 | 20.49 ± 0.01 |

| qwen332BQ4_K-Medium|18.40 GiB|32.76 B |CUDA |80| 2 | 1024 | 1 | tg2048 | 20.18 ± 0.00 |

小企业，可以搞一台，4张风扇卡，能支持小企业龙虾

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【电能质量扰动进行综合建模和仿真】三相非线性负载模型用于模拟由6脉冲三相整流器引起的电压陷波和谐波研究（Simulink仿真实现）

本文档旨在探讨三相非线性负载模型，特别是针对由6脉冲三相整流器引起的电压陷波和谐波现象进行深入研究。通过构建精确的三相非线性负载模型，并利用MATLAB/Simulink等仿真工具进行模拟分析，以揭示整流器工作过程中产生的电压波形畸变和谐波成分，为谐波抑制和电能质量提升提供理论依据。随着电力电子技术的快速发展，6脉冲三相整流器因其结构简单、控制方便等优点在工业生产中得到了广泛应用。然而，这类整流器

AtomGit开源社区

基于SpringBoot+Vue的spring boot校园商铺管理系统管理系统设计与实现【Java+MySQL+MyBatis完整源码】

AtomGit开源社区

企业级AI Agent成本模型：从开发投入到运维开销中心的转变

随着企业级AI Agent在各行业的广泛应用，组织面临着如何有效管理和优化这些智能系统成本的挑战。本文深入探讨了企业级AI Agent的全生命周期成本模型，从初期的开发投入到持续的运维开销，系统分析了成本构成的各个环节。我们将通过生动的比喻和实用的案例，展示AI Agent如何从一次性投资项目转变为持续的运维开销中心，并提供具体的成本优化策略和最佳实践。文章包含了成本计算的数学模型、算法流程图以及