以下是 Gemma-4-31B-IT 在 DGX Spark 上的性能测试结果,数据来自 2026 年 4 月 2 日(模型发布当天)NVIDIA 开发者论坛发布的初步基准测试。


🖥️ 测试硬件环境

规格 数值
架构 Grace Blackwell Superchip(GB10)
统一内存 122 GB LPDDR5X
内存带宽 ~273 GB/s
平台 Ubuntu 24.04, aarch64
CUDA 13.0(驱动 580.142)

部署使用官方 Docker 镜像 vllm/vllm-openai:gemma4-cu130,上下文窗口配置为 256K tokens(262144),KV cache 类型为 fp8。


📊 测试模型对比

模型 量化方式 磁盘大小
gemma-4-31B-it bf16 ~62 GB
gemma-4-31B-it-AWQ-8bit int8 ~33 GB
gemma-4-31B-it-AWQ-4bit int4 ~20 GB
gemma-4-26B-A4B-it(MoE) bf16 ~49 GB

⚡ Prompt 处理吞吐量(t/s,越高越好)

模型 pp128 pp512 pp2048
31B bf16 244 ± 46 757 ± 67 1066 ± 48
31B AWQ int8 267 ± 26 399 ± 33 430 ± 0
31B AWQ int4 545 ± 104 778 ± 39 810 ± 2
26B-A4B MoE 429 ± 165 1299 ± 441 3105 ± 372

🔤 Token 生成(解码)吞吐量(t/s,越高越好)

模型 tg128 峰值
31B bf16 3.7 ± 0.1 4.0
31B AWQ int8 6.5 ± 0.1 7.0
31B AWQ int4 10.6 ± 0.0 11.0
26B-A4B MoE 23.7 ± 0.0 24.0

⏱️ 首次响应时间(ms,越低越好)

模型 TTFR pp128 TTFR pp512 TTFR pp2048
31B bf16 547 ± 91 686 ± 64 1929 ± 89
31B AWQ int8 490 ± 51 1297 ± 108 4761 ± 2
31B AWQ int4 247 ± 46 664 ± 33 2533 ± 8
26B-A4B MoE 371 ± 176 464 ± 197 672 ± 82

本地实测:

部署参数:4并发,70%显存占用

参数 含义
--model /home/admin/models/modelscope/gemma-4-31B-it 模型路径,指定 Gemma 4 31B 指令微调版的位置
--served-model-name gemma-4-31b 对外暴露的模型名称,API 调用时使用的标识名
--enable-auto-tool-choice 启用自动工具选择,让模型自动决定是否调用工具
--tool-call-parser pythonic 工具调用解析器格式,使用 Python 风格的工具调用格式
--reasoning-parser gemma4 推理解析器,专门用于解析 Gemma 4 模型的推理输出格式
--gpu-memory-utilization 0.70 GPU 内存使用率上限,限制使用 70% 的显存,预留空间给其他进程
--host 0.0.0.0 监听地址,绑定到所有网络接口,允许外部访问
--port 30000 服务端口,容器内部监听端口(与 Docker 映射的 30000 对应)
--kv-cache-dtype fp8 KV 缓存数据类型,使用 8 位浮点量化,减少显存占用
--load-format safetensors 模型加载格式,使用 SafeTensors 格式(更安全、加载更快)
--enable-prefix-caching 启用前缀缓存,对相同前缀的输入复用 KV 缓存,加速推理
--enable-chunked-prefill 启用分块预填充,将长输入分块处理,减少显存峰值占用
--max-model-len 262144 最大上下文长度,支持 262,144 tokens(约 20 万字)
--max-num-seqs 4 最大并发序列数,同时处理 4 个请求序列
--max-num-batched-tokens 8192 最大批处理 token 数,每个批次最多处理 8192 个 token

🧠 关键分析

31B是稠密模型

属性 E2B E4B 31B 稠密
总参数量 2.3B 有效参数(含嵌入层共 5.1B) 4.5B 有效参数(含嵌入层共 8B) 30.7B
层数 35 42 60
滑动窗口大小 512 个 token 512 个 token 1024 个 token
上下文长度 128K 个 token 128K 个 token 256K 个 token
词表大小 262K 262K 262K
支持的模态 文本、图像、音频 文本、图像、音频 文本、图像
视觉编码器参数量 ~1.5 亿 ~1.5 亿 ~5.5 亿
音频编码器参数量 ~3 亿 ~3 亿 不支持音频

解码受限于内存带宽: 在 DGX Spark 上,单用户 Token 生成受限于内存带宽。理论值与实测值对比如下:

  • 31B bf16:273 GB/s ÷ 62 GB ≈ 4.4 t/s,实测 3.7 t/s(效率 84%)
  • 31B int8:≈ 8.8 t/s,实测 6.5 t/s(效率 74%)
  • 31B int4:≈ 17.0 t/s,实测 10.6 t/s(效率 62%)
  • 26B-A4B MoE:≈ 34.0 t/s,实测 23.7 t/s(效率 70%)

MoE 的结构性优势: MoE 模型解码优势来自其架构特性:尽管 49 GB 的专家权重全部驻留在显存中,每个 Token 生成时只需读取 4B 激活参数,解码吞吐量比 dense bf16 基准高 6.4 倍,比 AWQ int4 高 2.2 倍。

31B AWQ int4 是 dense 模型的最佳选择: 对于需要完整 31B dense 模型质量的场景,AWQ int4 是最优选择:解码速度 10.6 t/s(约为 bf16 基准的 3 倍),短提示首次响应时间最低(247 ms),且仅占用 20 GB 磁盘,为 256K 上下文留出充裕的 KV 缓存空间。


📝 总结建议

对于交互式和 Agentic 工作负载,26B-A4B MoE 是 DGX Spark 上的明确赢家:最快解码速度(23.7 t/s)、长上下文下最佳 Prompt 处理速度(pp2048 达 3105 t/s)、首次响应时间也具有竞争力。LPDDR5X 统一内存架构在限制 dense 模型的同时,反而有利于 MoE 设计——每个 Token 只需流式读取 4B 激活参数。

⚠️ 注意:这是 2026 年 4 月 2 日模型发布当天的初步快照,随着 vLLM 内核成熟、量化方案优化和服务参数调整,数字会持续改善。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐