4月初,谷歌 DeepMind 悄悄把 Gemma 4 系列模型挂上了 HuggingFace,没有大张旗鼓,但社区反应很快——有人拉了一晚上的权重,有人直接开测,有人说这是今年到目前开源模型里最值得跑一遍的东西。这篇文章把这几天能找到的测试数据和部署方法整理了一下,给有兴趣自己跑跑看的朋友参考。


满血版完整部署下载:

https://pan.quark.cn/s/e0c65aed4367

Gemma-4-31B 是什么

Gemma 是谷歌的开源模型系列,和他们的闭源旗舰 Gemini 共享底层技术,权重完全公开,任何人可以下载、修改、部署。这次 Gemma 4 一共发布了四个版本:E2B、E4B、26B 和 31B,覆盖了手机到工作站全场景。

其中 Gemma-4-31B-it 是这次的旗舰版本,it 的意思是 instruction-tuned(指令微调版),也就是可以直接对话使用的版本,不是需要额外训练才能用的 base 模型。

这次有一个变化很多人注意到了:许可证从之前谷歌私有协议换成了 Apache 2.0。这个改动的实际意义是,你现在可以拿这个模型做商业产品、做二次分发,基本没有什么限制。之前 Gemma 3 的协议让不少开发者搁置了相关项目,现在这个问题解决了。


在这里插入图片描述

31B 版本有什么特点

数学推理和代码能力的变化

在 AIME 2026(美国数学邀请赛题目)上,31B 拿到了 89.2%,而上一代 Gemma 3 27B 是 20.8%。代码方面,LiveCodeBench v6 从 29.1% 涨到了 80.0%,Codeforces ELO 从 110 拉到 2150。

有 B 站 UP 主测了一整天,他的评价是:“这不是版本更新,是换了个物种。”

上下文窗口

31B 支持 256K token 的上下文,上一代 Gemma 3 虽然也号称 128K,但实测在长文档检索上表现一般。这次 31B 在多段文字检索测试(multi-needle retrieval)上从 13.5% 涨到了 66.4%,说明长上下文真的能用了,不只是标注在规格里的数字。

多模态

31B 支持图像和视频输入(最长 60 秒,1fps 采样),视觉理解在 MMMU Pro 上达到 76.9%。有人拿了一张网页截图让模型找按钮位置,返回的是 JSON 格式的边界框坐标,31B 定位最准。

思考模式

四款模型都有内置的可开关思考模式,开启后模型先输出内部推理再给答案。数学、逻辑、多步骤规划类任务效果提升明显,这个能力和 Gemini 的 thinking 功能同源。

Agent 工具调用

原生支持函数调用和结构化 JSON 输出,可以让模型调用外部工具和 API。有人测了多模态函数调用:给一张曼谷寺庙的照片,问"这是哪个城市?帮我查一下当地天气",模型正确识别出曼谷并自动调用 get_weather 工具。这个能力是训练阶段内置的,不是靠提示词的。

语言支持

原生训练支持 140 多种语言,中文日常使用没有问题。


需要什么硬件才能跑

这是很多人最关心的问题。官方文档和 Unsloth 的部署说明里都有硬件需求表。下面是 4-bit 量化后的参考:

版本 4-bit 量化显存需求 适合设备
E2B 约 5GB 手机、树莓派
E4B 约 6GB 笔记本独显、Jetson
26B MoE 约 18GB 24G 显卡工作站、Mac
31B Dense 约 20GB RTX 4090、H100、M 系列 Mac

31B 满血 bfloat16 权重大概 60G,全精度跑需要 90G 显存,适合多卡服务器。消费级显卡上要跑量化版本。

有人在 Linux.do 论坛发帖说,用 vLLM 部署全精度 google/gemma-4-31B-it,大约要下载 60G 文件,加载模型参数大约需要 58G 显存,90G 显存勉强够 20 万上下文。

量化后性能损失方面,CSDN 上有人测了,31B 用 GGUF Q4_K_M 量化后,MMLU 下降约 1.5-2 个百分点,日常问答感知不明显。

Mac 用户:Ollama 大版本更新后在 Apple Silicon 上使用苹果自家的 MLX 框架推理,速度有明显提升。24GB 统一内存的 M 系列 Mac 可以跑 26B MoE 版本,更大内存配置可以跑 31B。


和同类模型对比

目前在这个参数级别,主要竞争对手是 Qwen3.5 27B 和 Llama 4 Scout。

Arena AI 开源排行榜

Gemma 4 31B 目前排第三,26B MoE 排第六。Qwen3.5 27B 和 Gemma 4 31B 基本持平,人类偏好评分上两者体验接近。

跑分对比(主要 benchmark)

指标 Gemma 4 31B Qwen3.5 27B Llama 4 Scout
MMLU Pro 85.2% 86.1% 偏低
AIME 2026 数学 89.2%
GPQA Diamond 84.3% 85.5%
MMMU Pro 视觉 76.9%
LiveCodeBench 80.0%

Qwen3.5 27B 在 MMLU Pro 和 GPQA Diamond 上略高,Gemma 4 31B 在数学和视觉上领先,整体相差不大。

推理速度

根据社区测试,RTX 4090 上 Q4 量化:

  • Qwen3.5 27B:约 35 tok/s(速度最快)
  • Gemma 4 31B Dense:约 25 tok/s
  • Gemma 4 26B MoE:约 11 tok/s(MoE 路由开销导致比预期慢)

上下文实际可用长度

理论上 Gemma 4 31B 有 256K,但社区反馈,单张 RTX 5090 上实际只能放约 20K context token,剩余显存被模型权重占满了。Qwen3.5 27B 在同样硬件上可以跑到 190K。如果工作流程需要长上下文,这个差距要考虑进去。

许可证

Gemma 4 和 Qwen3.5 都是 Apache 2.0,商用没有限制。Llama 4 月活用户超过 7 亿后有限制,还要求标注"Built with Llama"。对要做商业产品的人来说,前两个更合适。

Llama 4 Scout 总参数 109B,最低也要 70GB 显存,个人用户基本跑不起来,不在同一个使用场景里。


Ollama 本地部署教程(推荐新手)

Ollama 是运行本地模型最简单的工具,模型下载、推理引擎、API 服务一个 App 搞定。

第一步:安装 Ollama

打开 https://ollama.com/download,下载对应系统的安装包。Windows、Mac、Linux 都有。

安装完成后,在终端输入检查是否正常:

ollama --version

注意:使用 Gemma 4 需要 Ollama 0.20.0 或以上版本,老版本不支持,记得先更新。

第二步:拉取模型

根据自己的显存选择版本,在终端运行:

# 手机 / 低配笔记本(约 5GB)
ollama pull gemma4:e2b

# 笔记本独显,推荐(约 9.6GB)
ollama pull gemma4:e4b

# 24G 显卡或 Mac,性价比版本(约 18GB)
ollama pull gemma4:26b

# RTX 4090 / M 系列 Mac,满血版(约 20GB)
ollama pull gemma4:31b

下载速度取决于网络,31B 大约 20GB,国内网络可能需要挂代理或使用镜像。

备用下载地址

第三步:运行模型

ollama run gemma4:31b

运行后直接在终端对话,或者 Ollama 会在本地开一个 API 服务(默认 http://localhost:11434),可以接入其他工具使用。

第四步:接入可视化界面(可选)

Ollama 本身是命令行工具,如果想要网页界面,可以安装 Open WebUI:

docker run -d -p 3000:80 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui ghcr.io/open-webui/open-webui:main

安装好后访问 http://localhost:3000,在设置里把模型后端指向 Ollama(http://localhost:11434),就可以在网页上选 Gemma 4 使用了。


llama.cpp 部署教程(进阶,适合 CPU 推理或定制需求)

Unsloth 提供了优化过的 GGUF 量化版本,llama.cpp 支持 CPU 推理,显卡不够强的机器也能跑,只是速度慢一些。

第一步:编译 llama.cpp

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON   # 有 NVIDIA 显卡开这个
# 如果没有显卡或用 Mac,改为 -DGGML_CUDA=OFF
cmake --build build --config Release -j$(nproc)

第二步:下载模型

用 huggingface-cli 下载 Unsloth 的 GGUF 量化版本:

pip install huggingface_hub --break-system-packages
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
  --local-dir ./gemma4-31b \
  --include "*UD-Q4_K_XL*"

Q4_K_XL 是推荐的量化级别,精度和文件大小平衡较好。对精度要求高的场景可以选 Q6 或 Q8。

第三步:运行

export LLAMA_CACHE="unsloth/gemma-4-31B-it-GGUF"
./build/bin/llama-cli \
  -hf unsloth/gemma-4-31B-it-GGUF:UD-Q4_K_XL \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 64

注意不要开 repetition penalty(重复惩罚),保持默认 1.0,谷歌官方推荐这个配置,否则可能影响输出质量。


vLLM 部署教程(全精度 / 服务器场景)

适合有高显存显卡或多卡服务器,想跑全精度版本或作为 API 服务的场景。

安装(需要从 GitHub 源码构建,目前 pypi 版本还没更新):

git clone https://github.com/vllm-project/vllm
cd vllm
pip install -e . --break-system-packages

运行服务:

CUDA_VISIBLE_DEVICES=0 vllm serve "google/gemma-4-31B-it" \
  --host 127.0.0.1 \
  --port 8000 \
  --max-model-len 200000 \
  --gpu-memory-utilization 0.95 \
  --reasoning-parser gemma4 \
  --enable-auto-tool-choice \
  --tool-call-parser gemma4 \
  --default-chat-template-kwargs '{"enable_thinking": true}'

启动后可以用标准 OpenAI 格式的 API 接入,端点是 http://127.0.0.1:8000/v1。


实际用来做什么

根据这几天社区的讨论,比较实际的用法:

本地代码助手:接入 VS Code 的 Continue 插件或 Cursor,代码补全和解释都可以走本地,不用担心代码泄露给云端。Codeforces ELO 2150 的编程能力,处理日常业务代码够用。

文档分析:256K 上下文(量化版实际可用 20K+ 取决于显存),放进去一份合同或报告让模型提取关键信息,不需要联网。

内容创作辅助:多语言支持加上长上下文,可以做翻译、改写、总结这类工作,跑在本地没有 API 费用。

Agent 自动化:原生函数调用支持,可以搭配工具链做一些自动化流程,比如读文件、调接口、整理结果。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐