谷歌开源 Gemma 4，31B 太强了，本地就能跑多模态，部署全攻略来了

2401_88055648

3620人浏览 · 2026-04-09 13:02:23

2401_88055648 · 2026-04-09 13:02:23 发布

4月初，谷歌 DeepMind 悄悄把 Gemma 4 系列模型挂上了 HuggingFace，没有大张旗鼓，但社区反应很快——有人拉了一晚上的权重，有人直接开测，有人说这是今年到目前开源模型里最值得跑一遍的东西。这篇文章把这几天能找到的测试数据和部署方法整理了一下，给有兴趣自己跑跑看的朋友参考。

满血版完整部署下载：

https://pan.quark.cn/s/e0c65aed4367

Gemma-4-31B 是什么

Gemma 是谷歌的开源模型系列，和他们的闭源旗舰 Gemini 共享底层技术，权重完全公开，任何人可以下载、修改、部署。这次 Gemma 4 一共发布了四个版本：E2B、E4B、26B 和 31B，覆盖了手机到工作站全场景。

其中 Gemma-4-31B-it 是这次的旗舰版本，it 的意思是 instruction-tuned（指令微调版），也就是可以直接对话使用的版本，不是需要额外训练才能用的 base 模型。

这次有一个变化很多人注意到了：许可证从之前谷歌私有协议换成了 Apache 2.0。这个改动的实际意义是，你现在可以拿这个模型做商业产品、做二次分发，基本没有什么限制。之前 Gemma 3 的协议让不少开发者搁置了相关项目，现在这个问题解决了。

在这里插入图片描述

31B 版本有什么特点

数学推理和代码能力的变化

在 AIME 2026（美国数学邀请赛题目）上，31B 拿到了 89.2%，而上一代 Gemma 3 27B 是 20.8%。代码方面，LiveCodeBench v6 从 29.1% 涨到了 80.0%，Codeforces ELO 从 110 拉到 2150。

有 B 站 UP 主测了一整天，他的评价是：“这不是版本更新，是换了个物种。”

上下文窗口

31B 支持 256K token 的上下文，上一代 Gemma 3 虽然也号称 128K，但实测在长文档检索上表现一般。这次 31B 在多段文字检索测试（multi-needle retrieval）上从 13.5% 涨到了 66.4%，说明长上下文真的能用了，不只是标注在规格里的数字。

多模态

31B 支持图像和视频输入（最长 60 秒，1fps 采样），视觉理解在 MMMU Pro 上达到 76.9%。有人拿了一张网页截图让模型找按钮位置，返回的是 JSON 格式的边界框坐标，31B 定位最准。

思考模式

四款模型都有内置的可开关思考模式，开启后模型先输出内部推理再给答案。数学、逻辑、多步骤规划类任务效果提升明显，这个能力和 Gemini 的 thinking 功能同源。

Agent 工具调用

原生支持函数调用和结构化 JSON 输出，可以让模型调用外部工具和 API。有人测了多模态函数调用：给一张曼谷寺庙的照片，问"这是哪个城市？帮我查一下当地天气"，模型正确识别出曼谷并自动调用 get_weather 工具。这个能力是训练阶段内置的，不是靠提示词的。

语言支持

原生训练支持 140 多种语言，中文日常使用没有问题。

需要什么硬件才能跑

这是很多人最关心的问题。官方文档和 Unsloth 的部署说明里都有硬件需求表。下面是 4-bit 量化后的参考：

版本	4-bit 量化显存需求	适合设备
E2B	约 5GB	手机、树莓派
E4B	约 6GB	笔记本独显、Jetson
26B MoE	约 18GB	24G 显卡工作站、Mac
31B Dense	约 20GB	RTX 4090、H100、M 系列 Mac

31B 满血 bfloat16 权重大概 60G，全精度跑需要 90G 显存，适合多卡服务器。消费级显卡上要跑量化版本。

有人在 Linux.do 论坛发帖说，用 vLLM 部署全精度 google/gemma-4-31B-it，大约要下载 60G 文件，加载模型参数大约需要 58G 显存，90G 显存勉强够 20 万上下文。

量化后性能损失方面，CSDN 上有人测了，31B 用 GGUF Q4_K_M 量化后，MMLU 下降约 1.5-2 个百分点，日常问答感知不明显。

Mac 用户：Ollama 大版本更新后在 Apple Silicon 上使用苹果自家的 MLX 框架推理，速度有明显提升。24GB 统一内存的 M 系列 Mac 可以跑 26B MoE 版本，更大内存配置可以跑 31B。

和同类模型对比

目前在这个参数级别，主要竞争对手是 Qwen3.5 27B 和 Llama 4 Scout。

Arena AI 开源排行榜

Gemma 4 31B 目前排第三，26B MoE 排第六。Qwen3.5 27B 和 Gemma 4 31B 基本持平，人类偏好评分上两者体验接近。

跑分对比（主要 benchmark）

指标	Gemma 4 31B	Qwen3.5 27B	Llama 4 Scout
MMLU Pro	85.2%	86.1%	偏低
AIME 2026 数学	89.2%	—	—
GPQA Diamond	84.3%	85.5%	—
MMMU Pro 视觉	76.9%	—	—
LiveCodeBench	80.0%	—	—

Qwen3.5 27B 在 MMLU Pro 和 GPQA Diamond 上略高，Gemma 4 31B 在数学和视觉上领先，整体相差不大。

推理速度

根据社区测试，RTX 4090 上 Q4 量化：

Qwen3.5 27B：约 35 tok/s（速度最快）
Gemma 4 31B Dense：约 25 tok/s
Gemma 4 26B MoE：约 11 tok/s（MoE 路由开销导致比预期慢）

上下文实际可用长度

理论上 Gemma 4 31B 有 256K，但社区反馈，单张 RTX 5090 上实际只能放约 20K context token，剩余显存被模型权重占满了。Qwen3.5 27B 在同样硬件上可以跑到 190K。如果工作流程需要长上下文，这个差距要考虑进去。

许可证

Gemma 4 和 Qwen3.5 都是 Apache 2.0，商用没有限制。Llama 4 月活用户超过 7 亿后有限制，还要求标注"Built with Llama"。对要做商业产品的人来说，前两个更合适。

Llama 4 Scout 总参数 109B，最低也要 70GB 显存，个人用户基本跑不起来，不在同一个使用场景里。

Ollama 本地部署教程（推荐新手）

Ollama 是运行本地模型最简单的工具，模型下载、推理引擎、API 服务一个 App 搞定。

第一步：安装 Ollama

打开 https://ollama.com/download，下载对应系统的安装包。Windows、Mac、Linux 都有。

安装完成后，在终端输入检查是否正常：

ollama --version

注意：使用 Gemma 4 需要 Ollama 0.20.0 或以上版本，老版本不支持，记得先更新。

第二步：拉取模型

根据自己的显存选择版本，在终端运行：

# 手机 / 低配笔记本（约 5GB）
ollama pull gemma4:e2b

# 笔记本独显，推荐（约 9.6GB）
ollama pull gemma4:e4b

# 24G 显卡或 Mac，性价比版本（约 18GB）
ollama pull gemma4:26b

# RTX 4090 / M 系列 Mac，满血版（约 20GB）
ollama pull gemma4:31b

下载速度取决于网络，31B 大约 20GB，国内网络可能需要挂代理或使用镜像。

备用下载地址

第三步：运行模型

ollama run gemma4:31b

运行后直接在终端对话，或者 Ollama 会在本地开一个 API 服务（默认 http://localhost:11434），可以接入其他工具使用。

第四步：接入可视化界面（可选）

Ollama 本身是命令行工具，如果想要网页界面，可以安装 Open WebUI：

docker run -d -p 3000:80 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui ghcr.io/open-webui/open-webui:main

安装好后访问 http://localhost:3000，在设置里把模型后端指向 Ollama（http://localhost:11434），就可以在网页上选 Gemma 4 使用了。

llama.cpp 部署教程（进阶，适合 CPU 推理或定制需求）

Unsloth 提供了优化过的 GGUF 量化版本，llama.cpp 支持 CPU 推理，显卡不够强的机器也能跑，只是速度慢一些。

第一步：编译 llama.cpp

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON   # 有 NVIDIA 显卡开这个
# 如果没有显卡或用 Mac，改为 -DGGML_CUDA=OFF
cmake --build build --config Release -j$(nproc)

第二步：下载模型

用 huggingface-cli 下载 Unsloth 的 GGUF 量化版本：

pip install huggingface_hub --break-system-packages
huggingface-cli download unsloth/gemma-4-31B-it-GGUF \
  --local-dir ./gemma4-31b \
  --include "*UD-Q4_K_XL*"

Q4_K_XL 是推荐的量化级别，精度和文件大小平衡较好。对精度要求高的场景可以选 Q6 或 Q8。

第三步：运行

export LLAMA_CACHE="unsloth/gemma-4-31B-it-GGUF"
./build/bin/llama-cli \
  -hf unsloth/gemma-4-31B-it-GGUF:UD-Q4_K_XL \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 64

注意不要开 repetition penalty（重复惩罚），保持默认 1.0，谷歌官方推荐这个配置，否则可能影响输出质量。

vLLM 部署教程（全精度 / 服务器场景）

适合有高显存显卡或多卡服务器，想跑全精度版本或作为 API 服务的场景。

安装（需要从 GitHub 源码构建，目前 pypi 版本还没更新）：

git clone https://github.com/vllm-project/vllm
cd vllm
pip install -e . --break-system-packages

运行服务：

CUDA_VISIBLE_DEVICES=0 vllm serve "google/gemma-4-31B-it" \
  --host 127.0.0.1 \
  --port 8000 \
  --max-model-len 200000 \
  --gpu-memory-utilization 0.95 \
  --reasoning-parser gemma4 \
  --enable-auto-tool-choice \
  --tool-call-parser gemma4 \
  --default-chat-template-kwargs '{"enable_thinking": true}'

启动后可以用标准 OpenAI 格式的 API 接入，端点是 http://127.0.0.1:8000/v1。

实际用来做什么

根据这几天社区的讨论，比较实际的用法：

本地代码助手：接入 VS Code 的 Continue 插件或 Cursor，代码补全和解释都可以走本地，不用担心代码泄露给云端。Codeforces ELO 2150 的编程能力，处理日常业务代码够用。

文档分析：256K 上下文（量化版实际可用 20K+ 取决于显存），放进去一份合同或报告让模型提取关键信息，不需要联网。

内容创作辅助：多语言支持加上长上下文，可以做翻译、改写、总结这类工作，跑在本地没有 API 费用。

Agent 自动化：原生函数调用支持，可以搭配工具链做一些自动化流程，比如读文件、调接口、整理结果。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

大模型推理成本砍 90%！2026 年最实用的 7 个优化技巧

2026年大模型推理成本优化7大技巧随着大模型规模化应用，推理成本成为企业核心痛点。本文提出7个实用优化方案：提示词瘦身：结构化输入减少30%无效Token 动态批处理：vLLM连续批处理使GPU利用率提升至75%+ 语义缓存：向量检索拦截40%-60%重复请求 4-bit量化：显存占用降60%而精度损失<0.5% 投机采样：小模型预生成使大模型推理提速2-3倍置信度早停：实时监控输出可缩短

AtomGit开源社区

Gauge Phase Divergence: A Training-Free Geometric Fingerprint for Real-Time Contradiction Detection

Retrieval-augmented generation (RAG) systems fail to detect causal contradictions on edge devices: vector similarity ignores polarity, while NLI methods are too computationally heavy. We present Gauge

AtomGit开源社区

登录鉴权-ai

登录:客户端 → 网关(白名单放行) → Auth-Service→ 校验密码 → 查角色 → 签发AccessToken+RefreshToken → Redis存RefreshToken← 返回双Token访问业务:客户端(带AccessToken) → 网关→ 清洗伪造Header→ 本地验签(双密钥fallback)→ 查jti黑名单(200ms超时,异常降级)→ 查用户级失效时间戳→ 写