4 月 22 号 Google 把 Gemini 3.1 Pro 放出来的时候,我正好在给一个客户做多模态文档解析的 POC。老板催得紧,说"Google 新模型出了你赶紧测一下,看看能不能替掉现在的 Claude Opus 4.7 省点钱"。折腾了三天,把性能、价格、多模态能力都摸了一遍,写篇完整的记录。

Gemini 3.1 Pro 是 Google DeepMind 2026 年 4 月发布的最新旗舰多模态大模型,原生支持文本、图像、视频、音频四模态输入,上下文窗口达到 2M tokens,代码生成和长文档理解相比前代提升明显。

发布背景

Google 这次发 Gemini 3.1 Pro 明显是冲着 Claude Opus 4.7 和 GPT-5.5 来的。核心升级方向:

  • 上下文窗口从 1M 直接拉到 2M tokens,目前量产模型里最长
  • 多模态推理重新训练,视频理解准确率提升了约 18%(Google 官方 blog 数据)
  • 代码生成能力大幅增强,SWE-Bench Verified 得分从 3.0 Pro 的 48.2% 跳到 62.7%

看到 2M 上下文的时候我是有点激动的——之前用 Claude Opus 4.7 处理超长合同文档,200K 上下文经常不够用,得自己做分块。

核心参数对比表

参数 Gemini 3.1 Pro Gemini 3.0 Pro Claude Opus 4.7 GPT-5.5
上下文窗口 2,000,000 1,000,000 200,000 256,000
最大输出 65,536 tokens 32,768 tokens 32,768 tokens 32,768 tokens
多模态输入 文本/图/视频/音频 文本/图/视频/音频 文本/图 文本/图/音频
原生视频理解
Function Calling
JSON Mode
Grounding(搜索增强)
知识截止日期 2026-03 2025-08 2026-02 2026-01
发布日期 2026-04-22 2025-12 2026-03-18 2026-02-06

Benchmark 解析

测完数据我人傻了——Gemini 3.1 Pro 在部分基准上确实追上来了,但也不是全面碾压。

Benchmark Gemini 3.1 Pro Claude Opus 4.7 GPT-5.5 Gemini 3.1 Flash
MMLU-Pro 87.3% 88.1% 89.2% 79.6%
GPQA Diamond 72.8% 74.2% 73.5% 64.1%
HumanEval 93.4% 94.1% 95.2% 86.7%
SWE-Bench Verified 62.7% 67.3% 64.8% 41.2%
MATH-500 91.2% 89.7% 92.1% 83.4%
MathVista 74.6% 68.3% 71.2% 62.8%
Video-MME (长视频) 78.4% N/A N/A 69.2%
DocVQA 95.2% 93.8% 94.1% 89.3%

几个点:

MMLU 和 HumanEval 这种"卷了三年的基准",三家旗舰差距已经在 2 个百分点以内,区分度很低了。真正拉开差距的是 MathVista(多模态数学推理)和 Video-MME——这两个 Gemini 3.1 Pro 确实强,原生视频理解是独家能力。

SWE-Bench 上 Claude Opus 4.7 还是最强,67.3% vs 62.7%,写代码这块 Anthropic 的护城河还在。

定价分析与成本测算

这是大家最关心的部分。Google 这次定价策略挺有意思——比 Claude Opus 4.7 便宜不少,但比 Gemini 3.1 Flash 贵了将近 10 倍。

模型 输入价格 ($/1M tokens) 输出价格 ($/1M tokens) 缓存输入价格 128K 内/外
Gemini 3.1 Pro $2.50 $10.00 $0.625 128K 内同价
Gemini 3.1 Flash $0.10 $0.40 $0.025 128K 内同价
Claude Opus 4.7 $15.00 $75.00 $3.75 N/A
Claude Sonnet 4.6 $3.00 $15.00 $0.75 N/A
GPT-5.5 $5.00 $15.00 $1.25 N/A

换算成人民币,按 ¥7.25 汇率算几个真实业务场景的日均成本:

场景 日调用量 平均输入/输出 Gemini 3.1 Pro 日成本 Claude Opus 4.7 日成本 GPT-5.5 日成本
客服对话(短文本) 5000 次 800/400 tokens ¥24.5 ¥147 ¥54.4
文档解析(长文本) 200 次 50K/2K tokens ¥39.2 ¥235.5 ¥79.8
代码生成(中等) 1000 次 3K/1.5K tokens ¥27.2 ¥163.1 ¥47.2
视频理解(独家) 100 次 100K/1K tokens ¥25.4 N/A N/A

算下来 Gemini 3.1 Pro 的成本大概是 Claude Opus 4.7 的六分之一。文档解析场景一天差出 ¥196,一个月好几千块。这还没算 Google 的 Context Caching 优惠——如果你的场景有大量重复的 system prompt 或者 few-shot examples,缓存价格只要 $0.625/1M,又能再省一截。

API 调用实战代码

Gemini 3.1 Pro 支持 OpenAI 兼容协议,改个 base_url 就能用。我实测了三种调用方式。

基础文本调用

from openai import OpenAI

client = OpenAI(
 api_key="your-api-key",
 base_url="https://api.ofox.ai/v1"
)

response = client.chat.completions.create(
 model="gemini-3.1-pro",
 messages=[
 {"role": "system", "content": "你是一个资深 Python 开发者"},
 {"role": "user", "content": "帮我写一个异步爬虫框架的基础结构"}
 ],
 temperature=0.7,
 max_tokens=4096
)

print(response.choices[0].message.content)

Streaming 流式输出

stream = client.chat.completions.create(
 model="gemini-3.1-pro",
 messages=[
 {"role": "user", "content": "解释 Python 的 GIL 机制,用通俗的比喻"}
 ],
 stream=True
)

for chunk in stream:
 if chunk.choices[0].delta.content:
 print(chunk.choices[0].delta.content, end="", flush=True)

多模态调用(图片理解)

import base64

def encode_image(image_path):
 with open(image_path, "rb") as f:
 return base64.b64encode(f.read()).decode("utf-8")

img_b64 = encode_image("architecture_diagram.png")

response = client.chat.completions.create(
 model="gemini-3.1-pro",
 messages=[
 {
 "role": "user",
 "content": [
 {"type": "text", "text": "这张架构图有什么设计问题?给出改进建议"},
 {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{img_b64}"}}
 ]
 }
 ],
 max_tokens=2048
)

Function Calling

import json

tools = [
 {
 "type": "function",
 "function": {
 "name": "get_weather",
 "description": "获取指定城市的天气信息",
 "parameters": {
 "type": "object",
 "properties": {
 "city": {"type": "string", "description": "城市名"},
 "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
 },
 "required": ["city"]
 }
 }
 }
]

response = client.chat.completions.create(
 model="gemini-3.1-pro",
 messages=[{"role": "user", "content": "东京现在多少度?"}],
 tools=tools,
 tool_choice="auto"
)

tool_call = response.choices[0].message.tool_calls[0]
print(json.loads(tool_call.function.arguments))
# {"city": "Tokyo", "unit": "celsius"}

实测 Function Calling 的结构化输出准确率很高,100 次调用里只有 2 次参数格式不对(少了 required 字段),比 3.0 Pro 时代好多了。

五个最适合的场景

根据 Gemini 3.1 Pro 的特点,这几个场景最能发挥它的优势:

1. 超长文档分析——2M 上下文直接塞进去,不用分块。我测了一份 380 页的技术规范文档(约 420K tokens),一次性扔进去问细节问题,回答准确率比分块方案高了不少。

2. 视频内容理解——独家能力。我试了一个 15 分钟的产品 demo 视频,让它生成结构化的功能列表和时间戳,效果相当不错。

3. 多模态 RAG Pipeline——图文混合的知识库检索,Gemini 3.1 Pro 能同时理解图表和文字的语义关系。

4. 成本敏感的代码生成——如果你的场景不需要 SWE-Bench 67% 的极致代码能力,62.7% 已经够用了,价格只有 Opus 的六分之一。

5. Grounding 搜索增强——需要实时信息的场景(新闻摘要、竞品监控),Google 的搜索增强是原生集成的,不用自己接搜索 API。

开发者接入方案

graph LR
 A[你的应用] --> B{选择接入方式}
 B --> C[Google AI Studio 直连]
 B --> D[Vertex AI 企业版]
 B --> E[API 聚合平台]
 C --> F[免费额度有限<br>需要 Google Cloud 账号]
 D --> G[企业级 SLA<br>需要 GCP 项目]
 E --> H[OpenAI 兼容协议<br>改 base_url 即可]
 H --> I[ofox.ai / OpenRouter]
接入方式 优点 缺点 适合谁
Google AI Studio 免费额度、官方文档全 部分地区延迟高、需 Google 账号 个人开发者尝鲜
Vertex AI 企业级 SLA、与 GCP 生态打通 配置复杂、需要 GCP 项目和计费 大企业正式项目
API 聚合平台 OpenAI 兼容协议直接用、多模型切换 多一层代理 需要多模型切换的团队

聚合平台这块,OpenRouter 收 5.5% 手续费,ofox.ai 是 0% 加价对齐 Google 官方定价且支持 Gemini 原生协议——我们团队选型的时候主要看的是这两家。ofox.ai 作为大模型云厂商官方授权服务商,走的是 Google Cloud 官方通道,延迟和稳定性跟直连差别不大。

踩坑提醒:如果你之前用的是 generativelanguage.googleapis.com 这个 endpoint,迁移到 OpenAI 兼容协议时注意 tool_choice 参数的格式不一样。我第一次切的时候报了这个错:

Error: 400 Bad Request - "tool_choice" must be one of "auto", "none", or {"type": "function", "function": {"name": "..."}}

Google 原生 API 的 tool_config 和 OpenAI 格式的 tool_choice 字段映射不是一一对应的,得注意。

竞品模型横向对比表

这张表是我实际跑业务场景测出来的,不是 benchmark 数字:

维度 Gemini 3.1 Pro Claude Opus 4.7 GPT-5.5 Claude Sonnet 4.6 DeepSeek V4 预览版
长文档理解(400K+) ⭐⭐⭐⭐⭐ ⭐⭐⭐(上限 200K) ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐
代码生成质量 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐
视频理解 ⭐⭐⭐⭐⭐
中文能力 ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
指令遵循 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
价格(输出/1M) $10 $75 $15 $15 $2.19
P95 延迟(实测) 约 380ms 约 450ms 约 320ms 约 280ms 约 520ms
首 token 延迟 约 1.2s 约 1.8s 约 0.9s 约 0.7s 约 2.1s

DeepSeek V4 预览版的延迟可能是因为刚上线没优化好,4 月 24 号才发布的,样本量还不够,不好下定论。

FAQ

Q1: Gemini 3.1 Pro 和 Gemini 3.1 Flash 怎么选?

看场景。Flash 便宜 25 倍,日常对话、简单摘要用 Flash 就够了。但涉及复杂推理、长文档分析、多模态理解,Pro 的质量差距非常明显(GPQA 72.8% vs 64.1%)。我的做法是路由层根据输入复杂度自动分流。

Q2: 2M 上下文真的能用满吗?

能,但贵。2M tokens 输入一次就是 $5,折合 ¥36.25。实际业务中我建议先用 Context Caching 把重复部分缓存住,只对增量部分收全价。

Q3: 视频理解支持多长的视频?

官方说最长支持 1 小时。我实测 20 分钟以内效果很好,超过 30 分钟后细节丢失明显增多。目前没有竞品能做这个,将就用吧。

Q4: 和 Claude Opus 4.7 比,代码能力差多少?

SWE-Bench 差了约 5 个百分点(62.7% vs 67.3%)。体感上写 Python/TypeScript 差距不大,但复杂的系统设计和大型重构任务 Claude 确实更稳。如果你主要写 CRUD 和中等复杂度的功能,Gemini 3.1 Pro 完全够用。

Q5: 调用时报 429 Resource Exhausted 怎么办?

Google AI Studio 的免费额度限制很紧(60 RPM)。解决思路:升级到付费 Tier、走 Vertex AI、或者用 API 聚合平台(通常配额更高)。我之前被限流的时候加了指数退避重试:

import time
from tenacity import retry, stop_after_attempt, wait_exponential

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=2, max=30))
def call_gemini(messages):
 return client.chat.completions.create(
 model="gemini-3.1-pro",
 messages=messages
 )

Q6: Grounding 搜索增强怎么开启?

通过 Google 原生 API 可以在请求里加 tools: [{google_search_retrieval: {}}]。OpenAI 兼容协议暂时不支持 Grounding,这是个坑。如果你需要搜索增强,得用 Google 原生 SDK。

Q7: 多模态输入的图片有大小限制吗?

单张图片最大 20MB,单次请求最多 3600 张图片(理论值,实际受上下文长度限制)。建议图片压缩到 1-2MB 以内,太大了 base64 编码后 token 消耗很恐怖。

Q8: Context Caching 怎么用?能省多少钱?

缓存价格是正常输入价的 25%($0.625 vs $2.50)。如果你的 system prompt + few-shot examples 有 10K tokens,每天调 5000 次,一天能省 ¥68 左右。缓存有效期默认 1 小时,可以手动续期。

总结

折腾了三天,我的结论:

Gemini 3.1 Pro 在 2026 年 4 月这个时间点,最大的竞争力是超长上下文 + 原生视频理解 + 相对低廉的价格这个组合。如果你的场景是长文档分析或者多模态处理,它目前是性价比最优解。

但如果你主要做代码生成和复杂推理,Claude Opus 4.7 和 GPT-5.5 还是更稳。没有银弹,选模型得看具体场景。

我现在的做法是在路由层做模型分流——简单任务走 Flash,长文档和视频走 Gemini 3.1 Pro,代码重构走 Claude Sonnet 4.6。一个月下来成本比全用 Opus 省了差不多 60%,质量也没明显下降。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐