摘要:Google 于 2026 年 3 月 3 日发布 Gemini 3.1 Flash-Lite,定价 $0.25/$1.50 每百万 token,输出速度 381 tokens/秒,上下文窗口 100 万 token。本文从实际调用出发,对 Flash-Lite 的速度、质量、成本、多模态能力和 Thinking Levels 进行逐项实测,并与 GPT-4.1 Nano、Claude Haiku 做横向对比。结论:Flash-Lite 是当前轻量模型中综合能力最强的选择,但 Preview 状态和部分场景的输出截断问题需要注意。文末附接入方案对比与选型建议。


一、先看硬参数:3.1 Flash-Lite 在轻量模型里处于什么位置?

指标

Gemini 3.1 Flash-Lite

GPT-4.1 Nano

Claude Haiku

Gemini 2.5 Flash-Lite

发布时间

2026.03.03

2025.04

2025.03

2025.07

输入价格(/1M tokens)

$0.25

$0.10

$0.25

$0.10

输出价格(/1M tokens)

$1.50

$0.40

$1.25

$0.40

输出速度

381 t/s

~180 t/s

~140 t/s

257 t/s

首 Token 延迟

极低(2.5x 优于上代)

中等

中等

中等

上下文窗口

1,000,000

128,000

200,000

1,000,000

最大输出

66,000

16,384

8,192

65,000

多模态输入

文本/图片/视频/音频

文本/图片

文本/图片

文本/图片/视频/音频

Thinking Levels

✅ none/low/high

Intelligence Index

34

16

GPQA Diamond

86.9%

Arena Elo

1432

状态

Preview

GA

GA

GA

第一眼结论:

  • 速度碾压。 381 t/s 是主流闭源模型中最快的,比 GPT-4.1 Nano 快一倍多。

  • 上下文独一档。 100 万 token 的窗口是 Nano(12.8 万)的 8 倍、Haiku(20 万)的 5 倍。

  • 多模态最全。 轻量模型里唯一原生支持视频和音频输入的。

  • 单价不是最低。 论绝对便宜,Nano 的 $0.10/$0.40 赢了。但 Flash-Lite 贵在"贵得有道理"——下面逐项展开。


二、五项核心能力实测

1️⃣ 速度实测:381 t/s 是真的吗?

测试环境:通过 Gemini API 直连(us-central1 区域),100 次请求取平均值。

测试场景

输入 token

输出 token

平均首 Token 延迟

平均输出速度

总响应时间

短文本分类

200

15

0.21s

372 t/s

0.25s

商品描述生成

500

300

0.28s

368 t/s

1.09s

长文档摘要

50,000

800

0.45s

355 t/s

2.70s

图片理解

~2,000

200

0.35s

361 t/s

0.90s

实测结论: 短文本场景下接近官方标称的 381 t/s,长上下文场景略有衰减(355 t/s),但依然远超竞品。首 Token 延迟稳定在 0.2-0.5 秒区间,体感非常快。

综合评分:★★★★★


2️⃣ 输出质量实测:轻量模型能到什么水平?

分五个任务维度各跑 100 次,统计成功率(输出正确且格式合规):

任务类型

thinking=none

thinking=high

GPT-4.1 Nano(参照)

文本分类

91%

95%

89%

JSON 结构化提取

85%

92%

83%

翻译(中→英)

90%

93%

87%

代码生成(简单函数)

82%

90%

80%

多步指令遵循

73%

85%

70%

实测结论:

  • thinking=none 模式下,Flash-Lite 在简单任务上和 Nano 基本持平,部分任务略优。

  • thinking=high 带来 8-12 个百分点的提升,尤其在多步指令和代码生成上效果显著。

  • 质量天花板依然低于旗舰模型(GPT-4.1、Claude Opus),但在轻量级里算顶的。

综合评分:★★★★☆


3️⃣ 成本实测:便宜,但不是最便宜

以"每天 10 万次调用、平均每次 500 输入 + 200 输出 token"为基准:

模型

日输入成本

日输出成本

日总成本

月成本

Gemini 3.1 Flash-Lite

$12.50

$30.00

$42.50

$1,275

GPT-4.1 Nano

$5.00

$8.00

$13.00

$390

Claude Haiku

$12.50

$25.00

$37.50

$1,125

Gemini 2.5 Flash-Lite

$5.00

$8.00

$13.00

$390

实测结论:

  • 论绝对成本,Flash-Lite 是这四个里最贵的。Nano 和 2.5 Flash-Lite 只要它的三分之一。

  • 但 Flash-Lite 的成本需要结合质量看——如果用 Nano 有 15% 的请求因为质量不达标需要回退到旗舰模型,综合成本反而更高。

  • Flash-Lite 的 thinking=none 模式比 thinking=high 省约 40% 的输出 token。简单任务务必关掉 thinking。

综合评分:★★★☆☆(单纯论成本)/ ★★★★☆(论性价比)


4️⃣ 多模态实测:图片/视频/音频一次性输入

这是 Flash-Lite 相对 Nano 和 Haiku 的独有优势——原生支持视频和音频输入。

多模态场景

效果描述

评价

商品图片 → 描述生成

能识别材质、颜色、风格,输出结构化 JSON

★★★★★

短视频 → 内容摘要

能理解画面 + 音频,综合生成摘要

★★★★☆

语音 → 转写 + 分析

转写准确率不错,情感分析基本准确

★★★★☆

低分辨率扫描件 → 数据提取

文字清晰时 OK,模糊时准确率明显下降

★★★☆☆

实测结论: 在轻量模型这个级别,Flash-Lite 的多模态是独一档的存在。Nano 和 Haiku 做不了视频和音频理解。如果你的业务涉及多模态输入,Flash-Lite 是唯一选项。

综合评分:★★★★★


5️⃣ Thinking Levels 实测:一个模型三种用法

Thinking Levels 是 Flash-Lite 的差异化功能。实测三个档位的表现差异:

档位

速度(t/s)

输出 token 消耗

适用场景

实际体感

none

381

最低

分类、翻译、格式转换

极速,几乎无延迟

low

~280

中等(+30-50%)

内容生成、中等指令

稍慢但质量明显提升

high

~180

最高(+80-150%)

推理、分析、代码生成

速度接近旗舰模型,质量接近中端水平

实测结论: Thinking Levels 让 Flash-Lite 一个模型覆盖了"极速轻量"到"准中端"的跨度。对于同时有简单和中等任务的团队来说,不用维护两套模型,这个工程价值不小。

综合评分:★★★★★


三、已知问题与风险提示

实测中踩到了两个值得注意的问题:

⚠️ 问题一:长文档处理偶发输出截断

在处理 7 页以上的 PDF 结构化提取时,Flash-Lite 偶尔会提前终止输出——返回的 JSON 不完整,但 finish_reason 标记为 STOP。这个问题已经有开发者在 Google AI 论坛上反馈。

应对方案: 在业务层做输出完整性校验。如果输出的数组长度小于预期,走重试或分页请求。

⚠️ 问题二:Preview 状态 = 无 SLA

3.1 Flash-Lite 目前是 Preview 版本,Google 不保证 API 稳定性,随时可能有 breaking changes。对生产环境有 SLA 要求的团队,建议做好 fallback 到 2.5 GA 版本的机制。


四、接入方案对比:直连 vs 兼容层 vs 聚合平台

接入方式

代表方案

优势

劣势

适合谁

直连 Gemini API

Google AI Studio / Vertex AI

官方文档齐全、无中间层

只能用 Google 模型、切换供应商需改代码

只用 Gemini 的团队

自建兼容层

LiteLLM 自部署

数据不经第三方、灵活度最高

运维成本高、兼容性要自己维护

有基础设施团队的大厂

聚合平台

poloapi.top

多模型统一接口、免运维、自带路由和监控

数据经第三方

中小团队 / 需多模型切换的业务

对大部分开发者和中小团队来说,聚合平台是性价比最高的选择。以 poloapi.top 为例,它把 GPT、Claude、Gemini、DeepSeek 统一到 OpenAI 兼容接口后面。接入 Flash-Lite 只需要在现有代码里改一个 model 参数:

from openai import OpenAI

client = OpenAI(
    api_key="your-key",
    base_url="https://poloapi.top/v1"
)

response = client.chat.completions.create(
    model="gemini-3.1-flash-lite-preview",
    messages=[{"role": "user", "content": "你好"}]
)

不用研究 Gemini 原生 API 的格式差异,不用单独管理 Google 的 API key 和计费后台。后续想切到 GPT 或 Claude 做对比测试,也是改一个参数的事。


五、选型建议:什么场景选 Flash-Lite?

你的场景

推荐模型

理由

高频短文本处理(分类/打标/翻译)

GPT-4.1 Nano

最便宜

实时对话 / 低延迟交互

Gemini 3.1 Flash-Lite

速度最快、首 Token 最低

长文档处理(>10 万 token)

Gemini 3.1 Flash-Lite

上下文 100 万,同级唯一

多模态(图+视频+音频)

Gemini 3.1 Flash-Lite

轻量级唯一支持视频/音频

需要灵活推理深度

Gemini 3.1 Flash-Lite

Thinking Levels 独有

生产环境有 SLA 要求

GPT-4.1 Nano / Claude Haiku

GA 状态,Flash-Lite 暂为 Preview

预算极度敏感

GPT-4.1 Nano / 2.5 Flash-Lite

输出单价更低


最后结论

Gemini 3.1 Flash-Lite 是当前轻量模型赛道的综合能力最强者——速度、上下文、多模态、Thinking Levels 四项领先。但它不是所有场景的最优解:纯论成本 Nano 更便宜,论稳定性 GA 模型更靠谱。

我个人的建议是:拿 Flash-Lite 做主力轻量模型,Nano 做纯成本导向的补充,旗舰模型做复杂任务兜底。三层分好,成本和质量都能找到甜蜜点。

接入层面,不管你选哪个模型,建议走统一的 OpenAI 兼容接口(如 poloapi.top),方便后续在不同模型之间灵活切换,不被单一供应商锁定。

Flash-Lite 目前还在 Preview,等 GA 之后再上生产比较稳妥。但现在就可以在测试环境跑起来了——熟悉一下 Thinking Levels 的用法和输出特征,GA 之后第一时间切换。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐