谷歌 I/O 2026 深测有感：Gemini 3.5 Flash 真的适合写代码吗？（附 API 成本与能效比硬核评测）

iThinkAi智能体

487人浏览 · 2026-05-20 15:17:40

iThinkAi智能体 · 2026-05-20 15:17:40 发布

北京时间 5 月 20 日凌晨，谷歌在 Google I/O 2026 开发者大会上正式发布了 Gemini 3.5 Flash。

伴随着“每秒 289 tokens 极速响应”、“在智能体和编程基准测试中超越上一代旗舰 3.1 Pro”等铺天盖地的公关宣传，不少开发者和技术团队开始跃跃欲试，甚至考虑将现有的业务工作流或 Agent 驱动大脑切换到 3.5 Flash 上。

然而，作为一名天天与 API 账单和生产代码打交道的后端架构师，在通宵看完发布会并仔细研读了官方的 Developer Guide 之后，我必须给各位同行泼一盆冷水。

Gemini 3.5 Flash 远没有宣传中那么香。在盲目重构你的代码库之前，请先看完这篇避坑指南。

一、程序员的直觉违和：谁会用 Flash 模型写生产代码？

谷歌这次最大的噱头，就是将 3.5 Flash 标榜为“最强编程和智能体模型”。

但凡是有过实际开发经验的程序员，看到这个定位都会觉得违和：

命名认知：在 LLM 的命名体系中，Flash、Haiku、mini 代表的都是“轻量、低成本、低延迟、低智商”的代名词。通常只用来做基础的数据清洗、分类或格式化。
开发心理：写代码、重构、Debug 是一项极其严谨且需要深度推理的工作。在实际生产环境中，没有任何一个程序员敢把核心业务代码交给一个“Flash”模型去写，尝试都不敢尝试。

如果谷歌真的对自己的代码能力有信心，它应该单独推出一个类似 Codex 的分支，命名为 Gemini Code。如今强行把“写代码”和“Flash”绑定，更像是 3.5 Pro 难产之后，为了抢占市场而做出的妥协。

事实也确实如此：本次 I/O 大会谷歌并未发布 Gemini 3.5 Pro。这直接说明其 3.5 世代的中高端模型根本 NOT Ready 或 NOT Good Enough。

至于 3.5 Pro，目前还在内测中，预计下个月放出

Terminal-Bench 2.1 编码: 76.2%(3.1 Pro 70.3%)。GDPval-AA 真实任务: 1656 Elo(3.1 Pro 1314)，跳了一档。MCP Atlas 工具调用: 83.6%(3.1 Pro 78.2%)。CharXiv 多模态推理: 84.2%。几乎所有指标都超过了自家上一代旗舰 3.1 Pro

输出速度 289 tok/s，是同级别 frontier 模型的四倍。在 Antigravity 内部经过联合优化后，达到 12 倍。

二、算一笔硬账：API 定价暴涨 3 倍，能效比倒挂

我们不看 PPT，直接看官方公布的 API 账单定价。

模型版本	输入价格（per 1M Tokens）	输出价格（per 1M Tokens）
Gemini 3 Flash (Preview)	$0.50	$3.00
Gemini 3.5 Flash (GA)	$1.50	$9.00
Gemini 3.1 Pro	$3.00 (128k内)	$12.00 (128k内)

发现问题了吗？ Gemini 3.5 Flash 的单价相比前代直接暴涨了 3 倍！

这导致了一个非常滑稽的“能效比倒挂”现象：在实际的智能体（Agent）多轮对话或复杂代码重构任务中，因为 3.5 Flash 的单价暴涨，你用它跑完一整套工作流，最后算下来的 Token 账单居然比直接用 3.1 Pro 还要贵！

花更多的钱，买来的却是 Flash 级别的逻辑严谨度。在面对竞品 GPT-5.5 medium 时，3.5 Flash 在复杂代码架构设计上更是被断档碾压。

API 定价 $1.50 / $9.00 per 1M token(输入/输出)，缓存输入 $0.15。上下文窗口 1M token。这个价格比同水平 frontier 模型便宜一半以上，Google 给出的算法：头部 Cloud 客户如果把 80% frontier 工作负载切到 3.5 Flash,每年省超 10 亿美元

目前国内一些响应极快的 API 中转已经光速同步上线了该模型，不得不讲，速度真快，试试这个也不错

三、开发者必须注意的“隐藏限制”

除了价格暴涨，谷歌这次还悄悄加入了一些对开发者极不友好的限制：

5 小时频次限制机制：好东西不学，坏的学得贼快。谷歌这次在 3.5 Flash 的 API 调用中引入了严格的 5 小时调用频次限制。一旦你在本地跑高频的 Agent 循环测试，极易触发 Rate Limit 被直接卡死。
Spark 锁死付费墙：发布会上吹得天花乱坠的 24 小时个人 AI 助手 Spark，对不起，仅限 Ultra 付费用户使用。
Antigravity 2.0 的刷榜水分：号称“让 93 个 Agent 在 12 小时内从零构建操作系统”。听起来很震撼，但实际开发中，谁会为了写个小功能去部署 93 个 Agent 跑 12 小时？这完全是实验室里的“刷榜玩具”，对实际生产力提升微乎其微。