谷歌最新推出的Gemini 3.5系列模型到底好不好用？从性能、体验、性价比三方面深度剖析清楚

2601_95496901

681人浏览 · 2026-05-21 17:11:12

2601_95496901 · 2026-05-21 17:11:12 发布

导语

Gemini 3.5 Flash其实算是一款存在偏科情况的产品。它在运行各类任务的时候速度相对来说比较快，不过在推理深度这个层面上，做出了一定程度的妥协。

谷歌将其界定为Flash系列有史以来最强的agentic和编程模型，不过从实际的产品表现来看，它和这个定位之间还是存在着一定的差距。那些把它当成全能学霸来使用的用户，往往会觉得它不太好用，而那些将它当作工具人来使用的用户，则会觉得用起来还挺不错的。

为什么会这样呢？我们接着往下说。

一、性能方面：benchmark数据当中所体现出来的规律，其实要比整体的总数更加值得关注。

我们先来查看一下这个数据。
llm-stats.com将谷歌官方技术报告当中的基准测试数据给整理了出来，同时还对比了3.5 Flash以及3.1 Pro这两个版本。谷歌这边并没有对外公布这些基准测试各自运行的是哪一种推理档位，这可以说是存在一个信息缺口的，毕竟在不一样的推理档位之下，分数说不定会存在一定的差异。下面所展示的数据全部都来自谷歌官方技术报告，是由llm-stats.com来进行整理的：

Terminal-Bench 2.1： 3.5 Flash 76.2%，3.1 Pro 70.3%
MCP Atlas： 3.5 Flash 83.6%，3.1 Pro 78.2%
GDPval-AA Elo评分： 3.5 Flash 1656，3.1 Pro 1314
CharXiv Reasoning多模态理解： 3.5 Flash 84.2%

在Artificial Analysis的综合榜单之中，3.5 Flash正处于“高智能+高速度”的右上象限当中。Intelligence Index得分55，比Gemini 3 Flash的46高了9分。 Artificial Analysis同时也提到，这次的性能提升主要来自于“agentic performance gains and hallucination reduction”。

在这里插入图片描述
【图片来源】Unsplash

但那几个测试用的基准测试结果，它们所呈现出的规律其实是相当明显的。

Humanity’s Last Exam： 3.1 Pro 44.4%，3.5 Flash 40.2%
ARC-AGI-2： 3.1 Pro 77.1%，3.5 Flash 72.1%
MRCR v2长上下文检索128k部分： 3.1 Pro领先7.6个百分点

全都是和深度推理以及长文档处理相关的内容。另外，SWE-bench Verified这个基准测试上，3.5 Flash的得分是69.8%，而3.1 Pro的得分则是71.5%，这组数据是由llm-stats.com整理而来的。针对那些相对复杂的软件工程任务来说，Flash也没能超过Pro。SWE-bench Verified并不在谷歌所公布的那一批基准测试当中，属于额外的参考项。

规律很明显：赢的集中在agent工作流、代码生成速度、工具调用、多模态理解。输的集中在深度推理、长文档处理、复杂软件工程。

从目前已经公开的各类评测数据当中不难看出，3.5 Flash整体表现出了更偏向于agent以及速度优化的倾向。至于这种倾向究竟是模型在训练阶段主动做出的取舍，还是受到了架构层面的限制，谷歌方面并没有对外公布相关的技术细节，所以我们暂时还不能轻易地得出定论。

这里有一个关键的技术背景必须提：谷歌官方文档已经确认，3.5 Flash的默认thinking effort从3 Flash的high档位降到了medium档位。 这也就意味着，不管是benchmark的分数还是实际的使用体验，都会受到推理档位降低的影响——要是拿3.5 Flash的medium档去和3.1 Pro的high档进行对比，本身就不是处在同一条起跑线上的。文章后面所对比的所有benchmark数据，其实都存在着这个档位不统一的问题。

BenchLM.ai的verified leaderboard也就是截至2026年5月20日所统计的数据显示，Gemini 3.5 Flash在总榜当中排在第6位，它在agentic分类上的平均得分是77.2。如果拿来作为参照的话，GPT-5.5 Pro在agentic分类上的平均得分是90.1，排在整个榜单的第1位。

谷歌在那场发布会上提到，3.5 Flash“在保持高智能水平的同时，成本often at less than half the cost of competing top-tier models”。需要留意的是，“competing top-tier models”指的是GPT-5.5和Claude Opus 4.7这类属于竞品旗舰的产品。和它们放在一起比较的话，3.5 Flash确实在价格方面要更低一些。但“高智能水平”这一说法，还是得看究竟要如何去定义“智能”。干活智能和推理智能其实是两种完全不一样的概念。

二、体验方面：整体的速度确实是比较快的，不过在推理的深度上面做出了一定的妥协，同时相关的功能也有所删减。

速度方面，谷歌官方对外宣称3.5 Flash要比其他前沿模型快上4倍，官方所给出的数据是289 tokens/秒的持续生成速率，这个速率适用于文本生成场景以及默认的推理档位。在Antigravity平台上经过优化之后，它还可以变得更快一些。关于首token的延迟，谷歌并没有单独对外公布。社区里的反馈普遍都认可它在速度上的提升，但目前还缺乏标准化的对比测试。“4倍”这个说法，谷歌并没有明确对标具体是哪个模型以及对应什么任务，还需要我们独立去进行验证。

谷歌在今年的I/O大会上，对外展示了基于Antigravity平台打造的高吞吐agent应用场景。需要额外留意的是，这仅仅是官方提前准备好的展示案例，经过了非常细致的优化调整，不代表通用生产环境下的可复制表现。

速度快其实并不等同于体验就一定好。有一些被砍掉或者做出了调整的内容，其实是值得我们去留意的。

** Computer Use功能被移除了。** Simon Willison在相关的评测里面明确提到，3.5 Flash并不支持computer use，而在这之前的Gemini 3.x系列，其实是支持这个功能的。对于一个号称要增强agentic能力的模型来说，直接砍掉能够操作计算机的能力，算得上是一个不小的功能退步。

** 默认thinking effort从high降到了medium。** 前面已经提过，这会直接影响到推理的深度。要是用户不手动把它调到high，那么拿到的就会是“降配版”的推理。

最大输出只有65K tokens。 对于长文档生成、大规模代码重构这类场景，这是硬约束。

** 知识截止日期为2025年1月。** 要是有一个在2026年5月正式发布的模型，它所拥有的知识库就已经落后了16个月之久。而对于agent工作流来说，当要去处理那些具备时效性的任务时，这无疑会成为一处相当明显的短板所在。

在这里插入图片描述
【图片来源】Unsplash

Reddit上面有评论提到，在coding能力上的进步基本上完全没有被提及到。谷歌这一方则宣称3.5 Flash是“Flash系列有史以来最强的agentic和编程模型”，这里需要留意的是，它的限定词是“Flash系列”。这场发布会没有重点去讲解coding方面的进步，并不代表coding就没有进步，不过社区这边给出的反馈确实算不上热烈。

Linux.do社区所开展的对比测试结果显示，在针对那些较为复杂的人文概念展开讨论的时候，3.5 Flash就算是开启了它最高等级的思考模式，其整体的讨论深度以及细节的细腻程度，还是比不上3.1 Pro。而像这类测试，不管是它所用到的样本量，还是提示词的一致性，又或是最终的评价标准，都没有达到标准化的相关要求，所以仅能够作为我们在感知层面的一种参考。另外需要说明的是，该信息的来源是中文社区，并没有借助英文搜索来开展独立的验证工作。

36氪引用了一位用户的吐槽：“3.5 Flash唯一的强处就是快，也就是能够更快地消耗token，完成同样任务反而比3.1 Pro还贵。”这个说法本身是个人体验。要验证它，需要开展同任务、同质量标准、同系统提示下的受控对比实验，目前公开渠道没有这样的实验数据。该来源为中文媒体，未通过英文搜索独立验证。

Reddit平台上能看到一些零散的用户反馈，他们提到安全拒绝的情况或许要比3.1 Pro版本更加频繁，不过因为当前收集到的样本量实在太小，目前还没办法确定这是不是一种普遍存在的现象。

另外需要说明的是，上面所提到的体验反馈主要来自API以及Gemini App的用户。不同的平台，也就是AI Studio、Vertex、Antigravity，在限流、工具接入、系统提示以及计费方式这些方面，其实都存在着一定的差异。比如说AI Studio的免费层有着严格的速率限制，Vertex则支持更高的并发配额，同时还可以自定义系统提示，Antigravity则是针对agent工作流做了专门的优化。由此可见，同一模型在不同的平台上，其使用体验是不能一概而论的。

还有一项面向开发者的重要变化：3.5 Flash推出了Interactions API也就是beta版本，它可以支持开展服务端历史的管理工作，类似OpenAI的Responses API。，这对于构建agent应用的开发者来说算得上是利好消息，但目前该功能还处于beta阶段。

另外，Antigravity CLI 会在6月18日取代开源的Gemini CLI，这是Better Stack所报道的消息。谷歌选用闭源CLI来替换开源社区工具这件事，对于开发者生态而言是一个值得关注的信号。

Google I/O当天，GOOGL的开盘价格报在了396.96美元，最终收盘价格则是387.66美元，整体跌幅大概在2.34%左右。Bank of America在会议召开之前就曾给出过预警，表示要是没有出现实质性的亮点，股价有可能会面临承压的情况，这一信息来自钜亨网、钛媒体等中文媒体来源，并没有通过英文搜索的方式进行独立的验证。当天的股价波动受到了大盘走势、利率情况、宏观经济数据等多方面因素的共同影响，不能简单地将股价变动的原因归结为“市场对Flash不满”。

三、性价比方面：宣传当中说可以便宜一半，实际的账目还是得仔细去算一算

谷歌AI Studio的定价页面，在2026年5月的时候所执行的标准是这样的：：输入$1.50/百万token，输出$9.00/百万token。

和3.1 Pro比起来，这次输入的价格要便宜大概25%左右。当时皮查伊站在台上说道，它的成本其实是竞品旗舰的“often at less than half”——他这里所指的，也就是GPT-5.5和Claude Opus 4.7这两款产品。和它们比起来，3.5 Flash的输入单价确实还不到一半。

但这个比较是输入单价，不是完成任务的总成本。 而总成本具体会取决于哪些因素呢？它主要和token的消耗量、重试率以及任务的复杂度这几个方面有关。要是运行速度快但推理过程比较浅的话，token的消耗反而可能会变得更大，这样一来实际的总成本未必就会等比下降。

Artificial Analysis给出了一项关键的量化对比：在运行Intelligence Index的时候，3.5 Flash(high)的成本是$1,551.60，而3.1 Pro则是$892.28。算下来3.5 Flash比3.1 Pro贵了大约74%。 需要留意的是，这是high thinking档位下的数据，如果是默认的medium档的话，成本会低一些，不过相应的推理质量也会有所降低。

更值得留意的是，3.5 Flash所取代的对象并非其他竞品的旗舰产品，它实际上替代的是谷歌自家推出的上一代Flash。

模型	输入价格	输出价格
Gemini 3 Flash Preview	$0.50	$3.00
3.1 Flash-Lite	$0.25	$1.50
3.5 Flash	$1.50	$9.00

3.5 Flash相较于3 Flash Preview，它的输入价格上涨了3倍，也就是从0.5美元变成了1.5美元，输出价格也同样上涨了3倍，即从3.0美元变为9.0美元。而相较于3.1 Flash-Lite，它的输入价格则上涨了6倍，也就是从0.25美元变成了1.5美元，输出价格也上涨了6倍，即从1.5美元变为9.0美元。

需要说明的是，Flash-Lite其实属于Lite产品线，并不是标准的Flash产品，要是直接拿它来做价格对比，难免会存在定位上的差异。但就算只针对标准Flash产品线，也就是从3 Flash Preview到3.5 Flash这个区间来看，它的输入以及输出的价格都上涨了三倍。

Simon Willison所给出的评测标题，直接就把这个矛盾点给点明了：“Gemini 3.5 Flash: more expensive, but Google plan to use it for everything”。 这款产品其实已经涨价了，但谷歌方面却打算把它应用到所有的产品当中去。

这里有一项最具说服力的证据，可以用来支撑Willison所做出的判断：谷歌官方已经正式确认，3.5 Flash将会成为Gemini App以及搜索AI Mode在全球范围内的默认模型，也就是谷歌官方博客、ODSC、《泰晤士报印度版》所报道的相关内容。谷歌将一款售价上涨了三倍的Flash模型，植入到了所有面向消费者的产品之中，用户原本没有其他可选的方案，除非他们手动去进行切换设置。

在这里插入图片描述
【图片来源】Unsplash

另外，3.5 Flash跳过了preview阶段直接进入GA。之前的Gemini 3 Flash是先推出preview再转为GA，这次谷歌直接发布正式版。这要么说明对模型的信心更强，要么说明发布节奏更为急迫——两种解读都成立，也就是Simon Willison的评测内容。

谷歌给企业描绘了这样一幅前景：要是一家每天需要处理1万亿token的企业，能够把八成左右的工作转移到3.5 Flash上面去，那么每年就能够节省超过10亿美元的开支。不过要算清楚这笔账，有一个前提条件，那就是你原本就在使用Pro级的模型。要是你之前用的其实是Flash-Lite，那么把工作迁移到3.5 Flash上面的话，反而会让整体的成本出现暴涨的情况。

对普通用户，谷歌还把Gemini App的计费逻辑从按天算提问次数改成了按每次任务消耗的算力计费。AI Ultra新增$100/月入门档，原来$250的档降到$200。看着降价了，用得多的实际花销可能更高。

Antigravity平台还推出了全新的开发者订阅计划，每个月支付一百美元的话，就能够获取到更多的AI工具使用权限。

要是3.5 Pro下个月的表现没能足够强劲，再加上Flash相对上一代产品大幅涨价这件事，它的说服力就会明显被削弱，3.5系列的产品分层叙事也会受到波及。

四、为什么产品长这样？其实要结合谷歌当下所处的具体处境，来好好看待这个问题。

前面所讲到的这些内容，其实都是围绕产品本身来展开的。但要是我们想要真正弄明白3.5 Flash的定位，那就得好好看一看谷歌当前所处的战略处境。

2026年5月的时候，谷歌在I/O大会上正式推出了3.5 Flash。I/O窗口其实就是这件事发生的直接缘由，毕竟谷歌向来都会选择在I/O大会上对外发布那些具有重大意义的AI产品更新内容。而3.5 Flash直接跳过了preview阶段，直接推向了GA，这一点其实能够说明，谷歌对于这款模型的整体部署节奏，其实早就有了清晰明确的时间表，并非是临时才做出的决定。

与此同时，Gemini这款应用的月活跃用户数量已经达到了9亿，不过搜索业务这块蛋糕正被AI一点一点地啃食掉，他们的编程工具也落后于同赛道的竞品，与此同时资本支出还出现了大幅飙升的情况，华尔街那边正盯着皮查伊，要求他给出相应的回报。把3.5 Flash设置为Gemini App以及搜索AI Mode的默认模型，从本质上来说，其实就是用涨价之后的产品来替换掉那些免费或者低价产品的用户入口，这只能算是一项商业层面的决策，而并非技术层面的决策。

而且不要只把目光放在Flash上面。Omni和Spark其实是同一盘棋当中的另外两颗棋子。

**Omni是一款世界模型，它不仅可以生成视频，还能够对重力、流体动力学以及动能进行模拟。用户在生成视频之后，还可以和它展开互动，具体来说就是编辑动作、添加新角色，或是改变场景当中正在发生的那些事情。它的运行基础是Gemini Flash。Omni选择将Flash作为底座模型，大概率更多是出于成本以及延迟方面的相关考量。至于这究竟是对Flash多模态能力的信心，还是商业层面的成本考量，谷歌并没有对外界做出说明

Spark是一款通用的AI智能体，它可以跨平台对关联应用当中所包含的信息开展推理相关的工作，同时还能够帮助用户管理他们的数字生活，并且可以代表用户去执行一些相关的操作。从下周开始，这款功能将会先向那些受到信任的测试用户以及AI Ultra的订阅用户开放。谷歌官方的博客当中提到，Spark代表着Gemini所经历的一次重大转变，它从一个仅仅能够回答问题的助手，转变成了一个可以主动去完成真实工作的合作伙伴。需要特别留意的是，Spark目前还处在测试的阶段，它实际所具备的能力还有待进一步去验证。

Flash作为整个系统的底座，Omni则承担起多模态引擎的角色，Spark则是面向用户的触达层。 这三个部分组合到一起，才是谷歌想要向外界讲述的那个故事：他们并不是单纯售卖某个模型，而是想要售卖一套可以看、可以动，还能够帮你开展各类工作的AI系统。

关于Omni和Sora的对比。OpenAI在2026年3月24日彻底关闭了Sora应用。Sora关停的缘由是多重的：据报道运营成本极高而商业回报极低，OpenAI与Disney的10亿美元合作意向随Sora关停同步终止（双方从未正式签约），此外还有版权诉讼和deepfake争议的压力。Omni面临同样的版权、deepfake和商业变现风险——这些不是“跑在Flash上更省算力”可以解决的。 谷歌借助Flash来运行Omni可能在部署成本上有优势，但Sora的死因从来不是算力效率不够。Omni能否绕过Sora踩过的坑，目前完全未知。 Omni和Spark都处于早期阶段，Omni的物理模拟精度、Spark跨平台操作的安全边界——这些问题都还没有答案。
在这里插入图片描述
【图片来源】Unsplash

五、到底好不好用？

1.要是你所需要的，是一款能够实实在在投入使用、完成各类工作任务的AI工具

在涉及agent工作流、代码执行以及工具调用，还有高吞吐低延迟的这类场景当中，3.5 Flash可以说是目前市面上值得去考虑的选择之一。

但需要留意的是，Computer Use这项功能已经被取消了，要是你平时比较依赖这个功能的话，那么3.5 Flash版本就没办法正常使用了。

2.如果你需要深度推理、复杂学术分析、长文档精读

3.5 Flash不适合。 默认thinking effort降到了medium，它在推理深度方面比不上上一代的Pro版本，我们可以暂且先等待3.5 Pro。

3.如果你预算敏感，本来用Flash-Lite就够了

3.5 Flash的涨价幅度并不值得硬上。 它的输入以及输出价格都比Flash-Lite贵上6倍。并且现在3.5 Flash是Gemini App的默认模型，要是轻度用户不手动切回旧模型，那么就会直接被涨价。

4.如果你本来就在用Pro级模型跑agent任务

将模型迁移到3.5 Flash版本，大概率是可以实现降本增效的。

但Artificial Analysis的数据显示，要是开启high thinking档的话，3.5 Flash反而要比3.1 Pro贵上74%，这笔花销其实需要结合具体的使用场景来好好计算一下。

所以“好不好用”的答案其实取决于你到底把它拿来做什么。

3.5 Flash在某些维度上表现得比较强劲，不过在另外一些维度上则出现了退步的情况，还有一部分功能被做了删减处理。要是你刚好需要它所擅长的那几项能力的话，它就是目前市面上值得加以考虑的模型之一。要是你所期待的是实现全面超越的话，那么你大概率会感到失望。

5.最大的不确定性

3.5 Pro还没出来。 皮查伊提到，这款产品在性能方面确实展现出了相当大程度的提升，不过他并没有给出任何和这相关的具体数据。

如果Pro不够强 → Flash相较于上一代Flash出现了大幅涨价这件事，其说服力就会被明显地削弱掉。
如果Pro很强 →Flash作为“够用且便宜”的这个定位也就能够得以成立了。

科技感结尾图

【图片来源】Unsplash

本文仅供参考，并不构成投资或是技术选型的建议。文中所引用的社区反馈均为个人体验，并不代表普遍的情况。所有benchmark数据以及定价信息请以官方最新发布的内容为准。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【AI开发】MCP 介绍与实践—— C++实现简易mcp服务

AtomGit开源社区

nginx 1.31.1 发布：一次安全修复驱动的主线升级，涉及 Rewrite、HTTP/2、Mail、MP4 与工作流修正

修复 set-creation-date.yaml 工作流MP4：避免添加或比较空指针HTTP/2：限制 Content-Type 和 Location 响应头长度Mail：修复错误路径Rewrite：加强 escape flags 控制Rewrite：修复重叠捕获导致的缓冲区溢出Rewrite 缓冲区溢出修复Rewrite 相关安全加固HTTP/2 响应头限制Mail 错误路径修复MP4 空指针