谷歌I/O 2026震撼发布：全面进入智能体Gemini时代

SuaniCommunity

321人浏览 · 2026-05-21 23:27:50

SuaniCommunity · 2026-05-21 23:27:50 发布

5月20日，谷歌在I/O开发者大会上宣布全面进入“智能体Gemini时代”，推出多项AI技术革新与产品升级。

硬件算力与基础模型双双提速降本，多模态交互变得像人类对话一样自然，以智能体为核心的全新工作流正在重塑搜索、电商、创意设计以及前沿科学等所有数字化场景。

谷歌正从“AI功能堆砌”转向构建覆盖信息、创作、交易的“行动系统”，推动AI从对话框走向日常任务执行。

算力与模型构建底层新基建

所有上层建筑的繁荣离不开底层算力的支撑。谷歌第八代TPU，首次采用了双芯片路线，将训练和推理彻底分开优化。

训练芯片TPU 8t的原始算力接近上一代的3倍，面向大规模预训练。配合全新的基础设施，训练任务不再受限于单个超大数据中心，最高可以跨全球调动超过100万颗TPU。

推理芯片TPU 8i专注降低延迟和提升生成速度。在现场的演示中，用即将发布的Flash模型生成一个小游戏，屏幕上的输出速度接近每秒1500个Token。

模型层面，谷歌放出了Gemini 3.5 Flash。

名为Flash，但这次3.5 Flash在编码、智能体能力和工具调用上都大幅超越了上一代的3.1 Pro。

在衡量真实世界经济价值任务的GDPval-AA测试中，3.5 Flash拿到1656 Elo，远超3.1 Pro的1314 Elo。

在纯抽象推理和世界知识的测试上，3.5 Flash稍有逊色。牺牲一部分纯理论知识，换来干活能力的全面暴涨。

这代模型的输出速度比其他前沿模型快4倍，价格亲民。

输入1.50美元每百万Token，输出9.00美元每百万Token，比3.1 Pro便宜了40%。模型的知识截止日期更新到了2025年1月，上下文窗口100万Token。

至于满血旗舰版Gemini 3.5 Pro，下个月见。

除了文本主导的模型，谷歌还推出了全新的多模态世界模型Gemini Omni Flash。它能根据任何输入创造出任何东西。

Omni模型对物理世界有着直觉般的理解。

你能用一段简单的话让它生成蛋白质折叠的黏土动画，

也能传一段自拍视频进去，保留人物的动作表演，把背景和周围环境随意更换。

目前的Omni Flash是该家族的首个模型，整体效果仍有优化空间，满血版的Omni Pro已经在路上了。

智能体全面接管数字生活

Agent（智能体）是贯穿所有发布产品的灵魂。技术开发和日常生活中，智能体正在成为新的底层逻辑。

开发者平台Antigravity迎来了2.0版本大更新。全球可用的Antigravity CLI将彻底取代旧版命令行工具。开发者还可以把谷歌内部使用的Agent Harness直接部署到自己的服务器上。

使用Antigravity，配合Gemini 3.5 Flash，速度提升了12倍。

12个小时内，93个子智能体并行工作，发出了超过1.5万次模型请求，处理了26亿Token，能从零构建一个功能完善的操作系统核心。你甚至可以在这个AI写出来的系统里跑命令行、放动画、玩《毁灭战士》。这在Gemini 3.1 Pro上是不可能完成的。

普通消费者的智能体叫Gemini Spark，谷歌版的OpenClaw。这相当于你在云端雇了一个私人助理。

在工作中，你可以让Spark翻阅各种文档、邮件和聊天记录，用你习惯的语气给团队写一份周报。

在生活里，筹办一场街区派对变得异常简单。Spark会在表格里建立实时追踪表，自动通过邮箱跟进邻居的回复，发现没回复的还会拟好催促邮件。它甚至能自己去网盘里翻出小区的业主公约，提醒你周五下午之前不能布置充气城堡，最后顺手帮你做一份精美的派对宣传幻灯片。

为了配合Spark的云端消耗，谷歌调整了订阅价格体系。新推出每月100美元的Ultra计划，提供5倍用量、20TB存储并优先使用Antigravity。原先每月250美元的顶配计划降价至200美元。

安卓系统也迎来了专属的智能体监控区域Android Halo。状态栏顶部会实时显示智能体正在后台忙什么、进展到了哪一步、需不需要你确认。

以前的手机UI是为App服务的，未来的UI是为智能体服务的。

Gemini App本身也进行了全面重构，采用了名为Neural Expressive的全新设计语言。

在APP里，Daily Brief功能会每天早上翻阅你的邮箱和日历，提炼出当天最重要的事情并建议下一步行动。

NotebookLM也与Gemini实现了彻底打通，支持上传EPUB格式电子书，能一键把成堆的资料生成为带动画的电影级讲解视频，或者选择手绘、黏土等10种预设风格的信息图。

新发的模型都接入了Gemini App，而且谷歌家的各种应用也用Agents通过语音连接了起来。

动嘴不动手的体验延伸到了办公套件里。

在Docs Live中，你只要对着麦克风随意思考和说话，想到什么就说什么，甚至中途改口纠正，Gemini会自动帮你整理出一份格式完美的文档。

今年夏天，这套语音功能还会接入Gmail Live和Google Keep的实时模式。

搜索与电商架构大重构

每月活跃用户突破10亿的AI Mode搜索迎来了底层升级。传统的搜索框现在支持扔进去图片、文件和视频，进行跨模态理解。搜索结果页和对话式追问实现了无缝整合。

你可以在搜索里创建Search Agents（搜索智能体）。

比如你想盯某只特定财务指标的生物科技股，智能体会7乘24小时在后台盯着市场，过滤掉噪音，只把核心的异动信息推送给你。找房子、盯球鞋发售，全都可以丢给后台智能体去办。

搜索甚至具备了实时写代码建界面的能力。这正是UI服务Agents的具体表现。

当你询问黑洞如何影响时空，搜索后台会调用隔离的智能体环境，实时写代码、跑渲染，直接在搜索结果里给你生成一个带各种参数滑块、可以拖拽互动的可视化页面。

问周末带家人去哪玩，它能直接给你码出一个包含行车时间、天气、餐厅预约的互动日程表。

谷歌全家桶的其他产品也顺势完成了搜索形态的进化。

地图产品迎来了十年最大升级Ask Maps。

Ask YouTube能让你直接提问“怎么教会骑平衡车的3岁小孩骑自行车”，它会帮你整理出知识概览，并直接跳到最对口的视频片段，还能结合上下文继续追问

电商领域的升级直接触及了商业底座，推出了完整的三件套协议和产品。

基础是UCP（Universal Commerce Protocol，通用商业协议）。这是智能体电商时代的HTTP，为智能体购物制定了通用规则，已经获得了亚马逊、Meta、微软、Salesforce等巨头的加入支持。

伴随而来的是AP2（Agent Payments Protocol，智能体支付协议）。它解决了让AI花钱的安全顾虑。你可以设定具体品牌、具体商品和金额上限三道护栏，全部满足后智能体才会下单。每一笔交易都有防篡改的数字授权书作为凭证。

基于这两套协议，谷歌推出了Universal Cart（通用购物车）。

你在搜索里、聊天中、看视频时、甚至读邮件时看到心仪的商品，都能直接扔进这个跨商家的智能购物车。它会在后台帮你找折扣、盯库存。

如果你买了一块主板和一块CPU，它还会主动检查两者的接口型号是否匹配，不匹配会立刻提醒你更换。

创意工具与科学研究全面开花

设计与创意工具在这一波技术浪潮中全面提效。

Google Pics作为工作空间里的新面孔，专攻图像创作与编辑。它支持精准的目标分割，你可以选中图片里的一只狗，把它变成猫，或者单独更改毛衣的颜色，背景原封不动。

UI设计工具Stitch支持实时语音协作。两个完全不懂设计的人只要对着屏幕提要求，比如“标题字大一点”、“菜单突出披萨选项”，界面就会实时响应修改，还能直接导出代码一键发布。

整合了工作流的Google Flow创意工作室带来了四项更新。接入Omni模型后可以保留原始表演动作只改环境特效。单张图片现在能依靠智能体同时生成16段不同机位和镜头语言的视频。

大规模场景修改能让一段视频里的时间从清晨一键切换到深夜，光影自洽。你还能在工具库里自定义手绘动画或文字图层特效。

Flow Music展示了强大的混音能力。随便录一段钢琴弹奏扔进去，提示它“往R&B方向走，加女声”，系统直接生成一首制作精良的完整曲目。

AI生成内容的泛滥让内容鉴伪成了刚需。

SynthID水印技术目前已经标记了超过1000亿张图文视频和累计6万年时长的音频。

在Chrome浏览器里，你只要右键点击图片就能查验真伪。

OpenAI也与Kakao、ElevenLabs等公司一起加入了SynthID阵营，共同应对虚假信息的泛滥。

硬件载体方面，Android XR智能眼镜分为两条产品线。

带镜片显示屏的版本会在今年晚些时候扩大测试。今年秋天首发的将是音频眼镜。这款眼镜由Gentle Monster和Warby Parker设计外观，三星制造硬件，同时支持苹果和安卓系统。

科学领域的探索体现了技术的终极价值。Gemini for Science包含假设生成器、计算发现引擎和科学技能包，能让复杂的医药数据分析时间从几个小时压缩到几分钟。

AI天气预报模型Weather Next成功提前3天预测到了梅丽莎飓风的路径，比传统模型更准，为当地争取了宝贵的撤离时间。

代码安全领域推出了Code Mender，能自动寻找并修复安全漏洞。谷歌旗下的Isomorphic Labs正在用AI加速针对免疫疾病和癌症的新药研发。

从底层算力到前沿科学，从日常琐事到宏大叙事，谷歌AI正在以一种前所未有的姿态渗透进真实世界。

参考资料：

https://www.youtube.com/watch?v=wYSncx9zLIU

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Prometheus - 监控 K8s 集群：kube-state-metrics 集成与全维度监控

AtomGit开源社区

从零到一：Flex布局入门指南

AtomGit开源社区

大语言模型处理大规模代码的认知误区与合理实践

在网页端或客户端应用中，向大语言模型上传包含百万行代码的独立文件，无法使模型突破自身上下文窗口的限制。从模型单次可承载的信息总量来看，文件上传操作与在输入框内直接复制粘贴文本，二者不存在本质区别。文件上传功能本质上是客户端与服务端之间的传输优化方案，其背后依赖的RAG技术，是通过“切片-检索-注入”的方式，让模型在海量文档中快速定位有效信息，而非让模型一次性读取完整文档。