5月20日,谷歌在I/O开发者大会上宣布全面进入“智能体Gemini时代”,推出多项AI技术革新与产品升级。

图片

硬件算力与基础模型双双提速降本,多模态交互变得像人类对话一样自然,以智能体为核心的全新工作流正在重塑搜索、电商、创意设计以及前沿科学等所有数字化场景。

谷歌正从“AI功能堆砌”转向构建覆盖信息、创作、交易的“行动系统”,推动AI从对话框走向日常任务执行。

算力与模型构建底层新基建

所有上层建筑的繁荣离不开底层算力的支撑。谷歌第八代TPU,首次采用了双芯片路线,将训练和推理彻底分开优化。

训练芯片TPU 8t的原始算力接近上一代的3倍,面向大规模预训练。配合全新的基础设施,训练任务不再受限于单个超大数据中心,最高可以跨全球调动超过100万颗TPU。

推理芯片TPU 8i专注降低延迟和提升生成速度。在现场的演示中,用即将发布的Flash模型生成一个小游戏,屏幕上的输出速度接近每秒1500个Token。

图片

模型层面,谷歌放出了Gemini 3.5 Flash。

名为Flash,但这次3.5 Flash在编码、智能体能力和工具调用上都大幅超越了上一代的3.1 Pro。

图片

在衡量真实世界经济价值任务的GDPval-AA测试中,3.5 Flash拿到1656 Elo,远超3.1 Pro的1314 Elo。

在纯抽象推理和世界知识的测试上,3.5 Flash稍有逊色。牺牲一部分纯理论知识,换来干活能力的全面暴涨。

这代模型的输出速度比其他前沿模型快4倍,价格亲民。

图片

输入1.50美元每百万Token,输出9.00美元每百万Token,比3.1 Pro便宜了40%。模型的知识截止日期更新到了2025年1月,上下文窗口100万Token。

至于满血旗舰版Gemini 3.5 Pro,下个月见。

图片

除了文本主导的模型,谷歌还推出了全新的多模态世界模型Gemini Omni Flash。它能根据任何输入创造出任何东西。

图片

Omni模型对物理世界有着直觉般的理解。

图片

你能用一段简单的话让它生成蛋白质折叠的黏土动画,

图片

也能传一段自拍视频进去,保留人物的动作表演,把背景和周围环境随意更换。

图片

目前的Omni Flash是该家族的首个模型,整体效果仍有优化空间,满血版的Omni Pro已经在路上了。

图片

智能体全面接管数字生活

Agent(智能体)是贯穿所有发布产品的灵魂。技术开发和日常生活中,智能体正在成为新的底层逻辑。

开发者平台Antigravity迎来了2.0版本大更新。全球可用的Antigravity CLI将彻底取代旧版命令行工具。开发者还可以把谷歌内部使用的Agent Harness直接部署到自己的服务器上。

图片

使用Antigravity,配合Gemini 3.5 Flash,速度提升了12倍。

12个小时内,93个子智能体并行工作,发出了超过1.5万次模型请求,处理了26亿Token,能从零构建一个功能完善的操作系统核心。你甚至可以在这个AI写出来的系统里跑命令行、放动画、玩《毁灭战士》。这在Gemini 3.1 Pro上是不可能完成的。

普通消费者的智能体叫Gemini Spark,谷歌版的OpenClaw。这相当于你在云端雇了一个私人助理。

图片

在工作中,你可以让Spark翻阅各种文档、邮件和聊天记录,用你习惯的语气给团队写一份周报。

在生活里,筹办一场街区派对变得异常简单。Spark会在表格里建立实时追踪表,自动通过邮箱跟进邻居的回复,发现没回复的还会拟好催促邮件。它甚至能自己去网盘里翻出小区的业主公约,提醒你周五下午之前不能布置充气城堡,最后顺手帮你做一份精美的派对宣传幻灯片。

为了配合Spark的云端消耗,谷歌调整了订阅价格体系。新推出每月100美元的Ultra计划,提供5倍用量、20TB存储并优先使用Antigravity。原先每月250美元的顶配计划降价至200美元。

安卓系统也迎来了专属的智能体监控区域Android Halo。状态栏顶部会实时显示智能体正在后台忙什么、进展到了哪一步、需不需要你确认。

图片

以前的手机UI是为App服务的,未来的UI是为智能体服务的。

Gemini App本身也进行了全面重构,采用了名为Neural Expressive的全新设计语言。

图片

在APP里,Daily Brief功能会每天早上翻阅你的邮箱和日历,提炼出当天最重要的事情并建议下一步行动。

NotebookLM也与Gemini实现了彻底打通,支持上传EPUB格式电子书,能一键把成堆的资料生成为带动画的电影级讲解视频,或者选择手绘、黏土等10种预设风格的信息图。

新发的模型都接入了Gemini App,而且谷歌家的各种应用也用Agents通过语音连接了起来。

图片

动嘴不动手的体验延伸到了办公套件里。

在Docs Live中,你只要对着麦克风随意思考和说话,想到什么就说什么,甚至中途改口纠正,Gemini会自动帮你整理出一份格式完美的文档。

今年夏天,这套语音功能还会接入Gmail Live和Google Keep的实时模式。

搜索与电商架构大重构

每月活跃用户突破10亿的AI Mode搜索迎来了底层升级。传统的搜索框现在支持扔进去图片、文件和视频,进行跨模态理解。搜索结果页和对话式追问实现了无缝整合。

你可以在搜索里创建Search Agents(搜索智能体)。

图片

比如你想盯某只特定财务指标的生物科技股,智能体会7乘24小时在后台盯着市场,过滤掉噪音,只把核心的异动信息推送给你。找房子、盯球鞋发售,全都可以丢给后台智能体去办。

搜索甚至具备了实时写代码建界面的能力。这正是UI服务Agents的具体表现。

图片

当你询问黑洞如何影响时空,搜索后台会调用隔离的智能体环境,实时写代码、跑渲染,直接在搜索结果里给你生成一个带各种参数滑块、可以拖拽互动的可视化页面。

图片

问周末带家人去哪玩,它能直接给你码出一个包含行车时间、天气、餐厅预约的互动日程表。

谷歌全家桶的其他产品也顺势完成了搜索形态的进化。

地图产品迎来了十年最大升级Ask Maps。

Ask YouTube能让你直接提问“怎么教会骑平衡车的3岁小孩骑自行车”,它会帮你整理出知识概览,并直接跳到最对口的视频片段,还能结合上下文继续追问

电商领域的升级直接触及了商业底座,推出了完整的三件套协议和产品。

基础是UCP(Universal Commerce Protocol,通用商业协议)。这是智能体电商时代的HTTP,为智能体购物制定了通用规则,已经获得了亚马逊、Meta、微软、Salesforce等巨头的加入支持。

图片

伴随而来的是AP2(Agent Payments Protocol,智能体支付协议)。它解决了让AI花钱的安全顾虑。你可以设定具体品牌、具体商品和金额上限三道护栏,全部满足后智能体才会下单。每一笔交易都有防篡改的数字授权书作为凭证。

基于这两套协议,谷歌推出了Universal Cart(通用购物车)。

你在搜索里、聊天中、看视频时、甚至读邮件时看到心仪的商品,都能直接扔进这个跨商家的智能购物车。它会在后台帮你找折扣、盯库存。

如果你买了一块主板和一块CPU,它还会主动检查两者的接口型号是否匹配,不匹配会立刻提醒你更换。

创意工具与科学研究全面开花

设计与创意工具在这一波技术浪潮中全面提效。

Google Pics作为工作空间里的新面孔,专攻图像创作与编辑。它支持精准的目标分割,你可以选中图片里的一只狗,把它变成猫,或者单独更改毛衣的颜色,背景原封不动。

UI设计工具Stitch支持实时语音协作。两个完全不懂设计的人只要对着屏幕提要求,比如“标题字大一点”、“菜单突出披萨选项”,界面就会实时响应修改,还能直接导出代码一键发布。

整合了工作流的Google Flow创意工作室带来了四项更新。接入Omni模型后可以保留原始表演动作只改环境特效。单张图片现在能依靠智能体同时生成16段不同机位和镜头语言的视频。

图片

大规模场景修改能让一段视频里的时间从清晨一键切换到深夜,光影自洽。你还能在工具库里自定义手绘动画或文字图层特效。

Flow Music展示了强大的混音能力。随便录一段钢琴弹奏扔进去,提示它“往R&B方向走,加女声”,系统直接生成一首制作精良的完整曲目。

AI生成内容的泛滥让内容鉴伪成了刚需。

SynthID水印技术目前已经标记了超过1000亿张图文视频和累计6万年时长的音频。

在Chrome浏览器里,你只要右键点击图片就能查验真伪。

OpenAI也与Kakao、ElevenLabs等公司一起加入了SynthID阵营,共同应对虚假信息的泛滥。

图片

硬件载体方面,Android XR智能眼镜分为两条产品线。

带镜片显示屏的版本会在今年晚些时候扩大测试。今年秋天首发的将是音频眼镜。这款眼镜由Gentle Monster和Warby Parker设计外观,三星制造硬件,同时支持苹果和安卓系统。

科学领域的探索体现了技术的终极价值。Gemini for Science包含假设生成器、计算发现引擎和科学技能包,能让复杂的医药数据分析时间从几个小时压缩到几分钟。

图片

AI天气预报模型Weather Next成功提前3天预测到了梅丽莎飓风的路径,比传统模型更准,为当地争取了宝贵的撤离时间。

代码安全领域推出了Code Mender,能自动寻找并修复安全漏洞。谷歌旗下的Isomorphic Labs正在用AI加速针对免疫疾病和癌症的新药研发。

从底层算力到前沿科学,从日常琐事到宏大叙事,谷歌AI正在以一种前所未有的姿态渗透进真实世界。

参考资料:

https://www.youtube.com/watch?v=wYSncx9zLIU

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐