谷歌 I/O 2026：从算法工程师视角看，这一届把“代理”玩得有点意思

Funny_AI_LAB

371人浏览 · 2026-05-21 21:28:11

Funny_AI_LAB · 2026-05-21 21:28:11 发布

作为一名算法工程师，日常工作围绕模型训练、系统优化、多模态对齐和落地部署这些事儿。每年谷歌 I/O 我基本都会完整看完 keynote 和部分开发者 session，今年也不例外。看完后的总体感受是：谷歌这一届没有特别炸裂的单一突破，但把之前零散的 AI 能力系统性地往“Agentic”（代理式）方向收拢，基础设施搭得越来越扎实，有种“该准备的都准备得差不多了”的踏实感。

一、模型层面：Gemini 3.5 与 Omni 的实用升级

今年模型更新主要两块：Gemini 3.5 系列（Flash 先发，Pro 随后）和 Gemini Omni（重点在 Omni Flash）。在这里插入图片描述

Gemini 3.5 Flash 被定位为“frontier intelligence with action”，在 agentic 任务、长上下文、多步规划和 coding 上有明显提升。据说在输出 tokens per second 上比一些前沿模型快 4 倍，这对实际部署意义很大。以前我们做 agent 系统，最头疼的就是推理成本和延迟——模型再聪明，如果跑一次要等半天，谁敢大规模用？Flash 版在保持较高智能水平的同时，把“够快、够便宜、能长时间跑”这个三角平衡得更好，这点让我这种做落地的人觉得靠谱。
在这里插入图片描述

Omni 则更偏向世界模型（world model）。它强调“任意输入生成任意输出”，目前重点在视频：支持文本、图像、音频、视频混合输入，进行生成和自然语言编辑。演示里能对真实视频进行对话式修改、加特效、改变物理表现，还特别提到对重力、动能等物理规律的理解更到位。

作为做过一段时间多模态的工程师，我知道模态对齐和时序建模一直是硬骨头。Omni 在这方面的推进，看起来不是简单堆数据，而是试图让模型对“物理世界连续性”的理解更深。未来如果这个方向走通，对机器人仿真、视频内容生成、甚至 AR/VR 场景的算法研究都会有不小的带动。当然，现在还处于早期，consistency（一致性）和长视频 coherence 这些老问题肯定还在，但方向是对的。

二、Agentic AI：从工具到能真正“执行”的系统

这一届最核心的主题就是 Agentic AI。谷歌不再满足于聊天式助手，而是把代理能力深度嵌入搜索、Workspace、YouTube 等核心产品。在这里插入图片描述

亮点产品有 Gemini Spark：一个能 24/7 在后台运行的个人代理，支持处理邮件、日程、Drive 文件，执行多步复杂任务，还推出了 Daily Brief（个性化每日摘要）。Universal Cart 则把代理延伸到购物场景——跨网站追踪商品、AI 推荐、价格监控、一键购买。搜索也升级为 agentic search，能根据查询动态生成解释性界面、仪表盘甚至小应用。
在这里插入图片描述
从算法视角看，构建可靠 Agent 面临几个长期挑战：长时记忆管理、规划的鲁棒性、工具调用的纠错机制、以及安全边界控制。谷歌这次的策略是先把 Antigravity 平台（尤其是 2.0 版）做好：支持多代理编排、子代理动态生成、沙箱执行、CLI 和 SDK 等工具。开发者可以用一个 API 调用就起一个带远程沙箱的托管代理，这大大降低了构建门槛。

这套打法很务实——不急着宣称“全能代理”，而是先把执行基建和生态闭环做好。未来我们可能看到更多“代理编排”相关的论文和工程实践：如何高效调度异构子代理、如何做 hierarchical planning、如何在不确定环境中持续纠错。这些都是算法工程师接下来几年值得深挖的方向。

三、硬件与 XR：智能眼镜的实际落地

硬件部分最让我感兴趣的是 Android XR 智能眼镜。今年秋季先推出音频版（与 Samsung 等合作），支持 Gemini 实时语音交互、实时翻译、看世界并描述等功能，后续会有带显示屏的版本。
在这里插入图片描述

这不是科幻概念落地那么简单，而是对边缘多模态推理和低功耗持续运行提出了很高要求。以前我们讨论 on-device 模型时，常纠结于算力、热量和电池。现在从轻量音频眼镜切入，是一个相对现实的路径。如果未来眼镜真正日常化，算法需要解决的问题会从“单次查询”转向“长时间、多轮、上下文感知的交互规划”，这块的挑战和机会都很大。

四、一些有趣的未来发展方向

开发者工具的“AI 写 AI”加速：Antigravity 2.0 能帮开发者生成资产、调试、甚至整个应用流程。演示里还有用它玩 Doom 的趣味案例。这意味着“人机协同编码”会变得更深度，算法工程师可能需要更多思考：如何定义清晰的 agent 接口？如何评估代理生成代码的质量和安全性？
内容生成与可信度：Omni + SynthID 水印的组合，显示谷歌在生成内容爆炸的背景下，开始认真对待溯源问题。这对整个行业是利好，但也提醒我们，检测生成内容和对抗攻击的算法研究仍有很大空间。
更长远的影响：当代理可靠度足够高、眼镜足够普及后，人的工作流和信息获取方式会发生结构性变化。算法研究的重心可能从“单模型能力”转向“系统级智能”——多代理协作、世界模型构建、个性化长期记忆、跨设备一致性等。这些方向既需要顶尖的理论创新，也需要大规模工程验证，对我们从业者来说，是压力也是兴奋点。

总的来说，2026 这一届 I/O 更像是一场“基础设施成熟礼”：模型更快更行动导向，代理平台更易用，生态闭环更完整，硬件尝试也更接地气。对算法工程师而言，这意味着接下来几年，我们不能只埋头训大模型，还要更多关注如何把智能真正“用起来”、 “管起来” 和 “戴在身上”。

你对这一届 I/O 有什么看法？是看好 Agentic 时代的真正到来，还是觉得可靠性还差临门一脚？欢迎在评论区一起讨论。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

PP-OCRv5 ONNX部署但使用OnnxOCR

AtomGit开源社区

部署Wan 2.2文生视频并通过拼接生成长视频的实践

AtomGit开源社区

为什么大厂都在抛弃 Python？——2026 年编程语言的真实格局

Python 的底层是 C，但 Python 本身是解释执行。当模型推理需要亚毫秒级延迟、流式数据需要 GB/s 吞吐时，Python 的 VM 调度、对象创建与 GC 停顿成为硬瓶颈。尽管有 numba、pybind11、Cython 等方案，但开发成本陡增，且破坏了“Python 简洁”的初衷。