转写来源:产品君 | B站 | 时长:3 分钟
信息来源:Bilibili多频道视频Ai好记转写


前言

AI 圈一周一个样。本周(5月24日)信息密度堪称近期之最——从 Agent 能力飞跃、多模态模型统一,到世界模型、最强同声传译,甚至光学计算底层突破,全都有。


一、Stitch Agent × Codex:AI 开始"自己干活"了

Stitch Agent PPT 插件

  • 接入文档数据,一键生成可编辑幻灯片
  • 自动保留公司模板,还能生成总结报告
  • 对产品经理和运营来说,做 PPT 的时间至少砍一半

Codex 远程任务模式升级

  • 支持熄屏远程工作
  • AI 自主规划 → 执行 → 直到任务完成,无需人工干预
  • 意味着:你下班了,你的 AI Agent 还在后台帮你跑代码、跑测试

一句话评价:AI 从"问一句答一句",进化到"交给它,你去睡觉"。


二、大模型科研与创作能力双突破

OpenAI 新模型:推翻 80 年数学难题

  • 不只是解题,而是原创性发现
  • AI Co-Scientist 科研团队工具,直接辅助科学研究

Google 统一多模态模型

  • 任意模态输入 → 任意模态输出(文本/图像/视频/音频)
  • AI 画布支持语音改稿 + UI 动效实时预览
  • 视频编辑一体化,剪辑师的工作流被大幅简化

三、AI 应用生成 & 多 Agent 实验

AI Studio:一句话生成安卓应用

  • 自然语言描述需求 → 直接生成可安装的 APK
  • 门槛低到:会说话就能做 App

Gemini 3.5 发布,三巨头对决升级

  • Gemini / Claude / GPT 三个顶级模型同台竞技
  • 竞争越激烈,开发者越受益

Agent 管理小镇文明实验 🏘️
四个模型分别管理虚拟小镇,结果很有意思:

模型 小镇表现
Claude 秩序井然,零犯罪,极其稳定
Gemini 魔幻风格,最终自我毁灭
GPT 全员躺平,全部饿死
混合小镇 Claude 被其他模型"带坏"

启示:多 Agent 协作中,环境和文化会互相传染,这对设计 AI 团队有重要参考价值。


四、国内大模型 & 多模态进展

阿里国产大模型

  • 编码与智能体能力突出,综合跑分接近 GPT-4
  • 国内大模型"能用"到"好用"的临界点已经到了

字节开源统一多模态模型

  • 图像、视频生成与编辑一体化
  • 降低了内容创作者的工具切换成本

腾讯开源专业翻译模型 🌐

  • 各领域专业术语翻译准确率大幅提升
  • 在细分场景(法律、医疗、技术等)比通用模型更可靠

五、世界模型 & 数字内容生成

Odyssey 多模态世界模型

  • 接入 Google 街景,创造完整虚拟世界
  • 多模态演化 + 多智能体互动
  • AI 原生游戏雏形已现

Agora-1 多智能体世界模型

  • 支持 4 玩家同时在虚拟世界互动
  • 游戏开发者的新工具链

阿里直播试穿模型

  • 模特图 + 服装生成 → 直播实时换装
  • 电商直播成本将大幅下降

LongCat 数字人模型

  • 角色音频生成 + 自然口播视频
  • 支持多人对话,AIGC 创作门槛再降低

室内设计世界模型 + VR 浏览

  • 视频版 Stitch Agent 意图捕捉
  • 室内设计从"看效果图"进化到"沉浸式走进去"

六、语音技术与光学计算突破 🎙️

最强语音识别模型

  • 实时录音 → 准确转录文字
  • 方言、口音、噪声环境都能应对

阿里实时翻译语音模型 🌏

  • 边听边翻 + 音色实时克隆
  • AI 进化成了随身同声传译
  • 出国旅游、国际会议、跨境商务,这工具直接顶上去

光学计算重大突破 💡️

特性 说明
粒子类型 光物质混合粒子(兼具光子和物质特性)
传输速度 光速,无电阻发热
相互作用 强相互作用力,信息处理能力极强
意义 取代电子,终结 AI 耗电问题
前景 科学家已验证全光切换,未来 AI 算力比电更便宜

为什么说这是革命:当前 AI 最大的瓶颈不是算法,是电和散热。光计算从物理层面解决了这个问题,相当于给 AI 换了"永动机"。


总结:本周 AI 三大趋势

1. Agent 从"工具"进化成"同事"

Stitch Agent 做 PPT、Codex 远程跑任务,AI 不再等你指令,而是主动规划、自主完成

2. 多模态统一 + 世界模型打通虚实

从 Odyssey 的虚拟世界到直播试穿,AI 正在把物理世界和虚拟世界连成一张网。

3. 底层算力革命正在发生

光物质混合粒子的发现,可能让未来 AI 的算力成本比现在便宜几个数量级

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐