本周国内外AI领域密集发布多项重磅成果:大模型方面,稀宇、京东、阿里、OpenAI、火山引擎、Google、腾讯、阶跃星辰、Kimi、Anthropic等先后推出音乐、具身、图像、视频、量子、机器人、3D、语音、编程、安全等各类模型;AI Agent领域,字节、MiniMax、Anthropic等升级智能体系统与桌面能力,实现跨端操控与自我进化;AI工具与技术上,面壁智能、Google、阿里、OpenAI推出文档、浏览器、低代码开发、Agent开发等工具;市场层面,斯坦福AI指数显示中美差距仅2.7%,Anthropic推出Claude强制实名引发争议,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

稀宇科技推出新一代AI音乐生成模型「MiniMax Music 2.6」

4月10日,稀宇科技正式推出新一代AI音乐生成模型「MiniMax Music 2.6」,通过优化国风演奏细节、中低频声学表现、人声律动与段落理解力,首包延迟降至20秒内;新增精准Cover功能,实现生成速度、指令控制与音质全面升级,同步开源三款音乐Skill支持Agent原生调用音乐生成能力,开启全球创作内测并提供14天限免体验,助力普通用户与开发者低成本完成高质量音乐创作。

参考:MiniMax Music 2.6:我们想讲四个人的故事

灵初智能推出「Psi-R2」与「Psi-W0」双系统具身模型

4月11日,灵初智能凭借10万小时大规模人类操作全模态数据集(含1000小时开源),推出「Psi-R2」与「Psi-W0」双系统具身模型,登顶MolmoSpace全球权威榜单,任务成功率远超同类模型,通过人类数据训练、双模型协同与数据飞轮实现机器人高效落地,同步推进数采厂建设与生态合作,以开源共建加速具身智能商业化。

参考:中国具身模型狂揽全球第一!机器人的人类数据时代来了

京东开源240亿参数的图像模型「JoyAI-Image-Edit」

4月11日,京东开源240亿参数的图像模型「JoyAI-Image-Edit」,将空间智能纳入图像理解与编辑,让AI开始处理真实世界中的空间关系,让模型真正“理解空间,编辑空间”。是业内首个内置空间智能的一体化多模态模型,可精准实现相机控制、物体旋转与空间关系操控,兼顾15类通用编辑能力,性能超越同类产品,采用Apache 2.0协议开源,适配电商与具身智能场景,是京东聚焦实体场景、深耕产业落地的AI布局重要成果。

参考:重磅开源!240亿参数力压Nano Banana 2

阿里视频大模型「HappyHorse」内测登顶行业榜单

4月12日消息,阿里ATH旗下创新事业部研发的视频大模型「HappyHorse」目前处于内测阶段,尚未正式上线,网传官网均非官方渠道,近期将开放API;该模型在AI视频评测平台中,文生视频无音频榜单位列第一、含音频榜单与Seedance2.0 720p并列第一,是阿里ATH成立后推出的重要AI产品,属于全新交互方式探索计划的一部分。

参考:阿里:HappyHorse正式与大家见面,还需要一点时间

稀宇科技开源「MiniMax M2.7」模型,全球生态首日全面适配

4月12日,稀宇科技正式开源「MiniMax M2.7」模型,支持自我进化与复杂Agent任务,是Hermes Agent、OpenClaw等智能体工具中广受好评的模型,开源首日已完成与华为昇腾、摩尔线程、沐曦、昆仑芯、NVIDIA等芯片厂商及Together AI、Ollama等海内外推理平台的适配接入,未来将持续联合生态伙伴推进模型优化与生态建设。

参考:MiniMax M2.7开源,携手全球伙伴加速AI生态繁荣

OpenAI发布代号“Spud”的「GPT-6」,200万上下文+6万亿MoE参数全新升级

4月14日,OpenAI正式发布代号“Spud”的「GPT-6」,采用Symphony原生多模态统一架构,支持文本、图像、音频、视频、3D五大模态底层统一编码,幻觉率降至0.1%以下;搭载约6万亿MoE参数,推理仅激活10%-15%专家网络,成本大降,上下文窗口达200万Token,综合性能较GPT-5.4提升40%,代码生成、数学推理等能力大幅增强,将深刻变革编程、专业服务、内容创作等领域,同时也带来安全治理新挑战。

参考:突发!GPT-6将发布: Symphony 多模态架构|200 万 Token 上下文、6万亿 MoE参数,性能较提升 40%!

智在无界正式发布第三代通用具身世界模型「Being‑H0.7」

4月14日,BeingBeyond(智在无界)正式发布第三代通用具身世界模型「Being‑H0.7」,基于20万小时人类视频预训练,创新采用潜空间推理范式,兼顾物理世界理解与交互能力,训练成本低、推理速度快,可在端侧实时部署,在6项国际权威评测中综合全球第一,全面覆盖七大物理交互关键维度,能完成动态轨迹预测、流体与柔性物体操控等复杂任务,重新定义了具身世界模型的技术方向。

参考:BeingBeyond正式发布下一代通用具身世界模型Being-H0.7

火山引擎正式上线「Seedance 2.0」系列API服务

4月14日,火山引擎正式上线全球SOTA级AI视频生成模型「Seedance 2.0」系列API服务并同步登陆海外BytePlus,支持文字、图片、音频、视频四种模态输入,并集成最全面的多模态内容参考与编辑能力,复杂场景可用率、物理准确度、逼真度与可控性显著提升,同时建立肖像与版权安全标准并配套人脸验证、海量虚拟人像等合规创作能力,已在总台春晚、北京国际电影节、上美影IP活化、漫短剧、品牌营销、机器人训练等多领域落地应用。

参考:Seedance 2.0全面开放API服务

NVIDIA推出全球首个开源量子AI模型系列「NVIDIA Ising」

4月14日,NVIDIA推出全球首个开源量子AI模型系列「NVIDIA Ising」,包含校准与解码模型,可实现量子处理器快速自动校准、量子纠错解码速度提升2.5倍且精度提高3倍,有效解决量子计算噪声与扩展性瓶颈,推动量子计算工程化落地,该消息引发美股量子计算概念集体大涨。

参考:昨天,英伟达开源个量子AI,拉爆美股量子计算概念

Google发布「Gemini Robotics-ER 1.6」机器人模型

4月15日,Google发布「Gemini Robotics-ER 1.6」机器人模型,升级视觉空间理解、任务规划与成功判断能力,新增与波士顿动力合作开发的仪表读数功能,借助Agentic Vision技术使读数成功率从23%升至93%、飙升300%,支持Spot机器人自主工业巡检,同时安全性能全面提升,是Google当前最安全的机器人专用模型,已开放API调用。

参考:谷歌深夜大招!机器人学会看仪表盘干活,成功率飙升300%

OpenAI推出仅面向网络安全专家的「GPT-5.4-Cyber」模型

4月15日,OpenAI推出仅面向网络安全专家的「GPT-5.4-Cyber」模型,可无源码分析恶意软件,同时升级网络安全信赖访问计划TAC,遵循准入民主化、迭代式部署、生态韧性投资三大原则,配套的Codex Security工具已自动修复3000余个高危漏洞,此举是对标Anthropic的Claude Mythos,将强AI能力定向开放给防御方,构建AI安全防御体系。

参考:突发!GPT-6将发布: Symphony 多模态架构|200 万 Token 上下文、6万亿 MoE参数,性能较提升 40%!

腾讯混元正式发布并开源「混元3D世界模型2.0」

4月16日,腾讯混元正式发布并开源「混元3D世界模型2.0」(HY-World 2.0),这是可通过文字、图片、视频多模态输入自动生成、重建与模拟3D世界的多模态模型,能输出可二次编辑的Mesh、3DGS等3D资产,无缝对接Unity、UE等游戏引擎与工作流,支持角色漫游与物理碰撞,还可基于视频或多视角图片构建高精度数字孪生空间,其架构全面升级,大幅提升画面精细度与真实感,已开放体验申请并同步开源代码与技术报告。

参考:腾讯混元3D世界模型2.0发布:无缝对接游戏工作流

阿里推出可实时构建和交互的的开放式世界模型产品「HappyOyster」

4月16日,阿里巴巴ATH创新事业部推出可实时构建和交互的的开放式世界模型产品「HappyOyster」并开放内测,支持Directing实时导演、Wandering世界漫游两种核心玩法,用户可实时构建、交互与探索无限生成的虚拟世界,官网已开放Waitlist报名与产品详情查阅。

参考:HappyOyster:可实时构建和交互的开放式世界模型产品,开放内测

阶跃星辰发布新一代语音生成模型「StepAudio 2.5 TTS」

4月16日,阶跃星辰发布新一代语音生成模型「StepAudio 2.5 TTS」,具备全局语境控制、文中语境控制、零样本复刻与全音色控制三大核心能力,支持用自然语言精细调节语音情绪、语气、节奏等细节,降低配音创作门槛,已全量上线阶跃星辰开放平台与Step Plan,可满足多场景高品质语音生成需求。

参考:阶跃 StepAudio 2.5 TTS 上线!人人都能是配音导演

蚂蚁灵波科技正式开源流式三维重建模型「LingBot-Map」

4月16日,蚂蚁灵波科技正式开源流式三维重建模型「LingBot-Map」,仅需普通RGB摄像头即可实现实时流式三维重建,以纯自回归式建模与几何上下文Transformer为核心,兼顾几何精度、时序一致性与运行效率,推理速度达20FPS、支持10000+帧以上长视频稳定推理,在多项权威基准测试中全面领先现有流式与离线方法,已在Hugging Face、魔搭社区及GitHub开源,进一步补齐具身智能实时空间感知技术拼图。

参考:LingBot-Map 正式开源!仅用普通摄像头,让机器人实现实时流式三维重建

「Kimi K2.6-code-preview」上线,Kimi编程能力大幅提升

4月16日消息,月之暗面推出「Kimi K2.6-code-preview」编程大模型,基于K2.5万亿参数MoE架构,上下文达256K Tokens,核心提升推理深度、代理规划与多步工具调用稳定性,社区自测编程评分升至89分,达第一梯队水准,支持多Agent并发不限流、运行稳定,39元/月订阅制性价比突出,但存在推理速度较慢、周额度消耗快的问题,是面向开发者的高实用性国产编程模型。

参考:Kimi K2.6-code上线:国产编程大模型终于找到自己的节奏!

Anthropic发布「Claude Opus 4.7」,视觉拉满实现核心能力跨越式升级

4月17日,Anthropic发布「Claude Opus 4.7」,定位为当前可广泛使用的最强Claude模型,核心升级聚焦复杂任务执行、高清视觉理解与长链路工作流稳定性,视觉能力近乎满分、长上下文与多步骤任务表现大幅提升,编程、生物分子推理等多项基准测试成绩显著领先,超越GPT-5.4与Gemini 3.1 Pro,指令遵循更精准、输出更接近成品,同时安全合规性有保障,但图像与分词器调整会使Token消耗增加,成本上升,该模型让大模型从擅长聊天转向高效完成实际工作,对开发者、分析师等知识工作者助力显著。

参考:Claude Opus 4.7连夜突袭:或将抢走全球7亿打工人饭碗!

AI Agent

字节「扣子2.5」版本重磅升级,Agent生态与生产力能力全面革新

4月12日消息,字节「扣子2.5」版本重磅升级,无需复杂配置开箱即用,搭载云电脑、云手机、长期记忆、专属邮箱、日程系统与共享文件系统,支持7×24小时后台运行,可通过手机对话实现Vibe Coding编程、视频创作、工作流搭建等能力,同时推出AI社交生态「Agent World」,包含技能评测、虚拟酒馆、智能体匹配、博弈娱乐等功能,打造全能型数字生产力伙伴。

参考:本养虾人看哭了!字节扣子2.5出生即满级,手机对话就能Vibe Coding

Nous Research推出的「Hermes Agent」热度全面超越「OpenClaw」

4月13日,Nous Research旗下产品爱马仕智能体「Hermes Agent」热度全面超越「OpenClaw」,GitHub斩获6.6万星,登顶全球编程应用榜首,生产力榜第二,原生接入微信(基于腾讯 iLink Bot API)并覆盖国内主流IM平台,3.99美元即可低成本部署,开箱即用且具备自我进化能力;其团队发布顶会级论文提出「Autoreason」推理方法,指出传统自我优化的缺陷,通过三方锦标赛与盲评机制实现更稳定高效的迭代,在写作与编程任务中表现突出,推动AI推理从盲目迭代走向结构化高效优化。

参考:龙虾让位!硅谷顶流AI「爱马仕」一夜闯进微信,冲上全球第一

MiniMax Agent更新,推出「Pocket」与「Computer Use」两大功能

4月14日,MiniMax发布Agent桌面端更新,推出「Pocket」(Beta)与「Computer Use」两大功能,「Pocket」支持在飞书、微信等主流IM中远程唤起Agent执行电脑任务,「Computer Use」可让Agent像人一样操控鼠标键盘、操作图形界面软件与系统设置,同时通过拆分工具域、统一视觉坐标系统、截图-验证-行动循环及IM端授权管控,提升操作精度、稳定性与安全性,覆盖远程查文件、筛选简历生成文档、调整系统设置等场景,扩展了Agent对电脑桌面的操作能力。

参考:MiniMax Agent 更新:这次我们重新设计了 Agent 操作电脑的方式

Anthropic重构桌面端「Claude Code」,上线Routines功能

4月15日,Anthropic重磅重构桌面端「Claude Code」,支持多实例并行运行、内置终端与文件编辑,新增云端自动化Routines功能,可通过定时、API、GitHub Webhook三路触发实现7×24小时自动执行任务,对应此前泄露的KAIROS功能,同时消息称「Claude Opus 4.7」将于本周发布,并推出可一键生成网页、演示文稿的AI设计工具,直接对标Figma、Adobe。

参考:Claude Opus 4.7刚刚曝光!Claude Code一夜重构,7x24小时替你打工

MiniMax推出全球首个云端沙箱Hermes「MaxHermes」

4月16日,MiniMax推出全球首个云端沙箱Hermes「MaxHermes」,是可自我进化的AI智能体,能自主生成并迭代Skills,具备跨会话记忆、定时任务与多子代理并行能力,零门槛无需本地部署、适配多IM渠道、成本可控,后续还将连通Skillhub并支持MaxClaw一键迁移,让用户轻松使用持续成长的AI助手。

参考:MaxHermes:全球首个云端沙箱 Hermes,一键养“马”

AI 工具

面壁智能推出公测阶段的专业级文档智能体工作台「Lantay」

4月14日,面壁智能推出公测阶段的专业级文档智能体工作台「Lantay」,以Vibedocing人机协同范式打造“导航区、工作区、对话区”三合一界面,支持多格式批量文档处理、本地文件夹双向同步、内置浏览器查资料、语音办公等全流程功能,具备低幻觉、可溯源的专业能力与数据不上云的高安全性,专为法律、金融、文学等高严谨文档工作者设计。

参考:Lantay 官宣!重度文档人迎来超强外挂

Google Chrome推出「Gemini Skills」功能,浏览器迈入AI助手时代

4月15日,Google Chrome推出「Gemini Skills」功能,可将提示词保存为可复用技能,支持一键调用、跨设备同步,能读取多标签页完成对比、分析等任务,内置50余个预设技能且免费使用,标志着传统浏览器向Agent化转型,掀起新一轮浏览器智能竞争。

参考:浏览器原地变龙虾!Chrome上线Skills,技能一键复用,Agent帮你干活

阿里发布AI开发工具「Meoo」,零代码一键生成完整应用

4月15日,阿里ATH事业群发布AI开发工具「Meoo」(秒悟),集成千问、Kimi、GLM、MiniMax四大模型,内置阿里云多项核心服务,支持蜂群Agent并行处理,用户无需编程基础,用自然语言描述即可1分钟快速生成前后端完整应用并一键部署上线,可快速制作网站、H5页面等。

参考:AI开发工具秒悟Meoo来了,0门槛、一键部署上线!

OpenAI重写「Agents SDK」,推出原生Harness并实现与沙盒分离

4月16日,OpenAI对「Agents SDK」进行架构重写,推出原生Codex同款Harness并实现与沙盒分离,接入七家头部沙盒厂商,新增快照恢复、多沙盒并行等能力,将SDK从聊天机器人工具升级为生产级Agent底座,大幅提升安全与长任务稳定性,已实现900页保险单100%提取、代码量减少6倍等效果,同时挤压LangChain、CrewAI等第三方Agent框架生存空间,目前仅支持Python,标志着GPT-5.4正式迈向工业级Agent时代。

参考:OpenAI祭出GPT-5.4神装!Codex同款Harness全面开放

技术突破

YC CEO开源个人第二大脑系统「GBrain」,专供OpenClaw与Hermes

4月11日,YC CEO Garry Tan开源个人第二大脑系统「GBrain」,专为OpenClaw与Hermes Agent打造,可汇聚多源信息构建可检索、可持续成长的AI知识底座,通过“读取-应答-写入”循环实现复利式记忆,采用混合搜索与本地嵌入式数据库,无需服务器即可快速部署,支持三种接入路径与数据自动同步,能让Agent具备全息记忆与深度上下文理解能力,助力打造迷你AGI。

参考:YC CEO把自己第二大脑系统开源了:专供OpenClaw与Hermes,全息记忆打造迷你AGI

World Labs开源发布「Spark 2.0」动态3D高斯点云渲染引擎

4月15日,李飞飞旗下World Labs开源发布「Spark 2.0」动态3D高斯点云渲染引擎,基于THREE.js与WebGL2打造,通过连续LoD树、.RAD流式加载格式、GPU虚拟内存三项核心技术,实现手机浏览器流畅运行亿级粒子3D场景,支持多对象渲染与自定义操作,可广泛应用于游戏、交互艺术、实景展示等场景,还与Marble创作平台打通,降低3D世界生成与交付门槛。

参考:刚刚,李飞飞最新成果发布,手机也能跑亿级粒子的 3D 世界了|附体验地址

市场动态

斯坦福2026 AI指数:中美差距仅2.7%,中国多项指标全球领先

4月14日,斯坦福发布423页2026 AI指数报告,显示中美AI模型性能差距仅2.7%,清华、DeepSeek等中国机构跻身全球前十,中国在公共AI超算、职场AI使用率等方面领先全球;全球AI能力飞速提升,90%顶尖模型来自产业界,代码等基准近乎封顶,但存在能力不均衡的“锯齿前沿”现象;AI投资、算力规模大幅增长,同时美国AI人才流入锐减、年轻开发者就业岗位下滑,全球AI模型透明度下降,专家与公众对AI认知存在明显撕裂。

参考:斯坦福423页AI报告出炉!中美差距仅2.7%,清华DeepSeek冲进全球前十

Anthropic正式宣布在Claude平台推出强制身份验证(KYC)

4月16日,Anthropic正式宣布在Claude平台推出强制身份验证(KYC),用户访问特定功能或触发风控时,需通过合作方Persona完成实体政府证件+实时自拍的核验,复印件、数字证件等均不被接受,即便完成验证账号仍可能因违规、地区不支持等原因被封禁;该举措引发用户强烈不满,尤其国内用户与重度付费用户面临极高账号风险,第三方中转、反向代理等玩法更易被精准打击。

参考:突发:Claude引入强实名制验证!必须真人手持证件自拍,否则直接封号!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐