MIAOYUN | 每周AI新鲜事儿 260417
本周国内外AI领域密集发布多项重磅成果:大模型方面,稀宇、京东、阿里、OpenAI、火山引擎、Google、腾讯、阶跃星辰、Kimi、Anthropic等先后推出音乐、具身、图像、视频、量子、机器人、3D、语音、编程、安全等各类模型;AI Agent领域,字节、MiniMax、Anthropic等升级智能体系统与桌面能力,实现跨端操控与自我进化;AI工具与技术上,面壁智能、Google、阿里、OpenAI推出文档、浏览器、低代码开发、Agent开发等工具;市场层面,斯坦福AI指数显示中美差距仅2.7%,Anthropic推出Claude强制实名引发争议,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
稀宇科技推出新一代AI音乐生成模型「MiniMax Music 2.6」
4月10日,稀宇科技正式推出新一代AI音乐生成模型「MiniMax Music 2.6」,通过优化国风演奏细节、中低频声学表现、人声律动与段落理解力,首包延迟降至20秒内;新增精准Cover功能,实现生成速度、指令控制与音质全面升级,同步开源三款音乐Skill支持Agent原生调用音乐生成能力,开启全球创作内测并提供14天限免体验,助力普通用户与开发者低成本完成高质量音乐创作。
参考:MiniMax Music 2.6:我们想讲四个人的故事
灵初智能推出「Psi-R2」与「Psi-W0」双系统具身模型
4月11日,灵初智能凭借10万小时大规模人类操作全模态数据集(含1000小时开源),推出「Psi-R2」与「Psi-W0」双系统具身模型,登顶MolmoSpace全球权威榜单,任务成功率远超同类模型,通过人类数据训练、双模型协同与数据飞轮实现机器人高效落地,同步推进数采厂建设与生态合作,以开源共建加速具身智能商业化。
京东开源240亿参数的图像模型「JoyAI-Image-Edit」
4月11日,京东开源240亿参数的图像模型「JoyAI-Image-Edit」,将空间智能纳入图像理解与编辑,让AI开始处理真实世界中的空间关系,让模型真正“理解空间,编辑空间”。是业内首个内置空间智能的一体化多模态模型,可精准实现相机控制、物体旋转与空间关系操控,兼顾15类通用编辑能力,性能超越同类产品,采用Apache 2.0协议开源,适配电商与具身智能场景,是京东聚焦实体场景、深耕产业落地的AI布局重要成果。
阿里视频大模型「HappyHorse」内测登顶行业榜单
4月12日消息,阿里ATH旗下创新事业部研发的视频大模型「HappyHorse」目前处于内测阶段,尚未正式上线,网传官网均非官方渠道,近期将开放API;该模型在AI视频评测平台中,文生视频无音频榜单位列第一、含音频榜单与Seedance2.0 720p并列第一,是阿里ATH成立后推出的重要AI产品,属于全新交互方式探索计划的一部分。
参考:阿里:HappyHorse正式与大家见面,还需要一点时间
稀宇科技开源「MiniMax M2.7」模型,全球生态首日全面适配
4月12日,稀宇科技正式开源「MiniMax M2.7」模型,支持自我进化与复杂Agent任务,是Hermes Agent、OpenClaw等智能体工具中广受好评的模型,开源首日已完成与华为昇腾、摩尔线程、沐曦、昆仑芯、NVIDIA等芯片厂商及Together AI、Ollama等海内外推理平台的适配接入,未来将持续联合生态伙伴推进模型优化与生态建设。
参考:MiniMax M2.7开源,携手全球伙伴加速AI生态繁荣
OpenAI发布代号“Spud”的「GPT-6」,200万上下文+6万亿MoE参数全新升级
4月14日,OpenAI正式发布代号“Spud”的「GPT-6」,采用Symphony原生多模态统一架构,支持文本、图像、音频、视频、3D五大模态底层统一编码,幻觉率降至0.1%以下;搭载约6万亿MoE参数,推理仅激活10%-15%专家网络,成本大降,上下文窗口达200万Token,综合性能较GPT-5.4提升40%,代码生成、数学推理等能力大幅增强,将深刻变革编程、专业服务、内容创作等领域,同时也带来安全治理新挑战。
参考:突发!GPT-6将发布: Symphony 多模态架构|200 万 Token 上下文、6万亿 MoE参数,性能较提升 40%!
智在无界正式发布第三代通用具身世界模型「Being‑H0.7」
4月14日,BeingBeyond(智在无界)正式发布第三代通用具身世界模型「Being‑H0.7」,基于20万小时人类视频预训练,创新采用潜空间推理范式,兼顾物理世界理解与交互能力,训练成本低、推理速度快,可在端侧实时部署,在6项国际权威评测中综合全球第一,全面覆盖七大物理交互关键维度,能完成动态轨迹预测、流体与柔性物体操控等复杂任务,重新定义了具身世界模型的技术方向。
参考:BeingBeyond正式发布下一代通用具身世界模型Being-H0.7
火山引擎正式上线「Seedance 2.0」系列API服务
4月14日,火山引擎正式上线全球SOTA级AI视频生成模型「Seedance 2.0」系列API服务并同步登陆海外BytePlus,支持文字、图片、音频、视频四种模态输入,并集成最全面的多模态内容参考与编辑能力,复杂场景可用率、物理准确度、逼真度与可控性显著提升,同时建立肖像与版权安全标准并配套人脸验证、海量虚拟人像等合规创作能力,已在总台春晚、北京国际电影节、上美影IP活化、漫短剧、品牌营销、机器人训练等多领域落地应用。
NVIDIA推出全球首个开源量子AI模型系列「NVIDIA Ising」
4月14日,NVIDIA推出全球首个开源量子AI模型系列「NVIDIA Ising」,包含校准与解码模型,可实现量子处理器快速自动校准、量子纠错解码速度提升2.5倍且精度提高3倍,有效解决量子计算噪声与扩展性瓶颈,推动量子计算工程化落地,该消息引发美股量子计算概念集体大涨。
Google发布「Gemini Robotics-ER 1.6」机器人模型
4月15日,Google发布「Gemini Robotics-ER 1.6」机器人模型,升级视觉空间理解、任务规划与成功判断能力,新增与波士顿动力合作开发的仪表读数功能,借助Agentic Vision技术使读数成功率从23%升至93%、飙升300%,支持Spot机器人自主工业巡检,同时安全性能全面提升,是Google当前最安全的机器人专用模型,已开放API调用。
参考:谷歌深夜大招!机器人学会看仪表盘干活,成功率飙升300%
OpenAI推出仅面向网络安全专家的「GPT-5.4-Cyber」模型
4月15日,OpenAI推出仅面向网络安全专家的「GPT-5.4-Cyber」模型,可无源码分析恶意软件,同时升级网络安全信赖访问计划TAC,遵循准入民主化、迭代式部署、生态韧性投资三大原则,配套的Codex Security工具已自动修复3000余个高危漏洞,此举是对标Anthropic的Claude Mythos,将强AI能力定向开放给防御方,构建AI安全防御体系。
参考:突发!GPT-6将发布: Symphony 多模态架构|200 万 Token 上下文、6万亿 MoE参数,性能较提升 40%!
腾讯混元正式发布并开源「混元3D世界模型2.0」
4月16日,腾讯混元正式发布并开源「混元3D世界模型2.0」(HY-World 2.0),这是可通过文字、图片、视频多模态输入自动生成、重建与模拟3D世界的多模态模型,能输出可二次编辑的Mesh、3DGS等3D资产,无缝对接Unity、UE等游戏引擎与工作流,支持角色漫游与物理碰撞,还可基于视频或多视角图片构建高精度数字孪生空间,其架构全面升级,大幅提升画面精细度与真实感,已开放体验申请并同步开源代码与技术报告。
阿里推出可实时构建和交互的的开放式世界模型产品「HappyOyster」
4月16日,阿里巴巴ATH创新事业部推出可实时构建和交互的的开放式世界模型产品「HappyOyster」并开放内测,支持Directing实时导演、Wandering世界漫游两种核心玩法,用户可实时构建、交互与探索无限生成的虚拟世界,官网已开放Waitlist报名与产品详情查阅。
参考:HappyOyster:可实时构建和交互的开放式世界模型产品,开放内测
阶跃星辰发布新一代语音生成模型「StepAudio 2.5 TTS」
4月16日,阶跃星辰发布新一代语音生成模型「StepAudio 2.5 TTS」,具备全局语境控制、文中语境控制、零样本复刻与全音色控制三大核心能力,支持用自然语言精细调节语音情绪、语气、节奏等细节,降低配音创作门槛,已全量上线阶跃星辰开放平台与Step Plan,可满足多场景高品质语音生成需求。
参考:阶跃 StepAudio 2.5 TTS 上线!人人都能是配音导演
蚂蚁灵波科技正式开源流式三维重建模型「LingBot-Map」
4月16日,蚂蚁灵波科技正式开源流式三维重建模型「LingBot-Map」,仅需普通RGB摄像头即可实现实时流式三维重建,以纯自回归式建模与几何上下文Transformer为核心,兼顾几何精度、时序一致性与运行效率,推理速度达20FPS、支持10000+帧以上长视频稳定推理,在多项权威基准测试中全面领先现有流式与离线方法,已在Hugging Face、魔搭社区及GitHub开源,进一步补齐具身智能实时空间感知技术拼图。
参考:LingBot-Map 正式开源!仅用普通摄像头,让机器人实现实时流式三维重建
「Kimi K2.6-code-preview」上线,Kimi编程能力大幅提升
4月16日消息,月之暗面推出「Kimi K2.6-code-preview」编程大模型,基于K2.5万亿参数MoE架构,上下文达256K Tokens,核心提升推理深度、代理规划与多步工具调用稳定性,社区自测编程评分升至89分,达第一梯队水准,支持多Agent并发不限流、运行稳定,39元/月订阅制性价比突出,但存在推理速度较慢、周额度消耗快的问题,是面向开发者的高实用性国产编程模型。
参考:Kimi K2.6-code上线:国产编程大模型终于找到自己的节奏!
Anthropic发布「Claude Opus 4.7」,视觉拉满实现核心能力跨越式升级
4月17日,Anthropic发布「Claude Opus 4.7」,定位为当前可广泛使用的最强Claude模型,核心升级聚焦复杂任务执行、高清视觉理解与长链路工作流稳定性,视觉能力近乎满分、长上下文与多步骤任务表现大幅提升,编程、生物分子推理等多项基准测试成绩显著领先,超越GPT-5.4与Gemini 3.1 Pro,指令遵循更精准、输出更接近成品,同时安全合规性有保障,但图像与分词器调整会使Token消耗增加,成本上升,该模型让大模型从擅长聊天转向高效完成实际工作,对开发者、分析师等知识工作者助力显著。
参考:Claude Opus 4.7连夜突袭:或将抢走全球7亿打工人饭碗!
AI Agent
字节「扣子2.5」版本重磅升级,Agent生态与生产力能力全面革新
4月12日消息,字节「扣子2.5」版本重磅升级,无需复杂配置开箱即用,搭载云电脑、云手机、长期记忆、专属邮箱、日程系统与共享文件系统,支持7×24小时后台运行,可通过手机对话实现Vibe Coding编程、视频创作、工作流搭建等能力,同时推出AI社交生态「Agent World」,包含技能评测、虚拟酒馆、智能体匹配、博弈娱乐等功能,打造全能型数字生产力伙伴。
参考:本养虾人看哭了!字节扣子2.5出生即满级,手机对话就能Vibe Coding
Nous Research推出的「Hermes Agent」热度全面超越「OpenClaw」
4月13日,Nous Research旗下产品爱马仕智能体「Hermes Agent」热度全面超越「OpenClaw」,GitHub斩获6.6万星,登顶全球编程应用榜首,生产力榜第二,原生接入微信(基于腾讯 iLink Bot API)并覆盖国内主流IM平台,3.99美元即可低成本部署,开箱即用且具备自我进化能力;其团队发布顶会级论文提出「Autoreason」推理方法,指出传统自我优化的缺陷,通过三方锦标赛与盲评机制实现更稳定高效的迭代,在写作与编程任务中表现突出,推动AI推理从盲目迭代走向结构化高效优化。
参考:龙虾让位!硅谷顶流AI「爱马仕」一夜闯进微信,冲上全球第一
MiniMax Agent更新,推出「Pocket」与「Computer Use」两大功能
4月14日,MiniMax发布Agent桌面端更新,推出「Pocket」(Beta)与「Computer Use」两大功能,「Pocket」支持在飞书、微信等主流IM中远程唤起Agent执行电脑任务,「Computer Use」可让Agent像人一样操控鼠标键盘、操作图形界面软件与系统设置,同时通过拆分工具域、统一视觉坐标系统、截图-验证-行动循环及IM端授权管控,提升操作精度、稳定性与安全性,覆盖远程查文件、筛选简历生成文档、调整系统设置等场景,扩展了Agent对电脑桌面的操作能力。
参考:MiniMax Agent 更新:这次我们重新设计了 Agent 操作电脑的方式
Anthropic重构桌面端「Claude Code」,上线Routines功能
4月15日,Anthropic重磅重构桌面端「Claude Code」,支持多实例并行运行、内置终端与文件编辑,新增云端自动化Routines功能,可通过定时、API、GitHub Webhook三路触发实现7×24小时自动执行任务,对应此前泄露的KAIROS功能,同时消息称「Claude Opus 4.7」将于本周发布,并推出可一键生成网页、演示文稿的AI设计工具,直接对标Figma、Adobe。
参考:Claude Opus 4.7刚刚曝光!Claude Code一夜重构,7x24小时替你打工
MiniMax推出全球首个云端沙箱Hermes「MaxHermes」
4月16日,MiniMax推出全球首个云端沙箱Hermes「MaxHermes」,是可自我进化的AI智能体,能自主生成并迭代Skills,具备跨会话记忆、定时任务与多子代理并行能力,零门槛无需本地部署、适配多IM渠道、成本可控,后续还将连通Skillhub并支持MaxClaw一键迁移,让用户轻松使用持续成长的AI助手。
参考:MaxHermes:全球首个云端沙箱 Hermes,一键养“马”
AI 工具
面壁智能推出公测阶段的专业级文档智能体工作台「Lantay」
4月14日,面壁智能推出公测阶段的专业级文档智能体工作台「Lantay」,以Vibedocing人机协同范式打造“导航区、工作区、对话区”三合一界面,支持多格式批量文档处理、本地文件夹双向同步、内置浏览器查资料、语音办公等全流程功能,具备低幻觉、可溯源的专业能力与数据不上云的高安全性,专为法律、金融、文学等高严谨文档工作者设计。
Google Chrome推出「Gemini Skills」功能,浏览器迈入AI助手时代
4月15日,Google Chrome推出「Gemini Skills」功能,可将提示词保存为可复用技能,支持一键调用、跨设备同步,能读取多标签页完成对比、分析等任务,内置50余个预设技能且免费使用,标志着传统浏览器向Agent化转型,掀起新一轮浏览器智能竞争。
参考:浏览器原地变龙虾!Chrome上线Skills,技能一键复用,Agent帮你干活
阿里发布AI开发工具「Meoo」,零代码一键生成完整应用
4月15日,阿里ATH事业群发布AI开发工具「Meoo」(秒悟),集成千问、Kimi、GLM、MiniMax四大模型,内置阿里云多项核心服务,支持蜂群Agent并行处理,用户无需编程基础,用自然语言描述即可1分钟快速生成前后端完整应用并一键部署上线,可快速制作网站、H5页面等。
OpenAI重写「Agents SDK」,推出原生Harness并实现与沙盒分离
4月16日,OpenAI对「Agents SDK」进行架构重写,推出原生Codex同款Harness并实现与沙盒分离,接入七家头部沙盒厂商,新增快照恢复、多沙盒并行等能力,将SDK从聊天机器人工具升级为生产级Agent底座,大幅提升安全与长任务稳定性,已实现900页保险单100%提取、代码量减少6倍等效果,同时挤压LangChain、CrewAI等第三方Agent框架生存空间,目前仅支持Python,标志着GPT-5.4正式迈向工业级Agent时代。
参考:OpenAI祭出GPT-5.4神装!Codex同款Harness全面开放
技术突破
YC CEO开源个人第二大脑系统「GBrain」,专供OpenClaw与Hermes
4月11日,YC CEO Garry Tan开源个人第二大脑系统「GBrain」,专为OpenClaw与Hermes Agent打造,可汇聚多源信息构建可检索、可持续成长的AI知识底座,通过“读取-应答-写入”循环实现复利式记忆,采用混合搜索与本地嵌入式数据库,无需服务器即可快速部署,支持三种接入路径与数据自动同步,能让Agent具备全息记忆与深度上下文理解能力,助力打造迷你AGI。
参考:YC CEO把自己第二大脑系统开源了:专供OpenClaw与Hermes,全息记忆打造迷你AGI
World Labs开源发布「Spark 2.0」动态3D高斯点云渲染引擎
4月15日,李飞飞旗下World Labs开源发布「Spark 2.0」动态3D高斯点云渲染引擎,基于THREE.js与WebGL2打造,通过连续LoD树、.RAD流式加载格式、GPU虚拟内存三项核心技术,实现手机浏览器流畅运行亿级粒子3D场景,支持多对象渲染与自定义操作,可广泛应用于游戏、交互艺术、实景展示等场景,还与Marble创作平台打通,降低3D世界生成与交付门槛。
参考:刚刚,李飞飞最新成果发布,手机也能跑亿级粒子的 3D 世界了|附体验地址
市场动态
斯坦福2026 AI指数:中美差距仅2.7%,中国多项指标全球领先
4月14日,斯坦福发布423页2026 AI指数报告,显示中美AI模型性能差距仅2.7%,清华、DeepSeek等中国机构跻身全球前十,中国在公共AI超算、职场AI使用率等方面领先全球;全球AI能力飞速提升,90%顶尖模型来自产业界,代码等基准近乎封顶,但存在能力不均衡的“锯齿前沿”现象;AI投资、算力规模大幅增长,同时美国AI人才流入锐减、年轻开发者就业岗位下滑,全球AI模型透明度下降,专家与公众对AI认知存在明显撕裂。
参考:斯坦福423页AI报告出炉!中美差距仅2.7%,清华DeepSeek冲进全球前十
Anthropic正式宣布在Claude平台推出强制身份验证(KYC)
4月16日,Anthropic正式宣布在Claude平台推出强制身份验证(KYC),用户访问特定功能或触发风控时,需通过合作方Persona完成实体政府证件+实时自拍的核验,复印件、数字证件等均不被接受,即便完成验证账号仍可能因违规、地区不支持等原因被封禁;该举措引发用户强烈不满,尤其国内用户与重度付费用户面临极高账号风险,第三方中转、反向代理等玩法更易被精准打击。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)