MIAOYUN | 每周AI新鲜事儿 260417

秒云

428人浏览 · 2026-04-20 09:51:33

秒云 · 2026-04-20 09:51:33 发布

本周国内外AI领域密集发布多项重磅成果：大模型方面，稀宇、京东、阿里、OpenAI、火山引擎、Google、腾讯、阶跃星辰、Kimi、Anthropic等先后推出音乐、具身、图像、视频、量子、机器人、3D、语音、编程、安全等各类模型；AI Agent领域，字节、MiniMax、Anthropic等升级智能体系统与桌面能力，实现跨端操控与自我进化；AI工具与技术上，面壁智能、Google、阿里、OpenAI推出文档、浏览器、低代码开发、Agent开发等工具；市场层面，斯坦福AI指数显示中美差距仅2.7%，Anthropic推出Claude强制实名引发争议，一起来回顾本周发生的AI新鲜事儿吧！

AI 大模型

稀宇科技推出新一代AI音乐生成模型「MiniMax Music 2.6」

4月10日，稀宇科技正式推出新一代AI音乐生成模型「MiniMax Music 2.6」，通过优化国风演奏细节、中低频声学表现、人声律动与段落理解力，首包延迟降至20秒内；新增精准Cover功能，实现生成速度、指令控制与音质全面升级，同步开源三款音乐Skill支持Agent原生调用音乐生成能力，开启全球创作内测并提供14天限免体验，助力普通用户与开发者低成本完成高质量音乐创作。

参考：MiniMax Music 2.6：我们想讲四个人的故事

灵初智能推出「Psi-R2」与「Psi-W0」双系统具身模型

4月11日，灵初智能凭借10万小时大规模人类操作全模态数据集（含1000小时开源），推出「Psi-R2」与「Psi-W0」双系统具身模型，登顶MolmoSpace全球权威榜单，任务成功率远超同类模型，通过人类数据训练、双模型协同与数据飞轮实现机器人高效落地，同步推进数采厂建设与生态合作，以开源共建加速具身智能商业化。

参考：中国具身模型狂揽全球第一！机器人的人类数据时代来了

京东开源240亿参数的图像模型「JoyAI-Image-Edit」

4月11日，京东开源240亿参数的图像模型「JoyAI-Image-Edit」，将空间智能纳入图像理解与编辑，让AI开始处理真实世界中的空间关系，让模型真正“理解空间，编辑空间”。是业内首个内置空间智能的一体化多模态模型，可精准实现相机控制、物体旋转与空间关系操控，兼顾15类通用编辑能力，性能超越同类产品，采用Apache 2.0协议开源，适配电商与具身智能场景，是京东聚焦实体场景、深耕产业落地的AI布局重要成果。

参考：重磅开源！240亿参数力压Nano Banana 2

阿里视频大模型「HappyHorse」内测登顶行业榜单

4月12日消息，阿里ATH旗下创新事业部研发的视频大模型「HappyHorse」目前处于内测阶段，尚未正式上线，网传官网均非官方渠道，近期将开放API；该模型在AI视频评测平台中，文生视频无音频榜单位列第一、含音频榜单与Seedance2.0 720p并列第一，是阿里ATH成立后推出的重要AI产品，属于全新交互方式探索计划的一部分。

参考：阿里：HappyHorse正式与大家见面，还需要一点时间

稀宇科技开源「MiniMax M2.7」模型，全球生态首日全面适配

4月12日，稀宇科技正式开源「MiniMax M2.7」模型，支持自我进化与复杂Agent任务，是Hermes Agent、OpenClaw等智能体工具中广受好评的模型，开源首日已完成与华为昇腾、摩尔线程、沐曦、昆仑芯、NVIDIA等芯片厂商及Together AI、Ollama等海内外推理平台的适配接入，未来将持续联合生态伙伴推进模型优化与生态建设。

参考：MiniMax M2.7开源，携手全球伙伴加速AI生态繁荣

OpenAI发布代号“Spud”的「GPT-6」，200万上下文+6万亿MoE参数全新升级

4月14日，OpenAI正式发布代号“Spud”的「GPT-6」，采用Symphony原生多模态统一架构，支持文本、图像、音频、视频、3D五大模态底层统一编码，幻觉率降至0.1%以下；搭载约6万亿MoE参数，推理仅激活10%-15%专家网络，成本大降，上下文窗口达200万Token，综合性能较GPT-5.4提升40%，代码生成、数学推理等能力大幅增强，将深刻变革编程、专业服务、内容创作等领域，同时也带来安全治理新挑战。

参考：突发！GPT-6将发布： Symphony 多模态架构｜200 万 Token 上下文、6万亿 MoE参数，性能较提升 40%！

智在无界正式发布第三代通用具身世界模型「Being‑H0.7」

4月14日，BeingBeyond（智在无界）正式发布第三代通用具身世界模型「Being‑H0.7」，基于20万小时人类视频预训练，创新采用潜空间推理范式，兼顾物理世界理解与交互能力，训练成本低、推理速度快，可在端侧实时部署，在6项国际权威评测中综合全球第一，全面覆盖七大物理交互关键维度，能完成动态轨迹预测、流体与柔性物体操控等复杂任务，重新定义了具身世界模型的技术方向。

参考：BeingBeyond正式发布下一代通用具身世界模型Being-H0.7

火山引擎正式上线「Seedance 2.0」系列API服务

4月14日，火山引擎正式上线全球SOTA级AI视频生成模型「Seedance 2.0」系列API服务并同步登陆海外BytePlus，支持文字、图片、音频、视频四种模态输入，并集成最全面的多模态内容参考与编辑能力，复杂场景可用率、物理准确度、逼真度与可控性显著提升，同时建立肖像与版权安全标准并配套人脸验证、海量虚拟人像等合规创作能力，已在总台春晚、北京国际电影节、上美影IP活化、漫短剧、品牌营销、机器人训练等多领域落地应用。

参考：Seedance 2.0全面开放API服务

NVIDIA推出全球首个开源量子AI模型系列「NVIDIA Ising」

4月14日，NVIDIA推出全球首个开源量子AI模型系列「NVIDIA Ising」，包含校准与解码模型，可实现量子处理器快速自动校准、量子纠错解码速度提升2.5倍且精度提高3倍，有效解决量子计算噪声与扩展性瓶颈，推动量子计算工程化落地，该消息引发美股量子计算概念集体大涨。

参考：昨天，英伟达开源个量子AI，拉爆美股量子计算概念

Google发布「Gemini Robotics-ER 1.6」机器人模型

4月15日，Google发布「Gemini Robotics-ER 1.6」机器人模型，升级视觉空间理解、任务规划与成功判断能力，新增与波士顿动力合作开发的仪表读数功能，借助Agentic Vision技术使读数成功率从23%升至93%、飙升300%，支持Spot机器人自主工业巡检，同时安全性能全面提升，是Google当前最安全的机器人专用模型，已开放API调用。

参考：谷歌深夜大招！机器人学会看仪表盘干活，成功率飙升300%

OpenAI推出仅面向网络安全专家的「GPT-5.4-Cyber」模型

4月15日，OpenAI推出仅面向网络安全专家的「GPT-5.4-Cyber」模型，可无源码分析恶意软件，同时升级网络安全信赖访问计划TAC，遵循准入民主化、迭代式部署、生态韧性投资三大原则，配套的Codex Security工具已自动修复3000余个高危漏洞，此举是对标Anthropic的Claude Mythos，将强AI能力定向开放给防御方，构建AI安全防御体系。

参考：突发！GPT-6将发布： Symphony 多模态架构｜200 万 Token 上下文、6万亿 MoE参数，性能较提升 40%！

腾讯混元正式发布并开源「混元3D世界模型2.0」

4月16日，腾讯混元正式发布并开源「混元3D世界模型2.0」（HY-World 2.0），这是可通过文字、图片、视频多模态输入自动生成、重建与模拟3D世界的多模态模型，能输出可二次编辑的Mesh、3DGS等3D资产，无缝对接Unity、UE等游戏引擎与工作流，支持角色漫游与物理碰撞，还可基于视频或多视角图片构建高精度数字孪生空间，其架构全面升级，大幅提升画面精细度与真实感，已开放体验申请并同步开源代码与技术报告。

参考：腾讯混元3D世界模型2.0发布：无缝对接游戏工作流

阿里推出可实时构建和交互的的开放式世界模型产品「HappyOyster」

4月16日，阿里巴巴ATH创新事业部推出可实时构建和交互的的开放式世界模型产品「HappyOyster」并开放内测，支持Directing实时导演、Wandering世界漫游两种核心玩法，用户可实时构建、交互与探索无限生成的虚拟世界，官网已开放Waitlist报名与产品详情查阅。

参考：HappyOyster：可实时构建和交互的开放式世界模型产品，开放内测

阶跃星辰发布新一代语音生成模型「StepAudio 2.5 TTS」

4月16日，阶跃星辰发布新一代语音生成模型「StepAudio 2.5 TTS」，具备全局语境控制、文中语境控制、零样本复刻与全音色控制三大核心能力，支持用自然语言精细调节语音情绪、语气、节奏等细节，降低配音创作门槛，已全量上线阶跃星辰开放平台与Step Plan，可满足多场景高品质语音生成需求。

参考：阶跃 StepAudio 2.5 TTS 上线！人人都能是配音导演

蚂蚁灵波科技正式开源流式三维重建模型「LingBot-Map」

4月16日，蚂蚁灵波科技正式开源流式三维重建模型「LingBot-Map」，仅需普通RGB摄像头即可实现实时流式三维重建，以纯自回归式建模与几何上下文Transformer为核心，兼顾几何精度、时序一致性与运行效率，推理速度达20FPS、支持10000+帧以上长视频稳定推理，在多项权威基准测试中全面领先现有流式与离线方法，已在Hugging Face、魔搭社区及GitHub开源，进一步补齐具身智能实时空间感知技术拼图。

参考：LingBot-Map 正式开源！仅用普通摄像头，让机器人实现实时流式三维重建

「Kimi K2.6-code-preview」上线，Kimi编程能力大幅提升

4月16日消息，月之暗面推出「Kimi K2.6-code-preview」编程大模型，基于K2.5万亿参数MoE架构，上下文达256K Tokens，核心提升推理深度、代理规划与多步工具调用稳定性，社区自测编程评分升至89分，达第一梯队水准，支持多Agent并发不限流、运行稳定，39元/月订阅制性价比突出，但存在推理速度较慢、周额度消耗快的问题，是面向开发者的高实用性国产编程模型。

参考：Kimi K2.6-code上线：国产编程大模型终于找到自己的节奏！

Anthropic发布「Claude Opus 4.7」，视觉拉满实现核心能力跨越式升级

4月17日，Anthropic发布「Claude Opus 4.7」，定位为当前可广泛使用的最强Claude模型，核心升级聚焦复杂任务执行、高清视觉理解与长链路工作流稳定性，视觉能力近乎满分、长上下文与多步骤任务表现大幅提升，编程、生物分子推理等多项基准测试成绩显著领先，超越GPT-5.4与Gemini 3.1 Pro，指令遵循更精准、输出更接近成品，同时安全合规性有保障，但图像与分词器调整会使Token消耗增加，成本上升，该模型让大模型从擅长聊天转向高效完成实际工作，对开发者、分析师等知识工作者助力显著。

参考：Claude Opus 4.7连夜突袭：或将抢走全球7亿打工人饭碗！

AI Agent

字节「扣子2.5」版本重磅升级，Agent生态与生产力能力全面革新

4月12日消息，字节「扣子2.5」版本重磅升级，无需复杂配置开箱即用，搭载云电脑、云手机、长期记忆、专属邮箱、日程系统与共享文件系统，支持7×24小时后台运行，可通过手机对话实现Vibe Coding编程、视频创作、工作流搭建等能力，同时推出AI社交生态「Agent World」，包含技能评测、虚拟酒馆、智能体匹配、博弈娱乐等功能，打造全能型数字生产力伙伴。

参考：本养虾人看哭了！字节扣子2.5出生即满级，手机对话就能Vibe Coding

Nous Research推出的「Hermes Agent」热度全面超越「OpenClaw」

4月13日，Nous Research旗下产品爱马仕智能体「Hermes Agent」热度全面超越「OpenClaw」，GitHub斩获6.6万星，登顶全球编程应用榜首，生产力榜第二，原生接入微信（基于腾讯 iLink Bot API）并覆盖国内主流IM平台，3.99美元即可低成本部署，开箱即用且具备自我进化能力；其团队发布顶会级论文提出「Autoreason」推理方法，指出传统自我优化的缺陷，通过三方锦标赛与盲评机制实现更稳定高效的迭代，在写作与编程任务中表现突出，推动AI推理从盲目迭代走向结构化高效优化。

参考：龙虾让位！硅谷顶流AI「爱马仕」一夜闯进微信，冲上全球第一

MiniMax Agent更新，推出「Pocket」与「Computer Use」两大功能

4月14日，MiniMax发布Agent桌面端更新，推出「Pocket」（Beta）与「Computer Use」两大功能，「Pocket」支持在飞书、微信等主流IM中远程唤起Agent执行电脑任务，「Computer Use」可让Agent像人一样操控鼠标键盘、操作图形界面软件与系统设置，同时通过拆分工具域、统一视觉坐标系统、截图-验证-行动循环及IM端授权管控，提升操作精度、稳定性与安全性，覆盖远程查文件、筛选简历生成文档、调整系统设置等场景，扩展了Agent对电脑桌面的操作能力。

参考：MiniMax Agent 更新：这次我们重新设计了 Agent 操作电脑的方式

Anthropic重构桌面端「Claude Code」，上线Routines功能

4月15日，Anthropic重磅重构桌面端「Claude Code」，支持多实例并行运行、内置终端与文件编辑，新增云端自动化Routines功能，可通过定时、API、GitHub Webhook三路触发实现7×24小时自动执行任务，对应此前泄露的KAIROS功能，同时消息称「Claude Opus 4.7」将于本周发布，并推出可一键生成网页、演示文稿的AI设计工具，直接对标Figma、Adobe。

参考：Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

MiniMax推出全球首个云端沙箱Hermes「MaxHermes」

4月16日，MiniMax推出全球首个云端沙箱Hermes「MaxHermes」，是可自我进化的AI智能体，能自主生成并迭代Skills，具备跨会话记忆、定时任务与多子代理并行能力，零门槛无需本地部署、适配多IM渠道、成本可控，后续还将连通Skillhub并支持MaxClaw一键迁移，让用户轻松使用持续成长的AI助手。

参考：MaxHermes：全球首个云端沙箱 Hermes，一键养“马”

AI 工具

面壁智能推出公测阶段的专业级文档智能体工作台「Lantay」

4月14日，面壁智能推出公测阶段的专业级文档智能体工作台「Lantay」，以Vibedocing人机协同范式打造“导航区、工作区、对话区”三合一界面，支持多格式批量文档处理、本地文件夹双向同步、内置浏览器查资料、语音办公等全流程功能，具备低幻觉、可溯源的专业能力与数据不上云的高安全性，专为法律、金融、文学等高严谨文档工作者设计。

参考：Lantay 官宣！重度文档人迎来超强外挂

Google Chrome推出「Gemini Skills」功能，浏览器迈入AI助手时代

4月15日，Google Chrome推出「Gemini Skills」功能，可将提示词保存为可复用技能，支持一键调用、跨设备同步，能读取多标签页完成对比、分析等任务，内置50余个预设技能且免费使用，标志着传统浏览器向Agent化转型，掀起新一轮浏览器智能竞争。

参考：浏览器原地变龙虾！Chrome上线Skills，技能一键复用，Agent帮你干活

阿里发布AI开发工具「Meoo」，零代码一键生成完整应用

4月15日，阿里ATH事业群发布AI开发工具「Meoo」（秒悟），集成千问、Kimi、GLM、MiniMax四大模型，内置阿里云多项核心服务，支持蜂群Agent并行处理，用户无需编程基础，用自然语言描述即可1分钟快速生成前后端完整应用并一键部署上线，可快速制作网站、H5页面等。

参考：AI开发工具秒悟Meoo来了，0门槛、一键部署上线！

OpenAI重写「Agents SDK」，推出原生Harness并实现与沙盒分离

4月16日，OpenAI对「Agents SDK」进行架构重写，推出原生Codex同款Harness并实现与沙盒分离，接入七家头部沙盒厂商，新增快照恢复、多沙盒并行等能力，将SDK从聊天机器人工具升级为生产级Agent底座，大幅提升安全与长任务稳定性，已实现900页保险单100%提取、代码量减少6倍等效果，同时挤压LangChain、CrewAI等第三方Agent框架生存空间，目前仅支持Python，标志着GPT-5.4正式迈向工业级Agent时代。

参考：OpenAI祭出GPT-5.4神装！Codex同款Harness全面开放

技术突破

YC CEO开源个人第二大脑系统「GBrain」，专供OpenClaw与Hermes

4月11日，YC CEO Garry Tan开源个人第二大脑系统「GBrain」，专为OpenClaw与Hermes Agent打造，可汇聚多源信息构建可检索、可持续成长的AI知识底座，通过“读取-应答-写入”循环实现复利式记忆，采用混合搜索与本地嵌入式数据库，无需服务器即可快速部署，支持三种接入路径与数据自动同步，能让Agent具备全息记忆与深度上下文理解能力，助力打造迷你AGI。

参考：YC CEO把自己第二大脑系统开源了：专供OpenClaw与Hermes，全息记忆打造迷你AGI

World Labs开源发布「Spark 2.0」动态3D高斯点云渲染引擎

4月15日，李飞飞旗下World Labs开源发布「Spark 2.0」动态3D高斯点云渲染引擎，基于THREE.js与WebGL2打造，通过连续LoD树、.RAD流式加载格式、GPU虚拟内存三项核心技术，实现手机浏览器流畅运行亿级粒子3D场景，支持多对象渲染与自定义操作，可广泛应用于游戏、交互艺术、实景展示等场景，还与Marble创作平台打通，降低3D世界生成与交付门槛。

参考：刚刚，李飞飞最新成果发布，手机也能跑亿级粒子的 3D 世界了｜附体验地址

市场动态

斯坦福2026 AI指数：中美差距仅2.7%，中国多项指标全球领先

4月14日，斯坦福发布423页2026 AI指数报告，显示中美AI模型性能差距仅2.7%，清华、DeepSeek等中国机构跻身全球前十，中国在公共AI超算、职场AI使用率等方面领先全球；全球AI能力飞速提升，90%顶尖模型来自产业界，代码等基准近乎封顶，但存在能力不均衡的“锯齿前沿”现象；AI投资、算力规模大幅增长，同时美国AI人才流入锐减、年轻开发者就业岗位下滑，全球AI模型透明度下降，专家与公众对AI认知存在明显撕裂。

参考：斯坦福423页AI报告出炉！中美差距仅2.7%，清华DeepSeek冲进全球前十

Anthropic正式宣布在Claude平台推出强制身份验证（KYC）

4月16日，Anthropic正式宣布在Claude平台推出强制身份验证（KYC），用户访问特定功能或触发风控时，需通过合作方Persona完成实体政府证件+实时自拍的核验，复印件、数字证件等均不被接受，即便完成验证账号仍可能因违规、地区不支持等原因被封禁；该举措引发用户强烈不满，尤其国内用户与重度付费用户面临极高账号风险，第三方中转、反向代理等玩法更易被精准打击。

参考：突发：Claude引入强实名制验证！必须真人手持证件自拍，否则直接封号！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从FBX到可运行虚拟车辆：一种标准化的仿真模型转换流程

AtomGit开源社区

Frida学习笔记（八）：SSL Pinning 绕过全攻略

这一篇系统地覆盖了 SSL Pinning 绕过的所有层级。层级核心 Hook 点绕过原理第1层 TrustManager替换 TrustManager 为空实现第2层 OkHttp空实现不抛异常 = 校验通过第3层平台直接返回未验证证书链第4层 Native等替换回调 / 强制返回成功第5层 mTLS提取证书密码配置到代理实战要诀先试第二章通用方案，不行再走五层模型分析「系统 CA + Fri