MIAOYUN | 每周AI新鲜事儿 260403

秒云

639人浏览 · 2026-04-07 09:51:50

秒云 · 2026-04-07 09:51:50 发布

本周AI领域迎来密集发布：美团、智谱、Google、阿里、京东、爱诗科技、阶跃星辰等相继推出多款高性能大模型，覆盖推理、视频、生图、数字人、实时交互、编程等场景；AI Agent与工具持续落地，Claude、腾讯、TRAE、OpenClaw、百度健康等推出智能体产品，企业微信、NVIDIA开源相关框架与接口；同时Runway、UniPat AI等发布新工具，多项技术开源与基准测评落地，AI生成、协作与开发能力全面升级，一起来回顾本周发生的AI新鲜事儿吧！

AI 大模型

美团发布并开源原生多模态模型「LongCat-Next」及离散分词器

3月27日，美团发布并开源原生多模态模型「LongCat-Next」及离散分词器，该模型将图像、语音、文本统一映射为同源离散Token，通过DiNA架构、dNaViT分词器、SAE编码器三大核心技术，实现多模态统一建模，破解离散化信息损失难题，打破传统多模态模型架构局限；在视觉、音频、智能体等多维度表现优异，实现理解与生成协同提升，且未削弱语言核心能力，还形成跨模态协同，相关模型及工具已多平台开源。

参考：美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

智谱向GLM Coding Plan全量用户开放尚未正式发布的「GLM-5.1」模型

3月27日，智谱向GLM Coding Plan全量用户（Lite/Pro/Max）超前开放尚未正式发布的「GLM-5.1」模型，用户可在Coding Agent自定义配置中手动切换模型接入，官方提醒高负载时系统或触发保护性限流，且集群繁忙时非核心编程场景请求更易被限流；该高阶模型调用额度消耗分时段按不同系数计算，高峰期（每日14:00-18:00 UTC+8）3倍、非高峰期2倍，同时推出限时福利，4月底前非高峰期调用仅1倍抵扣额度，官方建议用户在非高峰时段体验。

参考：GLM-5.1交给你们了，全量用户超前开放!

Google发布「Gemini 3.1 Flash Live」实时模型，重构人机交互范式

3月28日，Google发布「Gemini 3.1 Flash Live」实时模型，经一年多打磨实现延迟、可靠性等阶跃式提升，可构建毫秒级响应的语音视觉智能体，能有效过滤交通、电视等背景噪音，提升真实场景任务完成率，还强化了语音识别与指令遵循能力。该模型已通过Gemini Live API推出预览版，基于WebSocket连接，支持音视频和文本流实时交互，具备多语言、工具调用等核心能力，还配套提供开发资源并联合伙伴完善部署能力，已落地设计、老年陪伴、游戏等场景。

参考：谷歌干掉「请再说一次」！Gemini 3.1毫秒级接话，实时Agent时代来了

通义实验室发布多模态模型「Qwen3.5-Omni」，斩获215项SOTA

3月30日，通义实验室发布多模态模型「Qwen3.5-Omni」，实现全感官进化，原生支持文本、图片、音频及音视频全模态输入，斩获215项SOTA，自然涌现Vibe Coding能力，还支持语义打断、音色克隆、256K超长上下文、113种语言识别，可处理10小时音频/1小时视频，原生兼容WebSearch和复杂工具调用，能落地视频创作、智能对话、任务执行等多场景。

参考：215项SOTA + 自然涌现Vibe Coding！Qwen3.5-Omni发布

爱诗科技在拍我AI闪电发布周推出AI视频生成模型「PixVerse V6」

3月31日，爱诗科技在拍我AI闪电发布周推出AI视频生成模型「PixVerse V6」，保持秒级生成、亲民价格的优势，生成时长最长达15s，在人物真实感、复杂运动、物理模拟和声画协同等方面全面升级。V6重点优化了人物细节，让人物表现贴合实拍质感；强化复杂运动场景处理，运动关系更稳定、物理模拟更自然；优化镜头语言，实现镜头间连贯的视觉叙事；同时降低创作门槛，支持用简短描述生成结构完整的镜头和各类复杂特效、特殊镜头。

参考：拍我AI 闪电发布周 Day 1：PixVerse V6 登场，更真、更美、更好用

京东推出「JoyStreamer」和「JoyStreamer-Flash」数字人大模型

3月31日，京东推出「JoyStreamer」和「JoyStreamer-Flash」数字人大模型，突破行业文本控制弱、多模态信号冲突、长时生成受限等痛点，实现长时长、自由态、实时互动的数字人生成，性能超现有SOTA模型。模型可精准执行复杂全身动作，唇形与音频完美同步，核心依托双教师DMD后训练、动态CFG调制、历史帧编码+伪最后一帧三大技术创新，解决了数据偏见、模态冲突、身份漂移问题，评分显著优于主流模型，其中Flash版本还实现30FPS生成、无限时长高保真流式生成。

参考：京东卷出新高度！硬刚「复杂指令」长时长、自由态数字人直播终于丝滑了

通义实验室上线「Wan2.7-Image」生图模型，人更真，字更稳，色更准

4月1日，通义实验室上线「Wan2.7-Image」生图模型，从人、字、色等核心痛点出发实现系统性升级，支持深度自定义虚拟形象骨相、五官等细节，告别AI标准脸；可稳定生成4000超长字符，兼容多语言及表格、公式混排，解决文字崩坏问题；上线色彩控制调色盘，支持输入色号或上传参考图，精准还原品牌色；新增精准框选编辑功能，可像素级调整指定区域，无需重新生图；还支持最高12张组图生成、9张参考图保持角色一致性，以及全透明通道PNG生成实现智能图层分离，能满足自媒体、短剧、电商等多行业生图、改图需求。

参考：Wan2.7-Image：人更真，字更稳，色更准

Google上线AI视频生成模型「Veo 3.1 Lite」，8秒AI视频成本不到3

4月1日，Google上线AI视频生成模型「Veo 3.1 Lite」，将8秒720p视频成本压至不到3元人民币，720p每秒0.05美元、1080p每秒0.08美元，出片仅需一两分钟，还可对接API，Gemini会员有免费积分可用，但其画质不如Seedance 2.0和可灵3.0，存在画面失真、内容变形问题。该模型定位成本优先，Google Veo产品线现分三档，覆盖精品交付、速度质量平衡、大批量快速迭代需求。此时推出该模型，正是抓住OpenAI因算力成本过高关停Sora的市场机会，在保证实用性的前提下降低成本，打造开发者生态，让视频生成成为大众化工具。

参考：Google发布Veo 3.1 Lite，8秒视频不到3块钱

美团LongCat团队发布并开源零样本语音克隆模型「LongCat-AudioDiT」

4月1日，美团LongCat团队发布并开源零样本语音克隆模型「LongCat-AudioDiT」（含1B/3.5B版本），该模型摒弃传统梅尔谱等中间表征，采用波形潜空间直接生成架构，通过Wav-VAE和扩散Transformer（DiT）实现声音的压缩、建模与重建，同时以双重约束对齐（DCA）修复训练-推理不匹配问题，用自适应投影引导（APG）替代传统CFG机制，在Seed基准测试中取得SOTA表现，3.5B版本在Seed-ZH和Seed-Hard测试集的说话人相似度（SIM）分别达0.818和0.797，且保持高可懂度，模型已在多平台开源。

参考：突破零样本TTS音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

智谱发布面向视觉编程的多模态Coding基座模型「GLM-5V-Turbo」

4月2日，智谱发布面向视觉编程的多模态Coding基座模型「GLM-5V-Turbo」，该模型原生融合视觉与文本能力，能看懂设计稿、截图等并生成可运行代码，200K上下文窗口可延伸Agent视觉交互链路，且视觉能力加持下纯文本编程能力未退化，在多模态Coding、GUI Agent等多项基准测试中表现领先，还深度适配Claude Code等主流Agent并配套官方Skills。模型凭借架构、训练方法等四方面系统性升级实现性能突破，在图像转代码、赋能龙虾Agent等场景落地效果显著，也可应用于多模态搜索等更广Agentic场景。

参考：GLM-5V-Turbo发布：多模态Coding基座模型

全球首个通用实时世界模型「PixVerse R1」完成能力更新并向所有用户开放

4月2日，爱诗科技旗下全球首个通用实时世界模型「PixVerse R1」完成能力更新并向所有注册用户全面开放，还将通过API为开发者和合作伙伴提供技术支持。本次新增专属数字分身和多人互动直播功能，前者可上传照片生成三种风格虚拟角色并在数字世界沉浸式互动，后者支持创作者在同一直播间输入指令实时生成画面，还能实时聊天交流、共创内容，此次更新进一步推动AI视频创作向实时互动和参与式体验拓展。

参考：爱诗科技闪电发布周 Day 3：PixVerse R1 开启“实时共创时代”

阿里千问大模型「Qwen3.6-Plus」正式上线并通过阿里云百炼API开放调用

4月2日，阿里千问大模型「Qwen3.6-Plus」正式上线并通过阿里云百炼API开放调用，相较前代全方位能力跃升，默认支持100万上下文窗口，智能体编程与多模态感知推理能力大幅提升，还能带来“氛围编程”体验；该模型在代码、通用智能体、STEM推理、多语言及多模态各类评测中表现亮眼，逐步向原生多模态智能体演进；API新增实用功能且兼容主流协议，可集成至多款第三方编程助手，在前端开发、视觉推理、视频理解等真实场景中实用性突出，能实现视觉智能体感知到执行的能力闭环。

参考：Qwen3.6-Plus：走向现实世界智能体

阶跃星辰上线「Step 3.5 Flash 2603」优化版模型，Agent场景速度再提升

4月2日，阶跃星辰上线「Step 3.5 Flash 2603」优化版模型，面向所有Step Plan用户开放，该模型延续高响应速度与低成本优势，新增low think mode并优化Coding和Agent框架，默认推理模式下Token消耗降14%，低推理模式下降56%，且未牺牲智力，还能主动修复报错，在高频Agent场景中速度优势显著，总耗时仅为其他参评模型一半，同时支持通过OpenAI和Anthropic相关API配置思考强度。

参考：阶跃 Step 3.5 Flash 系列上新！所有 Step Plan 用户现可体验！

Google推出专为高级推理和智能体工作流设计的开放模型「Gemma 4」

4月3日，Google正式推出专为高级推理和智能体工作流设计的开放模型「Gemma 4」，采用Apache 2.0许可开放，基于Gemini 3的研究技术构建，拥有E2B、E4B、26B MoE、31B Dense四种规格，在Arena.ai开放模型性能榜单中表现亮眼，31B和26B模型分列第3、6位且能超越规模20倍的同类模型，全系列模型具备高级推理、智能体工作流、多模态处理、长上下文、多语言支持等核心能力，不同规格模型分别适配从Android设备、边缘硬件到高端GPU、云服务器等各类运行环境，且针对不同硬件做了专属优化，发布首日便支持多款主流开发工具。

参考：Gemma 4 现已发布: 同等规模下性能最强的开放模型

AI Agent

Claude Code新增自动模式「Auto mode」，开启无人值守编程时代

3月25日，Claude Code正式上线自动模式「Auto mode」，用户可通过一行命令开启并借助快捷键切换，该模式下Claude能自主完成检索文件、写代码、运行命令等一系列编程操作，无需用户逐步批准权限，其通过内置安全分类器评估操作风险，低风险操作自动放行、高风险操作则被拦截或需人工确认，同时官方建议在Docker等隔离环境运行以平衡效率与安全，目前该功能为团队计划的研究预览版，企业版和API访问也将在数日內推出。

参考：Claude团队深夜祭出“自动模式”！网友看呆了：CC里程碑式进化！无人值班确实上头，但一周的token很快燃尽

腾讯「WorkBuddy」小程序上线，云端本机双模式解锁微信AI办公

3月31日，腾讯「WorkBuddy」微信小程序正式上线，这是其在微信的第三个入口，免下载新App、免注册新账号，适配手机场景支持打字、语音、拍照、传文件等交互方式，生成的各类产物可一键下载或转发；小程序核心亮点是支持云端沙箱与本地电脑远程执行双模式，本地模式可手机遥控电脑端远程操作本地文件和软件，云端模式无需依赖电脑且支持定时任务，二者可一键切换；同时小程序内置GLM-5.0、Kimi-K2.5等多款主流大模型，可按需灵活切换以节省Credits，还拥有可插拔的技能体系及SkillHub技能市场，能根据需求搭配能力包。

参考：腾讯WorkBuddy小程序上线，支持"云端+本机"双模式运行

TRAE旗下「SOLO」桌面端与网页端开启内测，双模式智能体加持

3月31日，TRAE.ai旗下的「SOLO」桌面端+网页端全新上线并开启内测，产品以双模式智能体和全新UI交互界面为核心，打造Agent协作方式，可让AI拆解并执行复杂任务。支持多端协同、三栏工作区交互，集成各类技能工具，通用/开发双模式可一站式完成多类工作，适配多角色场景，还能云端多任务并行、处理多格式文件，产物直观展示且可修改。目前双端内测需邀请码，桌面端暂仅支持macOS，首批限时免费。

参考：SOLO 桌面端和网页端全新上线，启动内测

OpenClaw发布「v2026.3.31」新版本，内置「QQ Bot」官方插件

4月1日，OpenClaw发布「v2026.3.31」新版本，内置「QQ Bot」官方插件，标志着QQ正式原生接入OpenClaw官方平台，腾讯轻量云与QQ团队贡献的相关代码也已合入其主仓库。该插件支持QQ私聊、多媒体消息交互，以及多账号、凭证管理等功能，将AI能力嵌入式融入沟通场景；且在QQ部署使用OpenClaw无需额外注册认证，仅三步即可完成部署，操作贴合日常聊天习惯，兼容常见消息类型，能满足日常工作生活需求。

参考：OpenClaw更新：支持QQ Bot官方插件

百度健康发布国内首款基于Claw框架打造的医生任务型AI助手「有医助理」

4月2日，百度健康发布国内首款基于Claw框架打造的医生任务型AI助手「有医助理」，首创检索+任务双引擎模式，检索模式整合海量专业医学资源且深度融入CACA指南，结论可溯源，任务模式涵盖800+项通用与医学专用Skill，能满足科研、病历处理、患者报告管理等场景需求，还具备医学专精、自主成长等特质及五层安全体系；产品检索模式已全面开放，任务模式限时免费招募中，同时百度健康启动“未来医伴”公益计划，组建三级赋能体系，旨在通过AI技术赋能基层医疗、推动优质医疗资源下沉。

参考：行业首个！百度健康发布“有医助理”，医生有了“查做一体”的龙虾助手

AI 工具

Runway上线「Multi-Shot」App，一句话生成带对话音效的完整剪辑视频

3月28日消息，Runway上线「Multi-Shot」App，基于Gen-4.5模型，支持图片或纯文字输入，用户仅需一段描述，就能自动生成最多5个镜头的完整视频，全程自动完成镜头切换、对话、音效、节奏控制和电影化构图，无需手动后期，官方也展示了多款优质生成案例。该工具现阶段单镜头最长10秒、输出720p，适合短片创作和产品演示，可在Runway网页端使用，按秒计费，分免费和不同档位付费计划，对应不同Credits额度。Runway近期融资后迭代频繁，此次推出的「Multi-Shot」App是其垂直工具之一，在行业聚焦单镜头画质时，率先解决镜头拼接、后期制作的痛点，实现文字到成品视频的一步生成。

参考：Runway Multi-Shot App：一句话生成一整段带对话、音效和剪辑的视频

UniPat AI发布「Echo」通用预测智能系统，「EchoZ-1.0」登顶AI预测排行榜

3月30日，UniPat AI发布通用预测智能系统「Echo」，核心模型「EchoZ-1.0」登顶通用AI预测排行榜，鲁棒性拉满且在人类预测薄弱的高不确定性、长周期场景优势显著。「Echo」含动态评测引擎、Train-on-Future训练范式和专用模型三大核心，引擎通过多环节闭环解决传统预测基准的时序不对称、题源单一问题，训练范式则攻克了数据泄露、结果导向偏差等痛点。UniPat AI计划将其预测能力封装为AI原生预测API开放，未来可嵌入金融、企业战略等多决策场景，让预测成为可调用、可集成的参数。

参考：Echo：迈向通用预测智能｜甲子光年

爱诗科技PixVerse推出快应用、团队版、PixVerse CLI+Skills三大效率工具

4月1日，爱诗科技PixVerse推出快应用「Mini Apps」、团队版「Team Plan」、「PixVerse CLI+Skills」三大效率工具，推动AI视频生产从单点生成工具升级为完整创作系统。快应用为轻量化多模态创作工具，首批上线广告大师可自动生成商品广告视频，混剪成片等功能即将上线，简化视频制作；团队版面向2-100人团队，支持积分共享、四级权限管理及双独立空间，保障内容资产管理；CLI为开发者提供命令行工具，可终端调用生成能力，兼容多开发环境和主流AI工具，还配备预置Skills，助力视频生成能力融入自动化工作流。

参考：爱诗科技闪电发布周 Day 2：三大效率工具上线，让AI视频创作全面提速

OpenClaw官宣和火山引擎共建「ClawHub」中国镜像站

4月2日，OpenClaw官宣「ClawHub」中国镜像站上线，由火山引擎赞助基础设施，该镜像站技能完成安全扫描、支持一键切换，大幅降低国内开发者使用门槛，海外开发者也反馈延迟显著优化。火山引擎同时公布豆包大模型日耗Token达120万亿，跻身全球第三，增量源于AI视频和智能体应用。其Seedance 2.0成全球顶级AI视频模型并开放企业公测，豆包2.0Pro国内测评领先，火山引擎还拥有完善Skill生态与独家安全认证，AI云市场竞争全面开启。

参考：中国第一，全球第三！Token日耗120万亿，直逼谷歌OpenAI

技术突破

前React大佬借Claude打造「Pretext」，重构前端文本排版测量

3月30日消息，前React核心成员Cheng Lou开发的前端开源库「Pretext」，在GitHub上线仅48小时星标破万，该项目由Claude Code和Codex辅助开发，以纯TypeScript编写轻量级文本测量算法，可绕开DOM和CSS实现无重排的精准文本排版尺寸计算，速度较传统方法快数百倍，其通过预处理分词测量缓存、纯数学算法模拟浏览器换行规则的两阶段机制，复刻了浏览器级排版行为，解决了多语言混排、浏览器差异等复杂边界问题。「Pretext」让文字布局成为纯函数，大幅降低AI生成UI的布局计算难度，在聊天应用虚拟滚动、内容产品排版、AI生成UI等场景价值显著。

参考：48小时，10k星！React 大佬借助 Claude 和 Codex 搞出新项目卷翻前端

清华与智谱团队联合推出「Vision2Web」基准，评估AI网站开发能力

3月30日，清华与智谱团队联合推出「Vision2Web」分层级基准，用于评估多模态代码Agent的视觉网站开发能力，该基准设静态网页、交互前端、全栈网站三级进阶任务，基于真实网站构建含193个开发任务的数据集，搭配工作流式Agent验证范式做功能和视觉双重评估。团队测试多款前沿模型发现，模型性能随任务复杂度提升显著下降，设备适应性有短板Claude-Opus-4.5表现最优，框架、网站及功能类别均影响模型表现，当前Agent在系统级工程化等方面存在明显局限，未来研究需聚焦分层任务设计与自主评估范式。

参考：独家｜智谱唐杰团队推出编码Agent基准Vision2Web，明天将公布年报

企业微信正式在GitHub开源「CLI」项目，支持Claude Code等主流AI Agent

3月30日，企业微信正式在GitHub开源「CLI」项目，支持Claude Code等主流AI Agent，向AI开放消息通讯录、文档智能表格、日程会议、待办任务等7大办公核心能力，且优先面向10人及以下企业开放；相较传统API接口，「CLI」模式更贴合AI思维，能简化处理复合任务，降低开发与集成门槛，减少Token使用成本；用户可通过配置机器人信息、安装「CLI」及相关SKILL、调用对应技能三步快速接入，项目还提供了通讯录、会议、文档等多类细分技能，此次开源让企业微信核心能力从人工使用转向AI可调用，推动AI在办公场景中从答疑升级为协助完成实际工作。

参考：企业微信正式开源CLI ，AI可调用7大能力

NVIDIA开源机器人操控框架「CaP-X」，机器人自主写代码完成操控

4月2日，NVIDIA开源机器人操控框架「CaP-X」，以“代码即策略”为核心，让机器人能通过摄像头理解环境并生成Python代码自主控制，成功代码会自动存入技能库且适用于不同形态机器人，还可将具身大模型（如VLA）作为API调用；其包含CaP-Gym交互式训练环境、CaP-Bench层级化基准测试、CaP-Agent0智能体框架及CaP-RL强化学习算法等组件，CaP-Agent0凭借多轮视觉差异比对、自动合成技能库、并行集成推理等特性，在7项核心任务中4项成功率追平甚至超越人类专家，在鲁棒性和真实世界迁移能力上表现亮眼。

参考：英伟达给机器人装上龙虾大脑！具身智能的Harness来了

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

魔音漫创源码解析：扩展指南：如何在 moyin-creator 中接入自定义 AI 大模型供应商？

本文介绍了如何为开源AI影视生产工具魔音漫创(MoyinCreator)接入自定义AI大模型的方法。主要内容包括：1)分析核心架构，指出AI调用通过适配器模式实现；2)详细步骤：定义供应商类型、编写Provider适配器、注册工厂类、配置前端界面；3)测试验证方法。该方案采用模块化设计，支持灵活接入不同AI模型，不仅适用于大语言模型，也可扩展至图像和视频生成接口。文章还提供了流式传输优化等实用建议

AtomGit开源社区

把 BAPI 里的校验能力接进 RAP，Validation、Simulation Mode 与消息回传的完整落地思路

AtomGit开源社区

基于 API 的商品类目自动分类：NLP + 规则引擎的混合方案

电商商品类目分类面临人工效率低、规则泛化差、NLP模型不可控等痛点。本文提出API服务化架构+NLP语义模型+规则引擎的混合方案：规则引擎精准处理标准商品，NLP模型处理模糊语义，后置规则校验纠偏，通过标准化API输出统一分类结果。该方案实现毫秒级响应，支持多业务系统对接，形成分类-审核-迭代闭环，有效提升分类精度与效率，适用于跨境铺货、供应链管理等场景，解决了传统方案的泛化弱、迭代慢等问题。