本周AI领域迎来密集发布:美团、智谱、Google、阿里、京东、爱诗科技、阶跃星辰等相继推出多款高性能大模型,覆盖推理、视频、生图、数字人、实时交互、编程等场景;AI Agent与工具持续落地,Claude、腾讯、TRAE、OpenClaw、百度健康等推出智能体产品,企业微信、NVIDIA开源相关框架与接口;同时Runway、UniPat AI等发布新工具,多项技术开源与基准测评落地,AI生成、协作与开发能力全面升级,一起来回顾本周发生的AI新鲜事儿吧!

AI 大模型

美团发布并开源原生多模态模型「LongCat-Next」及离散分词器

3月27日,美团发布并开源原生多模态模型「LongCat-Next」及离散分词器,该模型将图像、语音、文本统一映射为同源离散Token,通过DiNA架构、dNaViT分词器、SAE编码器三大核心技术,实现多模态统一建模,破解离散化信息损失难题,打破传统多模态模型架构局限;在视觉、音频、智能体等多维度表现优异,实现理解与生成协同提升,且未削弱语言核心能力,还形成跨模态协同,相关模型及工具已多平台开源。

参考:美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语

智谱向GLM Coding Plan全量用户开放尚未正式发布的「GLM-5.1」模型

3月27日,智谱向GLM Coding Plan全量用户(Lite/Pro/Max)超前开放尚未正式发布的「GLM-5.1」模型,用户可在Coding Agent自定义配置中手动切换模型接入,官方提醒高负载时系统或触发保护性限流,且集群繁忙时非核心编程场景请求更易被限流;该高阶模型调用额度消耗分时段按不同系数计算,高峰期(每日14:00-18:00 UTC+8)3倍、非高峰期2倍,同时推出限时福利,4月底前非高峰期调用仅1倍抵扣额度,官方建议用户在非高峰时段体验。

参考:GLM-5.1交给你们了,全量用户超前开放!

Google发布「Gemini 3.1 Flash Live」实时模型,重构人机交互范式

3月28日,Google发布「Gemini 3.1 Flash Live」实时模型,经一年多打磨实现延迟、可靠性等阶跃式提升,可构建毫秒级响应的语音视觉智能体,能有效过滤交通、电视等背景噪音,提升真实场景任务完成率,还强化了语音识别与指令遵循能力。该模型已通过Gemini Live API推出预览版,基于WebSocket连接,支持音视频和文本流实时交互,具备多语言、工具调用等核心能力,还配套提供开发资源并联合伙伴完善部署能力,已落地设计、老年陪伴、游戏等场景。

参考:谷歌干掉「请再说一次」!Gemini 3.1毫秒级接话,实时Agent时代来了

通义实验室发布多模态模型「Qwen3.5-Omni」,斩获215项SOTA

3月30日,通义实验室发布多模态模型「Qwen3.5-Omni」,实现全感官进化,原生支持文本、图片、音频及音视频全模态输入,斩获215项SOTA,自然涌现Vibe Coding能力,还支持语义打断、音色克隆、256K超长上下文、113种语言识别,可处理10小时音频/1小时视频,原生兼容WebSearch和复杂工具调用,能落地视频创作、智能对话、任务执行等多场景。

参考:215项SOTA + 自然涌现Vibe Coding!Qwen3.5-Omni发布

爱诗科技在拍我AI闪电发布周推出AI视频生成模型「PixVerse V6」

3月31日,爱诗科技在拍我AI闪电发布周推出AI视频生成模型「PixVerse V6」,保持秒级生成、亲民价格的优势,生成时长最长达15s,在人物真实感、复杂运动、物理模拟和声画协同等方面全面升级。V6重点优化了人物细节,让人物表现贴合实拍质感;强化复杂运动场景处理,运动关系更稳定、物理模拟更自然;优化镜头语言,实现镜头间连贯的视觉叙事;同时降低创作门槛,支持用简短描述生成结构完整的镜头和各类复杂特效、特殊镜头。

参考:拍我AI 闪电发布周 Day 1:PixVerse V6 登场,更真、更美、更好用

京东推出「JoyStreamer」和「JoyStreamer-Flash」数字人大模型

3月31日,京东推出「JoyStreamer」和「JoyStreamer-Flash」数字人大模型,突破行业文本控制弱、多模态信号冲突、长时生成受限等痛点,实现长时长、自由态、实时互动的数字人生成,性能超现有SOTA模型。模型可精准执行复杂全身动作,唇形与音频完美同步,核心依托双教师DMD后训练、动态CFG调制、历史帧编码+伪最后一帧三大技术创新,解决了数据偏见、模态冲突、身份漂移问题,评分显著优于主流模型,其中Flash版本还实现30FPS生成、无限时长高保真流式生成。

参考:京东卷出新高度!硬刚「复杂指令」长时长、自由态数字人直播终于丝滑了

通义实验室上线「Wan2.7-Image」生图模型,人更真,字更稳,色更准

4月1日,通义实验室上线「Wan2.7-Image」生图模型,从人、字、色等核心痛点出发实现系统性升级,支持深度自定义虚拟形象骨相、五官等细节,告别AI标准脸;可稳定生成4000超长字符,兼容多语言及表格、公式混排,解决文字崩坏问题;上线色彩控制调色盘,支持输入色号或上传参考图,精准还原品牌色;新增精准框选编辑功能,可像素级调整指定区域,无需重新生图;还支持最高12张组图生成、9张参考图保持角色一致性,以及全透明通道PNG生成实现智能图层分离,能满足自媒体、短剧、电商等多行业生图、改图需求。

参考:Wan2.7-Image:人更真,字更稳,色更准

Google上线AI视频生成模型「Veo 3.1 Lite」,8秒AI视频成本不到3

4月1日,Google上线AI视频生成模型「Veo 3.1 Lite」,将8秒720p视频成本压至不到3元人民币,720p每秒0.05美元、1080p每秒0.08美元,出片仅需一两分钟,还可对接API,Gemini会员有免费积分可用,但其画质不如Seedance 2.0和可灵3.0,存在画面失真、内容变形问题。该模型定位成本优先,Google Veo产品线现分三档,覆盖精品交付、速度质量平衡、大批量快速迭代需求。此时推出该模型,正是抓住OpenAI因算力成本过高关停Sora的市场机会,在保证实用性的前提下降低成本,打造开发者生态,让视频生成成为大众化工具。

参考:Google发布Veo 3.1 Lite,8秒视频不到3块钱

美团LongCat团队发布并开源零样本语音克隆模型「LongCat-AudioDiT」

4月1日,美团LongCat团队发布并开源零样本语音克隆模型「LongCat-AudioDiT」(含1B/3.5B版本),该模型摒弃传统梅尔谱等中间表征,采用波形潜空间直接生成架构,通过Wav-VAE和扩散Transformer(DiT)实现声音的压缩、建模与重建,同时以双重约束对齐(DCA)修复训练-推理不匹配问题,用自适应投影引导(APG)替代传统CFG机制,在Seed基准测试中取得SOTA表现,3.5B版本在Seed-ZH和Seed-Hard测试集的说话人相似度(SIM)分别达0.818和0.797,且保持高可懂度,模型已在多平台开源。

参考:突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

智谱发布面向视觉编程的多模态Coding基座模型「GLM-5V-Turbo」

4月2日,智谱发布面向视觉编程的多模态Coding基座模型「GLM-5V-Turbo」,该模型原生融合视觉与文本能力,能看懂设计稿、截图等并生成可运行代码,200K上下文窗口可延伸Agent视觉交互链路,且视觉能力加持下纯文本编程能力未退化,在多模态Coding、GUI Agent等多项基准测试中表现领先,还深度适配Claude Code等主流Agent并配套官方Skills。模型凭借架构、训练方法等四方面系统性升级实现性能突破,在图像转代码、赋能龙虾Agent等场景落地效果显著,也可应用于多模态搜索等更广Agentic场景。

参考:GLM-5V-Turbo发布:多模态Coding基座模型

全球首个通用实时世界模型「PixVerse R1」完成能力更新并向所有用户开放

4月2日,爱诗科技旗下全球首个通用实时世界模型「PixVerse R1」完成能力更新并向所有注册用户全面开放,还将通过API为开发者和合作伙伴提供技术支持。本次新增专属数字分身和多人互动直播功能,前者可上传照片生成三种风格虚拟角色并在数字世界沉浸式互动,后者支持创作者在同一直播间输入指令实时生成画面,还能实时聊天交流、共创内容,此次更新进一步推动AI视频创作向实时互动和参与式体验拓展。

参考:爱诗科技闪电发布周 Day 3:PixVerse R1 开启“实时共创时代”

阿里千问大模型「Qwen3.6-Plus」正式上线并通过阿里云百炼API开放调用

4月2日,阿里千问大模型「Qwen3.6-Plus」正式上线并通过阿里云百炼API开放调用,相较前代全方位能力跃升,默认支持100万上下文窗口,智能体编程与多模态感知推理能力大幅提升,还能带来“氛围编程”体验;该模型在代码、通用智能体、STEM推理、多语言及多模态各类评测中表现亮眼,逐步向原生多模态智能体演进;API新增实用功能且兼容主流协议,可集成至多款第三方编程助手,在前端开发、视觉推理、视频理解等真实场景中实用性突出,能实现视觉智能体感知到执行的能力闭环。

参考:Qwen3.6-Plus:走向现实世界智能体

阶跃星辰上线「Step 3.5 Flash 2603」优化版模型,Agent场景速度再提升

4月2日,阶跃星辰上线「Step 3.5 Flash 2603」优化版模型,面向所有Step Plan用户开放,该模型延续高响应速度与低成本优势,新增low think mode并优化Coding和Agent框架,默认推理模式下Token消耗降14%,低推理模式下降56%,且未牺牲智力,还能主动修复报错,在高频Agent场景中速度优势显著,总耗时仅为其他参评模型一半,同时支持通过OpenAI和Anthropic相关API配置思考强度。

参考:阶跃 Step 3.5 Flash 系列上新!所有 Step Plan 用户现可体验!

Google推出专为高级推理和智能体工作流设计的开放模型「Gemma 4」

4月3日,Google正式推出专为高级推理和智能体工作流设计的开放模型「Gemma 4」,采用Apache 2.0许可开放,基于Gemini 3的研究技术构建,拥有E2B、E4B、26B MoE、31B Dense四种规格,在Arena.ai开放模型性能榜单中表现亮眼,31B和26B模型分列第3、6位且能超越规模20倍的同类模型,全系列模型具备高级推理、智能体工作流、多模态处理、长上下文、多语言支持等核心能力,不同规格模型分别适配从Android设备、边缘硬件到高端GPU、云服务器等各类运行环境,且针对不同硬件做了专属优化,发布首日便支持多款主流开发工具。

参考:Gemma 4 现已发布: 同等规模下性能最强的开放模型

AI Agent

Claude Code新增自动模式「Auto mode」,开启无人值守编程时代

3月25日,Claude Code正式上线自动模式「Auto mode」,用户可通过一行命令开启并借助快捷键切换,该模式下Claude能自主完成检索文件、写代码、运行命令等一系列编程操作,无需用户逐步批准权限,其通过内置安全分类器评估操作风险,低风险操作自动放行、高风险操作则被拦截或需人工确认,同时官方建议在Docker等隔离环境运行以平衡效率与安全,目前该功能为团队计划的研究预览版,企业版和API访问也将在数日內推出。

参考:Claude团队深夜祭出“自动模式”!网友看呆了:CC里程碑式进化!无人值班确实上头,但一周的token很快燃尽

腾讯「WorkBuddy」小程序上线,云端本机双模式解锁微信AI办公

3月31日,腾讯「WorkBuddy」微信小程序正式上线,这是其在微信的第三个入口,免下载新App、免注册新账号,适配手机场景支持打字、语音、拍照、传文件等交互方式,生成的各类产物可一键下载或转发;小程序核心亮点是支持云端沙箱与本地电脑远程执行双模式,本地模式可手机遥控电脑端远程操作本地文件和软件,云端模式无需依赖电脑且支持定时任务,二者可一键切换;同时小程序内置GLM-5.0、Kimi-K2.5等多款主流大模型,可按需灵活切换以节省Credits,还拥有可插拔的技能体系及SkillHub技能市场,能根据需求搭配能力包。

参考:腾讯WorkBuddy小程序上线,支持"云端+本机"双模式运行

TRAE旗下「SOLO」桌面端与网页端开启内测,双模式智能体加持

3月31日,TRAE.ai旗下的「SOLO」桌面端+网页端全新上线并开启内测,产品以双模式智能体和全新UI交互界面为核心,打造Agent协作方式,可让AI拆解并执行复杂任务。支持多端协同、三栏工作区交互,集成各类技能工具,通用/开发双模式可一站式完成多类工作,适配多角色场景,还能云端多任务并行、处理多格式文件,产物直观展示且可修改。目前双端内测需邀请码,桌面端暂仅支持macOS,首批限时免费。

参考:SOLO 桌面端和网页端全新上线,启动内测

OpenClaw发布「v2026.3.31」新版本,内置「QQ Bot」官方插件

4月1日,OpenClaw发布「v2026.3.31」新版本,内置「QQ Bot」官方插件,标志着QQ正式原生接入OpenClaw官方平台,腾讯轻量云与QQ团队贡献的相关代码也已合入其主仓库。该插件支持QQ私聊、多媒体消息交互,以及多账号、凭证管理等功能,将AI能力嵌入式融入沟通场景;且在QQ部署使用OpenClaw无需额外注册认证,仅三步即可完成部署,操作贴合日常聊天习惯,兼容常见消息类型,能满足日常工作生活需求。

参考:OpenClaw更新:支持QQ Bot官方插件

百度健康发布国内首款基于Claw框架打造的医生任务型AI助手「有医助理」

4月2日,百度健康发布国内首款基于Claw框架打造的医生任务型AI助手「有医助理」,首创检索+任务双引擎模式,检索模式整合海量专业医学资源且深度融入CACA指南,结论可溯源,任务模式涵盖800+项通用与医学专用Skill,能满足科研、病历处理、患者报告管理等场景需求,还具备医学专精、自主成长等特质及五层安全体系;产品检索模式已全面开放,任务模式限时免费招募中,同时百度健康启动“未来医伴”公益计划,组建三级赋能体系,旨在通过AI技术赋能基层医疗、推动优质医疗资源下沉。

参考:行业首个!百度健康发布“有医助理”,医生有了“查做一体”的龙虾助手

AI 工具

Runway上线「Multi-Shot」App,一句话生成带对话音效的完整剪辑视频

3月28日消息,Runway上线「Multi-Shot」App,基于Gen-4.5模型,支持图片或纯文字输入,用户仅需一段描述,就能自动生成最多5个镜头的完整视频,全程自动完成镜头切换、对话、音效、节奏控制和电影化构图,无需手动后期,官方也展示了多款优质生成案例。该工具现阶段单镜头最长10秒、输出720p,适合短片创作和产品演示,可在Runway网页端使用,按秒计费,分免费和不同档位付费计划,对应不同Credits额度。Runway近期融资后迭代频繁,此次推出的「Multi-Shot」App是其垂直工具之一,在行业聚焦单镜头画质时,率先解决镜头拼接、后期制作的痛点,实现文字到成品视频的一步生成。

参考:Runway Multi-Shot App:一句话生成一整段带对话、音效和剪辑的视频

UniPat AI发布「Echo」通用预测智能系统,「EchoZ-1.0」登顶AI预测排行榜

3月30日,UniPat AI发布通用预测智能系统「Echo」,核心模型「EchoZ-1.0」登顶通用AI预测排行榜,鲁棒性拉满且在人类预测薄弱的高不确定性、长周期场景优势显著。「Echo」含动态评测引擎、Train-on-Future训练范式和专用模型三大核心,引擎通过多环节闭环解决传统预测基准的时序不对称、题源单一问题,训练范式则攻克了数据泄露、结果导向偏差等痛点。UniPat AI计划将其预测能力封装为AI原生预测API开放,未来可嵌入金融、企业战略等多决策场景,让预测成为可调用、可集成的参数。

参考:Echo:迈向通用预测智能|甲子光年

爱诗科技PixVerse推出快应用、团队版、PixVerse CLI+Skills三大效率工具

4月1日,爱诗科技PixVerse推出快应用「Mini Apps」、团队版「Team Plan」、「PixVerse CLI+Skills」三大效率工具,推动AI视频生产从单点生成工具升级为完整创作系统。快应用为轻量化多模态创作工具,首批上线广告大师可自动生成商品广告视频,混剪成片等功能即将上线,简化视频制作;团队版面向2-100人团队,支持积分共享、四级权限管理及双独立空间,保障内容资产管理;CLI为开发者提供命令行工具,可终端调用生成能力,兼容多开发环境和主流AI工具,还配备预置Skills,助力视频生成能力融入自动化工作流。

参考:爱诗科技闪电发布周 Day 2:三大效率工具上线,让AI视频创作全面提速

OpenClaw官宣和火山引擎共建「ClawHub」中国镜像站

4月2日,OpenClaw官宣「ClawHub」中国镜像站上线,由火山引擎赞助基础设施,该镜像站技能完成安全扫描、支持一键切换,大幅降低国内开发者使用门槛,海外开发者也反馈延迟显著优化。火山引擎同时公布豆包大模型日耗Token达120万亿,跻身全球第三,增量源于AI视频和智能体应用。其Seedance 2.0成全球顶级AI视频模型并开放企业公测,豆包2.0Pro国内测评领先,火山引擎还拥有完善Skill生态与独家安全认证,AI云市场竞争全面开启。

参考:中国第一,全球第三!Token日耗120万亿,直逼谷歌OpenAI

技术突破

前React大佬借Claude打造「Pretext」,重构前端文本排版测量

3月30日消息,前React核心成员Cheng Lou开发的前端开源库「Pretext」,在GitHub上线仅48小时星标破万,该项目由Claude Code和Codex辅助开发,以纯TypeScript编写轻量级文本测量算法,可绕开DOM和CSS实现无重排的精准文本排版尺寸计算,速度较传统方法快数百倍,其通过预处理分词测量缓存、纯数学算法模拟浏览器换行规则的两阶段机制,复刻了浏览器级排版行为,解决了多语言混排、浏览器差异等复杂边界问题。「Pretext」让文字布局成为纯函数,大幅降低AI生成UI的布局计算难度,在聊天应用虚拟滚动、内容产品排版、AI生成UI等场景价值显著。

参考:48小时,10k星!React 大佬借助 Claude 和 Codex 搞出新项目卷翻前端

清华与智谱团队联合推出「Vision2Web」基准,评估AI网站开发能力

3月30日,清华与智谱团队联合推出「Vision2Web」分层级基准,用于评估多模态代码Agent的视觉网站开发能力,该基准设静态网页、交互前端、全栈网站三级进阶任务,基于真实网站构建含193个开发任务的数据集,搭配工作流式Agent验证范式做功能和视觉双重评估。团队测试多款前沿模型发现,模型性能随任务复杂度提升显著下降,设备适应性有短板Claude-Opus-4.5表现最优,框架、网站及功能类别均影响模型表现,当前Agent在系统级工程化等方面存在明显局限,未来研究需聚焦分层任务设计与自主评估范式。

参考:独家|智谱唐杰团队推出编码Agent基准Vision2Web,明天将公布年报

企业微信正式在GitHub开源「CLI」项目,支持Claude Code等主流AI Agent

3月30日,企业微信正式在GitHub开源「CLI」项目,支持Claude Code等主流AI Agent,向AI开放消息通讯录、文档智能表格、日程会议、待办任务等7大办公核心能力,且优先面向10人及以下企业开放;相较传统API接口,「CLI」模式更贴合AI思维,能简化处理复合任务,降低开发与集成门槛,减少Token使用成本;用户可通过配置机器人信息、安装「CLI」及相关SKILL、调用对应技能三步快速接入,项目还提供了通讯录、会议、文档等多类细分技能,此次开源让企业微信核心能力从人工使用转向AI可调用,推动AI在办公场景中从答疑升级为协助完成实际工作。

参考:企业微信正式开源CLI ,AI可调用7大能力

NVIDIA开源机器人操控框架「CaP-X」,机器人自主写代码完成操控

4月2日,NVIDIA开源机器人操控框架「CaP-X」,以“代码即策略”为核心,让机器人能通过摄像头理解环境并生成Python代码自主控制,成功代码会自动存入技能库且适用于不同形态机器人,还可将具身大模型(如VLA)作为API调用;其包含CaP-Gym交互式训练环境、CaP-Bench层级化基准测试、CaP-Agent0智能体框架及CaP-RL强化学习算法等组件,CaP-Agent0凭借多轮视觉差异比对、自动合成技能库、并行集成推理等特性,在7项核心任务中4项成功率追平甚至超越人类专家,在鲁棒性和真实世界迁移能力上表现亮眼。

参考:英伟达给机器人装上龙虾大脑!具身智能的Harness来了

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐