【AIGC行业前沿】2026年3月AIGC行业模型发布以及主要前沿资讯

骑着拖拉机去旅行

930人浏览 · 2026-03-29 21:56:16

骑着拖拉机去旅行 · 2026-03-29 21:56:16 发布

Cognition发布SWE-1.6早期预览版
Qwen 3.5传即将推出四款小型稠密开源模型
千问团队开源Qwen3.5小尺寸模型系列
阶跃星辰开源Step 3.5 Flash模型及训练框架
IQuestLab开源IQuest-Coder-V1系列代码模型权重
小红书开源FireRed-OCR模型
通义实验室发布Fun-CosyVoice 3.5 与 Fun-AudioGen-VD两款语音模型
Jan团队发布Jan-Code-4B模型
OpenClaw发布2026.3.1版本
OpenAI发布GPT-5.3 Instant模型
Google推出Gemini 3.1 Flash-Lite预览版
xAI发布Grok 4.20 Beta 2模型更新
OpenAI面向Windows正式发布Codex应用并开源原生Agent沙盒
MiniMax发布Music 2.5+纯音乐创作模型
北大字节Canva联合团队发布14B视频生成模型Helios
YuanLab.ai开源万亿参数多模态模型Yuan3.0 Ultra
OpenAI发布GPT-5.4模型
Lightricks正式发布LTX-2.3音视频模型及开源编辑器
Ai2发布全开源混合架构模型Olmo Hybrid 7B
腾讯混元团队开源HY-WU可拓展框架
Luma AI推出统一生成模型Uni-1
印企Sarvam AI开源Sarvam-30B和Sarvam-105B模型
OpenVGLab开源动画生成模型OmniLottie

24、小红书开源 FireRed-Image-Edit-1.1 图像编辑模型

25、小红书 REDtech 发布 REDSearcher 开源深度搜索框架

26、Tencent AI Lab 开源 LeVo 2 音乐模型，支持 4 分半全曲生成

27、Fish Audio 开源 S2 文本转语音模型

28、Hume AI 开源 TADA，基于 Llama 3.2 实现语音语言统一模型

29、OpenRouter 上线两款 Stealth 模型

30、龙猫在API中上线 LongCat-Flash-Omni，免费可用

31、MiroMind 发布 MiroThinker 系列 Agent，含开源模型与定制版

32、Reka 发布 70 亿参数 Reka Edge 模型并开源

33、OpenAI 视频 API 上线新功能

34、NVIDIA 发布 NVILA-8B-HD-Video 模型，支持 4K 视频输入

35、上海人工智能实验室发布 InternVL-U 统一多模态模型

36、StepFun 发布 Step 3.5 Flash 模型训练数据
37、Mistral AI 发布 Mistral Small 4，开源混合专家模型

38、Mistral AI 发布首个 Lean 4 开源代码 Agent Leanstral

39、腾讯开源 Covo-Audio-Chat 语音模型，支持原生全双工

40、IBM 开源 Granite-4.0-1b-speech 语音模型，支持多语言互译

41、阿里通义开源 Fun-CineForge 多模态配音模型

42、H Company 联合 NVIDIA 发布 Holotron-12B 模型

43、英伟达推出 120 亿参数 Nemotron 3 VoiceChat 语音模型

44、Meta 发布 OMT 系统，支持 1600 多种语言

45、乐天发布 Rakuten AI 3.0，基于 DeepSeek V3

46、微软 AI 发布 MAI-Image-2 文生图模型

47、小红书 rednote-hilab 发布 dots.mocr，3B 参数支持图像转 SVG

48、美团龙猫开源 LongCat-Flash-Prover

49、英伟达发布 30B MoE 模型，IMO 与 IOI 获金牌成绩

1、Cognition发布SWE-1.6早期预览版

Cognition推出SWE-1.6模型早期预览版，该模型在SWE-Bench Pro基准测试中得分较前代SWE-1.5提升11%，性能超越顶尖开源模型，同时保持950 tok/s的运行速度。官方通过优化RL配方、扩容基础设施，将计算投入提升两个数量级，依托GB200芯片和NVFP4精度完成训练优化，目前模型仍存在过度思考、过度自检的问题。团队面向Windsurf部分用户开放早期访问，收集反馈修复缺陷。

相关链接：

https://cognition.ai/blog/swe-1-6-preview

https://x.com/cognition/status/2028224340484129033

2、Qwen 3.5传即将推出四款小型稠密开源模型

Qwen团队负责人透露，Qwen 3.5系列即将上线小参数量稠密开源模型，据社交媒体消息，共计四款，参数量分别为0.8B、2B、4B、9B。该系列旨在完善端侧与消费级显卡生态，预计同步推出Base和Instruct版本，有望支持256K上下文长度与原生多模态能力。

相关链接：

https://x.com/JustinLin610/status/2028072650619380067

https://x.com/casperhansen/status/2028146268229579074

3、千问团队开源Qwen3.5小尺寸模型系列

千问团队正式开源Qwen3.5小尺寸模型系列，囊括0.8B、2B、4B、9B四款模型，至此Qwen家族模型增至8款。新模型依托原生多模态基座，融合Gated Delta Networks与稀疏MoE架构，原生支持262K上下文，还可扩展至1M+，采用Apache 2.0开源协议，同步开放基座与对话模型。其中0.8B、2B款适配端侧部署，4B款定位轻量级Agent多模态底座，9B款实现紧凑体积下的越级性能，多款模型已登陆HF、魔搭、Ollama平台，多项评测成绩领跑同尺寸模型。

相关链接：

https://mp.weixin.qq.com/s/n8TbEYzklxg4kKh6_dDVlg

https://huggingface.co/collections/Qwen/qwen35

4、阶跃星辰开源Step 3.5 Flash模型及训练框架

阶跃星辰正式开源Step 3.5 Flash基础版与中间训练版模型，同步推出仅需PyTorch依赖的SteptronOSS训练框架，二者均遵循Apache 2.0协议。该模型采用稀疏MoE架构，总参数196B、激活参数11B，支持256K上下文，搭载多Token预测技术，生成吞吐量峰值可达350 tok/s，在SWE-bench Verified、Terminal-Bench 2.0测试中分别取得74.4%、51.0%的成绩。SteptronOSS框架支持SFT、RLVR及模型评估，模型权重已上线Hugging Face，SFT数据集将后续发布。

相关链接：

https://github.com/stepfun-ai/SteptronOss

https://huggingface.co/stepfun-ai/Step-3.5-Flash-Base

https://huggingface.co/stepfun-ai/Step-3.5-Flash-Base-Midtrain

5、IQuestLab开源IQuest-Coder-V1系列代码模型权重

IQuestLab在Hugging Face平台开源IQuest-Coder-V1全系列代码模型权重，覆盖7B、14B、40B多个参数规格，包含Base、Instruct、Thinking等细分版本，还有40B-Loop-Thinking实验版本，主打自主软件工程与代码智能场景。该系列采用浅层架构，7B、14B规格可实现3-5倍推理加速，依托Code-Flow训练范式学习代码演化逻辑，不同版本分别专攻复杂编程推理、通用代码协作，40B-Loop-Thinking款则采用循环Transformer架构探索嵌套推理。

相关链接：

https://iquestlab.github.io/release-1.0-2603/index.html

https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Loop-Thinking

https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Thinking

https://huggingface.co/IQuestLab/IQuest-Coder-V1-14B-Instruct

https://huggingface.co/IQuestLab/IQuest-Coder-V1-7B-Instruct

6、小红书开源FireRed-OCR模型

小红书REDtech团队开源基于Qwen3-VL-2B架构的FireRed-OCR智能文档处理模型，专攻解决复杂文档处理中的结构性幻觉难题。模型首创三阶段渐进优化策略与几何+语义数据工厂，大幅提升结构化解析能力，在OmniDocBench v1.5评测中以92.94%的综合准确率登顶，成为首个突破92%阈值的端到端模型，文本识别、公式解析、表格重构等指标表现优异，已在GitHub、Hugging Face、ModelScope全平台开源。

相关链接：

https://github.com/FireRedTeam/FireRed-OCR

https://huggingface.co/FireRedTeam/FireRed-OCR

7、通义实验室发布Fun-CosyVoice 3.5 与 Fun-AudioGen-VD 两款语音模型

阿里通义实验室推出Fun-CosyVoice3.5和Fun-AudioGen-VD两款语音模型，均支持FreeStyle指令生成并开放API调用。其中Fun-CosyVoice3.5专注多语种语音复刻与精细控制，通过DiffRO与GRPO技术，将生僻字读错率从15.2%降至5.3%，首包延迟降低35%，新增泰语等四个语种；Fun-AudioGen-VD聚焦全场景声音设计，可通过自然语言生成带性别、情绪、空间声学效果的人物+场景定制音频。

相关链接：

https://mp.weixin.qq.com/s/sTNC7bVphs9zofly3lBoUQ

8、Jan团队发布Jan-Code-4B 模型

Jan团队发布40亿参数的Jan-Code-4B代码模型，该模型基于Qwen3-4B-Instruct-2507架构优化而来，主打本地低延迟运行，可作为轻量级编程助手，或是Agent工作流中的快速执行单元，替代Claude Code中的Haiku模型使用。

相关链接：

https://huggingface.co/janhq/Jan-code-4b

9、OpenClaw发布2026.3.1版本

OpenClaw正式推出2026.3.1版本，新增OpenAI WebSocket流式传输功能，支持Claude 4.6自适应思考，优化了Docker与K8s容器化部署体验，新增Discord线程支持，修复飞书相关问题，还上线了Agent驱动的可视化差异插件。目前该项目GitHub Star数已超越React。

相关链接：

https://github.com/openclaw/openclaw/releases/tag/v2026.3.1

https://x.com/openclaw/status/2028340185902006404

10、OpenAI发布GPT-5.3 Instant模型

OpenAI推出GPT-5.3 Instant模型替代前代GPT-5.2 Instant，全量面向用户开放。新版优化交互体验，减少拒答、免责声明和说教语气，升级联网搜索能力，大幅降低幻觉率，其中联网模式幻觉率下降26.8%，非联网模式下降19.7%，同时提升写作能力，部分非英语语种回复仍有待优化。该模型的Thinking和Pro版本将于近期推出，前代模型将于2026年6月退役。

相关链接：

https://openai.com/index/gpt-5-3-instant/

11、Google推出Gemini 3.1 Flash-Lite预览版

Google发布Gemini 3.1 Flash-Lite预览版，定位为Gemini 3系列中速度最快、性价比最高的模型，适配高频次、大规模工作负载场景，通过Google AI Studio API和Vertex AI开放访问。该模型性能优于2.5 Flash，首token响应速度快2.5倍，输出速度提升45%，多项基准测试成绩亮眼，还搭载思考等级功能，可灵活调控推理深度，定价亲民，适用于大规模翻译、内容审核等场景。

相关链接：

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/

12、xAI发布Grok 4.20 Beta 2模型更新

xAI推出Grok 4.20 Beta 2版本，针对模型性能和稳定性完成多项优化，重点提升指令跟随能力，减少模型幻觉；优化科学文本生成效果，强化LaTeX格式表达支持；同时提高图像搜索触发精准度，提升多图像渲染的稳定性。

相关链接：

https://x.com/grok/status/2028714422462448041

13、OpenAI面向Windows正式发布Codex应用并开源原生Agent沙盒

OpenAI在Microsoft Store上线Windows版Codex应用，支持原生运行和WSL环境，集成PowerShell、Git Bash等主流终端。官方打造Windows原生Agent沙盒并开源代码，通过系统级权限管控，限制AI写入路径并阻断对外网络，同时新增Handoff工作流和WinUI、ASP.NET专属技能。此外，官方修复了Plus和Pro用户速率限制失效问题，并重置相关用户速率限制。

相关链接：

https://develop.openai.com/wendows

https://github.com/openai/codex/tree/main/codex-rs/windows-sandbox-rs

https://x.com/embirico/status/2029328374171308273

https://x.com/OpenAIDevs/status/2028995695425011949

14、MiniMax发布Music 2.5+纯音乐创作模型

MiniMax上线Music 2.5+纯音乐创作功能，将业务从歌曲生成拓展至纯音乐领域，采用单一架构，支持古典、电子等多元曲风，覆盖冥想、影视配乐等场景。模型支持跨风格融合，针对笛子、古筝、琵琶等中国传统乐器做了深度优化，生成的音乐和声层次丰富，现已通过官网和API开放使用。

相关链接：

https://minimaxi.com/news/music-25-%E8%A7%A3%E9%94%81%E7%BA%AF%E9%9F%B3%E4%B9%90%E7%AA%81%E7%A0%B4%E9%A3%8E%E6%A0%BC%E8%BE%B9%E7%95%8C

15、北大字节Canva联合团队发布14B视频生成模型Helios

北京大学、字节跳动与Canva联合研发的14B参数自回归扩散视频模型Helios正式发布，支持分钟级长视频生成，代码与模型权重全面开源。该模型架构高效，无需KV-cache加速技术，单张H100 GPU可实现19.5 FPS实时推理，计算成本低于1.3B参数模型，通过模拟漂移现象解决长视频画面偏移问题，原生支持文生视频、图生视频、视频转视频任务。

相关链接：

https://pku-yuangroup.github.io/Helios-Page/

16、YuanLab.ai开源万亿参数多模态模型Yuan3.0 Ultra

浪潮信息YuanLab.ai团队开源Yuan3.0 Ultra万亿参数多模态大模型，成为全球为数不多的同级开源模型。该模型采用混合专家架构，通过LAEP算法优化参数至1010B（激活68.8B），预训练效率提升49%，搭配LFA机制和反思抑制奖励机制，缓解过度思考问题，训练准确率提升16.33%。模型在多项企业级基准测试中表现优异，复杂文档理解和智能体调用能力突出，支持64K上下文和商用，已上线HuggingFace平台。

相关链接：

https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra

https://huggingface.co/YuanLabAI/Yuan3.0-Ultra

17、OpenAI 发布 GPT-5.4 模型

OpenAI推出专为专业场景打造的GPT-5.4及Pro版本模型，已上线ChatGPT、API、Codex等平台。新模型原生集成推理、代码编写、Agent工作流、计算机操控功能，多项专业基准测试成绩超越人类基准，事实错误率较前代降低33%，44种职业测评中表现达标率达83%。GPT-5.4支持1M Token上下文窗口，Thinking模式新增中途引导功能，用户可实时干预生成方向，同时推出工具搜索功能降低token消耗，前代模型将于2026年6月5日停止支持。

相关链接：

https://openai.com/index/introducing-gpt-5-4/

https://develop.openai.com/api/docs/models/gpt-5-4

https://deploymentsafety.openai.com/gpt-5-4-thinking

https://develop.openai.com/api/docs/guides/tools-computer-use

18、Lightricks正式发布LTX-2.3音视频模型及开源编辑器

Lightricks推出LTX-2.3音视频模型和LTX Desktop开源编辑器，LTX-2.3采用220亿参数DiT架构，优化VAE隐空间与文本连接器，提升画面细节、提示词依从性和音频清晰度，原生支持1080p竖屏视频生成。官方开源全量版、蒸馏版等模型权重，支持本地部署和API调用，配套LTX Desktop工具可本地化运行，非商业用途免费开放。

相关链接：

https://ltx.io/model/model-blog/ltx-2-3-release

https://huggingface.co/Lightricks/LTX-2.3

19、Ai2发布全开源混合架构模型Olmo Hybrid 7B

Ai2推出全开源Olmo Hybrid 7B模型系列，采用Transformer与线性递归层3:1的混合架构，兼顾表达能力与计算效率。相比Olmo 3 7B，该模型预训练数据效率提升近2倍，长上下文推理效率提升75%，中期训练后各项性能全面超越前代，涵盖基础版、SFT版、DPO版、Think版等多款权重，均可免费下载使用。

相关链接：

https://allenai.org/blog/olmohybrid

https://allenai.org/papers/olmo-hybrid

https://huggingface.co/collections/allenai/olmo-hybrid

20、腾讯混元团队开源HY-WU可拓展框架

腾讯混元团队开源HY-WU可扩展功能性神经记忆框架，专注文本引导的图像编辑场景，通过即时生成适配器权重注入冻结网络，实现无测试优化的个性化生成，支持800亿参数大模型，具备服装融合、虚拟试穿、高保真人脸迁移等能力。该框架效果远超同类开源模型，与顶尖闭源商业模型性能接近，推理代码与权重已同步发布。

相关链接：

https://tencent-hy-wu.github.io/

https://github.com/Tencent-Hunyuan/HY-WU

https://huggingface.co/tencent/HY-WU

21、Luma AI推出统一生成模型Uni-1

Luma AI发布Uni-1统一理解与生成模型，通过单一Decoder-only transformer架构，实现逻辑推理与画面渲染同步完成，将文本、图像作为单一交错序列处理。该模型在RISEBench基准测试中取得SOTA成绩，支持结构化推理、参考图引导、多风格生成，兼顾视觉理解与内容生成能力，后续将拓展至视频、语音和交互式场景，即将通过API和Luma Agents开放访问。

相关链接：

https://lumalabs.ai/uni-1

22、印企 Sarvam AI开源Sarvam-30B 和 Sarvam-105B模型

印度企业Sarvam AI开源两款MoE架构基础模型Sarvam-30B、Sarvam-105B，两款模型均在印度本土完成训练，在印度语言基准测试中表现领先。其中Sarvam-30B激活参数24亿，适配对话场景；Sarvam-105B激活参数103亿，支持复杂推理，性能媲美同级前沿模型。模型采用Apache 2.0协议，已上线Hugging Face和AI Kosh平台，支持API调用和多场景部署。

相关链接：

https://www.sarvam.ai/blogs/sarvam-30b-105b

https://huggingface.co/sarvamai/sarvam-30b

https://huggingface.co/sarvamai/sarvam-105b

23、OpenVGLab开源动画生成模型OmniLottie

OpenVGLab团队开源被CVPR 2026收录的OmniLottie多模态Lottie动画生成模型，该模型基于Qwen2.5-VL-3B-Instruct微调至4B参数，可通过文本、图像、视频指令生成矢量动画。团队同步开源MMLottie-2M数据集和MMLottieBench基准，依托Lottie Tokenizer技术解决动画生成冗余问题，支持多类动画生成任务，遵循Apache 2.0协议，已上线Hugging Face和ModelScope平台。

相关链接：

https://github.com/OpenVGLab/OmniLottie

https://huggingface.co/OmniLottie/OmniLottie

24、小红书开源 FireRed-Image-Edit-1.1 图像编辑模型

小红书推出FireRed-Image-Edit-1.1图像编辑模型，迭代速度快，上线不足一月便完成版本更新。该模型在角色身份保持方面达到开源SOTA水准，支持十余种元素融合、Agent智能裁剪拼接，还搭载多款人像美妆与高保真字体风格。模型集成蒸馏与量化技术，30GB显存即可实现4.5秒端到端生成，原生适配ComfyUI节点与GGUF格式。目前项目代码、权重、技术报告已在GitHub、Hugging Face、ModelScope全面开源，多项评测榜单成绩领先。

相关链接：

https://github.com/FireRedTeam/FireRed-Image-Edit

https://mp.weixin.qq.com/s/fu7QWtGtv4u0BFF4EiwiJQ

25、小红书 REDtech 发布 REDSearcher 开源深度搜索框架

小红书REDtech团队推出REDSearcher深度搜索框架，专为突破深度搜索Agent训练瓶颈打造。该框架引入量化指标衡量任务难度，通过graph-to-text流程自动化合成高难度数据，支持多模态扩展，采用两阶段Mid-Training结合SFT与Agentic RL优化训练。其30B参数模型在BrowseComp、GAIA基准测试中拿下开源SOTA，超越多款闭源顶尖模型，多模态版本性能也逼近头部闭源模型，项目代码、论文及数据集已全部公开。

相关链接：

https://github.com/RedSearchAgent/REDSearcher

https://mp.weixin.qq.com/s/HOH6xTOOnegSwnu3FK8y9g

26、Tencent AI Lab 开源 LeVo 2 音乐模型，支持 4 分半全曲生成

腾讯AI Lab开源商业级LeVo 2音乐生成模型，现已开放4B参数的large版本权重，同步上线在线Demo。该模型支持中英西日多语言歌词生成，最长可生成4分30秒完整曲目，主观听感可对标头部闭源音乐模型，歌词准确率优于Suno v5，兼顾音质与实用性。

相关链接：

https://github.com/tencent-ailab/SongGeneration

https://huggingface.co/spaces/tencent/SongGeneration

https://huggingface.co/collections/lglg666/levo-68d0c3031c370cbfadade126

27、Fish Audio 开源 S2 文本转语音模型

Fish Audio开源S2文本转语音模型，基于Dual-AR架构打造，总参数约5B，依托千万小时音频数据训练。该模型支持自然语言标签精细控制情感韵律，可实现多说话人多轮对话、零样本语音克隆，多项基准测试表现优于部分大厂闭源系统。模型权重与代码已公开，采用专属研究授权协议，非商业可免费使用，商用需额外授权。

相关链接：

https://huggingface.co/fishaudio/s2-pro

https://fish.audio/blog/fish-audio-open-sources-s2/

28、Hume AI 开源 TADA，基于 Llama 3.2 实现语音语言统一模型

Hume AI开源TADA语音-语言统一模型，基于Llama 3.2架构，通过1:1文本-音频token对齐，实现文本转语音与语音续写功能。模型推出1B英文、3B多语言两个版本，支持中文交互，兼顾本地部署与云端推理，已同步上线GitHub和Hugging Face平台。

相关链接：

https://github.com/HumeAI/tada

https://www.hume.ai/blog/opensource-tada

https://huggingface.co/spaces/HumeAI/tada

29、OpenRouter 上线两款 Stealth 模型

OpenRouter平台推出Hunter Alpha、Healer Alpha两款Stealth模型，均支持免费调用。其中Hunter Alpha为万亿参数大模型，拥有100万token上下文窗口，专攻Agent长程规划与复杂推理；Healer Alpha为全模态模型，具备视听、推理行动能力，上下文窗口为262144token。

相关链接：

https://openrouter.ai/openrouter/healer-alpha

https://openrouter.ai/openrouter/hunter-alpha

30、龙猫在API中上线 LongCat-Flash-Omni，免费可用

美团龙猫正式上线LongCat-Flash-Omni模型API，支持原生跨模态交互，APP端可同步使用，且支持免费调用。同时，LongCat-Flash-Thinking接口将无缝升级至2601版本，老用户无需改动代码即可体验，新版本在抗噪性、Agent工具处理、深度推理能力上均有大幅提升。

相关链接：

https://longcat.chat/platform/docs/zh/APIDocs.html

https://x.com/Meituan_LongCat/status/2031726847978082305

31、MiroMind 发布 MiroThinker 系列 Agent，含开源模型与定制版

MiroMind推出MiroThinker系列深度研究Agent，涵盖基于Qwen3架构的开源版1.7及mini模型，还有专属定制版MiroThinker-H1。该系列支持256K上下文窗口，最高可实现300次工具调用，针对长周期任务优化了多步推理能力，多项专业基准测试中表现优异。

相关链接：

https://github.com/MiroMindAI/MiroThinker

https://huggingface.co/collections/miromind-ai/mirothinker-17

32、Reka 发布 70 亿参数 Reka Edge 模型并开源

Reka发布70亿参数Reka Edge多模态模型，专为边缘计算场景设计，结合专属编码器与Transformer主干，大幅降低高分辨率图像处理的token消耗，推理速度显著提升。该模型在视频理解、工具调用方面超越同量级竞品，支持4bit量化，显存占用仅5GB且保留九成以上性能，兼容多款边缘硬件，已在Hugging Face开源。

相关链接：

https://reka.ai/news/reka-edge-frontier-level-edge-intelligence-for-physical-ai

https://huggingface.co/RekaAI/reka-edge-2603

33、OpenAI 视频 API 上线新功能

OpenAI面向全量开发者更新Video API，新增功能由Sora 2驱动，涵盖自定义角色与对象、多比例视频导出、最长20秒视频生成、场景延续、批量处理等核心能力，全面升级视频生成的灵活性与实用性。

相关链接：

https://x.com/OpenAIDevs/status/2032142448970121468

34、NVIDIA 发布 NVILA-8B-HD-Video 模型，支持 4K 视频输入

NVIDIA开源NVILA-8B-HD-Video多模态模型，专为4K分辨率、千帧级长视频理解打造。核心搭载AutoGaze技术，可将视频token压缩100倍，大幅降低推理延迟，在HLVid长视频基准测试中达到业界SOTA水平，模型仅限研发使用。

相关链接：

https://huggingface.co/nvidia/NVILA-8B-HD-Video

35、上海人工智能实验室发布 InternVL-U 统一多模态模型

上海人工智能实验室推出4B参数InternVL-U统一多模态模型，将多模态理解、推理、图像生成与编辑整合至单一框架，在小参数体量下实现优质综合性能。团队同步开源跨基准评估工具包与TextEdit编辑基准，模型代码、权重已在GitHub、Hugging Face上线，适配多场景多模态任务。

相关链接：

https://open-gvlab.github.io/InternVL-U/

https://huggingface.co/InternVL-U/InternVL-U

https://github.com/open-compass/TextEdit

https://github.com/open-compass/GenEditEvalKit

36、StepFun 发布 Step 3.5 Flash 模型训练数据

阶跃星辰StepFun正式发布Step 3.5 Flash模型的SFT训练数据集，在Hugging Face开放获取，补齐了该模型系列开源的最后一环。此前团队已开源两款基础模型与SteptronOSS训练框架，此次数据集发布完善了整体开源生态。

相关链接：

https://huggingface.co/datasets/stepfun-ai/Step-3.5-Flash-SFT

https://x.com/StepFun_ai/status/2032880770843373775

37、Mistral AI 发布 Mistral Small 4，开源混合专家模型

Mistral AI 推出 Apache 2.0 协议开源的混合专家模型 Mistral Small 4，总参数 1190 亿，支持 256k 上下文与原生图文输入，搭载可配置推理参数，可切换快速响应与深度推理模式。相较前代，延迟优化后耗时缩短 40%，吞吐量优化后请求量提升 3 倍，现已上线 Mistral API、Hugging Face 及 NVIDIA NIM。

链接：https://mistral.ai/news/mistral-small-4；https://huggingface.co/collections/mistralai/mistral-small-4

38、Mistral AI 发布首个 Lean 4 开源代码 Agent Leanstral

Mistral AI 发布面向 Lean 4 的开源代码 Agent Leanstral，同属 Mistral Small 4 系列，总参数 1190 亿，单次激活 65 亿参数，支持 25.6 万 token 上下文与多模态能力。该模型在 FLTEval 测试中 pass@2 得分 26.3，优于 Claude Sonnet 且成本更低，支持工具调用与 11 种语言，以 Apache 2.0 协议开源并提供多种部署方式。

链接：https://mistral.ai/news/leanstral；https://huggingface.co/mistralai/Leanstral-2603；https://docs.mistral.ai/models/leanstral-26-03

39、腾讯开源 Covo-Audio-Chat 语音模型，支持原生全双工

腾讯发布 70 亿参数端到端音频大模型 Covo-Audio-Chat，基于 Qwen2.5-7B 与 Whisper-large-v3 构建，采用统一架构实现原生音频交互，支持分层三模态处理、说话人解耦与原生全双工通话，低延迟变体可满足实时对话需求，在口语对话与音频理解任务中达到行业领先水平。

链接：https://huggingface.co/tencent/Covo-Audio-Chat；https://github.com/Tencent/Covo-Audio.git

40、IBM 开源 Granite-4.0-1b-speech 语音模型，支持多语言互译

IBM 在 Hugging Face 开源 Apache 2.0 协议的 Granite-4.0-1b-speech 模型，专注多语言 ASR 与双向 AST，支持英、法、德、西、葡、日与英语互译，额外支持英语到普通话、意大利语翻译，但暂不支持普通话语音直接识别。

链接：https://huggingface.co/ibm-granite/granite-4.0-1b-speech

41、阿里通义开源 Fun-CineForge 多模态配音模型

阿里通义开源影视级多模态配音模型 Fun-CineForge 及数据集流程 CineDub，模型基于 CosyVoice3 构建，创新引入时间模态，结合多模态信息解决面部遮挡、镜头切换等场景下的音画同步问题，实现精准配音与情感表达。

链接：https://github.com/FunAudioLLM/FunCineForge/；https://huggingface.co/FunAudioLLM/Fun-CineForge

42、H Company 联合 NVIDIA 发布 Holotron-12B 模型

H Company 与 NVIDIA 联合发布开源多模态模型 Holotron-12B，专为计算机使用 Agent 设计，基于 Nemotron-Nano-12B-v2-VL 微调，采用 SSM-Attention 混合架构，缓解 KV Cache 性能瓶颈。

链接：https://hcompany.ai/holotron-12b；https://huggingface.co/Hcompany/Holotron-12B

43、英伟达推出 120 亿参数 Nemotron 3 VoiceChat 语音模型

NVIDIA 推出 120 亿参数端到端全双工语音模型 Nemotron 3 VoiceChat，采用 Mamba/Transformer 混合架构，集成语音编码器、LLM 骨干与 TTS 解码器，支持通过文本提示自定义 Agent 人设，开发者可通过 NGC 申请体验与部署。

链接：https://developer.nvidia.com/nemotron-voicechat-early-access；https://registry.ngc.nvidia.com/orgs/nim/teams/nvidia/models/nemotron-voicechat；https://build.nvidia.com/nvidia/nemotron-voicechat

44、Meta 发布 OMT 系统，支持 1600 多种语言

Meta 推出 Omnilingual Machine Translation 系统，覆盖 1600+ 语言，整合多类数据集并探索两种架构，1B–8B 参数模型翻译效果可对标 70B 大模型，算力成本更低。同时开放包含多类评估集的评测体系与数据集。

链接：https://ai.meta.com/research/publications/omnilingual-mt-machine-translation-for-1600-languages/

45、乐天发布 Rakuten AI 3.0，基于 DeepSeek V3

乐天发布日语优化开源模型 Rakuten AI 3.0，采用 MoE 架构，总参数 6710 亿、激活参数 370 亿，支持 128K 上下文，官方称日语测试表现优于 GPT-4o。但模型被发现含 DeepSeek 架构标识且疑似删除原许可证，引发开源合规争议。

链接：https://corp.rakuten.co.jp/news/press/2026/0317_01.html；https://huggingface.co/Rakuten/RakutenAI-3.0

46、微软 AI 发布 MAI-Image-2 文生图模型

微软发布文生图模型 MAI-Image-2，提升了照片真实感、图内文字生成与细节构建能力，在 Arena.ai 榜单排名第五。现已上线 MAI Playground，逐步接入 Copilot 与 Bing Image Creator，API 面向特定企业开放并将全面上线。

链接：https://microsoft.ai/news/introducing-MAI-Image-2/；https://playground.microsoft.ai/chat

47、小红书 rednote-hilab 发布 dots.mocr，3B 参数支持图像转 SVG

小红书 HiLab 发布 3B 参数多模态 OCR 模型 dots.mocr 及 SVG 优化版，文档解析能力达同规模 SOTA，部分指标超越 Gemini 3 Pro，可将图表、UI 转为 SVG 代码。模型在复杂表格提取与 SVG 鲁棒性上仍有优化空间。

链接：https://huggingface.co/rednote-hilab/dots.mocr；https://github.com/rednote-hilab/dots.mocr

48、美团龙猫开源 LongCat-Flash-Prover

美团龙猫发布 5600 亿参数开源 MoE 模型 LongCat-Flash-Prover，专注 Lean4 形式推理，通过工具集成推理拆分任务流程。在 MiniF2F-Test 通过率 97.1%，PutnamBench 解决率 41.5%，创下开源模型定理证明任务新 SOTA。

链接：https://github.com/meituan-longcat/LongCat-Flash-Prover；https://huggingface.co/meituan-longcat/LongCat-Flash-Prover

49、英伟达发布 30B MoE 模型，IMO 与 IOI 获金牌成绩

NVIDIA 发布开源 MoE 模型 Nemotron-Cascade-2-30B-A3B，总参数 30B、激活参数 3B，基于基座模型后训练。该模型在 2025 年 IMO、IOI 测试中达到金牌水平，同时在多项数理与代码基准中表现优异。

链接：https://huggingface.co/nvidia/Nemotron-Cascade-2-30B-A3B

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

鸿蒙 Flutter 实战：video_compress 3.1.4 适配 3.27-ohos 全流程

AtomGit开源社区

Java 内存模型（JMM）深度解析

在一个线程内，书写在前面的操作先行发生于书写在后面的操作。虽然 CPU 会为了性能进行指令重排，但 JMM 承诺"单线程执行结果的正确性"（即 as-if-serial 语义）。

AtomGit开源社区

DALL-E 系列模型详解

DALL-E 是 OpenAI 开发的一系列文本到图像生成模型，能够根据自然语言描述生成高质量、多样化的图像。DALL-E 的名字来源于：发展历程版本发布时间核心技术分辨率主要突破DALL-E 12021.1dVAE + Transformer256×256首次大规模文本到图像生成DALL-E 22022.4CLIP + Diffusion1024×1024照片级真实感DALL-E 32023.9

AtomGit开源社区

所有评论(0)

查看更多评论

骑着拖拉机去旅行

@weixin_31588979

已为社区贡献9条内容

【AIGC行业前沿】2026年3月AIGC行业模型发布以及主要前沿资讯

骑着拖拉机去旅行

目录

1、Cognition发布SWE-1.6早期预览版

2、Qwen 3.5传即将推出四款小型稠密开源模型

3、千问团队开源Qwen3.5小尺寸模型系列

4、阶跃星辰开源Step 3.5 Flash模型及训练框架

5、IQuestLab开源IQuest-Coder-V1系列代码模型权重

6、小红书开源FireRed-OCR模型

7、通义实验室发布Fun-CosyVoice 3.5 与 Fun-AudioGen-VD 两款语音模型

8、Jan团队发布Jan-Code-4B 模型

9、OpenClaw发布2026.3.1版本

10、OpenAI发布GPT-5.3 Instant模型

11、Google推出Gemini 3.1 Flash-Lite预览版

12、xAI发布Grok 4.20 Beta 2模型更新

13、OpenAI面向Windows正式发布Codex应用并开源原生Agent沙盒

14、MiniMax发布Music 2.5+纯音乐创作模型

15、北大字节Canva联合团队发布14B视频生成模型Helios

16、YuanLab.ai开源万亿参数多模态模型Yuan3.0 Ultra

17、OpenAI 发布 GPT-5.4 模型

18、Lightricks正式发布LTX-2.3音视频模型及开源编辑器

19、Ai2发布全开源混合架构模型Olmo Hybrid 7B

20、腾讯混元团队开源HY-WU可拓展框架

21、Luma AI推出统一生成模型Uni-1

22、印企 Sarvam AI开源Sarvam-30B 和 Sarvam-105B模型

23、OpenVGLab开源动画生成模型OmniLottie

24、小红书开源 FireRed-Image-Edit-1.1 图像编辑模型

25、小红书 REDtech 发布 REDSearcher 开源深度搜索框架

26、Tencent AI Lab 开源 LeVo 2 音乐模型，支持 4 分半全曲生成

27、Fish Audio 开源 S2 文本转语音模型

28、Hume AI 开源 TADA，基于 Llama 3.2 实现语音语言统一模型

29、OpenRouter 上线两款 Stealth 模型

30、龙猫在API中上线 LongCat-Flash-Omni，免费可用

31、MiroMind 发布 MiroThinker 系列 Agent，含开源模型与定制版

32、Reka 发布 70 亿参数 Reka Edge 模型并开源

33、OpenAI 视频 API 上线新功能

34、NVIDIA 发布 NVILA-8B-HD-Video 模型，支持 4K 视频输入

35、上海人工智能实验室发布 InternVL-U 统一多模态模型

36、StepFun 发布 Step 3.5 Flash 模型训练数据

37、Mistral AI 发布 Mistral Small 4，开源混合专家模型

38、Mistral AI 发布首个 Lean 4 开源代码 Agent Leanstral

39、腾讯开源 Covo-Audio-Chat 语音模型，支持原生全双工

40、IBM 开源 Granite-4.0-1b-speech 语音模型，支持多语言互译

41、阿里通义开源 Fun-CineForge 多模态配音模型

42、H Company 联合 NVIDIA 发布 Holotron-12B 模型

43、英伟达推出 120 亿参数 Nemotron 3 VoiceChat 语音模型

44、Meta 发布 OMT 系统，支持 1600 多种语言

45、乐天发布 Rakuten AI 3.0，基于 DeepSeek V3

46、微软 AI 发布 MAI-Image-2 文生图模型

47、小红书 rednote-hilab 发布 dots.mocr，3B 参数支持图像转 SVG

48、美团龙猫开源 LongCat-Flash-Prover

49、英伟达发布 30B MoE 模型，IMO 与 IOI 获金牌成绩

所有评论(0)

温馨提示：您尚未绑定手机号

骑着拖拉机去旅行