目录

  1. Cognition发布SWE-1.6早期预览版

  2. Qwen 3.5传即将推出四款小型稠密开源模型

  3. 千问团队开源Qwen3.5小尺寸模型系列

  4. 阶跃星辰开源Step 3.5 Flash模型及训练框架

  5. IQuestLab开源IQuest-Coder-V1系列代码模型权重

  6. 小红书开源FireRed-OCR模型

  7. 通义实验室发布Fun-CosyVoice 3.5 与 Fun-AudioGen-VD两款语音模型

  8. Jan团队发布Jan-Code-4B模型

  9. OpenClaw发布2026.3.1版本

  10. OpenAI发布GPT-5.3 Instant模型

  11. Google推出Gemini 3.1 Flash-Lite预览版

  12. xAI发布Grok 4.20 Beta 2模型更新

  13. OpenAI面向Windows正式发布Codex应用并开源原生Agent沙盒

  14. MiniMax发布Music 2.5+纯音乐创作模型

  15. 北大字节Canva联合团队发布14B视频生成模型Helios

  16. YuanLab.ai开源万亿参数多模态模型Yuan3.0 Ultra

  17. OpenAI发布GPT-5.4模型

  18. Lightricks正式发布LTX-2.3音视频模型及开源编辑器

  19. Ai2发布全开源混合架构模型Olmo Hybrid 7B

  20. 腾讯混元团队开源HY-WU可拓展框架

  21. Luma AI推出统一生成模型Uni-1

  22. 印企Sarvam AI开源Sarvam-30B和Sarvam-105B模型

  23. OpenVGLab开源动画生成模型OmniLottie

24、小红书开源 FireRed-Image-Edit-1.1 图像编辑模型

25、小红书 REDtech 发布 REDSearcher 开源深度搜索框架

26、Tencent AI Lab 开源 LeVo 2 音乐模型,支持 4 分半全曲生成

27、Fish Audio 开源 S2 文本转语音模型

28、Hume AI 开源 TADA,基于 Llama 3.2 实现语音语言统一模型

29、OpenRouter 上线两款 Stealth 模型

30、龙猫在API中上线 LongCat-Flash-Omni,免费可用

31、MiroMind 发布 MiroThinker 系列 Agent,含开源模型与定制版

32、Reka 发布 70 亿参数 Reka Edge 模型并开源

33、OpenAI 视频 API 上线新功能

34、NVIDIA 发布 NVILA-8B-HD-Video 模型,支持 4K 视频输入

35、上海人工智能实验室发布 InternVL-U 统一多模态模型

36、StepFun 发布 Step 3.5 Flash 模型训练数据
37、Mistral AI 发布 Mistral Small 4,开源混合专家模型

38、Mistral AI 发布首个 Lean 4 开源代码 Agent Leanstral

39、腾讯开源 Covo-Audio-Chat 语音模型,支持原生全双工

40、IBM 开源 Granite-4.0-1b-speech 语音模型,支持多语言互译

41、阿里通义开源 Fun-CineForge 多模态配音模型

42、H Company 联合 NVIDIA 发布 Holotron-12B 模型

43、英伟达推出 120 亿参数 Nemotron 3 VoiceChat 语音模型

44、Meta 发布 OMT 系统,支持 1600 多种语言

45、乐天发布 Rakuten AI 3.0,基于 DeepSeek V3

46、微软 AI 发布 MAI-Image-2 文生图模型

47、小红书 rednote-hilab 发布 dots.mocr,3B 参数支持图像转 SVG

48、美团龙猫开源 LongCat-Flash-Prover

49、英伟达发布 30B MoE 模型,IMO 与 IOI 获金牌成绩

1、Cognition发布SWE-1.6早期预览版

Cognition推出SWE-1.6模型早期预览版,该模型在SWE-Bench Pro基准测试中得分较前代SWE-1.5提升11%,性能超越顶尖开源模型,同时保持950 tok/s的运行速度。官方通过优化RL配方、扩容基础设施,将计算投入提升两个数量级,依托GB200芯片和NVFP4精度完成训练优化,目前模型仍存在过度思考、过度自检的问题。团队面向Windsurf部分用户开放早期访问,收集反馈修复缺陷。

相关链接

https://cognition.ai/blog/swe-1-6-preview

https://x.com/cognition/status/2028224340484129033

2、Qwen 3.5传即将推出四款小型稠密开源模型

Qwen团队负责人透露,Qwen 3.5系列即将上线小参数量稠密开源模型,据社交媒体消息,共计四款,参数量分别为0.8B、2B、4B、9B。该系列旨在完善端侧与消费级显卡生态,预计同步推出Base和Instruct版本,有望支持256K上下文长度与原生多模态能力。

相关链接

https://x.com/JustinLin610/status/2028072650619380067

https://x.com/casperhansen/status/2028146268229579074

3、千问团队开源Qwen3.5小尺寸模型系列

千问团队正式开源Qwen3.5小尺寸模型系列,囊括0.8B、2B、4B、9B四款模型,至此Qwen家族模型增至8款。新模型依托原生多模态基座,融合Gated Delta Networks与稀疏MoE架构,原生支持262K上下文,还可扩展至1M+,采用Apache 2.0开源协议,同步开放基座与对话模型。其中0.8B、2B款适配端侧部署,4B款定位轻量级Agent多模态底座,9B款实现紧凑体积下的越级性能,多款模型已登陆HF、魔搭、Ollama平台,多项评测成绩领跑同尺寸模型。

相关链接

https://mp.weixin.qq.com/s/n8TbEYzklxg4kKh6_dDVlg

https://huggingface.co/collections/Qwen/qwen35

4、阶跃星辰开源Step 3.5 Flash模型及训练框架

阶跃星辰正式开源Step 3.5 Flash基础版与中间训练版模型,同步推出仅需PyTorch依赖的SteptronOSS训练框架,二者均遵循Apache 2.0协议。该模型采用稀疏MoE架构,总参数196B、激活参数11B,支持256K上下文,搭载多Token预测技术,生成吞吐量峰值可达350 tok/s,在SWE-bench Verified、Terminal-Bench 2.0测试中分别取得74.4%、51.0%的成绩。SteptronOSS框架支持SFT、RLVR及模型评估,模型权重已上线Hugging Face,SFT数据集将后续发布。

相关链接

https://github.com/stepfun-ai/SteptronOss

https://huggingface.co/stepfun-ai/Step-3.5-Flash-Base

https://huggingface.co/stepfun-ai/Step-3.5-Flash-Base-Midtrain

5、IQuestLab开源IQuest-Coder-V1系列代码模型权重

IQuestLab在Hugging Face平台开源IQuest-Coder-V1全系列代码模型权重,覆盖7B、14B、40B多个参数规格,包含Base、Instruct、Thinking等细分版本,还有40B-Loop-Thinking实验版本,主打自主软件工程与代码智能场景。该系列采用浅层架构,7B、14B规格可实现3-5倍推理加速,依托Code-Flow训练范式学习代码演化逻辑,不同版本分别专攻复杂编程推理、通用代码协作,40B-Loop-Thinking款则采用循环Transformer架构探索嵌套推理。

相关链接

https://iquestlab.github.io/release-1.0-2603/index.html

https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Loop-Thinking

https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Thinking

https://huggingface.co/IQuestLab/IQuest-Coder-V1-14B-Instruct

https://huggingface.co/IQuestLab/IQuest-Coder-V1-7B-Instruct

6、小红书开源FireRed-OCR模型

小红书REDtech团队开源基于Qwen3-VL-2B架构的FireRed-OCR智能文档处理模型,专攻解决复杂文档处理中的结构性幻觉难题。模型首创三阶段渐进优化策略与几何+语义数据工厂,大幅提升结构化解析能力,在OmniDocBench v1.5评测中以92.94%的综合准确率登顶,成为首个突破92%阈值的端到端模型,文本识别、公式解析、表格重构等指标表现优异,已在GitHub、Hugging Face、ModelScope全平台开源。

相关链接

https://github.com/FireRedTeam/FireRed-OCR

https://huggingface.co/FireRedTeam/FireRed-OCR

7、通义实验室发布Fun-CosyVoice 3.5 与 Fun-AudioGen-VD 两款语音模型

阿里通义实验室推出Fun-CosyVoice3.5和Fun-AudioGen-VD两款语音模型,均支持FreeStyle指令生成并开放API调用。其中Fun-CosyVoice3.5专注多语种语音复刻与精细控制,通过DiffRO与GRPO技术,将生僻字读错率从15.2%降至5.3%,首包延迟降低35%,新增泰语等四个语种;Fun-AudioGen-VD聚焦全场景声音设计,可通过自然语言生成带性别、情绪、空间声学效果的人物+场景定制音频。

相关链接

https://mp.weixin.qq.com/s/sTNC7bVphs9zofly3lBoUQ

8、Jan团队发布Jan-Code-4B 模型

Jan团队发布40亿参数的Jan-Code-4B代码模型,该模型基于Qwen3-4B-Instruct-2507架构优化而来,主打本地低延迟运行,可作为轻量级编程助手,或是Agent工作流中的快速执行单元,替代Claude Code中的Haiku模型使用。

相关链接

https://huggingface.co/janhq/Jan-code-4b

9、OpenClaw发布2026.3.1版本

OpenClaw正式推出2026.3.1版本,新增OpenAI WebSocket流式传输功能,支持Claude 4.6自适应思考,优化了Docker与K8s容器化部署体验,新增Discord线程支持,修复飞书相关问题,还上线了Agent驱动的可视化差异插件。目前该项目GitHub Star数已超越React。

相关链接

https://github.com/openclaw/openclaw/releases/tag/v2026.3.1

https://x.com/openclaw/status/2028340185902006404

10、OpenAI发布GPT-5.3 Instant模型

OpenAI推出GPT-5.3 Instant模型替代前代GPT-5.2 Instant,全量面向用户开放。新版优化交互体验,减少拒答、免责声明和说教语气,升级联网搜索能力,大幅降低幻觉率,其中联网模式幻觉率下降26.8%,非联网模式下降19.7%,同时提升写作能力,部分非英语语种回复仍有待优化。该模型的Thinking和Pro版本将于近期推出,前代模型将于2026年6月退役。

相关链接

https://openai.com/index/gpt-5-3-instant/

11、Google推出Gemini 3.1 Flash-Lite预览版

Google发布Gemini 3.1 Flash-Lite预览版,定位为Gemini 3系列中速度最快、性价比最高的模型,适配高频次、大规模工作负载场景,通过Google AI Studio API和Vertex AI开放访问。该模型性能优于2.5 Flash,首token响应速度快2.5倍,输出速度提升45%,多项基准测试成绩亮眼,还搭载思考等级功能,可灵活调控推理深度,定价亲民,适用于大规模翻译、内容审核等场景。

相关链接

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/

12、xAI发布Grok 4.20 Beta 2模型更新

xAI推出Grok 4.20 Beta 2版本,针对模型性能和稳定性完成多项优化,重点提升指令跟随能力,减少模型幻觉;优化科学文本生成效果,强化LaTeX格式表达支持;同时提高图像搜索触发精准度,提升多图像渲染的稳定性。

相关链接

https://x.com/grok/status/2028714422462448041

13、OpenAI面向Windows正式发布Codex应用并开源原生Agent沙盒

OpenAI在Microsoft Store上线Windows版Codex应用,支持原生运行和WSL环境,集成PowerShell、Git Bash等主流终端。官方打造Windows原生Agent沙盒并开源代码,通过系统级权限管控,限制AI写入路径并阻断对外网络,同时新增Handoff工作流和WinUI、ASP.NET专属技能。此外,官方修复了Plus和Pro用户速率限制失效问题,并重置相关用户速率限制。

相关链接

https://develop.openai.com/wendows

https://github.com/openai/codex/tree/main/codex-rs/windows-sandbox-rs

https://x.com/embirico/status/2029328374171308273

https://x.com/OpenAIDevs/status/2028995695425011949

14、MiniMax发布Music 2.5+纯音乐创作模型

MiniMax上线Music 2.5+纯音乐创作功能,将业务从歌曲生成拓展至纯音乐领域,采用单一架构,支持古典、电子等多元曲风,覆盖冥想、影视配乐等场景。模型支持跨风格融合,针对笛子、古筝、琵琶等中国传统乐器做了深度优化,生成的音乐和声层次丰富,现已通过官网和API开放使用。

相关链接

https://minimaxi.com/news/music-25-%E8%A7%A3%E9%94%81%E7%BA%AF%E9%9F%B3%E4%B9%90%E7%AA%81%E7%A0%B4%E9%A3%8E%E6%A0%BC%E8%BE%B9%E7%95%8C

15、北大字节Canva联合团队发布14B视频生成模型Helios

北京大学、字节跳动与Canva联合研发的14B参数自回归扩散视频模型Helios正式发布,支持分钟级长视频生成,代码与模型权重全面开源。该模型架构高效,无需KV-cache加速技术,单张H100 GPU可实现19.5 FPS实时推理,计算成本低于1.3B参数模型,通过模拟漂移现象解决长视频画面偏移问题,原生支持文生视频、图生视频、视频转视频任务。

相关链接

https://pku-yuangroup.github.io/Helios-Page/

16、YuanLab.ai开源万亿参数多模态模型Yuan3.0 Ultra

浪潮信息YuanLab.ai团队开源Yuan3.0 Ultra万亿参数多模态大模型,成为全球为数不多的同级开源模型。该模型采用混合专家架构,通过LAEP算法优化参数至1010B(激活68.8B),预训练效率提升49%,搭配LFA机制和反思抑制奖励机制,缓解过度思考问题,训练准确率提升16.33%。模型在多项企业级基准测试中表现优异,复杂文档理解和智能体调用能力突出,支持64K上下文和商用,已上线HuggingFace平台。

相关链接

https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra

https://huggingface.co/YuanLabAI/Yuan3.0-Ultra

17、OpenAI 发布 GPT-5.4 模型

OpenAI推出专为专业场景打造的GPT-5.4及Pro版本模型,已上线ChatGPT、API、Codex等平台。新模型原生集成推理、代码编写、Agent工作流、计算机操控功能,多项专业基准测试成绩超越人类基准,事实错误率较前代降低33%,44种职业测评中表现达标率达83%。GPT-5.4支持1M Token上下文窗口,Thinking模式新增中途引导功能,用户可实时干预生成方向,同时推出工具搜索功能降低token消耗,前代模型将于2026年6月5日停止支持。

相关链接

https://openai.com/index/introducing-gpt-5-4/

https://develop.openai.com/api/docs/models/gpt-5-4

https://deploymentsafety.openai.com/gpt-5-4-thinking

https://develop.openai.com/api/docs/guides/tools-computer-use

18、Lightricks正式发布LTX-2.3音视频模型及开源编辑器

Lightricks推出LTX-2.3音视频模型和LTX Desktop开源编辑器,LTX-2.3采用220亿参数DiT架构,优化VAE隐空间与文本连接器,提升画面细节、提示词依从性和音频清晰度,原生支持1080p竖屏视频生成。官方开源全量版、蒸馏版等模型权重,支持本地部署和API调用,配套LTX Desktop工具可本地化运行,非商业用途免费开放。

相关链接

https://ltx.io/model/model-blog/ltx-2-3-release

https://huggingface.co/Lightricks/LTX-2.3

19、Ai2发布全开源混合架构模型Olmo Hybrid 7B

Ai2推出全开源Olmo Hybrid 7B模型系列,采用Transformer与线性递归层3:1的混合架构,兼顾表达能力与计算效率。相比Olmo 3 7B,该模型预训练数据效率提升近2倍,长上下文推理效率提升75%,中期训练后各项性能全面超越前代,涵盖基础版、SFT版、DPO版、Think版等多款权重,均可免费下载使用。

相关链接

https://allenai.org/blog/olmohybrid

https://allenai.org/papers/olmo-hybrid

https://huggingface.co/collections/allenai/olmo-hybrid

20、腾讯混元团队开源HY-WU可拓展框架

腾讯混元团队开源HY-WU可扩展功能性神经记忆框架,专注文本引导的图像编辑场景,通过即时生成适配器权重注入冻结网络,实现无测试优化的个性化生成,支持800亿参数大模型,具备服装融合、虚拟试穿、高保真人脸迁移等能力。该框架效果远超同类开源模型,与顶尖闭源商业模型性能接近,推理代码与权重已同步发布。

相关链接

https://tencent-hy-wu.github.io/

https://github.com/Tencent-Hunyuan/HY-WU

https://huggingface.co/tencent/HY-WU

21、Luma AI推出统一生成模型Uni-1

Luma AI发布Uni-1统一理解与生成模型,通过单一Decoder-only transformer架构,实现逻辑推理与画面渲染同步完成,将文本、图像作为单一交错序列处理。该模型在RISEBench基准测试中取得SOTA成绩,支持结构化推理、参考图引导、多风格生成,兼顾视觉理解与内容生成能力,后续将拓展至视频、语音和交互式场景,即将通过API和Luma Agents开放访问。

相关链接

https://lumalabs.ai/uni-1

22、印企 Sarvam AI开源Sarvam-30B 和 Sarvam-105B模型

印度企业Sarvam AI开源两款MoE架构基础模型Sarvam-30B、Sarvam-105B,两款模型均在印度本土完成训练,在印度语言基准测试中表现领先。其中Sarvam-30B激活参数24亿,适配对话场景;Sarvam-105B激活参数103亿,支持复杂推理,性能媲美同级前沿模型。模型采用Apache 2.0协议,已上线Hugging Face和AI Kosh平台,支持API调用和多场景部署。

相关链接

https://www.sarvam.ai/blogs/sarvam-30b-105b

https://huggingface.co/sarvamai/sarvam-30b

https://huggingface.co/sarvamai/sarvam-105b

23、OpenVGLab开源动画生成模型OmniLottie

OpenVGLab团队开源被CVPR 2026收录的OmniLottie多模态Lottie动画生成模型,该模型基于Qwen2.5-VL-3B-Instruct微调至4B参数,可通过文本、图像、视频指令生成矢量动画。团队同步开源MMLottie-2M数据集和MMLottieBench基准,依托Lottie Tokenizer技术解决动画生成冗余问题,支持多类动画生成任务,遵循Apache 2.0协议,已上线Hugging Face和ModelScope平台。

相关链接

https://github.com/OpenVGLab/OmniLottie

https://huggingface.co/OmniLottie/OmniLottie

24、小红书开源 FireRed-Image-Edit-1.1 图像编辑模型

小红书推出FireRed-Image-Edit-1.1图像编辑模型,迭代速度快,上线不足一月便完成版本更新。该模型在角色身份保持方面达到开源SOTA水准,支持十余种元素融合、Agent智能裁剪拼接,还搭载多款人像美妆与高保真字体风格。模型集成蒸馏与量化技术,30GB显存即可实现4.5秒端到端生成,原生适配ComfyUI节点与GGUF格式。目前项目代码、权重、技术报告已在GitHub、Hugging Face、ModelScope全面开源,多项评测榜单成绩领先。

相关链接

https://github.com/FireRedTeam/FireRed-Image-Edit

https://mp.weixin.qq.com/s/fu7QWtGtv4u0BFF4EiwiJQ

25、小红书 REDtech 发布 REDSearcher 开源深度搜索框架

小红书REDtech团队推出REDSearcher深度搜索框架,专为突破深度搜索Agent训练瓶颈打造。该框架引入量化指标衡量任务难度,通过graph-to-text流程自动化合成高难度数据,支持多模态扩展,采用两阶段Mid-Training结合SFT与Agentic RL优化训练。其30B参数模型在BrowseComp、GAIA基准测试中拿下开源SOTA,超越多款闭源顶尖模型,多模态版本性能也逼近头部闭源模型,项目代码、论文及数据集已全部公开。

相关链接

https://github.com/RedSearchAgent/REDSearcher

https://mp.weixin.qq.com/s/HOH6xTOOnegSwnu3FK8y9g

26、Tencent AI Lab 开源 LeVo 2 音乐模型,支持 4 分半全曲生成

腾讯AI Lab开源商业级LeVo 2音乐生成模型,现已开放4B参数的large版本权重,同步上线在线Demo。该模型支持中英西日多语言歌词生成,最长可生成4分30秒完整曲目,主观听感可对标头部闭源音乐模型,歌词准确率优于Suno v5,兼顾音质与实用性。

相关链接

https://github.com/tencent-ailab/SongGeneration

https://huggingface.co/spaces/tencent/SongGeneration

https://huggingface.co/collections/lglg666/levo-68d0c3031c370cbfadade126

27、Fish Audio 开源 S2 文本转语音模型

Fish Audio开源S2文本转语音模型,基于Dual-AR架构打造,总参数约5B,依托千万小时音频数据训练。该模型支持自然语言标签精细控制情感韵律,可实现多说话人多轮对话、零样本语音克隆,多项基准测试表现优于部分大厂闭源系统。模型权重与代码已公开,采用专属研究授权协议,非商业可免费使用,商用需额外授权。

相关链接

https://huggingface.co/fishaudio/s2-pro

https://fish.audio/blog/fish-audio-open-sources-s2/

28、Hume AI 开源 TADA,基于 Llama 3.2 实现语音语言统一模型

Hume AI开源TADA语音-语言统一模型,基于Llama 3.2架构,通过1:1文本-音频token对齐,实现文本转语音与语音续写功能。模型推出1B英文、3B多语言两个版本,支持中文交互,兼顾本地部署与云端推理,已同步上线GitHub和Hugging Face平台。

相关链接

https://github.com/HumeAI/tada

https://www.hume.ai/blog/opensource-tada

https://huggingface.co/spaces/HumeAI/tada

29、OpenRouter 上线两款 Stealth 模型

OpenRouter平台推出Hunter Alpha、Healer Alpha两款Stealth模型,均支持免费调用。其中Hunter Alpha为万亿参数大模型,拥有100万token上下文窗口,专攻Agent长程规划与复杂推理;Healer Alpha为全模态模型,具备视听、推理行动能力,上下文窗口为262144token。

相关链接

https://openrouter.ai/openrouter/healer-alpha

https://openrouter.ai/openrouter/hunter-alpha

30、龙猫在API中上线 LongCat-Flash-Omni,免费可用

美团龙猫正式上线LongCat-Flash-Omni模型API,支持原生跨模态交互,APP端可同步使用,且支持免费调用。同时,LongCat-Flash-Thinking接口将无缝升级至2601版本,老用户无需改动代码即可体验,新版本在抗噪性、Agent工具处理、深度推理能力上均有大幅提升。

相关链接

https://longcat.chat/platform/docs/zh/APIDocs.html

https://x.com/Meituan_LongCat/status/2031726847978082305

31、MiroMind 发布 MiroThinker 系列 Agent,含开源模型与定制版

MiroMind推出MiroThinker系列深度研究Agent,涵盖基于Qwen3架构的开源版1.7及mini模型,还有专属定制版MiroThinker-H1。该系列支持256K上下文窗口,最高可实现300次工具调用,针对长周期任务优化了多步推理能力,多项专业基准测试中表现优异。

相关链接

https://github.com/MiroMindAI/MiroThinker

https://huggingface.co/collections/miromind-ai/mirothinker-17

32、Reka 发布 70 亿参数 Reka Edge 模型并开源

Reka发布70亿参数Reka Edge多模态模型,专为边缘计算场景设计,结合专属编码器与Transformer主干,大幅降低高分辨率图像处理的token消耗,推理速度显著提升。该模型在视频理解、工具调用方面超越同量级竞品,支持4bit量化,显存占用仅5GB且保留九成以上性能,兼容多款边缘硬件,已在Hugging Face开源。

相关链接

https://reka.ai/news/reka-edge-frontier-level-edge-intelligence-for-physical-ai

https://huggingface.co/RekaAI/reka-edge-2603

33、OpenAI 视频 API 上线新功能

OpenAI面向全量开发者更新Video API,新增功能由Sora 2驱动,涵盖自定义角色与对象、多比例视频导出、最长20秒视频生成、场景延续、批量处理等核心能力,全面升级视频生成的灵活性与实用性。

相关链接

https://x.com/OpenAIDevs/status/2032142448970121468

34、NVIDIA 发布 NVILA-8B-HD-Video 模型,支持 4K 视频输入

NVIDIA开源NVILA-8B-HD-Video多模态模型,专为4K分辨率、千帧级长视频理解打造。核心搭载AutoGaze技术,可将视频token压缩100倍,大幅降低推理延迟,在HLVid长视频基准测试中达到业界SOTA水平,模型仅限研发使用。

相关链接

https://huggingface.co/nvidia/NVILA-8B-HD-Video

35、上海人工智能实验室发布 InternVL-U 统一多模态模型

上海人工智能实验室推出4B参数InternVL-U统一多模态模型,将多模态理解、推理、图像生成与编辑整合至单一框架,在小参数体量下实现优质综合性能。团队同步开源跨基准评估工具包与TextEdit编辑基准,模型代码、权重已在GitHub、Hugging Face上线,适配多场景多模态任务。

相关链接

https://open-gvlab.github.io/InternVL-U/

https://huggingface.co/InternVL-U/InternVL-U

https://github.com/open-compass/TextEdit

https://github.com/open-compass/GenEditEvalKit

36、StepFun 发布 Step 3.5 Flash 模型训练数据

阶跃星辰StepFun正式发布Step 3.5 Flash模型的SFT训练数据集,在Hugging Face开放获取,补齐了该模型系列开源的最后一环。此前团队已开源两款基础模型与SteptronOSS训练框架,此次数据集发布完善了整体开源生态。

相关链接

https://huggingface.co/datasets/stepfun-ai/Step-3.5-Flash-SFT

https://x.com/StepFun_ai/status/2032880770843373775

37、Mistral AI 发布 Mistral Small 4,开源混合专家模型

Mistral AI 推出 Apache 2.0 协议开源的混合专家模型 Mistral Small 4,总参数 1190 亿,支持 256k 上下文与原生图文输入,搭载可配置推理参数,可切换快速响应与深度推理模式。相较前代,延迟优化后耗时缩短 40%,吞吐量优化后请求量提升 3 倍,现已上线 Mistral API、Hugging Face 及 NVIDIA NIM。

38、Mistral AI 发布首个 Lean 4 开源代码 Agent Leanstral

Mistral AI 发布面向 Lean 4 的开源代码 Agent Leanstral,同属 Mistral Small 4 系列,总参数 1190 亿,单次激活 65 亿参数,支持 25.6 万 token 上下文与多模态能力。该模型在 FLTEval 测试中 pass@2 得分 26.3,优于 Claude Sonnet 且成本更低,支持工具调用与 11 种语言,以 Apache 2.0 协议开源并提供多种部署方式。

39、腾讯开源 Covo-Audio-Chat 语音模型,支持原生全双工

腾讯发布 70 亿参数端到端音频大模型 Covo-Audio-Chat,基于 Qwen2.5-7B 与 Whisper-large-v3 构建,采用统一架构实现原生音频交互,支持分层三模态处理、说话人解耦与原生全双工通话,低延迟变体可满足实时对话需求,在口语对话与音频理解任务中达到行业领先水平。

40、IBM 开源 Granite-4.0-1b-speech 语音模型,支持多语言互译

IBM 在 Hugging Face 开源 Apache 2.0 协议的 Granite-4.0-1b-speech 模型,专注多语言 ASR 与双向 AST,支持英、法、德、西、葡、日与英语互译,额外支持英语到普通话、意大利语翻译,但暂不支持普通话语音直接识别。

41、阿里通义开源 Fun-CineForge 多模态配音模型

阿里通义开源影视级多模态配音模型 Fun-CineForge 及数据集流程 CineDub,模型基于 CosyVoice3 构建,创新引入时间模态,结合多模态信息解决面部遮挡、镜头切换等场景下的音画同步问题,实现精准配音与情感表达。

42、H Company 联合 NVIDIA 发布 Holotron-12B 模型

H Company 与 NVIDIA 联合发布开源多模态模型 Holotron-12B,专为计算机使用 Agent 设计,基于 Nemotron-Nano-12B-v2-VL 微调,采用 SSM-Attention 混合架构,缓解 KV Cache 性能瓶颈。

43、英伟达推出 120 亿参数 Nemotron 3 VoiceChat 语音模型

NVIDIA 推出 120 亿参数端到端全双工语音模型 Nemotron 3 VoiceChat,采用 Mamba/Transformer 混合架构,集成语音编码器、LLM 骨干与 TTS 解码器,支持通过文本提示自定义 Agent 人设,开发者可通过 NGC 申请体验与部署。

44、Meta 发布 OMT 系统,支持 1600 多种语言

Meta 推出 Omnilingual Machine Translation 系统,覆盖 1600+ 语言,整合多类数据集并探索两种架构,1B–8B 参数模型翻译效果可对标 70B 大模型,算力成本更低。同时开放包含多类评估集的评测体系与数据集。

45、乐天发布 Rakuten AI 3.0,基于 DeepSeek V3

乐天发布日语优化开源模型 Rakuten AI 3.0,采用 MoE 架构,总参数 6710 亿、激活参数 370 亿,支持 128K 上下文,官方称日语测试表现优于 GPT-4o。但模型被发现含 DeepSeek 架构标识且疑似删除原许可证,引发开源合规争议。

46、微软 AI 发布 MAI-Image-2 文生图模型

微软发布文生图模型 MAI-Image-2,提升了照片真实感、图内文字生成与细节构建能力,在 Arena.ai 榜单排名第五。现已上线 MAI Playground,逐步接入 Copilot 与 Bing Image Creator,API 面向特定企业开放并将全面上线。

47、小红书 rednote-hilab 发布 dots.mocr,3B 参数支持图像转 SVG

小红书 HiLab 发布 3B 参数多模态 OCR 模型 dots.mocr 及 SVG 优化版,文档解析能力达同规模 SOTA,部分指标超越 Gemini 3 Pro,可将图表、UI 转为 SVG 代码。模型在复杂表格提取与 SVG 鲁棒性上仍有优化空间。

48、美团龙猫开源 LongCat-Flash-Prover

美团龙猫发布 5600 亿参数开源 MoE 模型 LongCat-Flash-Prover,专注 Lean4 形式推理,通过工具集成推理拆分任务流程。在 MiniF2F-Test 通过率 97.1%,PutnamBench 解决率 41.5%,创下开源模型定理证明任务新 SOTA。

49、英伟达发布 30B MoE 模型,IMO 与 IOI 获金牌成绩

NVIDIA 发布开源 MoE 模型 Nemotron-Cascade-2-30B-A3B,总参数 30B、激活参数 3B,基于基座模型后训练。该模型在 2025 年 IMO、IOI 测试中达到金牌水平,同时在多项数理与代码基准中表现优异。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐