Qwen3.5-Omni这波更新有点意思：215个SOTA + 自己学会写代码？

Funny_AI_LAB

410人浏览 · 2026-03-31 01:05:12

Funny_AI_LAB · 2026-03-31 01:05:12 发布

没专门训，它自己就学会了Vibe Coding

通义实验室刚刚放出了 Qwen3.5-Omni。

老实说，Omni这个系列之前我关注得不算多，但这次看完技术卡和demo，有几个点确实让我愣了一下。
在这里插入图片描述

先说结论

这是一个真正的全模态模型——文本、图像、音频、视频，任意组合输入，它都能处理。

而且它不是那种“为了全模态牺牲单项能力”的妥协方案。
215项SOTA，在音频、音视频理解、推理、翻译这些任务上，直接压过了Gemini 3.1 Pro。同时文本和视觉能力没掉，和同尺寸的Qwen3.5单模态模型持平。在这里插入图片描述

MoE专家混合架构在这里起的作用很明显：听音频的专家、看视频的专家、理解文本的专家各干各的，不互相干扰。

核心亮点

真正的“全模态”原生，无缝理解文本、图片、音频及音视频输入，支持细粒度、带时间戳的音视频 Caption 生成；
215 项 SOTA霸榜，在音频及音视频分析、推理、对话、翻译等任务超过Gemini3.1-Pro；
自然涌现的 Audio-Visual Vibe Coding 能力；
支持语义打断、音色克隆及语音控制，让对话体验更自然；
支持 256K 超长上下文与 113 种语言识别，可处理 10小时音频或 1 小时视频。
原生支持 WebSearch 和复杂 Function Call，不仅能聊天，更能帮你做事。

最让我意外的一个能力：Vibe Coding

这个是真没预料到。

官方说法是：未进行专门训练，模型自然涌现出了Audio-Visual Vibe Coding能力。

翻译成人话就是——你给它一个画面逻辑，它能直接生成可运行的Python代码或前端原型。

我没法确认这到底是“涌现”还是某种迁移学习的副产品，但从demo来看，它能根据视频内容生成对应的代码实现，这个能力在Omni模型里确实少见。

意味着什么？
从“看懂”到“做出”，中间那层工程翻译工作，模型帮你省了。

模型架构

Qwen3.5-Omni 延续采用 Thinker-Talker 架构，Thinker 通过 Vision Encoder 和 AuT 接受视觉和音频信号输入，音视频信号通过 interleave 交织并搭配 TMRoPE 编码位置信息。

Thinker 负责处理全模态信号并输出文本，Talker 负责接收来自 Thinker 的多模态输入以及文本输出，进行 contextual 语音生成，语音表征通过 Qwen3-Omni 提出的 RVQ 编码来替代繁重的 DiT 运算。

由于 chunk-wise 的流式输入设计和流式 Talker 设计，整个模型可以进行 realtime interaction。

不同于上一代 Qwen3-Omni 的双轨 Talker 输入，Talker 在输入的组织方式上采用了 ARIA（自适应速率交错对齐，Adaptive Rate Interleave Alignment）来动态对齐文本与语音单元，然后进行交错排布，以避免由于文本与语音 Token 编码效率差异导致的语音不稳定性，如漏读、误读或数字发音模糊等问题。
在这里插入图片描述

实时交互的细节，这次终于像人了

之前很多号称“实时”的多模态模型，交互体验其实挺反人类的——你咳嗽一下它就打断，你插句话它反应不过来。

Qwen3.5-Omni在这一点上处理得比较细致：

语义打断：区分环境噪音和真正的插话，该停的时候停，不该停的时候不理你
语音控制：直接说“小声点”、“用开心的语气”，它当场就调
音色克隆：上传一段录音，定制自己的AI助手声音，自然度还不错

再加上ARIA技术做了文本和语音单元的动态对齐，之前那种漏字、数字念不清的问题改善了不少。

长上下文，10小时音频

256K上下文，具体来说能处理：

约10小时音频
1小时视频

而且支持带时间戳的细粒度Caption——画面里是谁、说了什么、背景音乐什么时候变的、镜头怎么切的，都能输出结构化的描述。

这个能力对视频剪辑、内容审核、长视频转结构化笔记这些场景，落地价值比较直接。

能干活，不只是聊天

原生支持WebSearch和Function Call。

问它“明天北京天气如何，推荐一家酒店”，它能自主判断要联网查天气，然后调用工具完成任务，最后给出整合后的建议。

这个能力本身不算新鲜，但放在一个全模态模型里，意味着它可以处理更复杂的多模态输入→执行任务的链条。

版本和怎么用

三个尺寸：

Plus：完整能力
Flash：轻量，低延迟
Light：更小，适合终端部署

阿里云百炼可以直接调API，魔搭有离线和实时Demo可以玩。

API文档：https://help.aliyun.com/zh/model-studio/realtime
魔搭实时Demo：https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Online-Demo

最后

多模态模型这两年卷得厉害，但大多数还是在做“理解”这一层。
Qwen3.5-Omni让我觉得有点不同的是：它在往“执行”的方向走。

Vibe Coding也好，语义打断也好，音色克隆也好，本质都是在让模型从“你说我听”变成“我看到、听到、然后帮你做”。

参考：Qwen3.5-Omni：新一代大规模原生全模态大模型

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

python第十二课高级（错误与异常）

Python异常处理摘要核心概念语法错误：代码编写阶段因格式问题无法执行，必须修正代码本身异常：运行时因逻辑或环境问题触发，可通过try-except捕获处理常见异常类型包括ZeroDivisionError、AttributeError、IndexError等，每种对应特定错误场景异常处理机制使用try-except-else-finally结构实现完整处理流程可捕获特定异常或通

AtomGit开源社区

AI 营销上市企业推荐：从概念到落地，行业龙头发展潜力解析

在AI技术深度重塑营销行业的当下，具备AI营销技术实力与落地能力的上市公司成为市场关注焦点。本文围绕AI营销领域上市公司展开分析，重点解析以新大陆AI营销助手、智能体工厂为核心产品的新大陆数字技术股份有限公司，以及省广集团、蓝色光标、三人行、浙文互联四家企业的AI营销核心能力，从产品特性、技术实力、应用价值等维度为市场提供参考。AI营销行业正处于快速发展阶段，各上市公司依托自身优势打造了差异化的A