中科大提出 AR-Omni:一个真正的 Any-to-Any 多模态自回归智能体

📌 一句话总结:
本工作提出 AR-Omni,一个基于纯自回归(Autoregressive)的统一多模态大模型,仅用 单一 Transformer 解码器 + 单一 token 流 + 单一 next-token 目标,即可同时实现文本、图像与语音的任意模态输入输出(Any-to-Any)生成,无需 diffusion 或专家解码器,实现真正端到端统一建模 。
🔍 背景问题:
当前多模态大模型(Omni-MLLM)虽逐步支持“看、听、说、画”,但大多仍依赖 外接扩散模型 / 语音解码器 / 专家模块:
1️⃣ 训练与推理流程割裂,难以统一优化;
2️⃣ 多模型拼接带来高延迟与高复杂度;
3️⃣ 难以实现实时 streaming 语音或轻量部署。
而自回归范式在 NLP 中已被验证:单 decoder + 单 token 流 本身就是最优雅、最可扩展的统一接口。那么问题来了:
👉 能不能把这种 “纯 AR” 思路扩展到 文本 + 图像 + 语音?
💡 方法简介:
AR-Omni 的核心思想非常干脆:把一切都 token 化。
• 文本 → SentencePiece tokens
• 图像 → VQ 离散视觉 tokens
• 语音 → 单码本 acoustic tokens(支持低延迟流式生成)
• 全部拼接成 一个共享词表 + 一个统一序列
• 用 同一个 Transformer decoder 做 next-token prediction
从而把所有任务统一成:
p(xₜ | x₍₍t₎₎)
为了解决统一建模带来的新挑战,作者提出三点关键设计:
① 模态不均衡问题(Modality imbalance)
语音 token 数远大于文本,容易主导训练
→ 提出 Weighted NTP 加权损失,对关键输出 token 提升权重
② 视觉质量下降问题(AR 图像生成易模糊)
→ 引入 Perceptual Alignment Loss,在 token embedding 空间做感知对齐,提升结构一致性
③ 稳定性 vs 创造力冲突(解码策略不统一)
→ 设计 Finite-State Decoding:
ASR / TTS → greedy
开放生成 → sampling
实现不同任务的自适应解码策略 。
📊 实验结果:
在真正统一三模态的前提下,AR-Omni 依然取得非常强的性能:
• Image Caption:CIDEr 56.53(纯 AR setting 下显著优于同类)
• ASR:WER 9.4(单码本语音 tokenizer)
• TTS:WER 6.5
• 首 token 延迟仅 146ms
• Real-Time Factor = 0.88(首次实现实时语音生成)
• 唯一同时满足:Unified I/O + Diffusion-free + Real-time 的模型
更重要的是:
👉 一个 7B 模型 = 同时搞定 T / I / S 三模态生成
无需 diffusion、无需专家网络、无需多阶段 pipeline。
✨ 一句话点评:
AR-Omni 用最“朴素”的自回归范式证明:真正的多模态统一,不是叠加更多模块,而是把一切变成 token,让一个模型学会所有生成。当 diffusion 和专家解码器逐渐被移除,也许 “One Decoder to rule them all” 才是 Omni 模型的终极形态。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)