全双工语音大模型打通听-说-思，ASR 仿真规模化突破野外边界

yuyue1116

768人浏览 · 2026-05-23 10:25:28

yuyue1116 · 2026-05-23 10:25:28 发布

Speech AI · FRONTIER

ASR/TTS 论文周报 · 第 004 期

📅 2026-05-18 至 2026-05-24 | 精选 TOP 9（含架构图）

📈 本周趋势小结

🔥 全双工语音大模型统一架构 — DuplexSLA 将听、说、规划三通道同步到 160ms 粒度，标志着 LLM 与实时语音融合进入新阶段
🎵 大规模开源 TTS 生态建设 — Raon-OpenTTS 发布 615K 小时数据池和 DiT 模型家族，填补开源高质量 TTS 基础设施空缺
🎯 ASR 野外泛化能力突破 — Mega-ASR 通过声学仿真规模化和 RL 训练在复杂场景将 WER 相对降低 30%+，开源 200 万小时数据集
🔗 音频 RAG 新范式 — PlanRAG-Audio 将"规划+结构化检索"引入长时音频理解，使小时级音频问答计算可行
🛡️ 超低码率与语音安全双线并进 — ClariCodec 以 RL 将编解码压至 300bps；音素级深度伪造检测提供可解释安全防护

🔝 #1 DuplexSLA: A Full-Duplex Spoken Language Model with Synchronized Speech, Language, and Action

Speech LLM Full-Duplex 实时对话 工具调用

⭐⭐⭐⭐⭐

提出 DuplexSLA，将用户音频（User）、助理语音（Assistant）和文本动作（Action）三通道同步到 160ms 统一时间线，采用单一自回归骨干同时预测语音 token 和动作文本。无需 ASR-TTS 串行管线，实现真正实时交互，可同步完成语音对话、规划任务和工具调用，并附带开源评测套件 DuplexSLA-Bench。

💡 亮点：首次将"边听边说边规划"三通道统一进单一自回归模型，每块 160ms 处理延迟极低；开源代码+评测基准，极具复现和跟进价值。

DuplexSLA chunk-level architecture

▲ 架构说明：三通道（用户音频特征、助理 TA4 语音 token、动作文本）共享 160ms 时间块，骨干 LLM 自回归地在同一上下文中预测语音与动作，实现真正的全双工同步。

📄 论文链接：arxiv.org/abs/2605.20755
💻 代码：github.com/hyzhang24/DuplexSLA

🔝 #2 Mega-ASR: Towards In-the-wild² Speech Recognition via Scaling up Real-world Acoustic Simulation

ASR 强化学习 声学仿真 大规模数据

⭐⭐⭐⭐

通过大规模真实世界声学仿真（“in-the-wild²”）构建 200 万小时野外语音数据，配合**双粒度 WER 门控策略优化（DG-WGPO）**进行强化学习训练，显著提升复杂场景 ASR 泛化能力。在多个野外测试集上相对 WER 降低达 30%+，同时开源 Voices-in-the-Wild-2M 数据集和配套评测基准。

💡 亮点：仿真规模化 + RL 双轮驱动，开源 200 万小时真实噪声数据，为低资源/野外 ASR 研究提供里程碑级数据基础。

Mega-ASR DG-WGPO framework

▲ 架构说明：从 A2S-SFT 初始化出发，策略模型生成多假设后经动态奖励（门控融合双粒度 WER 信号）评分并优化，形成 RL 训练闭环。

📄 论文链接：arxiv.org/abs/2605.19833
💻 代码/数据：github.com/xzf-thu/Voices-in-the-Wild-Bench

🔝 #3 Raon-OpenTTS: Open Models and Data for Robust Text-to-Speech

TTS DiT 模型 开源数据集 鲁棒性评测

⭐⭐⭐⭐

发布 Raon-OpenTTS-Pool（615K 小时英语语音）和经 DNSMOS/WER/语音比过滤的 510K 小时核心子集，训练基于 DiT 架构的 0.3B 和 1B 参数 TTS 模型家族。引入 Raon-OpenTTS-Eval 鲁棒性评测基准，涵盖干净、噪声、野外和表达性四类场景共 6K 评测提示。

💡 亮点：迄今最大规模开源 TTS 数据集之一，多维度过滤保证质量，0.3B/1B 两档模型满足不同部署需求，全套开源可复现。

Raon-OpenTTS overview

▲ 架构说明：数据池经三阶段过滤（DNSMOS、WER、语音比）精炼为核心训练集，DiT TTS 模型在其上训练，Eval 基准覆盖四类鲁棒性条件。

📄 论文链接：arxiv.org/abs/2605.20830
💻 代码：github.com/krafton-ai/RAON-OpenTTS

🔝 #4 SemaVoice: Semantic-Aware Continuous Autoregressive Speech Synthesis

TTS 语义对齐 连续自回归 扩散 Transformer

⭐⭐⭐⭐

提出 SemaVoice，通过语音基础模型（SFM）引导的对齐训练 VAE，使语音隐变量与语义特征在自相似矩阵层面对齐，获得语义感知的连续语音 token。推理阶段结合 LLM 骨干和**本地扩散 Transformer（LocDiT）**逐块生成连续语音，在自然度和语义一致性上优于离散 token 方法。

💡 亮点：将语义基础模型知识"蒸馏"进 VAE 隐空间，连续 token 兼顾音质与语义保真度，是 TTS 表征学习的新思路。

SemaVoice framework

▲ 架构说明：(a) VAE 训练阶段，SFM 编码器提供语义监督，通过自相似矩阵对齐约束隐变量；(b) 推理阶段，LLM 骨干自回归生成 patch 序列，LocDiT 头逐 patch 扩散解码为连续语音帧。

📄 论文链接：arxiv.org/abs/2605.16964

🔝 #5 PlanRAG-Audio: Planning and Retrieval Augmented Generation for Long-form Audio Understanding

长时音频 RAG LLM 规划 多模态检索

⭐⭐⭐⭐

将长时音频理解转化为数据库检索问题：LLM 先规划推理步骤，任务专用模块将原始音频转为结构化时间对齐数据库，再通过 SQL 查询精准定位相关片段进行回答生成。大幅降低处理小时级音频的计算开销，在多项长时音频问答基准上显著领先端到端方法。

💡 亮点：首次将"规划+结构化检索"范式引入音频领域，突破长时音频理解的上下文限制，SQL 检索可解释高效。

PlanRAG-Audio overview

▲ 架构说明：系统四阶段流程：音频多模态处理 → LLM 规划推理步骤 → SQL 检索结构化音频数据库 → 答案生成，将长时音频问答解耦为可扩展的检索问题。

📄 论文链接：arxiv.org/abs/2605.20414
💻 代码：接受后开源

🔝 #6 Optimising Neural Speech Codecs for 300bps Communication using Reinforcement Learning

语音编解码 强化学习 超低码率 可懂度优化

⭐⭐⭐⭐

提出 ClariCodec，专为 300bps 超低码率通信优化的神经语音编解码器，两阶段训练：首先端到端训练重建保真度，再以 ASR 模型识别准确率为奖励信号对编码器进行强化学习微调，直接优化可懂度。在 300bps 极低码率下 WER 相对基线降低达 40%，无需任何人工特征工程。

💡 亮点：首次将 ASR 反馈作为 RL 奖励用于语音编解码器优化，思路新颖，可扩展至其他目标指标（说话人相似度、情感保留等）。

ClariCodec two-stage training

▲ 架构说明：Stage 1 全编解码器端到端训练（mel 重建 + 对抗 + 特征匹配损失）；Stage 2 冻结解码器，仅以 ASR 奖励信号通过 RL 微调编码器，使编码表示对 ASR 可读性最优。

📄 论文链接：arxiv.org/abs/2605.19541
🎧 Demo：demo941.github.io/ClariCodec/

🔝 #7 Profiling the Voice: Speaker-Specific Phoneme Fingerprinting for Speech Deepfake Detection

深度伪造检测 音素指纹 说话人画像 IJCAI 2026

⭐⭐⭐⭐

提出基于音素指纹的个性化语音深度伪造检测框架（IJCAI 2026 已接收），通过双分支提取器为每位说话人建立音素级声学特征库，推理时检测音素分布异常以识别伪造。相比传统黑盒检测，在音素粒度上具备可解释性，在 ASVspoof 等标准数据集上取得 SOTA 性能。

💡 亮点：从"全局黑盒"转向"音素粒度可解释"的说话人指纹检测，附 phoneme 一致性热图可视化，IJCAI 2026 接收，实用性强。

Phoneme Fingerprinting framework

▲ 架构说明：(a) 音素感知特征表示：双分支提取器分别建模局部音素向量；(b) 自适应说话人画像：融合细粒度音素分布和整体说话人嵌入，推理时计算音素级异常分数。

📄 论文链接：arxiv.org/abs/2605.17737
💻 代码：github.com/JunXue-tech/PVP

🔝 #8 Contextual Biasing for Streaming ASR via CTC-based Word Spotting

流式 ASR 上下文偏置 CTC 热词定制

⭐⭐⭐

提出 Streaming CTC-WS，利用 CTC 解码器在流式 ASR 中实时检测用户定义词汇，以检测结果替换 Greedy 解码输出实现上下文偏置，无需修改底层模型结构。在 STOP 等数据集上相对 WER 降低 15%+，可与 NVIDIA FastConformer 等主流流式模型无缝集成。

💡 亮点：免训练即插即用的流式 ASR 热词偏置，Commit/Hold 跨块追踪机制保证流式稳定性，工业部署友好。

Streaming CTC-WS pipeline

▲ 架构说明：CTC 解码器实时对每个流式块检测热词候选；Commit/Hold 机制跨块追踪未完成的关键词假设，安全提交后替换 ASR Greedy 输出。

📄 论文链接：arxiv.org/abs/2605.18222

🔝 #9 MedASR: An Open-Source Model for High-Accuracy Medical Dictation

医疗 ASR Conformer 开源模型 长文本转写

⭐⭐⭐

发布开源高精度医疗语音识别模型 MedASR，基于 17 层 Conformer（512 维、8 注意力头），采用时序融合推理（多窗口后验 logit 加权平均）实现稳定长文本医疗转写。覆盖放射学、家庭医学和内科等专科，相比 Whisper 等通用 ASR 在医疗领域平均 WER 相对降低 35%+，模型开源于 HuggingFace。