MOSS-TTS 技术报告
MOSS-TTS 技术报告
SII-OpenMOSS 团队*
摘要
本技术报告提出了MOSS-TTS——一套基于可扩展技术范式构建的语音生成基础模型,其核心范式为:离散音频令牌 + 自回归建模 + 大规模预训练。本模型基于MOSS-Audio-Tokenizer构建,这是一款因果Transformer结构的音频分词器,通过可变码率残差矢量量化(RVQ)与语义-声学统一表征,可将24kHz采样率的音频压缩至12.5帧/秒(fps)的离散表征。基于该分词器,我们开源了两个互补的生成器架构:其一为MOSS-TTS,主打结构简洁性、可扩展性,以及面向长上下文/可控性的部署能力;其二为MOSS-TTS-Local-Transformer,引入了帧级局部自回归模块,实现了更高的建模效率、更强的说话人特征保留能力,以及更短的首包音频延迟。在多语言、开放域场景下,MOSS-TTS全面支持零样本声音克隆、令牌级时长控制、音素/拼音级发音控制、顺滑的语码转换,以及稳定的长文本语音生成。本报告系统总结了开源模型的设计思路、训练范式与实验特性。
项目主页:https://mosi.cn/models/moss-tts
在线演示:https://huggingface.co/spaces/OpenMOSS-Team/MOSS-TTS
AI Studio:https://studio.mosi.cn/voice-synthesis
Hugging Face:https://huggingface.co/collections/OpenMOSS-Team/moss-tts
GitHub:https://github.com/OpenMOSS/MOSS-TTS
*完整贡献者名单详见贡献者章节
1 引言
文本转语音(TTS)技术已从特定任务的流水线范式,演进为更广义的语音生成范式,业界期望语音生成模型能像基础模型一样实现能力泛化:能够跨说话人、语言、说话风格与声学环境完成适配;支持可控、低延迟的语音合成;在长文本内容生成中保持稳定的输出效果[1–4]。近年来,该领域的技术演进愈发贴近大语言模型(LLM)的缩放规律——模型容量与数据规模的提升,能够解锁超出窄域基准测试的涌现能力[5,6]。
与此同时,语音生成的规模化并非简单的“做大模型”。现代技术方案必须调和表征学习与预训练中的多重矛盾需求:(1)离散令牌表征需要具备足够的压缩率以实现高效的序列建模,同时又要保留足够的表达能力,兼顾语义内容与细粒度声学特征;(2)生成模型需要在长序列中保持稳定,同时兼容流式推理的约束;(3)训练信号需要在多样化、含噪的真实世界数据中实现规模化适配,而不依赖脆弱的级联监督机制。现有多数研究通过引入多个中间监督目标、外部语义教师模型、优化后处理阶段,或是事后对齐模块来解决上述矛盾。这类设计虽能取得一定效果,但往往会增加规模化的复杂度——每新增一个模块,都会引入新的监督约束、新的失效模式与额外的延迟开销[2,7–10]。
本报告提出,语音生成技术应当回归核心本质:学习高质量的音频分词器,基于其输出的令牌训练自回归(AR)模型,并完成大规模预训练。具体而言,我们践行了“离散令牌 + 自回归建模 + 大规模预训练”的技术范式,并通过实验证明,该范式为实现高音质、高可控性的语音生成提供了一条简洁且可规模化的路径。其核心逻辑在于:一个性能足够强大的分词器,能够将语音生成转化为单目标、通用的令牌预测问题——这与语言建模的逻辑高度一致,从而能够更轻松地实现数据、算力与下游能力的规模化扩展,无需持续扩增模型栈的复杂度。
MOSS-TTS由三大核心组件构成:
- 高质量音频分词器:我们基于MOSS-Audio-Tokenizer[11]构建系统,这是一款专为大规模自回归建模设计的、基于因果Transformer的离散音频分词器。它支持可变码率残差矢量量化(RVQ),可将24kHz音频压缩至12.5fps,支持流式友好的帧级编解码,同时保留高保真重建能力与富含语义信息的令牌表征。与依赖外部预训练音频编码器或多阶段蒸馏的方案不同[7,8,12–14],MOSS-Audio-Tokenizer采用端到端训练,联合优化声学重建与语义对齐,最大化模型的可扩展性,最小化继承性的性能瓶颈。
- 大规模、高质量预训练数据:我们构建了一套大规模、高质量的数据流水线,可将原始开放域音频转化为可训练的单说话人语料,并通过交叉一致性门控(说话人一致性、语言一致性、转录有效性)完成质量筛选。最终的语料库总时长达到数百万小时,主体为经过严格过滤的多语言TTS监督数据,同时补充了面向声音克隆与可控性生成的专项数据。这套以数据为核心的基础架构,是模型实现跨域(播客、有声书、广播新闻、影视剧、解说、在线内容)鲁棒性、多语言生成与语码转换能力的核心支撑。
- 面向语音生成的优化离散令牌建模:在分词器的基础上,我们研究并落地了多种离散自回归建模策略,确保长文本合成的效率与稳定性。为同时兼顾科研可复现性与工业部署约束,我们设计了两种架构,并明确了其性能取舍。延迟模式(Delay-Pattern)模型(即MOSS-TTS)采用单Transformer骨干网络与多预测头设计,配合适配RVQ的延迟调度机制,优先保证结构简洁性、可扩展性,以及纯净的长上下文运行效果。全局隐变量+局部Transformer模型(MOSS-TTS-Local-Transformer)则额外引入了帧级局部自回归模块,架构更复杂,但建模效率更高,在更小的模型规模下即可实现更强的说话人特征保留,同时首包音频延迟更短。
上述组件共同构建了一套具备全面能力的实用型语音生成基础模型,支持零样本声音克隆、令牌级时长控制、音素/拼音级发音控制、多语言合成与顺滑语码转换(尤以中英双语为核心),以及小时级的稳定长文本生成。
核心贡献 本技术报告的核心贡献如下:
- 提出了MOSS-TTS,一套基于“离散令牌+自回归+大规模预训练”可扩展范式构建的离散令牌自回归语音生成基础模型。
- 集成并分析了MOSS-Audio-Tokenizer[11]——一款通用、兼容流式推理的音频分词器,具备可变码率能力与语义-声学统一表征。
- 设计了一套大规模、高质量的数据流水线,支持数百万小时数据的训练,实现了鲁棒的多语言预训练与可控合成能力。
- 开源并对比了两种互补的离散自回归架构(延迟模式 vs 全局隐变量+局部Transformer),明确了二者在结构简洁性/可扩展性与建模效率/生成质量之间的清晰取舍。
- 验证了模型丰富的可控能力(声音克隆、时长控制、发音控制),并在说话人相似度与音质指标上取得了优异的实验表现。
文章结构 本报告剩余部分结构如下:首先概述相关研究工作,随后介绍音频分词器与整体模型架构,再阐述预训练数据流水线与训练范式,之后展示评估实验结果,最后进行总结。
2 相关工作
MOSS-TTS的研究处于离散音频分词、大规模自回归序列建模与语音生成基础模型的交叉领域,下文将对最相关的研究方向进行综述。
神经音频编解码器与离散音频分词 随着矢量量化在表征学习领域的广泛成功,离散表征已成为可扩展音频生成的标准基础[15]。SoundStream[16]等神经编解码器,以及后续的高保真压缩模型[17,18]证明,经过学习的编码器-量化器-解码器架构,能够在低码率下实现音频重建,同时兼容下游序列建模。近年来的工具包与开源实现,进一步加速了音频编解码器的研究与落地[19,20]。而对于语音生成场景,高效的分词器不仅需要实现波形重建,还需要输出与文本语义对齐、在长时序生成中具备鲁棒性的令牌。近期多项研究探讨了编解码器令牌的语义缺陷,以及语义-声学性能的权衡问题[8,14,21],推动了能够更好平衡压缩率、感知质量与文本对齐语义的分词器技术发展。
基于离散令牌的音频语言建模 借助离散令牌,音频生成可被转化为令牌序列建模问题,从而适配类LLM的缩放与训练范式[22–24]。研究表明,基于离散单元进行自回归训练的编解码器语言模型,能够生成可懂度良好的语音,甚至实现零样本TTS能力[25]。与此同时,越来越多的研究开始探索令牌选择与建模策略对可控性、语义保真度与推理效率的影响[26,27]。MOSS-TTS延续了这一技术趋势,但重点设计了一套无需外部预训练音频教师模型、可端到端规模化扩展的分词器与模型栈,让离散令牌表征与自回归语音生成的需求深度对齐。
TTS架构:自回归、非自回归、扩散/流模型与基础模型缩放 经典的神经TTS系统,从自回归声学建模与神经声码器[28–30],逐步发展为更快速、可控性更强的非自回归框架[31,32],以及基于流模型与扩散模型的合成方案[33,34]。VITS[35]等端到端方案进一步统一了声学建模与波形生成,提升了系统简洁性与样本质量。近年来,以缩放为核心、以令牌为中心的系统,越来越多地将离散表征与自回归骨干网络结合,在规模化场景下实现了更强的鲁棒性与可控性[36],这一趋势也体现在Qwen3-TTS[1]、CosyVoice[9]、CosyVoice 3[2]、Seed-TTS[3]、Fish-Speech[37]、FireRedTTS-2[4]等近期开源技术报告与大规模系统中。这些研究反复印证了一个核心结论:若无适配的离散分词器,以及兼容流式推理、可控性与长上下文稳定性的模型设计,仅靠数据与模型容量的缩放无法实现性能突破。MOSS-TTS对这一研究方向形成了重要补充:它聚焦于全离散分词流水线,以及适配长文本合成的高效令牌建模策略,同时在相同的分词器与大规模预训练范式下,对两种自回归架构进行了显式对比。
声音克隆与可控性生成 实用型TTS系统对可控性的需求,早已超出文本内容本身,包括说话人身份(声音克隆)、语速/时长控制、细粒度发音控制等。基于大规模生成模型与条件机制,业界已对零样本声音克隆与多语言通用生成展开了广泛研究[38–40]。以令牌为中心的系统,还能将控制信号直接在离散域进行表达,与波形级控制相比,能够简化建模流程、提升生成稳定性。MOSS-TTS重点优化了令牌级时长控制与音素/拼音级发音控制接口,旨在让控制能力更显式、可组合。
3 音频分词器
3.1 设计动机与核心原则
音频分词器是原生音频大语言模型(Audio LLMs)的基础桥梁,它将连续的原始音频信号转化为离散令牌,从而能够在统一的生成框架中进行无缝处理。面向语音大语言模型的通用音频分词器,必须满足两大核心要求:一是实现对多样化音频信号的高保真重建,二是与自回归建模的序列特性保持兼容[8,41,42]。
现有方案通常通过预训练音频编码器(如HuBERT、Whisper)[12–14,43]、多阶段训练流水线[19,44],或是专用CNN结构等架构特定的归纳偏置[16–18]来满足上述要求。但这些设计往往会引入外部依赖与架构约束,阻碍模型容量、数据规模与量化层级的无缝规模化扩展。受LLM成功经验的启发——在海量数据上训练的简洁、可扩展架构,往往能实现更优的性能[5,6],我们认为,采用相似的设计理念,能够提升音频分词器的性能上限。我们主张设计一套简洁、端到端可扩展的架构,最小化对外部先验与复杂启发式规则的依赖,重点实现联合优化与大规模数据适配。
为解决上述局限,支撑MOSS-TTS的高质量语音合成,我们采用了MOSS-Audio-Tokenizer——一款基于CAT(带Transformer的因果音频分词器)架构的高性能音频分词器[11]。该分词器具备以下核心优势:
- 高压缩率与可变码率:模型实现了极高的压缩比,可将24kHz音频转化为仅12.5帧/秒的离散表征。基于32层残差矢量量化(RVQ)机制,模型支持0.125~4kbps的灵活码率调整,适配各类高保真重建需求。
- 纯Transformer架构:传统编解码器依赖复杂的人工设计CNN或CNN-Transformer混合模块,而MOSS-Audio-Tokenizer采用极简的因果Transformer设计。该架构无专用归纳偏置的限制,实现难度极低,规模化扩展效率极高。模型参数量达到16亿,具备极强的表征能力,同时其固有的因果特性,能够实现无缝的帧级流式推理。
- 通用音频表征:模型在数百万小时的多样化音频数据上完成预训练,涵盖语音、音乐、环境音效,确保在全音频域具备强泛化能力。
- 语义-声学统一建模:MOSS-Audio-Tokenizer输出的离散令牌,在保留高重建质量的同时,天然蕴含丰富的语义信息,完美适配自回归LLM建模。
- 端到端联合优化:包括编码器、量化器、解码器、判别器,以及用于语义对齐的LLM在内的所有组件,均采用联合优化,最大化模型的性能上限。
3.2 架构设计
如图1所示,MOSS-Audio-Tokenizer基于RVQ-GAN框架进行训练,模型由五大组件构成:因果编码器、残差矢量量化器(RVQ)、因果解码器、仅解码器结构的语义建模LLM,以及对抗判别器。
全Transformer架构的编解码器 MOSS-Audio-Tokenizer的编码器与解码器,各由68个因果Transformer块构成。为实现高效的流式推理,两个组件均采用10秒滑动窗口注意力机制。为逐步降低序列长度,编码器在输入层,以及第12、24、36层后加入了patchify操作,对应的patch尺寸分别为240、2、2、2。由于patchify操作会改变特征维度,每个阶段后都会通过线性投影,将隐状态映射至对应Transformer块的维度。该配置可将24kHz的原始波形,高效下采样至12.5fps的低帧率。
编码器分为四个阶段,隐层维度分别为768、768、768、1280,分别包含12、12、12、32个Transformer块。每个阶段的前馈网络(FFN)维度设置为隐层维度的4倍,多头自注意力机制分别采用12、12、12、20个注意力头。所有Transformer块均采用旋转位置嵌入(RoPE)[46]。解码器以完全因果的方式,镜像了编码器的架构。编码器与解码器各包含约8亿参数,均为从零开始训练。
残差矢量量化 离散分词采用32层残差矢量量化器(RVQ)实现,每层均采用尺寸为1024的码本、因子分解矢量量化(隐层维度8)[18],以及L2归一化的编码向量。为实现可变码率分词,训练过程中采用概率为1.0的随机量化器dropout机制[16]。
语义监督 为引导模型学习具备语义结构的离散表征,我们接入了一个5亿参数、仅解码器结构的因果语言模型[47]作为语义头。该语义头以量化器的输出为条件,通过自回归方式预测文本,提供音频转文本的监督信号,监督任务包括自动语音识别(ASR)、多说话人ASR与音频字幕生成。
感知建模 为提升重建音频的感知质量,我们采用多周期判别器[17]与复数STFT判别器[18],与音频分词器进行对抗训练。
3.3 训练过程
MOSS-Audio-Tokenizer在包含数百万小时公开与真实世界音频数据的大规模数据集上完成训练。训练过程中,我们采用多任务学习框架,让MOSS-Audio-Tokenizer同时实现与文本的鲁棒语义对齐,以及高保真音频重建。各组件的建模方式详述如下:
基于音频转文本任务的语义建模 为让令牌表征具备丰富的语义,且与基于文本的语言建模对齐,我们引入了辅助音频转文本目标。具体而言,我们采用5亿参数的仅解码器LLM[47],以MOSS-Audio-Tokenizer输出的表征为条件完成建模。我们将量化器输出的隐状态输入LLM,由LLM自回归预测文本令牌。
我们纳入了多样化的音频转文本任务,包括自动语音识别(ASR)、多说话人ASR与音频字幕生成。对于带文本标注的音频样本,我们施加对应的语义建模目标。每个任务均通过固定的任务标签T进行标识,并添加至LLM输入的开头。语义目标通过标准交叉熵损失进行优化:
[
\mathcal{L}{sem}=-\sum{t=1}^{|s|} log p_{\theta_{LLM}}\left(s_{t} | \mathcal{T}, q, s_{<t}\right)
]
其中,(s=(s_{1}, …, s_{|s|}))为目标文本令牌序列,q为MOSS-Audio-Tokenizer输出的量化音频表征序列,T为任务特定的提示令牌,(\theta_{LLM})为因果语言模型的参数。
量化器优化 为保证训练的简洁性与稳定性,MOSS-Audio-Tokenizer的每个量化层均采用因子分解矢量量化[18],码本直接通过梯度下降优化,无需依赖额外的码本更新机制[17]。我们引入承诺损失与码本损失,对编码器与码本向量进行联合优化:
[
\mathcal{L}{cmt }=\sum{c=1}^{N_{q}}\left| z_{c}-sg\left(q_{c}\left(z_{c}\right)\right)\right| {2}^{2}
]
[
\mathcal{L}{code }=\sum_{c=1}^{N_{q}}\left| sg\left(z_{c}\right)-q_{c}\left(z_{c}\right)\right| {2}^{2}
]
其中,(z{c})为第c个量化层的输入,(q_{c}(z_{c}))为对应的量化输出,(N_{q})为量化器数量,(sg(·))为梯度停止算子[15]。
基于重建任务的声学建模 为保证高保真、跨域鲁棒的音频重建,我们采用多尺度梅尔谱损失:
[
\mathcal{L}{rec }=\sum{i=5}^{11}\left| S_{2{i}}(x)-S_{2{i}}(\hat{x})\right| {1}
]
其中,(S{2{i}}(\cdot))为通过归一化短时傅里叶变换(STFT)计算的梅尔谱,窗长为(2{i}),步长为(2^{i-2});x为真实波形,(\hat{x})为解码器生成的重建波形。
对抗训练 为进一步提升重建保真度与感知质量,我们采用多判别器进行对抗训练。判别器损失采用最小二乘GAN(LSGAN)形式[48]:
[
\mathcal{L}{D}(x, \hat{x})=\frac{1}{K} \sum{k=1}{K}\left(1-D_{k}(x)\right){2}+D_{k}^{2}(\hat{x})
]
其中,(D_{k})为第k个判别器,K为判别器总数,x为真实音频,(\hat{x})为预测音频。
对于生成器,我们纳入了对抗损失与特征匹配损失。对抗损失引导生成器生成与真实样本无差异的高保真音频:
[
\mathcal{L}{adv}(\hat{x})=\frac{1}{K} \sum{k=1}{K}\left(1-D_{k}(\hat{x})\right){2}
]
此外,我们引入特征匹配损失(L_{feat })[49],保证多尺度下的结构相似性,对真实与合成音频在判别器中间特征图的L1距离进行惩罚:
[
{\mathcal {L}}{feat}(x,{\hat {x}})={\frac {1}{K}}\sum {k=1}^{K}{\frac {1}{L{k}}}\sum {l=1}^{L{k}}{\frac {\left| D{k}{l}(x)-D_{k}{l}({\hat {x}})\right| {1}}{mean(\left| D{k}^{l}(x)\right| {1})}}
]
其中,(D{k}^{l})为第k个判别器第l层的特征表征,(L_{k})为该判别器的层数。
整体训练目标 生成器的整体目标为所有损失项的加权组合:
[
{\mathcal {L}}{G}=\lambda {sem}{\mathcal {L}}{sem}+\lambda {rec}{\mathcal {L}}{rec}+\lambda {cmt}{\mathcal {L}}{cmt}+\lambda {code}{\mathcal {L}}{code}+\lambda {adv}{\mathcal {L}}{adv}+\lambda {feat}{\mathcal {L}}{feat}
]
其中,(\lambda{sem })、(\lambda_{rec })、(\lambda_{cmt})、(\lambda_{code })、(\lambda_{adv})、(\lambda_{feat })为标量超参数,控制各损失项的相对权重。
训练过程中,超参数设置为:(\lambda_{sem }=20)、(\lambda_{rec }=15)、(\lambda_{cmt}=0.25)、(\lambda_{code }=1.0)、(\lambda_{adv}=1.0)、(\lambda_{feat }=2.0)。
受算力约束,我们采用两阶段训练调度提升训练效率:首先进行52万步的非对抗预训练(无判别器相关损失,批次大小1536,每批次约对应5小时音频),随后进行50万步的对抗微调(批次大小768)。所有模块均采用端到端优化,无预训练编码器或语义教师模型[7,8,12–14]。
4 模型架构
MOSS-TTS是一套基于离散音频令牌构建的语音生成基础模型。为实现高效规模化扩展,借鉴大语言模型(LLM)的成功经验,我们采用了简洁的端到端纯自回归(AR)架构。如图2所示,给定文本序列与可选的语音提示,MOSS-TTS通过下一个令牌预测生成目标令牌序列。架构设计的核心问题,并非是否采用自回归建模,而是如何处理分词器输出的多流离散令牌块。对于32层RVQ分词器,所选的令牌建模模式,直接决定了工程复杂度、缩放特性、解码延迟与最终的合成质量。
我们并未预先选定单一的令牌建模模式,而是在相同的分词器与大规模预训练范式下,训练了两种架构。这一设计具备明确的研究价值:能够在大规模离散语音建模中,隔离出令牌建模模式本身带来的性能影响。在实际应用中,两种设计呈现出清晰的性能取舍:延迟模式采用结构简单的单骨干、多头参数化设计,更易扩展至大模型尺寸、长上下文与优化后的推理后端;局部Transformer引入了额外的帧级局部自回归模块,提升了架构复杂度,但优化了建模效率;在内部开发过程中,该架构的每层令牌损失持续更低,在后续的声音克隆评估中,也能在远更小的模型规模下实现更强的说话人相似度。
相应地,本报告采用MOSS-TTS-Local-Transformer,在标准克隆基准上凸显局部模式的质量优势(表3);而MOSS-TTS作为核心架构,用于时长控制、发音控制与超长文本生成的评估(表5、7、6)。
分词器输出(N_{q}=32)层RVQ。在我们的实现中,两种架构均在每个对齐步预测(N_{h}=N_{q}+1=33)个通道:1个文本/填充通道(y_{0, t}),以及32个音频通道(y_{1, t}, …, y_{N_{q}, t}),其中(j ≥1)时(y_{j, t}=a_{j, t})。当步骤t对应音频帧时,(y_{0, f})被训练为输出专用填充符号;在纯文本步骤中,则输出正常的文本令牌。两种架构均采用相同的逐头加权交叉熵损失,权重为:
[
\lambda =(1,3,3,3,2,2,2,2,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1)
]
该权重设置提升了早期粗粒度RVQ层的权重,同时对文本/填充通道与其余细粒度层保持单位权重。
4.1 延迟模式
为在不将序列长度扩增至(T ×N_{q})的前提下,高效建模RVQ层级结构,我们采用了延迟模式[50]。在我们研究的两种架构中,该设计更简洁、可扩展性更强:单Transformer骨干网络承载完整的序列模型,每个预测通道均通过骨干网络隐状态的轻量级头投影得到。
设s为输入文本序列,(A \in{1, …, V}^{N_{q} ×T})为音频令牌矩阵,其中V为每个RVQ层的码本尺寸,(N_{q})为量化器数量,T为音频帧数。每个元素(a_{j, t} \in{1, …, V})代表第j个RVQ层、第t个时间帧的令牌索引。我们施加时间延迟偏移,让第j层向前偏移j-1帧,延迟令牌矩阵(\tilde{A})定义为:
输入嵌入 在骨干LLM的输入侧,我们采用(N_{q})个独立的语音嵌入表。对于延迟序列中的每个时间步t,输入音频表征向量(h_{t} \in \mathbb{R}^{D})为所有层嵌入的和:
[
h_{t}=\sum_{j=1}^{N_{q}} Emb_{j}\left(\tilde{a}{j, t}\right)
]
其中,(Emb{j}(·))为第j个码本的嵌入查找,D为模型隐层维度。文本令牌通过标准文本嵌入表进行嵌入;延迟机制仅适用于RVQ音频流。最终得到的长度为(T+N_{q}-1)的向量序列,与文本嵌入拼接后作为骨干网络的输入。
建模目标 在输出侧,隐状态(x_t)输入至(N_{h}=33)个预测头:1个文本/填充头与32个音频头。设(\tilde{y}{0,t}= y{0,t}),(j≥1)时(\tilde{y}{j,t}= a{j,t}),加权训练目标为:
[
\mathcal{L}{delay} = -\sum{t=1}^{T+N_{q}-1} \sum_{j=0}^{N_{q}} \lambda_{j} m_{j,t} log p_{\theta_{delay}}( \tilde{y}{j,t} | E, { \tilde{y}{x,y}: x+ y< j+ t+ max(0, 1 -j)})
]
其中,(\theta_{delay})包含骨干网络、嵌入层与预测头的参数;E代表文本令牌序列;(m_{j,t})对延迟偏移与填充引入的无效位置进行掩码。
由于所有通道均直接从骨干网络状态预测,延迟模式保持了极简洁的解码路径:一旦(x_t)计算完成,令牌生成仅需执行头投影。这种简洁性,是该架构更易实现、扩展与部署的核心原因。
4.2 局部Transformer
受Moshi中RQ-Transformer的启发[8],我们进一步探索了基于局部Transformer的层级令牌建模设计。与延迟模式不同,该方案无需引入时间偏移即可对令牌块进行建模:骨干网络在每个对齐步输出一个全局隐变量,再通过轻量级自回归模块,将该隐变量扩展为当前步内的令牌块。该设计架构更复杂,但为帧级令牌建模提供了更强的归纳偏置。
输入嵌入 在输入侧,我们直接对每个时间步t的所有RVQ层嵌入求和,无任何延迟操作。骨干LLM的输入隐状态(h_t)为:
[
h_{t}=\sum_{j=1}^{N_{q}} Emb_{j}(a_{j,t})
]
其中,(a_{j,t})为第j个RVQ层、第t个时间帧的令牌。
层级解码 在输出侧,我们采用轻量级局部Transformer,对每个步的完整令牌块进行自回归解码。具体而言,设(x_t)为骨干LLM在时间步t的输出隐状态,局部Transformer按顺序预测序列((y_{0,t+1}, y_{1,t+1},…, y_{N_{q},t+1}))。预测通道j时,局部Transformer的输入(z_{j,t})定义为:
[
z_{j,t}=
\begin{cases}
x_{t}, & j=0 \
Emb_{j-1}(y_{j-1,t+1}), & 1 ≤j≤N_{q}
\end{cases}
]
局部Transformer处理(z_{j,t})后,将输出的隐状态输入至对应的预测头,输出(y_{j,t+1})。
建模目标 包括骨干网络与局部Transformer在内的完整架构,采用端到端训练,优化目标为:
[
\mathcal{L}{local} = -\sum{t=1}^{T} \sum_{j=0}^{N_{q}} \lambda_{j} log p_{\theta_{local}}(y_{j,t} | E, y_{<j,t}, y_{:,<t})
]
其中,(y_{<j,t})为当前对齐步中已预测的前置通道,(y_{:,<t})为之前所有步的全部通道;(\theta_{local })包含骨干LLM、局部Transformer、嵌入层与预测头的参数。
与延迟模式相比,该设计在每个帧内额外插入了长度为(N_{q}+1)的自回归循环。因此,其稳态解码的计算量更高,但无需等待延迟偏移完成首个帧的生成,能够更早输出音频,首包延迟更短。从实验结果来看,本报告中该设计的核心优势并非架构简洁性,而是更高的建模效率与更强的说话人特征保留能力。
此外,我们纳入了MOSS-Audio-Tokenizer中提出的渐进序列dropout机制[11],支持码率可控的音频生成。
5 预训练
5.1 预训练数据
要将TTS预训练扩展至数百万小时的语音数据,必须从播客、有声书、广播新闻、影视剧、解说、在线内容等自然生成的开放域音频中获取数据源。但这类录音极少满足直接用于TTS监督的条件:普遍存在多说话人并发、背景音乐、环境噪声,以及不可靠或缺失的转录元数据。因此,高质量预训练要求每个训练单元必须满足两个核心属性:(1)音频声学洁净,仅包含单个说话人的语音,无重叠人声、音乐与显著背景噪声;(2)配对的转录文本语言规范,与语音内容精准对齐。
为实现规模化的质量管控,我们设计了多阶段数据流水线,将原始网络音频逐步转化为经过筛选、可训练的语音-转录文本对。如图3所示,流水线分为三个阶段:预处理阶段(步骤1-2)建立标准化的声学基础,通过说话人分轨提取说话人一致的音频片段;过滤阶段(步骤3-4)首先通过多语言ASR、基于规则的检查与基于LLM的质量控制生成并优化转录文本,随后仅保留通过音频-文本联合过滤(包括声学质量检查、音频/文本语言一致性检查、时长-文本一致性检查)的样本对;数据合成阶段通过专项样本对语料库进行补充,为音色迁移引入显式的说话人条件结构,拓宽小众输入类型的覆盖范围,提升模型对多样化真实世界输入格式的鲁棒性。
5.1.1 数据预处理
如图3所示,预处理阶段包含步骤1-2,在生成任何转录文本之前,完成声学标准化、提取说话人一致的音频片段。
步骤1:原始音频预处理 从网络获取的原始录音,声学格式存在极大的异质性:不同来源的采样率差异巨大,响度水平相差数十分贝,很多文件包含环境噪声、伴奏音乐或混响。若不进行校正,这种变异性会降低下游说话人分轨(步骤2)与ASR(步骤3)的可靠性,同时给模型训练引入不一致的声学特征。因此,流水线的第一步,我们对每个录音执行以下预处理操作:
- 噪声抑制:采用MossFormer2-SE-48K[51]神经语音增强模型,抑制平稳与非平稳背景噪声。该阶段去噪的目的并非生成最终训练信号,而是提升下游说话人分轨的可靠性——更洁净的输入,能够带来更准确的语音活动检测与更清晰的说话人边界估计。增强前,音频被重采样至48kHz,即该模型的原生工作采样率。
- 格式标准化:增强后,对样本类型、通道布局、头部元数据等参数进行对齐,处理后的输出保存为FLAC格式,为后续所有步骤建立统一的格式规范。
- 音量归一化:为降低不同来源的电平差异,我们采用两阶段增益处理。首先,计算基于RMS的信号电平(dBFS):
[
L_{dBFS}(x)=20 log {10}\left(\sqrt{\frac{1}{T} \sum{t} x_{t}^{2}}+\epsilon\right)
]
并施加钳位增益(g=clip(-20-L_{dBFS}(x) , -3, 3)) dB,将波形按(10^{g / 20})重新缩放。-20 dBFS的目标值与±3 dB的钳位范围,共同避免了对本底安静录音的过度压缩,以及对异常值的过度放大。第二步,通过峰值归一化,将结果除以绝对采样值的最大值,映射至[-1, 1]的幅值范围,保证流水线全程的数值一致性。
步骤2:说话人分轨与片段合并 我们对去噪后的音频执行说话人分轨,得到按时间排序的带说话人标签的区间序列:
[
\mathcal{D}=\left{\left(k_{i}, t_{i}^{st }, t_{i}^{ed }\right)\right}{i=1}^{N}
]
其中,(k{i})为录音内的局部说话人标签(如SPEAKER-00、SPEAKER-01等),(t_{i}{st}<t_{i}{ed})为起始与结束时间戳。说话人标签仅在单个录音内有效,我们不执行跨录音的身份关联。该步骤采用DiariZen[52–54]端到端神经说话人分轨系统实现。
原始分轨输出通常存在碎片化问题:一段连续的说话内容,可能被短暂的停顿或呼吸声切分为多个短区间。直接基于这类片段训练,会过度代表短的子句单元,牺牲长段落级的连续性。因此,我们采用两步合并流程,最大化连续单说话人内容的覆盖度:
- 过滤与连续说话人合并:短于(\tau_{min }=0.1)秒的片段,被视为不可靠的分轨伪影并丢弃。随后按时间顺序扫描剩余片段:当两个相邻片段携带相同的说话人标签时,将其合并为一个覆盖两个区间的完整片段,得到合并后的序列:
[
\mathcal{A}=\left{\left(k_{j}, s_{j}, e_{j}\right)\right}_{j=1}^{M}, M \leq N
]
其中,D中连续的同说话人片段,均被合并为一个条目。合并无间隔阈值限制:任意两个相邻的同说话人片段,无论中间的静音时长如何,均会被合并——因为这类间隔反映的是说话过程中的自然停顿,而非说话人切换。 - 单说话人截断:我们设置1小时的硬上限,避免单元长度无限制增长。从A的起始点(s_{1})开始,定义截断时间(t_{\lim }=s_{1}+3600 ~s),按顺序输出A中的片段,将最后一个纳入片段的结束点钳位至(t_{\lim }),并丢弃所有短于(\tau_{min })的生成片段。最终输出的合并后、带说话人标签的区间列表,均来自录音中从首个分轨片段起始点开始、最多1小时的内容。
5.1.2 数据过滤
如图3所示,过滤阶段对应步骤3-4:步骤3构建并清洗转录文本,步骤4仅保留音频与转录文本联合一致的样本对。
步骤3:ASR与转录文本质量控制 步骤2输出的每个合并片段,都会经过一套顺序流水线,完成音频转录,并通过一系列质量控制步骤,生成适用于TTS训练的洁净、带说话人标签的转录文本。
- ASR转录:采用我们自研的多语言ASR模型MOSS-Transcribe-Diarize[55],对每个片段进行转录。该模型无需外部提供语言标签,可直接输出支持多语言、感知分轨的转录文本。原始输出遵循结构化格式,每个话语区间均带有录音内的局部说话人标签前缀(如[S1]、[S2]),并可能包含内嵌的声音事件标记(如[music]、[laugh])。这种结构化输出反映了完整的分轨感知识别结果,需要经过后续清洗,才能作为训练用转录文本。
- 基于规则的预过滤:调用LLM之前,通过三个轻量级规则,丢弃明显不可用的转录文本,避免浪费推理算力:
- 空内容:去除空白字符后,转录文本为空;
- 严重重复循环:任意短语连续重复超过6次,是ASR模型崩溃的可靠信号;
- 非语音主导:去除所有方括号标签([…])后,剩余语言内容占总文本长度不足20%,说明该片段主要为噪声、音乐或其他非语音事件。
未通过任意一条规则的片段,将被直接丢弃,不进行后续处理。
- 基于LLM的转录文本优化:通过预过滤的片段,将由大语言模型通过结构化的两阶段提示词进行处理:
- 诊断(过滤):LLM首先检查两个致命缺陷。filter-1针对重复2次及以上的相同口语内容(与MOSS-Transcribe-Diarize正常输出的重复说话人标签有明确区别);filter-2针对句子截断,即末尾带连字符、或单词中途突然终止的内容。触发任意一个缺陷代码的片段将被丢弃。
- 校正(优化):通过诊断的片段,将进行顺序清洗。refine-1去除所有非语音事件标签,保留说话人标签与语言内容;refine-2删除无后续语音内容的说话人标签;refine-3执行最小化的结构修复,恢复标准的[说话人]内容格式,不修改识别出的文字。并非所有步骤都会应用于每个片段,格式已符合要求的片段将标记为无修改,直接通过。
若LLM调用失败(如响应格式错误),该片段将被丢弃,不会回退至未清洗的转录文本。
- 单说话人转录验证:作为最终检查,我们验证优化后的转录文本仅包含[S1]说话人标签。若出现[S2]、[S3]或更高序号的标签,说明转录层面检测到片段内存在多个说话人,与步骤2中强制执行的单说话人约束矛盾,这类片段将被丢弃。
步骤4:音频-转录文本联合过滤 通过步骤3的片段,将进入第二轮过滤,结合声学质量信号与音频-转录文本一致性检查。与聚焦于转录文本质量的步骤3不同,该阶段对音频与转录文本进行联合评估,只有声学质量与音频-转录文本一致性均在可接受范围内的片段,才会被保留。
- 声学质量过滤:我们基于去噪前的原始音频,而非增强后的信号,计算DNSMOS[56]与Meta AudioBox制作质量(PQ)[57]分数——因为语音增强可能会扭曲质量评估,让分数更多反映增强模型的效果,而非原始录音的质量。只有DNSMOS分数超过2.8、Meta AudioBox PQ分数超过6.5的片段才会被接纳,仅保留语音足够洁净、听感自然的片段。
- 音频-文本语言一致性过滤:我们从两个不同模态提取语言标签,并要求二者保持一致。首先,对音频采用Whisper large-v3[13],得到音频侧的语言标签(\hat{\ell}{aud});其次,由大语言模型读取优化后的转录文本,预测文本侧的语言标签(\hat{\ell}{text})。只有(\hat{\ell}{aud} = \hat{\ell}{text})的片段会被保留。该步骤去除了转录文本语言与语音内容不一致、或ASR输出不可靠导致文本侧语言识别混淆的样本对。对于剩余片段,我们将一致的语言标签记为(\hat{\ell})。
- 音频-转录文本长度一致性过滤:音频时长与转录文本长度的系统性不匹配,通常对应两种失效模式:(1)音频远长于转录文本,说明片段的大部分内容为静音或非语音背景;(2)转录文本远长于音频,是ASR幻觉的可靠信号。为检测这两种情况,我们计算特定语言的字符速率:
[
r= \frac{|x’|}{d}
]
其中,(|x’|)为优化后转录文本的字符数,d为片段时长(秒)。对于每种支持的语言(\ell),我们基于参考语料库的经验统计,定义了有效的速率区间([r_{min \ell}, r_{max \ell}]),并通过上一步得到的一致语言标签(\hat{\ell})选择对应的区间边界。速率(r \notin [r_{min \ell}, r_{max \ell}])的片段将被丢弃。
5.1.3 数据合成
如图3所示,最终阶段通过专项合成/变换样本,对经过自然过滤的语料库进行补充,覆盖原生网络音频无法直接提供的能力。
即便经过上述流水线处理,过滤后的网络语料库仍存在三个系统性缺口,仅靠过滤无法解决。最关键的缺口是缺乏显式的说话人条件结构:过滤后的语料库仅实现了文本与语音的配对,未提供提示音频,仅基于该语料库训练的模型,无法实现从参考说话人迁移音色的能力。另外两个缺口在文本侧:真实用户输入常包含格式噪声,模型需要具备鲁棒性(如“Hello??!! are you there”、“Iwant to knowwhere it is”这类输入);而原生语音数据中完全没有音标输入,这却是细粒度发音控制的必备能力。我们通过专项数据合成,解决了这三个问题。
音色克隆数据构建 该构建流程的目标,是生成(提示音频、目标音频)样本对,其中两段音频来自同一说话人,让模型能够从真实录制的语音中学习基于提示的音色迁移,而非任何生成过程。构建流程完全基于步骤1-4生成的过滤后语料库完成。
对于每个录音,我们按分轨分配的说话人身份,对留存的片段进行分组。设分配给特定说话人的片段为({s_{1}, s_{2}, …, s_{n}}),对于每个目标片段(s_{i}),我们按以下方式构建提示候选池:对于其他每个片段(s_{j}(j ≠i)),随机截取5个时间片段,每个片段的起止时间独立采样,最大时长不超过30秒,总计生成(5(n-1))个提示候选。随后,我们采用Seed-TTS-eval[3]中使用的微调后WavLM-Large模型,提取说话人嵌入,通过余弦相似度为每个候选与(s_{i})打分,选择相似度最高的候选作为(s_{i})的提示,最终生成训练对((prompt =s_{j, partial }^{*}, target =s_{i}))。
该构建策略具备两个重要特性:第一,通过对截取的片段而非完整片段评估相似度,筛选过程直接优化了提示在推理时长下对说话人身份的表征能力,而非完整片段的代表性;第二,将提示时长限制在30秒以内,并随机化其边界,能够引导模型从不同的时间窗口中提取稳定的音色表征,提升推理时对提示长度与位置的鲁棒性。
补充数据 三个规模更小的补充数据集,解决了剩余的分布缺口。针对输入鲁棒性,我们对现有有效样本对的文本施加四种噪声变换——标点噪声(连续标点、全半角混合、错误组合)、空格伪影(多余空格、换行错位)、标点丢弃、稀疏脏字符注入,音频保持不变。针对音标输入,我们支持整句与局部(单词/短语级别)的正字法文本替换,中文替换为带声调的拼音(如nin2 hao3),英文替换为斜杠包裹的IPA音标(如/hæŋ bæk/);训练样本对通过基于规则的转录文本转换,从过滤后的语料库片段生成,音频保持不变。针对词典式短文本数据,我们为语料库补充了单字、单词发音样本——这类内容在网络录音中占比极低,却是真实世界中常见的输入模式,若无专项覆盖,仅基于原生数据训练的模型,在这类超短输入上的表现往往不可靠。
针对时长控制,每个训练样本都被序列化为两个并行版本:在时长条件版本中,提示字段的令牌存储了目标音频令牌数的显式整数值;在自由时长版本中,该字段设置为None。该配对格式在整个语料库中统一应用,因此显式与隐式时长监督在预训练全程均存在,而非仅在特定阶段引入。
5.2 预训练阶段
为简洁起见,我们将课程学习中使用的五个训练数据子集记为:主过滤语料库(D_{basic})、音色克隆样本对(D_{clone})、词典式短文本数据(D_{dict})、噪声文本增强数据(D_{noise})、音标增强数据(D_{phone})。课程设计遵循三大原则:第一,从密度最高、歧义最低的监督信号开始,最大化早期学习效率;第二,在优化器仍处于高学习率的稳定区间时,引入声音克隆、发音控制等更难的条件任务,让这些能力成为模型的原生行为,而非后期的窄域补丁;第三,长上下文扩展推迟至短上下文模型基本收敛后进行,大幅降低优化不稳定性,同时保留短音频的生成质量。
完整的训练调度遵循简单的预热-稳定-衰减(WSD)模式[58]:仅在阶段1进行学习率预热,其余非衰减阶段保持固定学习率,仅在阶段3将学习率从(2 ×10^{-4})线性衰减至(2 ×10^{-6})。
阶段1:基础对齐学习 我们仅采用(D_{basic})启动训练,覆盖中文、英文与低资源语言,在相对洁净、直接的文本-语音监督下完成学习。该阶段包含整个训练调度中唯一的显式预热:学习率先提升至(2 ×10^{-4}),随后在该阶段剩余时间保持固定。该阶段排除更专用的目标,能够提升样本效率:模型先学习单调的文本-音频对齐、多语言字素-声学映射,以及分词器编码的基础语义,再去解决音色迁移或发音校正任务。实验证明,与从零开始在全异构混合数据上训练相比,该阶段能为后续的混合数据阶段提供显著更优的初始化。
阶段2:稳定高学习率下的能力扩展 基础映射关系建立后,我们切换至全数据体系,并刻意为(D_{clone})分配高得多的采样权重。其背后是策略性考量:基于提示的音色迁移,比普通TTS难度更高、更脆弱,若引入强度不足,该能力往往会始终处于边缘位置。在模型接触全量面向控制的混合数据时,将学习率固定在(2 ×10^{-4}),能够让骨干网络将克隆、词典读取、噪声文本鲁棒性、音标提示等能力,作为核心行为吸收,而非后期补丁。
阶段3:线性衰减下的混合数据再平衡与质量巩固 控制能力成型后,我们保持全量数据处于激活状态,但将混合比例恢复至正常水平,同时在整个阶段将学习率从(2 ×10^{-4})线性衰减至(2 ×10^{-6})。该步骤至关重要:过长时间对音色克隆数据过采样,会让模型偏向提示复制,同时抑制标准多语言TTS、词典覆盖、鲁棒性增强的相对影响。因此,阶段3是核心的质量巩固阶段:模型在优化器从高灵活性的高学习率区间,过渡至高保守性的低学习率区间的过程中,重新学习全任务分布。
在WSD范式中,该阶段是最终性能增益的主要巩固环节[58]。阶段早期,相对较大的更新仍足以修复混合数据不平衡问题,填补剩余的能力缺口;阶段后期,大幅缩小的更新提升了模型稳定性,减少了幻觉类失效,优化了可懂度、说话人相似度与可控性之间的最终权衡。
阶段4:长上下文扩展 最终阶段,我们将学习率固定在(2 ×10^{-6}),将最大序列长度从32k提升至64k,并对长文本数据进行重度过采样。我们刻意不提前引入长上下文:从训练初期就使用极长窗口,训练效率会显著降低——因为大多数样本并不需要长上下文,且早期优化更适合用于学习核心的文本-语音映射,而非拟合长程注意力模式。
相反,我们采用了与近期LLM和TTS系统类似的后期上下文扩展策略:当基础分布在中等上下文长度下收敛后,在小学习率下让模型适配更长的上下文,既能保留短文本生成质量,又能让模型学习段落级、小时级的生成连续性[1,59,60]。对长文本数据的重度过采样至关重要:若无该操作,语料库的自然长度分布,会让标称的64k窗口无法得到充分利用。该阶段旨在提升长生成过程中的说话人一致性,减少长文本中韵律与内容的漂移,同时让模型能够使用更长的提示语音,而不会导致解码不稳定。
学习率曲线与实践逻辑 整体来看,四个阶段构成了一套完整的WSD式训练流程,而非四个独立的训练轮次:阶段1包含短暂的预热,将学习率提升至(2 ×10^{-4});阶段1-2共同构成(2 ×10^{-4})的稳定平台期;阶段3将学习率从(2 ×10^{-4})线性衰减至(2 ×10^{-6});阶段4在长上下文适配过程中,将学习率保持在最终的低水平(2 ×10^{-6})。
该调度结合了长稳定高学习率区间的优化效率,与逐步衰减至低学习率精调区间的可靠性。其实践意义重大:稳定平台期是模型习得核心多语言TTS与可控性能力的阶段,而线性衰减阶段则对这些能力进行再平衡与打磨,避免了从(2 ×10^{-4})直接降至(2 ×10^{-6})带来的优化冲击。训练进入阶段4时,优化器已处于保守区间,让我们能够在对已成型的短文本质量损伤最小的前提下,对长文本数据过采样并扩展上下文窗口。
与单轮全量数据训练范式相比,分阶段的课程学习实现了更清晰的阶段分工:P1学习多语言TTS先验,P2强化控制能力的鲁棒性,P3恢复分布平衡并逐步精调模型,P4将已具备成熟能力的模型迁移至长上下文场景。该流程在训练效率、可控性与长文本鲁棒性之间实现了实用的平衡,构成了MOSS-TTS全量开源版本采用的默认预训练范式。
6 评估实验
我们从两个互补的维度对MOSS-TTS进行评估:(1)音频分词器——是否能在不同码率与不同域中,提供高保真、具备语义可用性的单元;(2)语音生成模型——离散自回归建模与大规模预训练,是否实现了优异的零样本声音克隆、多语言鲁棒性、令牌级时长控制、音素/拼音级发音控制,以及超长文本语音生成。
对于语音生成模型,我们同时报告MOSS-TTS与MOSS-TTS-Local-Transformer的结果。参考主流TTS技术报告的评估范式[1,2,61],我们优先采用易复现、易解读的客观指标:通过固定ASR后端计算的词错误率(WER)/字符错误率(CER)衡量内容一致性,通过预训练说话人嵌入的余弦相似度衡量说话人相似度(SIM),以及针对可控性与长文本行为的任务特定指标。
6.1 音频分词器
我们对MOSS-Audio-Tokenizer进行了全面评估,在不同码率区间下,与当前业界顶尖的开源音频分词器进行对比。基线分词器包括StableCodec[62]、XCodec2.0[63]、MiMo-Audio-Tokenizer[42]、Higgs-Audio-Tokenizer[64]、SpeechTokenizer[7]、XY-Tokenizer[21]、BigCodec[65]、Mimi[8]、DAC[18]、Encodec[17]、Qwen3-TTS-Tokenizer[1]。评估覆盖语音、通用音频与音乐,全面验证模型的通用性与重建保真度。
针对语音重建,我们在LibriSpeech test-clean(英文)[66]与AISHELL-2(中文)[67]数据集上完成评估,报告说话人相似度(SIM)——通过预训练说话人验证模型,提取原始与重建音频的说话人嵌入,计算余弦相似度得到。此外,还报告了短时客观可懂度(STOI)[68]与语音质量感知评估(PESQ)[69]指标。
针对音效与音乐重建,参考现有研究[18],我们在AudioSet评估子集[70]与MUSDB[71]数据集上完成评估,报告梅尔谱距离与短时傅里叶变换(STFT)距离作为客观指标。
表2汇总了语音、通用音频与音乐基准上的客观重建结果,我们将性能按低(750–1500 bps)、中(1500–2500 bps)、高(2500–6000 bps)码率区间进行分类。此外,图5展示了0–4 kbps码率范围内,MOSS-Audio-Tokenizer与其他开源竞品的客观指标变化趋势。
在所有评估码率下,MOSS-Audio-Tokenizer的语音重建效果,均持续优于对比的开源基线。在通用音频与音乐基准上,模型也保持了极具竞争力的性能。值得注意的是,随着码率提升,模型的重建质量实现了平滑的增长,证明其通过端到端联合优化框架,能够有效利用额外的模型容量与码率。
这些结果证明,MOSS-Audio-Tokenizer在低码率与高码率区间均具备强大的建模能力。通过灵活选择RVQ层数,模型能够适配多样化的应用需求,覆盖低码率场景至高保真音频生成。整体而言,MOSS-Audio-Tokenizer为原生音频生成模型,提供了稳定、高保真、标准化的分词器底座。
6.2 声音克隆
表3在Seed-TTS-eval基准上,对比了MOSS-TTS与代表性的开源/闭源系统,报告了两种架构在两种推理模式下的结果。非MOSS基线的结果,均来自对应技术报告,按原文数值呈现。
针对基于提示的生成,本章节全程区分两种推理范式:
- 克隆模式(Clone):用户输入显式提供参考音频片段;
- 续写模式(Continuation):我们将参考音频拼接至助手侧的语音前缀,将其ASR转录文本拼接至请求文本前,让模型续写原始文本对应的语音。
我们同时报告两种模式的结果,因为它们探测了同一预训练模型的不同能力:克隆模式衡量显式的参考音频条件建模能力,而续写模式测试原生的语音续写能力,在不依赖专用克隆式提示格式的前提下,是否能实现可用的音色迁移。
在Seed-TTS-eval基准上,说话人相似度是更具信息量的指标。当WER/CER低于2左右时,剩余的差异很难解读——在我们的人工评测中,该区间内的大多数不匹配,均为ASR识别错误,而非可听见的发音问题。
从这一视角来看,MOSS-TTS在说话人相似度上表现尤为突出。对于两种架构,续写模式的说话人相似度均持续优于克隆模式,证明原生语音续写是锚定说话人身份的有效方式。尽管MOSS-TTS-Local-Transformer仅采用17亿参数,但其说话人特征保留能力持续优于MOSS-TTS,且续写模式下的MOSS-TTS-Local-Transformer,取得了表中所有开源模型里最高的中英文说话人相似度分数。
这与4.1与4.2节中讨论的架构取舍完全一致:MOSS-TTS-Local-Transformer是面向说话人保留的、建模效率更高的架构,而MOSS-TTS则作为更简洁的长上下文骨干网络,用于下文的可控性评估。
6.3 多语言声音克隆
我们直接在CV3-Eval多语言声音克隆子集上,对开源的预训练检查点进行评估,无任何针对该基准的任务特定微调或后训练。如表4所示,该子集相比Seed-TTS-eval,覆盖了更多语言的声音克隆任务。我们分别报告了两种MOSS-TTS架构在克隆与续写模式下的结果,表中外部基线仅填充了对应报告中提供的数值。
如表4所示,即便无针对基准的多语言克隆专项训练,MOSS-TTS在多种非中英语言上仍保持了竞争力。与强开源基线相比,模型在德/西/意/俄语上表现稳定,续写模式尽管是更难的零样本迁移场景,在更广泛的语言集合中仍具备可用性。表4同时显示,模型的性能缺口主要集中在日语、韩语等难度更高的语言对,以及部分英文续写场景,这与该子集的整体难度分布一致。
6.4 时长控制
从本小节开始,我们仅报告MOSS-TTS的结果。本章节剩余的三项评估——时长控制、超长文本语音生成、音素/拼音级发音控制,均对显式令牌条件与长上下文续写能力提出了高要求,而延迟架构凭借更简洁的单骨干参数化设计,与长序列下更优的可扩展性,是更实用的开源目标。因此,我们主要采用MOSS-TTS-Local-Transformer,在上述克隆基准中刻画相似度-质量的权衡。
我们通过向模型输入目标令牌数,评估MOSS-TTS的令牌级时长控制能力,并计算相对时长误差。在我们的分词器设置下,1秒对应12.5个音频令牌。给定目标令牌数n,目标时长为(T_{target }=n / 12.5)秒;我们从生成的波形中计算实际时长(T_{real }),并报告误差(Err %=|T_{real }-T_{target }| / T_{target } ×100 %)。我们按语言与目标时长区间,汇总误差结果。
如表5所示,模型在短至长文本的全区间内,均实现了持续极低的相对时长误差,整体平均绝对相对误差仅约0.7%,分位数表现优异。值得注意的是,这些结果均在仅预训练的设置下取得,证明无需引入专用的时长控制微调阶段,模型即可涌现出有效的令牌级时长控制能力。
6.5 超长文本语音生成
我们进一步构建了内部超长文本评估集,评估MOSS-TTS在从短语音到近1小时超长生成场景下的表现。该评估集覆盖中文与英文,每种语言分为6个特定文本长度区间,每个区间10条提示。对于每条提示,我们同时评估克隆与续写模式,总计生成240条语音。
我们采用MOSS-Transcribe-Diarize[55]对每个样本进行转录,中文报告CER,英文报告WER,均按样本计算后,对同区间的10条提示取平均。说话人相似度(SIM)为非重叠3秒窗口余弦相似度的均值。该内部集仅用于刻画超长生成场景下的模型预期表现,不作为公开基准使用。
表6可作为粗粒度的区间级汇总。在大多数区间内,内容保真度均保持可用,仅在最长的文本区间出现明显下降;而平均SIM值已表明,说话人特征保留能力的衰减,早于词汇准确率的下降。而更具信息量的信号,是图6中的时序漂移曲线。
图6清晰呈现了模型的失效模式。中文场景下,大多数区间的初始SIM值均处于狭窄的高相似度区间。克隆模式下,短、中区间的曲线基本保持平稳,但10000+区间在尾部出现了明显的后期性能崩溃;续写模式下,曲线的紧凑度与平稳性显著提升,即便是最长的区间,在30分钟以上仍与其他区间保持接近,证明长时序下的说话人锚定能力显著优化。
英文场景的难度更高。所有区间的曲线均更早出现向下漂移,克隆模式下的50000+区间下降速度最快,仅几分钟后就与更短区间出现明显分离。续写模式并未消除这一趋势,但显著抬升并平滑了长区间的曲线,尤其是25000–50000与50000+区间。
因此,图6的核心结论是:超长文本生成仍具备可用性,但其核心瓶颈并非即时的词汇失效,而是随时间累积的说话人相似度漂移。
6.6 音素/拼音级发音控制
我们基于MOSS-TTS,针对音素/拼音级发音控制,开展了小型内部功能评估。对于每种语言(中文与英文),我们构建了两种设置:局部替换(仅短目标区间替换为拼音/IPA)与全句替换(整句均采用拼音/IPA指定)。每种语言-设置对包含100个样本。由于该测试的目标是验证可控的发音编辑能力,我们仅评估受控区间,而非完整句子。
我们采用MOSS-Transcribe-Diarize[55]对每条生成语音进行转录,将转录文本与目标文本对齐,计算仅受控区间的CER(中文)与WER(英文)。如表7所示,在该内部测试集的四种设置下,MOSS-TTS均实现了极低的区间错误率,证明音素/拼音级控制已具备实际可用性,包括局部区间替换与整句音素控制两种场景。
7 结论
本技术报告提出了MOSS-TTS——一套基于“高质量音频分词器、自回归下一个令牌建模、大规模多语言预训练”可扩展范式构建的开源语音生成基础模型。基于MOSS-Audio-Tokenizer,MOSS-TTS将语音生成转化为对齐文本与语音令牌的自回归预测任务。在该分词器的基础上,MOSS-TTS与MOSS-TTS-Local-Transformer实现了两个互补的应用落点:前者主打结构简洁性、可扩展性,以及面向长上下文/可控性的部署能力;后者则主打更高的建模效率、更强的说话人特征保留能力,以及更短的首包音频延迟。
实验结果印证了本报告的核心论点:MOSS-Audio-Tokenizer在全码率区间提供了高质量的离散音频令牌,两种架构呈现出清晰且具备实用价值的性能取舍——MOSS-TTS-Local-Transformer在零样本克隆的说话人相似度上普遍表现更优,而MOSS-TTS则是时长控制与超长文本生成更适配的骨干网络。
同时,评估结果也明确了现存的性能瓶颈:难度最高的多语言场景仍有提升空间;超长文本生成实验表明,长时序下的说话人漂移(而非即时的词汇失效),已成为当前的核心失效模式,英文场景尤为突出。因此,我们认为,更强的长上下文说话人锚定能力、更广泛的低资源语言覆盖,以及细粒度可控性的进一步提升,是未来最重要的研究方向。
综上,这些结果表明,语音生成能够从推动大语言模型近期发展的核心原则中获益:数据质量、规模化与架构简洁性。MOSS-TTS证明,无需依赖日益复杂的级联模块,仅靠强大的分词器、大规模高质量数据流水线,以及统一的自回归目标,就能为开源语音生成提供实用的基础架构。随着MOSS-Audio-Tokenizer、MOSS-TTS与MOSS-TTS-Local-Transformer的开源,我们希望本报告既能作为本次开源版本的可复现技术说明,也能为未来开源语音基础模型的研究,提供一套简洁的基线方案。
一、MOSS-TTS技术核心总结
MOSS-TTS是一套完全对齐大语言模型缩放范式的开源语音生成基础模型,其核心技术逻辑可概括为**“一个核心范式、三大核心组件、双架构互补设计、全链路工程化落地”**,彻底践行了“极简架构+数据规模化”的LLM式技术路线,打破了传统TTS依赖复杂级联模块的固有设计。
1. 核心技术范式的创新
MOSS-TTS的核心突破,是验证了**“离散音频令牌 + 纯自回归建模 + 大规模预训练”**的极简范式,在TTS领域的全场景有效性。
- 摒弃了传统TTS中“文本前端-声学模型-声码器”的三级流水线,也无需外部预训练语义教师模型、多阶段蒸馏、复杂的对齐模块,将语音生成完全转化为与LLM一致的序列预测问题,实现了端到端的统一建模。
- 该范式让TTS模型获得了与LLM一致的可扩展性——模型容量、数据规模的提升,能够直接转化为生成质量、泛化能力与可控性的提升,为语音大模型的规模化发展提供了清晰的路径。
2. 三大核心技术底座
(1)MOSS-Audio-Tokenizer:全链路性能的基石
这是MOSS-TTS最核心的技术壁垒,也是目前开源领域性能顶尖的音频分词器:
- 纯Transformer架构创新:摒弃了传统编解码器的CNN/混合结构,采用全因果Transformer设计,16亿参数量实现了12.5fps的极低帧率压缩,同时天然支持流式推理,工程化适配性极强。
- 语义-声学联合优化:通过端到端训练,同时优化音频重建保真度与文本语义对齐能力,解决了传统编解码器“重声学、轻语义”的核心痛点,让离散令牌同时具备高保真重建能力与丰富的语义信息,完美适配自回归建模。
- 可变码率与强泛化性:32层RVQ支持0.125~4kbps的灵活码率调整,在语音、通用音频、音乐场景均具备竞争力,全码率区间的重建效果领先多数开源竞品。
(2)百万小时级高质量数据流水线
MOSS-TTS的能力泛化,核心来自其工业化级别的数据处理体系:
- 三级流水线(预处理-过滤-数据合成)解决了开放域语音数据“噪声多、多说话人、转录不准、分布不均”的行业痛点,实现了数百万小时多语言数据的标准化处理。
- 专项数据合成针对性补齐了能力短板:同说话人克隆配对数据让模型习得零样本音色迁移能力,噪声文本/音标/短文本补充数据,让模型获得了输入鲁棒性、细粒度发音控制与短文本生成稳定性,实现了“预训练即涌现可控能力”,无需额外微调。
(3)四阶段课程化预训练范式
针对TTS多任务学习的冲突问题,设计了循序渐进的预训练课程,完美平衡了基础能力、可控能力、长文本能力的学习:
- P1基础对齐:仅用核心语料学习文本-语音的基础映射,保证样本效率;
- P2能力扩展:高学习率下引入克隆等控制任务,让可控能力成为模型原生行为;
- P3质量巩固:线性衰减学习率+数据分布再平衡,打磨生成质量,解决任务偏置;
- P4长上下文扩展:低学习率下扩展64k上下文窗口,在不损伤短文本质量的前提下,实现小时级长文本生成的稳定性。
3. 双架构的工程化互补设计
MOSS-TTS最具实用价值的设计,是在同一套分词器与预训练范式下,开源了两种互补的架构,明确了不同场景的性能取舍,覆盖了工业界绝大多数落地需求:
| 架构 | 核心优势 | 适用场景 |
|---|---|---|
| MOSS-TTS(延迟模式) | 结构极简、可扩展性强、长上下文稳定性好、可控性适配性强 | 服务端长文本合成、有声书、广播、精细可控的定制化TTS场景 |
| MOSS-TTS-Local-Transformer | 小参数量(1.7B)下说话人相似度顶尖、首包延迟低、建模效率高 | 端侧部署、实时语音对话、低延迟交互场景、零样本声音克隆 |
4. 全场景能力覆盖
基于上述技术底座,MOSS-TTS实现了工业级的全能力覆盖:
- 零样本声音克隆:1.7B小模型在开源基准上取得顶尖的说话人相似度,续写模式进一步优化了音色锚定能力;
- 多语言与语码转换:支持中英等10余种语言,实现了顺滑的跨语言语码转换,德/西/意/俄等语言表现具备竞争力;
- 细粒度可控性:预训练即涌现令牌级时长控制(整体平均误差仅0.7%)、音素/拼音级发音控制,无需额外微调;
- 超长文本生成:支持小时级稳定合成,核心瓶颈仅为说话人漂移,词汇保真度长期保持稳定。
二、技术评判与行业洞察
1. 核心技术优势与行业价值
(1)为开源TTS树立了LLM式的规模化范式
MOSS-TTS的最大价值,是彻底对齐了大语言模型的技术路线,证明了“极简架构+高质量大数据+大规模预训练”的范式,在语音生成领域同样具备颠覆性效果。它打破了业界对“TTS必须依赖复杂多阶段模块”的固有认知,为开源社区提供了一套可扩展、可复现、可二次开发的语音基础模型基线,大幅降低了语音大模型的研发门槛。
(2)补齐了开源TTS的核心技术短板
当前开源TTS领域,普遍存在“分词器语义能力不足、长文本生成不稳定、零样本克隆效果弱、可控性依赖微调”的痛点。MOSS-TTS通过自研的音频分词器、大规模数据流水线与双架构设计,一次性补齐了这些短板:
- 分词器同时解决了低帧率、高保真、语义对齐三大核心问题;
- 预训练即涌现的时长、发音控制能力,大幅降低了下游定制化的成本;
- 双架构同时覆盖了服务端长文本与端侧低延迟两大核心落地场景,开源版本即可直接用于工业级场景。
(3)严谨的工程化与可复现性
与多数仅报最优指标的技术报告不同,MOSS-TTS的报告完整披露了数据流水线、训练范式、架构细节、评估全流程,同时明确了模型的失效模式与性能瓶颈,而非刻意回避短板。这种严谨的工程化思路,让开源模型的复现与二次开发成为可能,对中文开源语音社区的发展具备重要的推动意义。
2. 现存局限性与待优化方向
(1)多语言能力仍有明显短板
模型在中英双语上表现优异,但在日语、韩语等音节型语言,以及低资源小语种上,CER/WER仍有显著差距,低资源语言的覆盖度不足,与闭源顶尖方案仍有差距。未来需要进一步优化多语言数据分布与建模策略,提升小语种的泛化能力。
(2)超长文本生成的核心瓶颈未根本解决
小时级超长生成的核心问题,是随时间累积的说话人相似度漂移,尤其是英文场景,尽管续写模式有明显改善,但仍未从根本上解决长上下文的说话人锚定问题。未来需要在架构层面引入更高效的长程说话人表征机制,缓解累积漂移。
(3)细粒度韵律与情感控制能力不足
当前模型的可控性主要聚焦于时长、发音、说话人身份,对于情感、语气、韵律风格的细粒度控制,并未做深入优化,对比专门面向情感TTS的方案,在表达丰富度上仍有差距。这也是未来从“可懂、保真”走向“拟人、有表现力”的核心优化方向。
(4)推理效率与端侧适配仍有优化空间
1.7B的Local-Transformer虽适合端侧,但稳态解码的自回归循环带来了额外计算开销;8B大模型的服务端推理成本仍较高。未来需要通过量化、蒸馏、推理优化、架构精简等方式,进一步降低推理延迟与算力消耗,提升端侧部署的适配性。
(5)训练成本对中小团队不友好
模型依赖数百万小时的高质量数据与大规模算力训练,中小团队很难完整复现预训练全流程,开源版本的二次训练门槛仍较高。未来可以通过发布更小尺寸的轻量模型、预训练中间检查点、低资源微调方案,进一步降低使用门槛。
3. 行业展望
MOSS-TTS的出现,标志着开源TTS正式进入了“基础模型化”的时代,其技术路线也指明了语音生成领域未来的核心发展方向:
- 端到端语音对话大模型的融合:MOSS-TTS的纯自回归范式,天然具备与大语言模型端到端融合的潜力,未来将从“文本转语音”工具,进化为语音对话大模型的核心原生组件,实现“文本理解-语音生成”的端到端统一建模。
- 更低成本的规模化与轻量化:随着技术的迭代,语音基础模型将实现“大模型规模化能力+小模型轻量化部署”的双向发展,在保持能力上限的同时,进一步降低落地门槛,实现端侧设备的原生部署。
- 更极致的拟人化与可控性:未来的语音生成模型,将从“保真”走向“传神”,实现情感、韵律、风格、说话人习惯的细粒度可控,生成更具拟人化、表现力的语音,覆盖有声剧、配音、数字人等更丰富的场景。
- 多模态生成的统一底座:MOSS-Audio-Tokenizer已验证了对语音、音乐、通用音频的泛化能力,未来将进一步与视频、文本模态融合,成为多模态生成大模型的统一音频底座。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)