今天,海天瑞声携手清华大学电子工程系语音与音频技术实验室(SATLab),正式发布Dolphin-CN-Dialect汉语多方言语音识别模型!
在这里插入图片描述
获取渠道

体验地址

·非流式识别: https://www.modelscope.cn/studios/haitianruisheng/dolphin_fangyang/summary

·非流式识别带热词:https://www.modelscope.cn/studios/haitianruisheng/dolphin_fangyan_reci/summary

模型与代码地址

·Github:https://github.com/DataoceanAI/Dolphin

·ModelScope:https://modelscope.cn/organization/DataoceanAI

·HuggingFace:https://huggingface.co/DataoceanAI

技术报告

http://arxiv.org/abs/2605.08961

推理代码SDK

https://pypi.org/project/dataoceanai-dolphin/

Dolphin-CN-Dialect是一款面向汉语多方言、多口音、真实场景优化的新一代语音识别模型,它并非简单扩大模型规模,而是在Dolphin系列模型基础上,围绕数据配方、tokenizer、训练稳定性、流式转写、热词增强和部署效率做了一次系统升级,破解主流ASR模型方言识别率断崖下跌的行业难题。

主流语音识别模型在普通话场景已表现优异,但切换至方言和地区口音时识别率大幅下降,核心原因并非模型参数不足,而是训练数据分布严重不均衡:普通话数据充足,方言样本天然稀缺,简单混合训练只会让模型持续偏向普通话。Dolphin-CN-Dialect通过temperature-based sampling重塑训练分布,让低资源方言在训练中被真正“看见”,而非被普通话数据淹没。
在这里插入图片描述
Dolphin-CN-Dialect核心特性

· All-in-one多方言覆盖
单模型支持21类汉语方言/地区口音,覆盖普通话、台湾普通话、四川话、吴语、闽南语等全场景中文语音,无需切换多模型即可完成识别。

·精准高效的轻量识别
0.4B小参数模型实现性能与效率的均衡,21个方言/口音测试集平均CER达到5.74%,对应平均准确率约94.3%;实现38%的方言识别准确率提升和16.3%的整体CER相对降低,标准普通话性能仅有约0.2%的轻微波动。

Accuracy = 100 - CER,越靠外代表识别越准确。完整实验以技术报告表格为准。在这里插入图片描述
·流式转写+双模式热词增强

支持流式+非流式一体化推理,适配实时字幕、会议转写、客服质检、录音整理等全业务场景;搭载encoder-level上下文偏置与prompt-based两种热词增强方案,精准适配方言场景、噪声场景、长尾词场景。

·训练机制全面优化

通过训练机制优化缓解loss spike、修复短音频漏字问题;数据管线I/O吞吐从50MB/s提升至约800MB/s,减少GPU空转。· 低资源方言专项优化基于temperature-based sampling平衡训练数据分布,让稀缺方言样本获得充分训练,在吴语、闽南语等高难度方言上实现显著识别提升。

关键技术方法

·为中文方言重新设计数据配方

使用与Dolphin V1一致的训练数据底座,通过temperature-based sampling在Natural Sampling和Uniform Sampling之间做平滑,让低资源方言被更多学习,同时保留高资源普通话数据的稳定性。

配方优化后多方言测试集平均WER从8.04降至5.62,相对下降30.1%;宁夏、湖北、陕西、河南、山西、天津、山东等方言测试集均有明显提升。训练数据仅使用DataoceanAI中文数据集,覆盖标准普通话和22类汉语方言/地区口音,结合AISHELL、约10,000小时WenetSpeech、KeSpeech、Common Voice公开数据增强泛化能力。

注:这张配方图来自中间实验,供大家参考;由于实验设置与论文最终评测表格不完全一致,数字口径会有微小差异。

·更适合中文的tokenizer设计

词表规模从40,000降至18,173;中文采用字符级建模,适配CTC-AED联合架构单调对齐;英文及字母语言保留BPE subword建模,兼顾表达能力与词表效率。 引入任务token、时间戳token、方言/地区token,额外预留80个方言token slot,为后续扩展更多地区语音预留空间。

·训练稳定性与工程优化

将BatchNorm替换为LayerNorm,缓解变长语音和异构数据带来的loss spike;针对流式CTC解码短音频漏字问题,补充短音频和尾部随机截断增强,删除错误从9.17降至3.66;数据管线优化后I/O吞吐从50MB/s提升至约800MB/s。
在这里插入图片描述

模型效果

我们对Dolphin-CN-Dialect在21类汉语方言/口音、标准普通话、真实场景语音、热词增强等维度进行了系统评估,结果显示:

·汉语方言/口音

21类方言/口音平均CER 5.74%;相较Paraformer_zh平均CER从22.76%降至5.74%,相对降低约74.8%;相较Qwen3-ASR-0.6B从12.74%降至5.74%,相对降低约54.9%;相较FunASR-Nano-2512从12.73%降至5.74%,相对降低约54.9%;相较FireRed-AED 1.2B从6.85%降至5.74%,相对降低约16.2%。

在多个高难度方言表现上,Dolphin-CN-Dialect 的优势更加明显。吴语CER为9.49%,优于Qwen3-ASR-0.6B的18.25%和FunASR-Nano-2512的17.77%;闽南语CER为20.74%,优于Qwen3-ASR-0.6B的38.64%、FunASR-Nano-2512的55.36%和FireRed-AED 1.2B的30.73%;上海话CER为7.81%,接近 FireRed-AED 1.2B的7.43%。
在这里插入图片描述
·标准普通话与地区口音

在KeSpeech 与Common Voice台湾普通话测试集上,Dolphin-CN-Dialect-0.4B 分别取得5.04%、5.62%的CER。作为仅0.4B参数量的轻量模型,它在同梯队(≤0.8B)中拿下双测试集最优表现,性能全面超越 Qwen3-0.6B、FunASR-Nano-2512等更大参数量模型,甚至优于1.7B的Qwen3-1.7B,展现出极高的参数效率。同时,优异的测试结果也印证了模型对真实录音、自然表达与地区口音的强泛化能力,完美匹配多方言优化目标。
在这里插入图片描述
·热词增强效果在encoder-level热词实验中,Dolphin-CN-Dialect-0.4B在AISHELL上将BWER降至4.82,在 Common Voice 上将BWER降至9.46,均优于 Paraformer_zh。
在这里插入图片描述
在 Common Voice prompt-based 热词实验中,WER 从 7.11 降至 6.08,BWER 从 15.22 降至 6.79,BWER 相对降低 55.4%。
在这里插入图片描述
·真实场景适配

适配方言、口音、噪声、长尾词等复杂中文语音环境,低资源方言识别无明显短板。

我们希望Dolphin-CN-Dialect的发布,能够补齐汉语方言语音识别的短板,让语音识别不只听懂标准普通话,更能听懂更真实的中国话,推动多方言语音技术在日常沟通、办公协作、行业服务等场景的普及与落地。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐