Dolphin-CN-Dialect正式发布：同样的数据，换一种配方，让ASR听懂更多中国话

海天瑞声AI

62人浏览 · 2026-05-13 17:20:35

海天瑞声AI · 2026-05-13 17:20:35 发布

今天，海天瑞声携手清华大学电子工程系语音与音频技术实验室（SATLab），正式发布Dolphin-CN-Dialect汉语多方言语音识别模型！
在这里插入图片描述
获取渠道

体验地址

·非流式识别： https://www.modelscope.cn/studios/haitianruisheng/dolphin_fangyang/summary

·非流式识别带热词：https://www.modelscope.cn/studios/haitianruisheng/dolphin_fangyan_reci/summary

模型与代码地址

·Github:https://github.com/DataoceanAI/Dolphin

·ModelScope:https://modelscope.cn/organization/DataoceanAI

·HuggingFace:https://huggingface.co/DataoceanAI

技术报告

http://arxiv.org/abs/2605.08961

推理代码SDK

https://pypi.org/project/dataoceanai-dolphin/

Dolphin-CN-Dialect是一款面向汉语多方言、多口音、真实场景优化的新一代语音识别模型，它并非简单扩大模型规模，而是在Dolphin系列模型基础上，围绕数据配方、tokenizer、训练稳定性、流式转写、热词增强和部署效率做了一次系统升级，破解主流ASR模型方言识别率断崖下跌的行业难题。

主流语音识别模型在普通话场景已表现优异，但切换至方言和地区口音时识别率大幅下降，核心原因并非模型参数不足，而是训练数据分布严重不均衡：普通话数据充足，方言样本天然稀缺，简单混合训练只会让模型持续偏向普通话。Dolphin-CN-Dialect通过temperature-based sampling重塑训练分布，让低资源方言在训练中被真正“看见”，而非被普通话数据淹没。
在这里插入图片描述
Dolphin-CN-Dialect核心特性

· All-in-one多方言覆盖
单模型支持21类汉语方言/地区口音，覆盖普通话、台湾普通话、四川话、吴语、闽南语等全场景中文语音，无需切换多模型即可完成识别。

·精准高效的轻量识别
0.4B小参数模型实现性能与效率的均衡，21个方言/口音测试集平均CER达到5.74%，对应平均准确率约94.3%；实现38%的方言识别准确率提升和16.3%的整体CER相对降低，标准普通话性能仅有约0.2%的轻微波动。

Accuracy = 100 - CER，越靠外代表识别越准确。完整实验以技术报告表格为准。在这里插入图片描述
·流式转写+双模式热词增强

支持流式+非流式一体化推理，适配实时字幕、会议转写、客服质检、录音整理等全业务场景；搭载encoder-level上下文偏置与prompt-based两种热词增强方案，精准适配方言场景、噪声场景、长尾词场景。

·训练机制全面优化

通过训练机制优化缓解loss spike、修复短音频漏字问题；数据管线I/O吞吐从50MB/s提升至约800MB/s，减少GPU空转。· 低资源方言专项优化基于temperature-based sampling平衡训练数据分布，让稀缺方言样本获得充分训练，在吴语、闽南语等高难度方言上实现显著识别提升。

关键技术方法

·为中文方言重新设计数据配方

使用与Dolphin V1一致的训练数据底座，通过temperature-based sampling在Natural Sampling和Uniform Sampling之间做平滑，让低资源方言被更多学习，同时保留高资源普通话数据的稳定性。

配方优化后多方言测试集平均WER从8.04降至5.62，相对下降30.1%；宁夏、湖北、陕西、河南、山西、天津、山东等方言测试集均有明显提升。训练数据仅使用DataoceanAI中文数据集，覆盖标准普通话和22类汉语方言/地区口音，结合AISHELL、约10,000小时WenetSpeech、KeSpeech、Common Voice公开数据增强泛化能力。

注：这张配方图来自中间实验，供大家参考；由于实验设置与论文最终评测表格不完全一致，数字口径会有微小差异。

·更适合中文的tokenizer设计

词表规模从40,000降至18,173；中文采用字符级建模，适配CTC-AED联合架构单调对齐；英文及字母语言保留BPE subword建模，兼顾表达能力与词表效率。引入任务token、时间戳token、方言/地区token，额外预留80个方言token slot，为后续扩展更多地区语音预留空间。

·训练稳定性与工程优化

将BatchNorm替换为LayerNorm，缓解变长语音和异构数据带来的loss spike；针对流式CTC解码短音频漏字问题，补充短音频和尾部随机截断增强，删除错误从9.17降至3.66；数据管线优化后I/O吞吐从50MB/s提升至约800MB/s。
在这里插入图片描述

模型效果

我们对Dolphin-CN-Dialect在21类汉语方言/口音、标准普通话、真实场景语音、热词增强等维度进行了系统评估，结果显示：

·汉语方言/口音

21类方言/口音平均CER 5.74%；相较Paraformer_zh平均CER从22.76%降至5.74%，相对降低约74.8%；相较Qwen3-ASR-0.6B从12.74%降至5.74%，相对降低约54.9%；相较FunASR-Nano-2512从12.73%降至5.74%，相对降低约54.9%；相较FireRed-AED 1.2B从6.85%降至5.74%，相对降低约16.2%。

在多个高难度方言表现上，Dolphin-CN-Dialect 的优势更加明显。吴语CER为9.49%，优于Qwen3-ASR-0.6B的18.25%和FunASR-Nano-2512的17.77%；闽南语CER为20.74%，优于Qwen3-ASR-0.6B的38.64%、FunASR-Nano-2512的55.36%和FireRed-AED 1.2B的30.73%；上海话CER为7.81%，接近 FireRed-AED 1.2B的7.43%。
在这里插入图片描述
·标准普通话与地区口音

在KeSpeech 与Common Voice台湾普通话测试集上，Dolphin-CN-Dialect-0.4B 分别取得5.04%、5.62%的CER。作为仅0.4B参数量的轻量模型，它在同梯队（≤0.8B）中拿下双测试集最优表现，性能全面超越 Qwen3-0.6B、FunASR-Nano-2512等更大参数量模型，甚至优于1.7B的Qwen3-1.7B，展现出极高的参数效率。同时，优异的测试结果也印证了模型对真实录音、自然表达与地区口音的强泛化能力，完美匹配多方言优化目标。
在这里插入图片描述
·热词增强效果在encoder-level热词实验中，Dolphin-CN-Dialect-0.4B在AISHELL上将BWER降至4.82，在 Common Voice 上将BWER降至9.46，均优于 Paraformer_zh。

在 Common Voice prompt-based 热词实验中，WER 从 7.11 降至 6.08，BWER 从 15.22 降至 6.79，BWER 相对降低 55.4%。
在这里插入图片描述
·真实场景适配