一文读懂《Benchmarking Diarization Models》:当前说话人分离模型到底谁更强?

论文标题:Benchmarking Diarization Models
作者:Luca A. Lanzendörfer, Florian Grötschl, Cesare Blaser, Roger Wattenhofer
单位:ETH Zurich
任务:Speaker Diarization(说话人分离,回答“谁在什么时候说话”)
评测规模:4 个数据集、5 种语言、196.6 小时音频

一、先说结论:这篇论文最值得记住什么?

如果你只想先抓住最核心的信息,这篇论文可以浓缩成 4 句话:

  1. pyannoteAI 是整体最强的方案,平均 DER = 11.2%
  2. DiariZen 是最有竞争力的开源方案,平均 DER = 13.3%
  3. Sortformer v2 / v2-streaming 在速度和流式部署上非常有优势,其中 SF v2 平均 RTF = 214.3x
  4. 当前 diarization 模型最大的共性问题,不是“把人分错了”,而是漏检语音,并且很多错误本质上是语音起止边界不准

这篇论文的价值不在于提出一个新模型,而在于回答两个非常工程化的问题:

  • 如果我有一段会议、电话、开放环境的多人音频,应该优先选哪个 diarization 模型?
  • 这些模型现在到底是怎么失败的,下一步优化该往哪里投精力?

二、论文在评测什么?

作者选了 5 个当前比较有代表性的系统:

模型 类型 论文中的定位 一句话理解
pyannote 3.1 开源模块化 pipeline 经典强基线 分段 + 嵌入 + 聚类的典型流水线
pyannoteAI 商业闭源 API 整体效果最好 更强的工业化版本,但细节不公开
Sortformer 端到端 EEND 类方法 原始版本 对 4 人以内场景更友好,但长音频和高说话人数有局限
Sortformer v2 端到端改进版 速度极强 引入 AOSC,长音频处理与流式能力更强
DiariZen 混合方法 最强开源选手 EEND + WavLM + pyannote 聚类,精度和可扩展性较均衡

数据集覆盖也比较全面:

数据集 场景 语言 典型特点
CALLHOME 电话通话 英/中/日/德/西 以双人对话为主
VoxConverse 开放环境音频 英语 说话人数多,噪声和录音条件复杂
AMI 英文会议 英语 4 人会议,重叠语音明显
AliMeeting 中文会议 普通话 高重叠会议场景,对 diarization 很有挑战

作者统一采用 DER 作为评测指标,且 skip_overlap=False,也就是重叠语音也算进评测。这点很重要,因为真实多人对话里,重叠语音往往恰恰是最难的部分。

三、总体表现:谁是第一梯队?

论文的总体结论很明确:

  • pyannoteAI:整体第一,平均 DER = 11.2%
  • DiariZen:开源第一梯队,平均 DER = 13.3%
  • Sortformer v2-streaming:综合表现也很强,尤其适合低时延和流式场景

下面这张图是论文里最重要的一张总览图。图 1:不同模型在 4 个数据集上的 DER 构成

图 1 可以读出三个关键信号:

1. pyannoteAI 的综合稳定性最好

它不是只在某一个数据集上拿第一,而是整体都很稳。尤其在英语、德语、西班牙语、多说话人场景上,都表现得比较强。

2. DiariZen 是真正有竞争力的开源方案

论文中特别提到,DiariZenVoxConverse 上表现突出,DER = 5.2%
这说明它在高说话人数、开放环境、复杂录音条件下有明显竞争力。

3. Sortformer 系列的主要卖点是速度和流式,而不是绝对最优精度

尤其是 Sortformer v2-streaming,在 AliMeeting 上表现非常亮眼,DER = 7.0%,说明它很适合中文会议类、低时延场景。

四、最好几个模型怎么选?

这一部分最适合做工程选型。

模型 核心优点 核心缺点 适合场景
pyannoteAI 综合精度最好;跨语言稳定;多说话人数扩展性最好 商业闭源;实现细节不公开;推理速度无法从 API 内部透明获取 优先追求最终效果,且可以接受 API/闭源依赖
DiariZen 开源里最强;VoxConverse5+ speaker 场景很强;整体比较均衡 速度明显慢于 Sortformer 系列;英文/德语/西语仍略弱于 pyannoteAI 想要开源、可部署、可改造,同时精度不能太差
Sortformer v2-streaming 流式能力强;中文/日文会议场景亮眼;适合低时延部署 高说话人数时退化仍明显;总体绝对精度不是第一 实时会议、边录边转写、在线 diarization
Sortformer v2 全文最快,RTF = 214.3x;长音频能力比初版更好 高说话人数仍受限;英文/西语表现一般 更看重吞吐量、延迟和工程部署成本

如果把它们进一步压缩成一句话:

  • 要最准:选 pyannoteAI
  • 要最强开源:选 DiariZen
  • 要实时/流式:选 Sortformer v2-streaming
  • 要极致速度:选 Sortformer v2

五、按语言看:不同模型真不是“一个模型打天下”

论文里给出了按语言汇总的 DER。

语言 最优模型 最优 DER 观察
中文普通话 Sortformer v2 9.2% 中文上 SF v2 系列表现很强
英语 pyannoteAI 6.6% 英语是最成熟、训练数据也最充足的语言之一
德语 pyannoteAI 8.3% pyannoteAI 跨语言稳定性明显更好
日语 Sortformer v2 / v2-streaming 12.7% SF v2 系列在日语上优于 pyannoteAI
西班牙语 pyannoteAI 14.3% 西语是全文最难的语言之一

这里有个很有意思的结论:

  • 英语和普通话整体更容易做得好
  • 西班牙语整体最难

作者认为一个很重要的原因是:不同语言可获得的标注数据量不一样
这其实也提醒我们,做 multilingual diarization 时,模型结构未必是唯一瓶颈,训练数据分布和覆盖度同样关键。

六、按说话人数看:高 speaker count 仍然是难点

论文又专门把结果按说话人数分桶统计了一遍。

说话人数 最优模型 DER 结论
1 spk Sortformer 1.5% 单人场景大家都不难,差距意义有限
2 spk pyannoteAI 9.9% 双人对话里 pyannoteAI 最稳
3 spk pyannoteAI 9.1% 多人开始拉开差距
4 spk pyannoteAI 10.1% 会议场景下 pyannoteAI 仍领先
5+ spk pyannoteAI 6.6% 高说话人数场景可扩展性最好

不过有一个点也值得单独提出来:

  • DiariZen5+ spk 上也很强,DER = 7.1%
  • Sortformer 系列在高说话人数上会明显退化

这和论文对模型结构的分析是一致的。Sortformer 的设计本身就更偏向 4-speaker 场景,到了 VoxConverse 这种很多说话人的开放环境数据时,就容易出现更严重的 speaker confusion

七、速度维度:为什么说 Sortformer v2 很有工程价值?

如果只看精度,Sortformer v2 不是最强。但如果把速度也放进来,它的价值就非常高了。

模型 平均 RTF 速度解读
DiariZen 20.2x 可用,但不算特别快
pyannote 45.0x DiariZen 快不少
Sortformer 164.7x 已经非常快
Sortformer v2 214.3x 全文最快
Sortformer v2-streaming 209.5x 速度也极高,同时支持流式思路

这里的 RTF 是 “音频时长 / 处理时间”,数值越大越好。
214.3x 的意思大致可以理解为:它处理音频的速度远高于实时。

这也是为什么我会认为这篇论文非常适合工程读者:它不是只告诉你“谁最准”,而是告诉你谁更适合部署

八、错误分析:当前 diarization 最大的问题到底是什么?

这是全文最值得细读的部分。

作者把 DER 拆成三类:

  • missed speech:漏检语音
  • false alarm:误检非语音
  • speaker confusion:说话人分错

图 1 已经能看出来,大多数模型的主导误差都是 missed speech
论文接着又画了下面这张图来分析,漏检到底发生在什么样的语音段上。

图 2:漏检语音的长度分布分析

这张图传递出的信息很重要:

1. 模型不是只会漏掉很短的语音段

很多人直觉上会以为,模型漏检主要因为短语音太短、太碎、太难听清。
但论文发现,错误分布和真实数据里的语音长度分布大体一致,说明问题并不是“模型只看不见短 segment”。

2. 更像是边界不准

作者统计后发现,各模型漏检片段的平均长度大约只有 350 ms
这意味着很多错误并不是“整句话完全没检测到”,而是:

  • 开始点偏晚了
  • 结束点偏早了
  • 边界切得不准

换句话说,当前 diarization 的改进空间很可能更多在boundary precision,也就是语音起止时间戳的精细定位能力。

3. 会议场景尤其容易出现漏检

AMIAliMeeting 这类会议场景里,重叠语音更强、说话节奏更密,missed speech 也更突出。
这对会议转写、会议纪要系统很关键,因为 diarization 一旦漏掉边界,后续 ASR 和说话人归属都会连锁出错。

九、我对这篇论文的三点理解

1. 选模型时,不能只看平均 DER

如果你的场景是:

  • 双人电话
  • 中文会议
  • 开放环境多人访谈
  • 在线流式转写

那么最优模型很可能根本不是同一个。

这篇论文的一个重要价值,就是把“平均分”拆成了:

  • 场景差异
  • 语言差异
  • 说话人数差异
  • 速度差异

这比单纯给一个 leaderboard 更有实际意义。

2. diarization 的瓶颈不只在聚类

很多工程调参会把重点放在:

  • embedding 模型
  • clustering threshold
  • speaker number estimation

但这篇论文说明,至少在当前 SOTA 系统里,一个很大的问题来自语音边界与漏检
也就是说,前端 segmentation 没做好,后面聚类再强也救不回来。

3. 开源系统和闭源工业系统的差距,已经不是“能不能用”,而是“在哪些场景还能更稳”

DiariZen 已经证明,开源系统并不是完全不能打。
尤其当你要私有化部署、可控可改、支持本地推理时,它其实很有现实价值。

真正的差距在于:

  • 跨语言的稳定性
  • 高说话人数时的泛化
  • 极端场景下的鲁棒性

十、如果我是工程负责人,我会怎么选?

业务目标 推荐方案 原因
先把精度做到最好 pyannoteAI 综合 DER 最优,跨语言和多 speaker 稳定
必须开源且可私有化 DiariZen 开源阵营中最均衡,复杂场景能力也不错
做在线会议转写 Sortformer v2-streaming 速度快、流式友好、中文会议表现亮眼
大规模离线批处理 Sortformer v2 极高吞吐量,算力利用率优秀

十一、最后总结

这篇论文不是在争论“哪个模型 SOTA”这么简单,它真正告诉我们的是:

  • 没有一个模型在所有维度都绝对占优
  • 工程选型必须看场景,而不是只看平均分
  • 当前 diarization 的核心痛点是漏检和边界不准
  • 高说话人数与多语言泛化仍然是最值得继续攻克的问题

如果你正在做:

  • 会议转写
  • 说话人归属
  • 多人语音分析
  • 语音大模型前处理

那么这篇 benchmark 值得认真读一遍,因为它提供的不是“理论最好”,而是更接近真实部署的判断依据。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐