【说话人日志】Benchmarking Diarization Models 当前说话人分离模型到底谁更强？

weixin_45234741

396人浏览 · 2026-03-24 17:39:18

weixin_45234741 · 2026-03-24 17:39:18 发布

一文读懂《Benchmarking Diarization Models》：当前说话人分离模型到底谁更强？

论文标题：Benchmarking Diarization Models
作者：Luca A. Lanzendörfer, Florian Grötschl, Cesare Blaser, Roger Wattenhofer
单位：ETH Zurich
任务：Speaker Diarization（说话人分离，回答“谁在什么时候说话”）
评测规模：4 个数据集、5 种语言、196.6 小时音频

一、先说结论：这篇论文最值得记住什么？

如果你只想先抓住最核心的信息，这篇论文可以浓缩成 4 句话：

pyannoteAI 是整体最强的方案，平均 DER = 11.2%。
DiariZen 是最有竞争力的开源方案，平均 DER = 13.3%。
Sortformer v2 / v2-streaming 在速度和流式部署上非常有优势，其中 SF v2 平均 RTF = 214.3x。
当前 diarization 模型最大的共性问题，不是“把人分错了”，而是漏检语音，并且很多错误本质上是语音起止边界不准。

这篇论文的价值不在于提出一个新模型，而在于回答两个非常工程化的问题：

如果我有一段会议、电话、开放环境的多人音频，应该优先选哪个 diarization 模型？
这些模型现在到底是怎么失败的，下一步优化该往哪里投精力？

二、论文在评测什么？

作者选了 5 个当前比较有代表性的系统：

模型	类型	论文中的定位	一句话理解
`pyannote` 3.1	开源模块化 pipeline	经典强基线	分段 + 嵌入 + 聚类的典型流水线
`pyannoteAI`	商业闭源 API	整体效果最好	更强的工业化版本，但细节不公开
`Sortformer`	端到端 EEND 类方法	原始版本	对 4 人以内场景更友好，但长音频和高说话人数有局限
`Sortformer v2`	端到端改进版	速度极强	引入 AOSC，长音频处理与流式能力更强
`DiariZen`	混合方法	最强开源选手	EEND + WavLM + pyannote 聚类，精度和可扩展性较均衡

数据集覆盖也比较全面：

数据集	场景	语言	典型特点
`CALLHOME`	电话通话	英/中/日/德/西	以双人对话为主
`VoxConverse`	开放环境音频	英语	说话人数多，噪声和录音条件复杂
`AMI`	英文会议	英语	4 人会议，重叠语音明显
`AliMeeting`	中文会议	普通话	高重叠会议场景，对 diarization 很有挑战

作者统一采用 DER 作为评测指标，且 skip_overlap=False，也就是重叠语音也算进评测。这点很重要，因为真实多人对话里，重叠语音往往恰恰是最难的部分。

三、总体表现：谁是第一梯队？

论文的总体结论很明确：

pyannoteAI：整体第一，平均 DER = 11.2%
DiariZen：开源第一梯队，平均 DER = 13.3%
Sortformer v2-streaming：综合表现也很强，尤其适合低时延和流式场景

下面这张图是论文里最重要的一张总览图。图 1：不同模型在 4 个数据集上的 DER 构成

图 1 可以读出三个关键信号：

1. `pyannoteAI` 的综合稳定性最好

它不是只在某一个数据集上拿第一，而是整体都很稳。尤其在英语、德语、西班牙语、多说话人场景上，都表现得比较强。

2. `DiariZen` 是真正有竞争力的开源方案

论文中特别提到，DiariZen 在 VoxConverse 上表现突出，DER = 5.2%。
这说明它在高说话人数、开放环境、复杂录音条件下有明显竞争力。

3. `Sortformer` 系列的主要卖点是速度和流式，而不是绝对最优精度

尤其是 Sortformer v2-streaming，在 AliMeeting 上表现非常亮眼，DER = 7.0%，说明它很适合中文会议类、低时延场景。

四、最好几个模型怎么选？

这一部分最适合做工程选型。

模型	核心优点	核心缺点	适合场景
`pyannoteAI`	综合精度最好；跨语言稳定；多说话人数扩展性最好	商业闭源；实现细节不公开；推理速度无法从 API 内部透明获取	优先追求最终效果，且可以接受 API/闭源依赖
`DiariZen`	开源里最强；`VoxConverse` 和 `5+ speaker` 场景很强；整体比较均衡	速度明显慢于 Sortformer 系列；英文/德语/西语仍略弱于 `pyannoteAI`	想要开源、可部署、可改造，同时精度不能太差
`Sortformer v2-streaming`	流式能力强；中文/日文会议场景亮眼；适合低时延部署	高说话人数时退化仍明显；总体绝对精度不是第一	实时会议、边录边转写、在线 diarization
`Sortformer v2`	全文最快，`RTF = 214.3x`；长音频能力比初版更好	高说话人数仍受限；英文/西语表现一般	更看重吞吐量、延迟和工程部署成本

如果把它们进一步压缩成一句话：

要最准：选 pyannoteAI
要最强开源：选 DiariZen
要实时/流式：选 Sortformer v2-streaming
要极致速度：选 Sortformer v2

五、按语言看：不同模型真不是“一个模型打天下”

论文里给出了按语言汇总的 DER。

语言	最优模型	最优 DER	观察
中文普通话	`Sortformer v2`	`9.2%`	中文上 `SF v2` 系列表现很强
英语	`pyannoteAI`	`6.6%`	英语是最成熟、训练数据也最充足的语言之一
德语	`pyannoteAI`	`8.3%`	`pyannoteAI` 跨语言稳定性明显更好
日语	`Sortformer v2 / v2-streaming`	`12.7%`	`SF v2` 系列在日语上优于 `pyannoteAI`
西班牙语	`pyannoteAI`	`14.3%`	西语是全文最难的语言之一

这里有个很有意思的结论：

英语和普通话整体更容易做得好
西班牙语整体最难

作者认为一个很重要的原因是：不同语言可获得的标注数据量不一样。
这其实也提醒我们，做 multilingual diarization 时，模型结构未必是唯一瓶颈，训练数据分布和覆盖度同样关键。

六、按说话人数看：高 speaker count 仍然是难点

论文又专门把结果按说话人数分桶统计了一遍。

说话人数	最优模型	DER	结论
`1 spk`	`Sortformer`	`1.5%`	单人场景大家都不难，差距意义有限
`2 spk`	`pyannoteAI`	`9.9%`	双人对话里 `pyannoteAI` 最稳
`3 spk`	`pyannoteAI`	`9.1%`	多人开始拉开差距
`4 spk`	`pyannoteAI`	`10.1%`	会议场景下 `pyannoteAI` 仍领先
`5+ spk`	`pyannoteAI`	`6.6%`	高说话人数场景可扩展性最好

不过有一个点也值得单独提出来：

DiariZen 在 5+ spk 上也很强，DER = 7.1%
Sortformer 系列在高说话人数上会明显退化

这和论文对模型结构的分析是一致的。Sortformer 的设计本身就更偏向 4-speaker 场景，到了 VoxConverse 这种很多说话人的开放环境数据时，就容易出现更严重的 speaker confusion。

七、速度维度：为什么说 Sortformer v2 很有工程价值？

如果只看精度，Sortformer v2 不是最强。但如果把速度也放进来，它的价值就非常高了。

模型	平均 RTF	速度解读
`DiariZen`	`20.2x`	可用，但不算特别快
`pyannote`	`45.0x`	比 `DiariZen` 快不少
`Sortformer`	`164.7x`	已经非常快
`Sortformer v2`	`214.3x`	全文最快
`Sortformer v2-streaming`	`209.5x`	速度也极高，同时支持流式思路

这里的 RTF 是 “音频时长 / 处理时间”，数值越大越好。
214.3x 的意思大致可以理解为：它处理音频的速度远高于实时。

这也是为什么我会认为这篇论文非常适合工程读者：它不是只告诉你“谁最准”，而是告诉你谁更适合部署。

八、错误分析：当前 diarization 最大的问题到底是什么？

这是全文最值得细读的部分。

作者把 DER 拆成三类：

missed speech：漏检语音
false alarm：误检非语音
speaker confusion：说话人分错

图 1 已经能看出来，大多数模型的主导误差都是 missed speech。
论文接着又画了下面这张图来分析，漏检到底发生在什么样的语音段上。

图 2：漏检语音的长度分布分析

这张图传递出的信息很重要：

1. 模型不是只会漏掉很短的语音段

很多人直觉上会以为，模型漏检主要因为短语音太短、太碎、太难听清。
但论文发现，错误分布和真实数据里的语音长度分布大体一致，说明问题并不是“模型只看不见短 segment”。

2. 更像是边界不准

作者统计后发现，各模型漏检片段的平均长度大约只有 350 ms。
这意味着很多错误并不是“整句话完全没检测到”，而是：

开始点偏晚了
结束点偏早了
边界切得不准

换句话说，当前 diarization 的改进空间很可能更多在boundary precision，也就是语音起止时间戳的精细定位能力。

3. 会议场景尤其容易出现漏检

AMI 和 AliMeeting 这类会议场景里，重叠语音更强、说话节奏更密，missed speech 也更突出。
这对会议转写、会议纪要系统很关键，因为 diarization 一旦漏掉边界，后续 ASR 和说话人归属都会连锁出错。

九、我对这篇论文的三点理解

1. 选模型时，不能只看平均 DER

如果你的场景是：

双人电话
中文会议
开放环境多人访谈
在线流式转写

那么最优模型很可能根本不是同一个。

这篇论文的一个重要价值，就是把“平均分”拆成了：

场景差异
语言差异
说话人数差异
速度差异

这比单纯给一个 leaderboard 更有实际意义。

2. diarization 的瓶颈不只在聚类

很多工程调参会把重点放在：

embedding 模型
clustering threshold
speaker number estimation

但这篇论文说明，至少在当前 SOTA 系统里，一个很大的问题来自语音边界与漏检。
也就是说，前端 segmentation 没做好，后面聚类再强也救不回来。

3. 开源系统和闭源工业系统的差距，已经不是“能不能用”，而是“在哪些场景还能更稳”

DiariZen 已经证明，开源系统并不是完全不能打。
尤其当你要私有化部署、可控可改、支持本地推理时，它其实很有现实价值。

真正的差距在于：

跨语言的稳定性
高说话人数时的泛化
极端场景下的鲁棒性

十、如果我是工程负责人，我会怎么选？

业务目标	推荐方案	原因
先把精度做到最好	`pyannoteAI`	综合 DER 最优，跨语言和多 speaker 稳定
必须开源且可私有化	`DiariZen`	开源阵营中最均衡，复杂场景能力也不错
做在线会议转写	`Sortformer v2-streaming`	速度快、流式友好、中文会议表现亮眼
大规模离线批处理	`Sortformer v2`	极高吞吐量，算力利用率优秀

十一、最后总结

这篇论文不是在争论“哪个模型 SOTA”这么简单，它真正告诉我们的是：

没有一个模型在所有维度都绝对占优
工程选型必须看场景，而不是只看平均分
当前 diarization 的核心痛点是漏检和边界不准
高说话人数与多语言泛化仍然是最值得继续攻克的问题

如果你正在做：

会议转写
说话人归属
多人语音分析
语音大模型前处理

那么这篇 benchmark 值得认真读一遍，因为它提供的不是“理论最好”，而是更接近真实部署的判断依据。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Qwen3-235B 长序列强化学习训练性能优化实践

随着大模型后训练范式从SFT向SFT-RL-SFT演进，强化学习在大模型对齐与能力提升中扮演关键角色。基于昇腾NPU平台的Verl框架已成为主流训练工具之一，尤其在长序列推理场景下对性能与显存效率提出更高要求。本文基于Atlas 800T A2服务器，聚焦于Qwen3-235B规模模型在2k输入、30k输出长度下的强化学习训练性能优化，针对推理阶段耗时过长、显存压力大、训练中断风险高等问题，系统性

AtomGit开源社区

Claude Code 源码泄漏：从源码看Claude Code到底在干什么

**摘要：**Anthropic的Claude Code npm包因误包含source map文件导致源码泄露，暴露了R2存储桶信息。分析显示，Claude Code不仅具备代码生成能力，更是一个功能丰富的Agent Runtime，包含工具系统、任务管理和上下文治理等核心能力。此次事件凸显了供应链安全问题，建议通过CI强制检查制品清单、禁用生产环境source map、最小化存储权限等措施防范风