【说话人日志】从 BLSTM 到 Self-Attention：SA-EEND

weixin_45234741

240人浏览 · 2026-03-31 17:31:31

weixin_45234741 · 2026-03-31 17:31:31 发布

论文：End-to-End Neural Speaker Diarization with Self-Attention
简称：SA-EEND
作者：Yusuke Fujita, Naoyuki Kanda, Shota Horiguchi, Yawen Xue, Kenji Nagamatsu, Shinji Watanabe
时间：2019
任务：Speaker Diarization，回答“谁在什么时候说话”

一、前言

这篇论文（SA-EEND）是提升 EEND 的性能，可以看做 EEND 的补丁包。

原始 EEND 的核心思想、PIT 损失、DPCL 辅助损失、以及为什么 diarization 可以改写成逐帧多标签任务，可参见 EEND 2019

SA-EEND 说明以下 3 个方面：

self-attention 比 BLSTM 更适合 diarization
SA-EEND 结构
实验说明 attention 学到了更合适的表示

二、BLSTM $\rightarrow$ self-attention

SA-EEND 继承原始 EEND 的根本设定：

diarization 仍然是逐帧多标签分类
训练仍然用permutation-free loss

改动的地方只有一个：

把原始 EEND 里的 BLSTM 编码器，替换成了 self-attention 编码器。

speaker diarization (SD) 任务，本质上同时依赖两类信息：

局部信息：当前帧附近有没有语音、边界在哪、是否进入或退出说话状态
全局信息：第 3 秒和第 53 秒那两段声音，是不是同一个人

原始 EEND 里的 BLSTM 更擅长前一类。
而 SA-EEND 这篇论文要论证的是：

self-attention 更适合把“全局 speaker characteristic”和“局部 speech activity dynamics”一起建模。

三、SA-EEND 结构

Log-Mel 特征
 -> 线性投影
 -> 多层 self-attention encoder block
 -> 线性层 + sigmoid
 -> 每一帧每个 speaker 的说话概率

论文结构图如下：
SA-EEND结构图

和原始 EEND 相比，这里最大的变化就是中间的编码器。

原始 EEND：

输入特征 -> BLSTM -> 输出层

SA-EEND：

输入特征 -> Self-Attention Encoder -> 输出层

需要注意的是，论文的自注意力机制没加位置编码。作者更在意帧与帧之间的说话人相似关系，而不是严格的绝对位置编码。有关 Transformer 结构可以参考笔记。

四、实验结果

论文的逻辑非常朴素：

SD 需要建模长距离 speaker 一致性
BLSTM 对长距离依赖的建模不够直接
self-attention 能直接比较任意两帧
所以它更可能学到全局 speaker 特征

实验结果需要论证：

DER 是否真的更低
attention 图是否真的反映了“全局 speaker characteristic + 局部 speech activity dynamics”的分工

4.1 数据准备

论文一共准备了两类训练集、五类测试集。

4.1.1 训练集

训练集	mixture 数量	平均时长	overlap ratio
Simulated $(\beta = 2)$	100,000	87.6 s	34.4%
Real (SWBD+SRE)	26,172	304.7 s	3.7%

模拟训练集的构造方式和原始 EEND 一脉相承：

从 Switchboard-2、Switchboard Cellular、NIST SRE 中取电话语音
总 speaker 数 6,381
划分为 5,743 个训练 speaker 和 638 个测试 speaker
每个 mixture 固定是 2-speaker
每个 speaker 取 10~20 个 utterances
用平均间隔参数 $\beta$ 控制重叠程度
加背景噪声和 RIR

4.1.2 测试集

测试集	数量	平均时长	overlap ratio
Simulated $(\beta = 2)$	500	87.3 s	34.4%
Simulated $(\beta = 3)$	500	103.8 s	27.2%
Simulated $(\beta = 5)$	500	137.1 s	19.5%
CALLHOME	148	72.1 s	13.0%
CSJ	54	766.3 s	20.1%

CALLHOME 双人对话随机划分为两部分：

155 条录音用于 domain adaptation
148 条录音用来测试

4.2 模型配置

4.2.1 输入特征

和原始 EEND 一样，输入特征是：

23 维 log-Mel filterbank
帧长 25 ms
帧移 10 ms
前后各拼接 7 帧上下文
再做 10 倍下采样

最终是每 100 ms 输入一个 23 × 15 = 345 维向量。

4.2.2 SA-EEND 配置

SA-EEND 用的是：

P = 2 个 encoder blocks
D = 256
H = 4 个 attention heads
$d_{\mathrm{ff}} = 1024$
训练时序列长度限制为 500 帧，也就是 50 秒

训练阶段把长录音切成不重叠的 50 秒片段，这是因为 self-attention 吃显存；
但推理阶段还是用整段录音。

4.3 结果分析

Table 2 ：

方法	Sim $\beta=2$	Sim $\beta=3$	Sim $\beta=5$	CALLHOME	CSJ
i-vector clustering	33.74	30.93	25.96	12.10	27.99
x-vector clustering	28.77	24.46	19.78	11.53	22.96
BLSTM-EEND, trained with sim.	12.28	14.36	19.69	26.03	39.33
BLSTM-EEND, trained with real	36.23	37.78	40.34	23.07	25.37
SA-EEND, trained with sim.	7.91	8.51	9.51	13.66	22.31
SA-EEND, trained with real	32.72	33.84	36.78	10.76	20.50