典型的语音信号处理流程如下:
在这里插入图片描述

DOA的经典方法:Capon 波束成形器

Capon 波束成形器(也称为 MVDR)用于估计声源方向

多通道音频输入

STFT 短时傅里叶变换

计算互相关矩阵 Rxx

矩阵求逆

计算 Capon 谱

搜索谱峰值

输出声源角度 θ

MVDR (Minimum Variance Distortionless Response) 波束成形

核心思想: 在保持目标方向信号无失真的前提下,最小化输出方差

多通道输入

STFT

MCRA 噪声估计

估计噪声协方差矩阵 Rnn

矩阵求逆 Rnn⁻¹

计算 MVDR 权重

频域加权求和

ISTFT

增强后单通道输出

MVDR 权重计算公式:

MCRA 噪声估计 :

使用最小值跟踪法估计噪声功率谱
平滑因子自适应调整

GSC (Generalized Sidelobe Canceller) 广义旁瓣对消器

GSC结构

多通道输入 X

BeamSteering 波束转向

FBF 固定波束成形器

ABM 自适应阻塞矩阵

主路径

AIC 自适应干扰对消器

减法器

输出 y

GSC算法模块介绍:

模块 功能
BeamSteering 根据目标方向计算各麦克风的时延补偿 (TDOA)
FBF 固定波束成形,对目标方向信号进行延迟求和
ABM 自适应阻塞矩阵,阻止目标信号进入旁路
AIC 自适应干扰对消器,消除残余干扰

两种BF算法的比较:

特性 MVDR GSC
计算复杂度 较高(需矩阵求逆) 中等(自适应滤波)
收敛速度 较快 较慢(需自适应过程)
稳定性 需正则化 更稳定
信号取消风险 可能发生目标信号取消
适用场景 噪声统计已知 非平稳干扰环境

核心架构对比
在这里插入图片描述
简而言之,既可以时域延时相加,也可以频域加权相加,GSC 多通道合并不需要频域求逆,所以非常适合嵌入式系统实施,本质上就是FBF,一个 延迟求和波束成形器:

AIC - 自适应干扰对消器

ABM - 自适应阻塞矩阵

FBF - 延迟求和

BeamSteering - 时延补偿

输入

主路径
目标+干扰

干扰估计

Ch1

Ch2

ChM

延迟滤波器 1

延迟滤波器 2

延迟滤波器 M

∑ (均匀权重 1/M)

自适应滤波器 1

自适应滤波器 2

自适应滤波器 M

∑ 自适应滤波器

减法器

输出

模块 输入 输出 作用 关键思想
BeamSteering M 路原始信号 M 路时延补偿后信号 补偿各麦克风到目标方向的时延 对齐
FBF (固定波束成形器) M 路时延补偿信号 1 路参考信号 均匀权重求和:增强目标方向信号 使用简单均匀权重,保证目标方向无失真(因为时延已对齐),但干扰也被混合进来了
ABM (自适应阻塞矩阵) M 路时延补偿信号 M 路干扰信号 阻塞目标信号,只保留干扰 设计一个阻塞滤波器,让目标方向的信号被"阻塞",只让干扰信号通过,这样 ABM 输出主要是干扰
AIC (自适应干扰对消器) M 路干扰信号 1 路干扰估计 自适应抵消 FBF 输出中的干扰 用 ABM 输出的干扰信号,自适应地抵消 FBF 输出中的干扰成分,类似于 AEC (回声消除) 的原理

类比理解:

MVDR = 一次性计算最优权重
GSC = 先用简单权重,再用自适应滤波器"修正"结果

由此可以看出,GSC避免了矩阵求逆的数值稳定性问题,自适应滤波器可以跟踪非平稳干扰, 模块化设计,便于调试和优化

特性 MVDR GSC
合并方式 频域加权求和 延迟求和 + 自适应干扰抵消
权重 复数,随频率变化 FBF 均匀权重,AIC 自适应
计算量 矩阵求逆 自适应滤波
目标保护 约束优化保证 FBF 天然保证
干扰抑制 通过权重设计 通过 AIC 自适应学习
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐