DEEPFILTERNET 阅读笔记
德国学者提出的一个轻量级的语音降噪模型,自己实测了一下,性能稍逊FRCRN模型,但计算效率高多了。
一、文章概述
本文提出DeepFilterNet,一种基于深度滤波的低复杂度全频带语音增强框架。该框架分两阶段:第一阶段利用ERB缩放增益增强频谱包络,模拟人类频率感知;第二阶段通过深度滤波增强语音周期成分。采用可分离卷积和分组线性/循环层实现网络稀疏性,降低复杂度。实验表明,该两阶段深度滤波方法在多种频率分辨率和延迟下优于复掩码,且与其他先进模型性能相当。
二、研究背景
单声道语音增强在自动语音识别、视频会议及助听设备中至关重要。现有主流方法基于短时傅里叶变换(STFT)估计时频(TF)掩码,但实值或复值掩码在频率分辨率较低时(如窗口≤20ms)难以去除语音谐波间噪声。深度滤波通过复滤波器利用时频局部相关性,可恢复信号退化,但现有研究多依赖网络架构改进(如复TF-LSTM)。因此,本文旨在设计低复杂度框架,验证深度滤波在不同FFT尺寸下的优势,尤其低延迟场景(如5ms窗口)。
三、研究思路
-
提出研究问题:现有复掩码在低频率分辨率下性能下降,深度滤波能否在多FFT尺寸(5-30ms)及低延迟下优于复掩码?
-
构建研究框架:设计两阶段框架,第一阶段用ERB滤波器组和编解码器网络增强频谱包络,第二阶段通过深度滤波增强低频周期成分,结合学习权重因子α控制滤波应用。
-

-
选择研究方法:采用UNet类架构,使用可分离卷积、分组线性/GRU层降低复杂度;基于DNS数据集训练,混合多种噪声并添加数据增强;使用压缩谱损失(含幅度和相位项)及α损失优化模型。

-
分析数据:比较不同FFT尺寸下深度滤波(DF)与复比率掩码(CRM)的SI-SDR,评估模型在VCTK/DEMAND测试集的WB-PESQ和计算复杂度(MACS)。
-
得出结论:深度滤波在各FFT尺寸下优于CRM,DeepFilterNet性能与先进模型相当且复杂度更低。
四、研究结果
-
深度滤波(DF)在5-30ms FFT窗口尺寸下的SI-SDR均优于复比率掩码(CRM),尤其在窗口≤20ms时优势显著。
-
DeepFilterNet在VCTK/DEMAND测试集上WB-PESQ达2.81,SI-SDR达16.63dB,与DCCRN+性能相当。
-
模型参数仅1.8M,MACS为0.35G,计算复杂度远低于DCCRN+等先进模型,适合实时应用。
-
移除第二阶段(深度滤波)后,WB-PESQ降至2.57,SI-SDR降至13.81dB,验证两阶段设计的必要性。
五、研究结论、不足与展望
-
研究结论:提出低复杂度DeepFilterNet框架,通过两阶段深度滤波(ERB增益+周期成分增强)实现高效语音增强。实验证明深度滤波在多FFT尺寸下优于复掩码,模型性能与先进方法相当且计算复杂度更低,可满足实时需求。
-
研究的创新性:1. 结合ERB感知特性与深度滤波,分阶段增强频谱包络和周期成分;2. 采用可分离卷积和分组层实现网络稀疏性,显著降低复杂度;3. 验证深度滤波在低延迟(5ms)场景的有效性。
-
研究的不足之处:深度滤波仅应用于低频(≤5kHz),高频周期成分未被增强;α损失依赖局部SNR阈值,可能无法精准区分语音与周期性噪声;模型在极端低SNR(<-10dB)下性能未明确评估。
-
研究展望:1. 改进周期性成分检测,如基于相关性的浊音概率,优化深度滤波应用范围;2. 探索高频深度滤波,提升全频带增强效果;3. 优化α损失函数,增强对周期性噪声的鲁棒性;4. 扩展至多通道语音增强或联合回声消除任务。
-
研究意义:为低复杂度、实时全频带语音增强提供有效框架,可应用于助听设备、VoIP等资源受限场景;验证深度滤波在低延迟下的优势,推动语音增强技术在实时系统中的应用。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)