别再瞎猜了：去噪网络到底该学“信号”还是学“噪声”？一维信号去噪中的结构–容量匹配和预测目标优选

哥廷根数学学派2023

310人浏览 · 2026-06-08 13:55:27

哥廷根数学学派2023 · 2026-06-08 13:55:27 发布

如果你曾经训练过去噪网络，一定遇到过这个看似不起眼的选择：损失函数里，是让网络直接预测干净信号，还是预测噪声？绝大多数人想都不想就选了预测干净信号——这似乎最自然，但真实情况是，这个不经意的选择，可能让你的模型白白浪费一半性能，甚至在完全相同的架构下，把收敛速度拖慢数倍，更反直觉的是，在某些网络上表现惊艳的目标，换一个架构反而会成为灾难。

本文把3种主流去噪架构和扩散模型掰开揉碎，反复切换预测目标，最终发现一条简洁而有力的规律：不是目标本身难不难，而是你的网络结构“吃不吃得下”这种目标，可以把它叫作“结构–容量匹配”，搞懂这一点，比盲目堆层数、调学习率要管用的多。

01 | 同一个去噪任务，2条截然相反的优化路径

想象你面前有一张被水浸透的字画，你可以做2件事：

方案A：直接画出干净的原画，这需要你对原作的笔触、构图有极强的重建能力。

方案B：只把水渍描出来，再从湿画里减去水渍，任务简单许多，因为水渍的纹理通常更随机。

对应到网络训练，方案A的监督目标是纯净信号，方案B的目标是残差噪声，噪声往往接近白噪声或粉红噪声，频谱结构简单；纯净信号则充满精细的波形起伏，直觉上，学噪声更快，但实验发现：有的架构死活学不好噪声，却能把纯净信号恢复的漂漂亮亮，这打破了“噪声预测一定更容易”的假设。

背后的原因，就是网络的归纳偏置和目标的统计特性是否“对上眼”。

02 | 结构压缩与目标统计特性的隐秘联姻

我们把架构看成一种“信息压缩器”，以类ViT的JiT架构为例，它把信号切成固定小块，再用线性投影映射到隐空间，这个过程天然像低通滤波：块内高频细节被抹平，保留下来的主要是低频包络，如果此时你让网络预测纯净信号，就等于逼着它在被压缩的表征里重建高频波形——这明显超出了能力范围，奇怪的是让它预测噪声反而更差，因为噪声的高频残差正是被压缩丢掉的那部分。

但故事到这儿还没完，当换成粉红噪声（低频能量更强），JiT预测噪声的性能突然回升，因为粉红噪声的频谱分布，恰好与分块压缩的特性相容，这就揭示了第1条匹配规律：压缩偏向低频的结构，更适合统计能量同样集中在低频的目标。

相比之下，深度卷积网络DnCNN简直是为“噪声预测”而生的，它的逐层堆叠不断增大感受野，隐式学习一个残差映射。网络的输出天然适合表示“输入和干净信号的差异”，实验结果毫不意外：DnCNN在噪声预测模式下，输出信噪比提升显著高于预测纯净信号，而且收敛快的惊人，白噪声、粉红噪声通吃。

U-Net又是另一番景象，它用下采样提取深层特征，再用上采样配合跳连恢复细节，相当于同时保留高频残差和低频结构2条通路，因此,U-Net成了唯一对两种预测目标都极其稳定的架构，如果你不想纠结，拿U-Net开箱即用最安全，代价只是参数稍多、推理略慢。