老酒新品 | 论文导读 | 当信号处理“可微分”遇到迁移学习：一种面向高速列车牵引电机轴承的跨设备迁移诊断的新方法

秋风暖暖

546人浏览 · 2026-03-17 18:38:53

秋风暖暖 · 2026-03-17 18:38:53 发布

北京交通大学史红梅教授研究团队在机械工程领域T1期刊《Mechanical Systems and Signal Processing》（IF=8.9，中科院一区TOP）发表题为《IDSN: A one-stage interpretable and differentiable STFT domain adaptation network for traction motor of high-speed trains cross-machine diagnosis》的研究论文，提出单阶段可解释可微STFT域适配网络（IDSN），融合信号处理先验知识与数据驱动深度学习，打造知识-数据双驱动的高速列车牵引电机跨设备故障诊断新范式，解决了实际工程中故障标注数据稀缺、模型可解释性弱、跨设备数据分布差异大的难题。

链接：https://doi.org/10.1016/j.ymssp.2023.110846
引用：C. He, H. Shi, J. Li. A one-stage interpretable and differentiable STFT domain adaptation network for traction motor of high-speed trains cross-machine diagnosis[J]. Mechanical Systems and Signal Processing, 2023, 205: 110846.

01 论文导读

为保障牵引电机系统的安全运行，学界已提出大量迁移故障诊断技术。然而，现有研究高度依赖源域故障数据的可得性，但在实际场景中，由于系统定期维护，故障数据十分稀缺。幸运的是，用户自定义测试平台为获取故障数据提供了便利，在此场景下，可通过跨机械诊断方法利用模拟数据实现对实际牵引电机系统的状态监测。此外，现有基于深度学习的跨机械故障诊断方法存在物理可解释性差、超参数调优繁琐的问题。针对上述问题，本文提出一种单阶段可解释可微分短时傅里叶变换（STFT）跨机械双驱动适配网络（IDSN）。在IDSN中，本文设计了名为可解释可微分STFT层的新范式，该层引入可导系数，使梯度下降算法能够调整窗长等STFT核心参数。值得注意的是，该模块即插即用，可嵌入任意典型网络且不会产生冲突。此外，本文设计了一种新型自适应权衡系数，用于解决域差异度量的权重匹配问题。最后，为保证跨机械诊断的可靠性与有效性，本文提出一种简洁有效的平滑联合最大均值差异方法，可同时促进类内紧聚性与类间可分离性。实验结果表明，所提IDSN模型的性能优于现有先进方法。

02 主要创新点

核心贡献：本研究不是一个孤立的、性能更好的算法，而是一套面向工业实际难题（数据稀缺、解释性差、参数调优难）的、成体系的解决方案。它将前沿的“可微分编程”思想与经典的信号处理知识、现代的深度学习框架深度融合，为故障诊断乃至更广泛的工业人工智能领域，展示了如何构建更智能、更可靠、更易于工程化部署的“双驱动”模型。其工作为未来的研究指明了从“纯粹数据驱动”迈向“物理知识嵌入的数据驱动”这一重要发展趋势。

鉴于注释驱动的牵引电机故障数据集稀缺的现状，本文提出了一种新的替代方案，该方案考虑了信号处理的先验知识，即将一阶段域适应网络嵌入到可微分信号处理中，而无需使用牵引电机故障数据作为源域。
与现有的不具备解释能力的跨机器方法不同（这些方法往往设计复杂的域变换统计指标或网络结构），本文首次提出将短时傅里叶变换（STFT）集成到ISDN（Interpretable Signal Domain Adaptation Network）中，使得STFT的超参数成为ISDN参数的一部分，并通过反向传播算法动态更新这些超参数。同时，ISDN是一个双驱动模型，它结合了可微分STFT的知识驱动特性和神经网络的数据驱动特性。具体而言，可微分STFT作为先验知识被嵌入到ISDN中，从而使ISDN具备内在的可解释性。
ISDN在减少源域与目标域的分布偏移方面优于前两种两阶段方法（信号预处理+DAN），从而实现更简单的域对齐过程。
为了增强领域适应的效果，分别采用了一种新的统计度量权重匹配系数和平滑的JMMD损失函数，这两种方法共同促成了所有实验中的高性能表现。

03 思路来源

本研究的方法论框架源于对工业智能诊断领域两大核心挑战——跨机器场景下数据驱动模型泛化能力不足与物理机理嵌入深度不够——的系统性审视，传统“信号预处理-黑箱建模”的两阶段范式，将信号处理知识的优化与深度网络训练割裂开来，限制了模型的自适应能力与可解释性。理论方法突破体现在信号处理经典理论与深度学习框架的深度融合。本研究创新性地提出可微分短时傅里叶变换，将经典STFT的参数（如窗函数长度）从固定经验值转变为可学习的网络参数。这一变革性思路，使得信号处理知识能够通过端到端的反向传播实现自适应优化，从而在时频分析层面实现了“知识嵌入”与“数据驱动”的有机统一，显著提升了模型对不同设备工况的自适应能力。该研究思路的核心价值在于构建了**“信号处理知识可微分化”**的首创范式，通过可微分物理模块嵌入、自适应时频表征学习和物理约束损失优化的三重创新，为工业智能诊断领域提供了一种既具备理论严谨性又兼具工程实用性的跨机器诊断新范式，为后续研究如何将更多经典物理知识与深度学习模型深度结合开辟了新的技术路径。

04 主要图表结果

流程架构对比图

上侧为传统两阶段策略，流程为“信号预处理→特征工程→域适配网络（DAN）→分类”，需人工设定STFT等预处理超参数，且预处理与网络训练脱节；下侧为IDSN单阶段策略，流程为“原始信号→可微STFT层→DAN→分类”，可微STFT层与DAN深度耦合，通过反向传播同步优化预处理参数与网络权重。
清晰揭示了IDSN对传统两阶段范式的颠覆，突出“端到端训练”核心优势，避免预处理与模型训练的割裂，简化跨设备诊断流程。

模块结构拆解图

核心内容：展示可微STFT层的核心组成，包括窗口函数、可微系数θ、傅里叶变换模块，明确窗口长度（n）、跳步长度（Nₒ）与可微系数θ的关联的链路，以及通过梯度下降自适应调整参数的过程。
关键价值：可视化可微STFT层的“即插即用”特性，体现其与神经网络的无缝融合能力，为模型的物理可解释性提供结构支撑。

IDSN以知识-数据双驱动为核心，由可微STFT层、骨干网络、S-JMMD域适配模块和自适应权衡系数模块四部分组成：

数据输入：以仿真试验台（源域，带标注）和实际列车牵引电机（目标域，无标注）的振动信号为输入；
可微STFT层：自适应优化窗口长度和跳步长度，将一维振动信号转化为高判别性的二维时频谱图，实现物理可解释的特征提取；
骨干网络：提取时频谱图的深度特征，为域适配和故障分类提供基础；
损失优化：联合优化平滑交叉熵分类损失与S-JMMD域适配损失，通过自适应权衡系数动态调整二者权重，实现端到端训练。

整个网络通过反向传播同时优化可微STFT层的超参数和骨干网络的权重，既保留了STFT时频分析的物理机理，又发挥了深度学习的特征学习能力，从本质上解决了模型“黑箱”问题。

由三子图构成，分别对应三个数据集的实验平台实物图：

CWRU：该数据集广泛用作故障诊断的基准数据集。使用了48 kHz采样频率下的四种状态的原始信号。
JNU：江大大学数据集在初步实验分析中识别故障的难度较大，其采样频率为50 kHz，并从600 r/min、800 r/min和1000 r/min的四种状态中采集数据。
DDB：双跨双转子故障测试台，包括控制柜、变频电机、驱动电机、加载装置、单跨滚动轴承转子系统和传感器。使用深沟球轴承NSK-6308，通过安装在轴承座上的三轴ICP压电传感器采集振动加速度信号，采样频率为10 kHz和20 kHz。
DDP：行星齿轮箱故障测试台。在不同的位置模拟了四种类型的齿轮箱故障。
NTN：来自北京交通大学NTN牵引电机轴承实验台的数据集。如图9所示，这是一套用于高速列车牵引电机轴承实验的特殊设备，具有国际先进水平。振动加速度传感器固定在轴承外侧，采样频率设置为100 kHz。实验中使用的轴承型号为HRB NU214 EM 32214H，其尺寸与实际轴承相同。

05 实验解析

图表编号	实验目的 / 图表内容描述
Fig. 10	同分布故障识别性能图：对比在不同数据集上，使用固定窗口长度的STFT与使用自适应窗口长度（即可微STFT）的ResNet-18模型的平均识别准确率。目的验证可微STFT在常规（非迁移）故障诊断任务中的基础性能提升。
Fig. 11	单阶段与两阶段策略性能对比：在多个跨数据集任务上，对比IDSN（一阶段）与小波-DAN、STFT-DAN（两阶段）的诊断准确率。目的是证明端到端可微优化策略相较于传统分离式策略的优越性。
Fig. 12	深度JAN与IDSN性能对比：对比深度联合适应网络（DJAN，即使用JMMD）与IDSN在不同源域数据集下的诊断精度，以证明IDSN在面临不同数据质量时具有更高的稳定性和鲁棒性。
Fig. 13	窗口长度变化过程：以折线图展示在特定跨机器任务（如A₀→D）的训练过程中，可微STFT的窗口长度n如何随训练周期自适应调整并最终收敛。直观证明了参数学习的动态过程。
Fig. 14	平滑因子ε的消融实验
Fig. 15	不同权衡系数λ的性能对比
Fig. 16	t-SNE特征可视化
Fig. 17	跨速度诊断性能：展示IDSN在高速列车牵引电机轴承跨不同运行速度的诊断任务上的准确率，证明该方法不仅适用于跨机器，也适用于同一设备的不同工况迁移。
Fig. 18	可解释性分析对比
Table 3	不同骨干网络的消融实验：对比将可微STFT层嵌入不同骨干网络（如GhostNet, MobileNetV3, ResNet-18等）后，模型性能的提升幅度。目的是证明可微STFT层的即插即用特性及其带来的普适性能增益。
Table 4	滚动轴承跨机器诊断性能对比：在多个“公共/模拟数据→真实牵引电机数据”任务上，以表格形式定量对比IDSN与9种前沿迁移学习方法（如TCA, DAN, DDC等）的诊断准确率，证明IDSN的显著优越性。
Table 5	不同窗函数性能分析：对比在特定任务上，使用不同窗函数（如Hamming, Hann, Gaussian, Blackman等）时，模型的准确率和训练时间。旨在分析窗函数选择对性能的影响。
Table 6	行星齿轮箱跨速度诊断性能：在齿轮箱跨转速诊断任务上，对比IDSN与其他方法的性能，证明该方法在旋转机械部件上的通用性。
Table 7	平滑JMMD的消融实验：在多个目标任务上，对比JMMD、S-JMMD 和无平滑的JMMD 三种损失函数的性能。目的是定量验证标签平滑策略与可微STFT 相结合（即IDSN完整模型）的有效性。
Table 8	不同初始窗口长度性能：展示为可微系数θ设置不同初始值（对应不同初始窗口长度n）时，模型的最终性能及优化后的窗口长度。证明模型能从一个较宽的范围中自适应找到较优解，对初始值不敏感。
Table 9	可微STFT学习率α的影响
Table 10	公开数据集间跨机器诊断结果。
Table 11	与现有可微STFT方法的对比：从准确率和训练时间两个维度，将IDSN与参考文献[70,71]中提出的其他可微STFT实现方法进行对比，突出IDSN在诊断性能、参数效率（仅1个参数）和训练速度上的综合优势。

图11展示了利用单阶段或两阶段训练策略在公共数据集CWRU和JNU上进行的数据集交叉迁移结果。

表3表明，所提出的可微傅里叶变换（STFT）可以无缝集成到各种骨干网络中而不会产生冲突。为了证明这一点，我们在A0 → D3上分别测试了多个知名模型，包括DenseNet-121、ResNet-18、GhostNet、MobileNetV3、EfficientNetV2、WDCNN、DRSN-CW和MIXCNN，同时未包含不含可微傅里叶变换层的模型。结果表明，添加可微分的短时傅里叶变换（STFT）层能够显著提升模型的跨机器迁移性能，在特定挑战性任务上，其最大提升幅度超过80%。上述结果证明，可微分的STFT层可作为即插即用模块，用于改善基线模型的跨机器性能。

对比IDSN在以下当前最佳方法中的优越性能：BN-CNN [61]、TCA [62]、DAN(MMD) [63]、DDC(MK-MMD) [64]、DSAN [52]、BBDA [65]、CMMD [66]、DDNTL [47]、CK-MMD [67]。构建了六项跨机迁移任务，实现从通用轴承到损坏的牵引电机轴承的健康监测，目标域速度设定为165 km/h。为确保公平性，仅修改域适应的损失函数，其他条件保持相同。表4实验结果表明了IDSN相较于传统域对齐方法的性能提升。

如图13所示，窗口长度通过反向传播算法基于变量𝜃的持续调优进行自适应调整。该动态优化过程旨在确定领域自适应背景下的最优窗口长度。

06 总结和展望

本研究提出了一种双驱动模型，该模型集成了可微分的可解释短时傅里叶变换“知识”以及少量“数据”。这是首次在领域自适应故障诊断中记录可微分的信号处理方法。未来研究方向包括：

尽管在本研究中已经建立了窗函数与导数系数之间的线性关系，但进一步研究更复杂的关系（如指数关系和三角关系）可能会产生更有希望的结果。
虽然当前的研究集中在固定窗长上，但探索可变窗长的应用可能会将其应用范围扩展到更复杂的轴承传递故障诊断场景中，尤其是在速度波动的情况下，从而超越纯粹的数据驱动型域适应方法。
连续小波变换和同步压缩变换作为著名的信号处理算法，值得研究以使其具备可微分特性。
目前的研究仅限于封闭集合，而关于部分集合和开放集合的跨机器研究在故障诊断中仍然较为罕见且困难，这也是一个值得突破的领域。知识和数据双驱动模型可能提供一种最优解决方案。
可微分信号处理需要某种指导机制，例如为窗尺寸设定一个近似值。

07 论文访问（引用）

@He C, Shi H, Li J. IDSN: A one-stage interpretable and differentiable STFT domain adaptation network for traction motor of high-speed trains cross-machine diagnosis[J]. Mechanical Systems and Signal Processing, 2023, 205: 110846.

@article{HE2023110846,
title = {IDSN: A one-stage interpretable and differentiable STFT domain adaptation network for traction motor of high-speed trains cross-machine diagnosis},
journal = {Mechanical Systems and Signal Processing},
volume = {205},
pages = {110846},
year = {2023},
doi = {https://doi.org/10.1016/j.ymssp.2023.110846},
author = {Chao He and Hongmei Shi and Jianbo Li},
}

直达链接：https://doi.org/10.1016/j.ymssp.2023.110846

08 作者简介

何超（第一作者），北京交通大学在读博士研究生，研究方向为智能故障诊断与信号处理。https://liguge.github.io/

史红梅（通信作者），

北京交通大学机械与电子控制工程学院教授，博士生导师。长期从事轨道交通安全状态检测技术方面的科研，先后主持和参与国家级等各类科研项目50多项，发表论文50余篇，获发明专利10项，2013年、2018年两次获中国铁道学会科学技术奖一等奖，2022年获北京市科技二等奖。讲授《传感器原理及应用》本科课程，该课程获国家级一流课程，国家级一流专业测控技术与仪器专业负责人，指导全国研究生电子设计大赛、全国集成电路设计大赛等多项学科竞赛获奖，荣获北京市教学名师、宝钢优秀教师、北京市优秀教师、北京市优秀本科教学管理人员、全国优秀实践指导教师、北京交通大学五四奖章等荣誉称号。

https://faculty.bjtu.edu.cn/5972/

团队背景：

机电学院轨道交通智能检测技术研究所是轨道交通安全2011协同创新中心、智慧高铁系统前沿科学中心和先进轨道交通自主运行全国重点实验室的核心团队，长期致力于轨道交通智能感知基础理论与关键技术研究，提出了轨道交通远程瞭望系统技术架构并研发了车载与路侧净空智能感知关键技术，联合单位交控科技、北醒光子、埃福瑞科技有限公司在关键感知传感器与装置研发、系统产业化应用方面充分发挥各自优势。该成果紧密结合高速铁路与城市轨道交通安全运行的净空监测需求，在基础理论、系统架构、关键传感、核心设备、系统应用层面完成了多项具有理论和实际应用价值的创新成果，为保障我国轨道交通运行安全并推动“智慧轨道交通”发展做出了重要贡献。

，提出了轨道交通远程瞭望系统技术架构并研发了车载与路侧净空智能感知关键技术，联合单位交控科技、北醒光子、埃福瑞科技有限公司在关键感知传感器与装置研发、系统产业化应用方面充分发挥各自优势。该成果紧密结合高速铁路与城市轨道交通安全运行的净空监测需求，在基础理论、系统架构、关键传感、核心设备、系统应用层面完成了多项具有理论和实际应用价值的创新成果，为保障我国轨道交通运行安全并推动“智慧轨道交通”发展做出了重要贡献。

#可微分信号处理 #可解释人工智能 #跨机器诊断 #迁移学习 #高速列车

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Few-shot 与思维链（CoT）大模型提示技巧实战指南

Few-shot和思维链，本质上是你在教AI如何思考，而不是替它思考。你给的每一个例子、每一条步骤，都是在给AI搭建一个思维的脚手架。新手最容易犯的错是贪多——又想给10个例子，又想写超级详细的步骤，结果提示词长到模型都糊涂了。从最简单的开始。先拿一个你手头真实的任务，给2个例子+3步CoT，跑通了再慢慢加料。【模式】Few-shot + Chain-of-Thought【示例】[此处放2个你的黄

AtomGit开源社区

从AI Infra到Agentic Infra！华为云极致重构AI算力底座

AtomGit开源社区

2026指纹浏览器页面深度JS探针的多层识别机制与全链路防御方案

深度 JS 探针已经成为 2026 年平台识别虚拟环境的核心技术手段，浅层 JS 重写、通用虚拟化、老旧进程沙箱三类传统防御方案均存在无法弥补的底层漏洞，只有内核级四层拦截仿真架构能够实现全链路防护。从内核接口重定向、内存进程时序仿真、交互动作随机引擎、批量分组差异化管控四个维度搭建完整防御体系，搭配标准化自检、版本迭代、故障应急、人员权限运维规范，才能长期抵御持续迭代的 AI 探针校验机制。