面向资源受限BMS的轻量化电池SOH预测模型 —— BMSFormer架构解析

XZ2079

405人浏览 · 2026-03-31 12:44:29

XZ2079 · 2026-03-31 12:44:29 发布

一．引言

这是对发表在 Energy (Elsevier) 上的《BMSFormer: An efficient deep learning model for online state-of-health estimation of lithium-ion batteries under high-frequency early SOC data with strong correlated single health indicator》的解读。

在当今新能源汽车、低空经济（eVTOL）与储能电站等逐渐成为能源应用领域主流的趋势下，对于电池的健康状态（state of health，SOH）检测成为了必不可少的环节。然而传统的预测技术，例如早期的卡尔曼滤波（KF）或者等效电路模型（ECM）虽然快，但在电池复杂的非线性老化面前，精度往往“差点意思”。近年来，随着深度学习的崛起， Transformer 和深度 CNN 逐渐被应用到SOH estimate领域，但在动辄几亿参数的深度学习模型面前，它们对算力资源的消耗完全不能匹配SOH对轻量化嵌入式场景的需求。

为解决上述问题，本文提出BMSFormer架构，引入本地–全局融合注意力模块，以同时建模短期与长期依赖。实验结果表明，在保持检测效率的前提下，该架构相比传统基于Softmax的注意力机制，具有更高的计算资源利用效率。下文将对其设计原理与实验结果进行分析，并给出对模型发展潜力的思考。

二、核心创新：BMSFormer 网络架构解析

论文的第二部分主要介绍了SOH估计方法的主要步骤以及三种不同电池数据集的基本信息。其中SOH估计方法架构如图1所示，分为四个步骤：数据采集、特征工程、模型训练和模型评估。

图1 SOH估计方法架构

而论文的第三部分主要介绍了BMSFormer的结构和模块，如图2，它摒弃了传统 Transformer 臃肿的结构，通过将“全局建模能力”与“局部特征感知”进行深度融合，打造了一个专门为嵌入式 BMS 定制的轻量化预测引擎。BMSFormer的架构可以被概括为三个主要立足点：特征切片、核心双驱、降维输出。实现了将计算复杂度从传统的平方级别向线性级别的跨越。

图2 BMSFormer框架示意图

2.1轻量化核心手段：多尺度深度可分卷积模块

标准卷积运算的时候需要在所有输入输出通道上运行，从而大大增加了对于时间序列数据处理所需要的计算资源和训练时间。相较于标准卷积，深度可分卷积则采取了更小尺寸的滤波器，如图3左上角所示。同时深度可分卷积将特征图分为多个通道，使之能并行进行特征提取，这不仅能够提升网络对特征提取的精准度，而且能够显著减少对计算资源的消耗。最后深度步骤的输出随后通过1×1的逐点卷积滤波器进行组合。同时配合上残差链接，缓解了反向传播中的梯度消失问题。

图3 标准卷积、标准深度可分卷积、多尺度深度可分卷积架构对比

本文的架构基于深度可分离卷积模块进行优化，提出了DSConv-S和DSConv-L两种不同深度卷积模块尺寸的网络模组，如图中右侧两组架构图所示，L型深度可分卷积模块拥有较大尺寸的DWConv网络，这能较好的提升整体特征融合和模型泛化能力，而S型则以小尺度进行扫描，为整体架构提供了像素级的特征提取能力，并提高了对局部多样性的关注敏感度。两种不同尺度的深度可分离卷积架构结合，极大地降低了模型的计算复杂度和参数量，最终实现了轻量化的效果。

2.2 计算复杂度降低方法：局部-全局融合注意力机制

传统注意力机制通常使用Softmax注意力机制，该机制的计算原理如图4所述，由于Softmax注意力机制是每一个 Query 都要去挨个询问每一个 Key的相似概率，算出一个具体的评分表，这会导致必须先把这个 N×N的矩阵全算出来，才能进行指数归一化。然而如图所示的线性注意力则，先把 Softmax 换成了可以拆分的函数，再运用矩阵乘法结合律的性质，先让 Key 和 Value 结合成一段全局摘要，再让 Query 去查。这样我们就绕过了那个恐怖的 N×N大矩阵，把计算量从平方级降到了线性级。

图4 传统注意力、线性注意力、本地-全局融合注意力机制结构对比示意图

而本文将线性注意力进行优化，如图4 (c) 所示，为了兼顾全局与局部特征，本文提出的本地-全局融合注意力机制模块在计算路径中巧妙地嵌入了小核深度可分卷积 (DSConv-S)。由于线性注意力生成的“全局摘要”往往对短期的局部波动不够敏感，而该设计利用卷积算子的“滑窗”特性，强行捕捉了数据的局部细节。这就像是在远视镜旁安装了显微镜，让模型在掌握长期老化趋势的同时，依然能看清瞬时的异常波动。最终实现了在 O(N)的线性复杂度下，同时捕捉长短期依赖的能力，显著提升了模型对复杂工况的适应性。

三、实验验证：兼顾效率和精度

为了验证BMSformer模型的实际效率，文章采用了一系列评估指标诸如 MAE（平均绝对误差）、RMSE（均方根误差）来衡量预测值和真实值的差距，用 R2来衡量预测曲线和真实曲线拟合度。实验分别采用了Oxford、NASA和CALCE三种主流电池数据集，这些数据集广为认可，来源于领先的电池研究机构，确保了实验方案的标准化和数据的可靠性。其中Oxford数据集主要用来验证模型的预测精度，其余二者则用于检验模型的鲁棒性。三者共同体现了模型轻量化与计算效率。

3.1 预测准确度与系统鲁棒性

在Oxford数据集上进行验证中，文章用CNNTransformer、Transformer、CNN-LSTM、LSTM和BMSFormer进行对比，具体验证结果如图5所示。可见，BMSFormer在Cell6的预测中展现了最小误差。并且在其他六个SOH变化相对稳定的电池（不含Cell3和Cell8）中，BMSFormer表现最佳，在八个电池的平均预测结果中排名第一

图5 Oxford数据集上不同模型的实验结果

而在NASA和CALCE两个数据集上，文章在384种不同的超参数组合下进行测试，发现BMSFormer 在多达 41 种组合下超过了 0.98，远超其他模型。如图6所示，红色代表高精度，蓝色代表低精度。可以肉眼可见地发现，BMSFormer 的高分红区最为密集，可见模型较强的鲁棒性。

图6 使用不同模型和超参数组合的验证结果

3.2 轻量化与效率表现

为了适应电池健康状态检测的轻量化场景，模型的训练消耗和硬件消耗也极为重要。为了验证模型的效率，文章采用了浮点运算、训练时间、参数量、占用存储大小四种指标进行评估。在计算效率方面，虽然基于 RNN 架构的 LSTM 凭借简单的结构拥有最短的训练时间，但其付出的代价是极其惨淡的预测精度。而在高精度模型梯队中，数据对比展现出了有趣的反差：尽管传统的 Transformer 在参数量和理论浮点运算量（FLOPs）上确实很小，但得益于深度可分离卷积（DSConv）与线性注意力（LGFA）的巧妙协同，更具决定性意义的差距体现在硬件存储消耗上（这也是端侧部署最敏感的指标）。如图 7 所示，作者将这些模型置于 12 组不同的超参数组合（G1-G12）下进行极限压力测试。柱状图清晰地揭示了一个致命痛点：如果试图通过拉大模型维度或加深层数来提升性能（例如在 G3、G6、G9 组别中），LSTM 和 CNN-LSTM 的内存占用会呈指数级飙升，直接面临显存“爆炸”的风险；相比之下，BMSFormer 的存储大小（Storage size）在各组配置下整体保持在较低水平。即使在模型维度扩增的情况下，其内存占用的增长幅度也相对平缓和可控。这种对内存消耗较为友好的特性，为该模型后续在资源受限的 BMS 硬件中进行实际部署，提供了一定的工程可行性与参考价值。

图7 五个模型在G1-G12超参数组合下的存储大小

四、总结与展望

本文介绍了BMSFormer，一种创新高效的深度学习模型，用于锂电池的在线健康状态（SOH）评估，缓解了传统方法在准确性与效率之间难以平衡的局限性。在文末提出了未来对于BMSFormer的两个展望方向：进一步优化模型架构的计算效率和计算复杂度，提升模型的泛化能力；将该网络编译部署到具体的车规级 MCU 或边缘计算芯片（如 NPU）上，与具体的硬件检测电路结合，跑通工程落地。

笔者在学习本文时也对文章进行了一定的思考，发现BMSFormer采用了纯数据驱动，这容易产生不可解释的黑盒。因此在提高模型可解释性方面，未来可以结合传统物理/电化学模型（如 ECM 等效电路模型）获取先验数据，并在损失函数中加入物理数学方程对参数训练加以引导，通过“物理规律+网络修正”，形成鲁棒性更高、抗干扰能力更强的电池监测系统。

为了方便大家查阅原文，在此附上详细的文献信息：

论文题目：BMSFormer: An efficient deep learning model for online state-of-health estimation of lithium-ion batteries under high-frequency early SOC data with strong correlated single health indicator
发表期刊：Energy (Elsevier), 2024
DOI 链接：https://doi.org/10.1016/j.energy.2024.134030

参考文献 [J] 格式：
X. Li, M. Zhao, S. Zhong, J. Li, S. Fu, Z. Yan. BMSFormer: An efficient deep learning model for online state-of-health estimation of lithium-ion batteries under high-frequency early SOC data with strong correlated single health indicator [J]. Energy, 2024, 313: 134030.

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

用PyQt5做一个桌面桌宠！（形象参考re0的爱蜜莉雅）AI对话 + 语音播报，代码已开源

AtomGit开源社区

大模型入门-大模型评估方法

本文全面梳理了大语言模型（LLM）的主流评估方法。基础评估包括文本相似度指标（BLEU、ROUGE、编辑距离）和语言模型内在性能指标（困惑度）。针对长文本处理能力，介绍了"大海捞针"测试方法。此外，重点分析了综合评测基准体系，涵盖中文/通用模型评测（SuperCLUE、C-Eval）、国际权威榜单（Open LLM Leaderboard、Chatbot Arena）以及专项能力评测（MMLU、G