红外-可见光图像融合算法的端侧部署实战：从训练到 BPU 量化推理全流程（RDK X5）

寒凰凤

405人浏览 · 2026-04-27 19:20:01

寒凰凤 · 2026-04-27 19:20:01 发布

关键词： 图像融合 · 红外可见光 · 知识蒸馏 · ONNX · BPU量化 · RDK X5 · 嵌入式AI · 边缘推理

写在前面

最近完成了一套红外-可见光图像融合算法的完整端侧部署工作，从模型设计、知识蒸馏压缩，到 ONNX 导出、BPU 量化，再到 RDK X5 板端实时推理，跑通了完整的 Pipeline。

评测基准用的是 TF-1770（1770 对红外-可见光图像对），覆盖无人机、手持等多类采集场景，全套指标（SD / MI / VIF / AG / EN / Q_abf / SF / PSNR / SSIM / CC / SCD）均有定量对比。

受限于保密要求，核心网络结构和量化细节不便公开，但整体框架和关键踩坑点可以分享。有合作意向或定制需求可直接联系，文末附联系方式。

一、任务背景

红外与可见光图像各有局限：可见光纹理细腻但在低光、烟雾场景下退化严重；红外对热目标感知能力强但纹理信息缺失。融合两者可以在单一图像中同时保留热目标显著性与场景纹理，在无人机侦察、夜视安防、工业检测等领域具有实际价值。

我们的目标是：

融合质量对标或超过 SOTA 方法（Table 4 全套指标）
模型轻量化，可在嵌入式 NPU (RDK X5上称作BPU)上实时运行（≥25 FPS）
端到端部署，不依赖服务端，延迟可控

二、整体技术路线

训练阶段（GPU 服务器）
  ├─ Teacher 网络训练（完整参数）
  ├─ Student 网络设计（轻量化结构）
  └─ 知识蒸馏（Feature / Pixel 双路蒸馏）
         ↓
导出阶段
  ├─ PyTorch → ONNX（opset 11，动态/静态尺寸）
  └─ ONNX 验证（onnxruntime CPU/GPU 对齐）
         ↓
量化阶段（地平线工具链）
  ├─ 校准数据准备（均匀采样真实场景）
  ├─ PTQ 量化（int8）
  └─ bin 模型编译 → RDK X5 BPU 格式
         ↓
板端部署（RDK X5 / BPU）
  └─ Python / C++ 推理 · 实时 Pipeline

三、模型压缩策略

3.1 知识蒸馏

Teacher 网络参数量较大，直接部署到嵌入式设备延迟不可接受。我们设计了一个轻量 Student 网络，通过多层次特征蒸馏将 Teacher 的融合能力迁移至 Student：

Feature-level 蒸馏：中间特征图的 L2 对齐
Pixel-level 蒸馏：输出图像的感知损失（Perceptual Loss）
最终 Student 模型 ≈1.34 MB（FP32 权重），BPU 量化后进一步压缩

3.2 量化适配

BPU 对算子支持有明确约束，部分自定义激活函数、非标准 Resize 算子需要替换。我们经历了若干轮算子兼容性排查：

将自定义激活替换为 BPU 原生支持算子
Resize 统一为双线性插值 + 对齐 corners 模式
逐层检查 scale 分布，对异常层做针对性 clip 处理

四、评测结果（TF-1770 基准）

评测在两套硬件上独立跑完：

指标	FF-Fusion (BPU · RDK X5)	FF-Fusion (FP32 · 2080 Ti)
SD	38.45	39.40
MI	1.84	2.81
VIF	0.34	0.63
AG	7.73	5.79
EN	6.72	6.68
Q_abf	0.3546	0.5254
SF	21.54	15.37
PSNR	66.83	66.75
SSIM	0.4378	0.6142
CC	0.7326	0.7506
SCD	0.8119	0.9726
延迟	~12.5 ms	~335 ms (CPU-ONNX)
FPS	~80	~3 (CPU-ONNX)