Popeye: A Unified Visual-Language Model for Multi-Source Ship Detection from Remote Sensing Imagery

VimpireSC

181人浏览 · 2026-06-12 15:08:14

VimpireSC · 2026-06-12 15:08:14 发布

1.11.主要工作内容

统一标注范式（image–instruction–answer）：
把不同来源（光学/SAR）、不同标注方式（HBB/OBB）的检测任务都转换成“图像 + 指令 + 文本回答”的统一形式，实现多任务对齐。
Hybrid Experts Encoder：
提出“混合专家”视觉编码器，针对遥感图像尺度变化大、背景复杂的问题，强化多尺度、鲁棒视觉特征表示。
视觉–语言对齐（Visual-Language Alignment）：
通过跨模态对齐模块，让图像特征与语言空间充分交互，提高模型对“用自然语言描述的检测请求”的理解能力。
指令自适应机制（Instruction Adaption）：
在通用场景预训练 VLM 的基础上，引入额外可学习参数，将“自然场景知识”迁移到遥感船舶场景（领域自适应 + 指令微调）。
与 SAM 整合：
将 Segment Anything Model（SAM）无缝集成，使 Popeye 在无需额外训练的情况下支持语言驱动的像素级船舶分割。

1.1 统一标注范式

1.使用图像+指令+回答方式数据集来微调qwen大模型

MMShip
↓
YOLO标注
↓
自动转换脚本
↓
生成JSON
↓
Qwen2.5-VL微调
↓
得到舰船领域VLM

1.2 Hybrid Experts Encode

1.选择clip和dino原因

1）语义理解困难

目标外观相似，需要clip。clip在海量图文数据训练

2）细节定位困难

目标过小，模型需要使用dinov2关注边缘纹理形状结构细节。dino为自监督视觉模型

dino细节能力强原因：为vit模型，保留原有细节特征。vitpatch分块，全局局部多裁剪视图，多头注意力机制

clip语义能力强原因：图文双塔编码器、数据集4亿图文对

2.融合方式

使用concatenation方式，

Fclip ∈ R^(N×1024)

Fdino ∈ R^(N×1024)

↓

Fhybrid ∈ R^(N×2048)

优点：最大程度保留原始特征

3.多尺度拼接方式

使用多尺度为

224×224
448×448
896×896

使用Adaptive Pooling进行压缩token

自适应池化：输入特征图chw，输出为固定的chw 确保输出尺寸相同

通过输入输出尺寸自适应计算窗口和步长

4.实际流程

Hybrid Experts Encoder

=
CLIP（语义专家）
+
DINOv2（结构专家）
+
多尺度输入
+
特征拼接融合
+
MLP映射

1.3 Instruction Adaption（指令自适应）

微调：在已经具备通用图文理解能力的 VLM 上，只增加少量可训练参数，让模型适应“遥感舰船检测指令”这种新领域任务。

1.3.1 普通的vlm模型训练流程

图像提取视觉token，文本提取文本token 输入llm中

图像
↓
视觉编码器
↓
视觉特征
↓
Alignment Projection
↓
视觉 token

文本指令
↓
Tokenizer / Embedding
↓
文本 token

视觉 token + 文本 token
↓
LLM
↓
输出答案

1.3.2 数据集不同下的大模型缺点

难点

自然图像学习到的习惯自然场景回答，但无法适配专业化下场景。如：

第一，视角不同。自然图像是地面视角，遥感图像是俯视视角。

第二，目标尺度不同。遥感中的舰船可能很小，只有几十个像素。

第三，输出格式不同。普通 VLM 输出描述句子，舰船检测需要输出坐标、框、类别、数量。

第四，任务指令不同。用户不是问“这是什么”，而是问“检测所有舰船”“输出 HBB/OBB 坐标”“定位指定船只”。

如何改进？

全部微调过程繁琐成本高