Cross-Modal Retrieval from Coarse-Grained to Fine-Grained Perspectives: A Survey

thesky123456

552人浏览 · 2026-03-28 09:00:00

thesky123456 · 2026-03-28 09:00:00 发布

这篇由北京大学王选计算机技术研究所彭宇新教授团队发表于《Journal of Computer Science and Technology》的综述论文，针对现有跨模态检索（CMR）研究中分类体系过时、细粒度任务覆盖不足、新兴模型影响未充分体现等问题，提出了以 “检索粒度” 为核心的统一分类框架，系统梳理了粗粒度（CCMR）与细粒度（FCMR）跨模态检索的最新进展，涵盖主流方法、数据集、性能对比及应用场景，为该领域提供了全面且前沿的学术参考。

一、研究背景与核心问题

1. 跨模态检索的定义与价值

跨模态检索（CMR）是多媒体理解与推荐系统的核心技术，旨在跨越图像、视频、文本等异质模态的语义鸿沟，根据查询需求检索目标模态信息（如文本查图像、文本查视频）。其核心目标是解决 “异质模态语义对齐” 问题 —— 早期依赖统计相关性分析，现有方法多通过深度学习将不同模态映射到共享特征空间，但仍面临 “难负样本区分” 的关键挑战（即区分视觉相似但语义不同的样本）。

2. 现有研究的局限

传统综述存在三大短板：

分类体系僵化：多以 “方法类型” 为分类依据，忽略检索目标的粒度差异，且聚焦粗粒度任务，忽视细粒度需求；
新兴模型覆盖不足：未充分纳入视觉 - 语言预训练（VLP）模型（如 CLIP）和多模态大语言模型（MLLMs）的突破性影响；
任务关联性割裂：将图像文本检索、图像接地、视频时序接地等任务孤立分析，未揭示其内在联系。

3. 核心创新点

论文提出以 “检索粒度” 为核心的统一分类框架，首次将 CMR 明确划分为粗粒度（CCMR） 和细粒度（FCMR） 两大分支，整合检索与接地类任务，系统分析 VLP 和 MLLMs 的应用价值，填补了现有综述的空白。

二、分类框架：粗粒度与细粒度跨模态检索

1. 分类逻辑与核心区别

分类的核心依据是 “检索目标的语义 / 空间粒度”，两者在任务目标、挑战、模型选择上存在本质差异：

表格

维度	粗粒度跨模态检索（CCMR）	细粒度跨模态检索（FCMR）
核心目标	检索完整实例（如整张图像、完整视频）	检索子类别或实例局部（如特定鸟类、图像区域、视频片段）
典型任务	图像 - 文本检索（ITR）、视频 - 文本检索（VTR）	子类别检索、图像接地（IG）、视频时序接地（VTG）
关键挑战	全局语义匹配，区分不同实例的整体差异	局部语义对齐，处理高内类方差、低类间方差的细粒度差异
模型偏好	注重效率，常用哈希编码、双编码器架构	注重精度，常用 MLLMs、局部对齐机制
数据标注需求	实例级配对标注（如图文对）	细粒度标注（如边界框、子类别标签）或弱监督标注

2. 任务细分与示例

（1）粗粒度跨模态检索（CCMR）

聚焦完整实例的全局匹配，主要包括 4 类任务：

图像 - 文本检索（ITR）：文本描述检索对应图像（如 “雪地里玩耍的女孩” 检索相关图像）；
视频 - 文本检索（VTR）：文本查询检索对应视频（如 “大象行走” 检索相关视频）；
组合检索：参考视觉输入 + 文本修改指令检索目标（如 “参考这张红色裙子图像，检索蓝色版本”）；
多模态检索：扩展至音频、3D 点云等模态（如音频 - 文本检索、文本 - 3D 模型检索）。

（2）细粒度跨模态检索（FCMR）

聚焦更精细的语义或空间目标，分为 2 类核心任务：

子类别级检索：检索特定细分子类别实例（如同属 “鸟类” 的 “加州鸥”，同属 “汽车” 的 “沃尔沃 850 轿车”），需区分视觉相似的不同子类别；
实例局部检索：检索实例的空间 / 时序局部（图像接地定位图像区域，如 “中间最小的大象”；视频时序接地定位片段，如 “黄棕色狗吃雪的片段”）。

3. 任务内在关联

统一性：均以 “跨模态语义对齐” 为核心，依赖 VLP 模型提供基础表征，本质是 “从候选集中检索最相关目标”；
互补性：CCMR 通过局部对齐增强全局匹配精度，FCMR 通过 CCMR 过滤无关实例（如子类别检索先筛选超级类）或转化任务（如两阶段图像接地将局部定位转化为候选区域的粗粒度匹配）。

三、主流方法体系

论文按 “检索粒度 + 技术范式” 梳理了 CCMR 和 FCMR 的核心方法，重点分析非 VLP、VLP、MLLM 三大技术路线的特点与代表性模型。

1. 粗粒度跨模态检索（CCMR）方法

（1）图像 - 文本检索（ITR）

非 VLP 方法：分为全局对齐（如 ESSE 通过扇形嵌入捕捉一对多语义对应）和局部对齐（如 3SHNet 通过视觉语义 - 空间自高亮实现细粒度交互），部分结合哈希编码提升效率（如 DIMCH 的多对多对齐哈希框架）；
VLP 方法：采用 “预训练 - 微调” 范式，CLIP 为基础模型，通过多视图学习（MV-VSE++）、知识蒸馏（USER）等优化，兼顾泛化性与任务适配性，是当前主流范式。

（2）视频 - 文本检索（VTR）

非 VLP 方法：聚焦视频时序特征提取与跨模态融合（如 LEAN 构建多模态超图建模语义块关系）；
VLP 方法：以 CLIP 为基础，通过提示调优（DGL）、多粒度特征融合（JM-CLIP）、语义标签预筛选（M3T-PS）提升效率与精度，平衡计算成本与性能。

（3）组合检索与多模态检索

组合检索：通过语言仅训练（LinCIR）、LLM 辅助查询理解（CoLLM）实现参考输入 + 文本修改的灵活检索；
多模态检索：针对音频、3D 等模态，采用对比学习（ELRCMR）、图神经网络（GNN4CMR）、模态质量自适应加权（DRCL）解决异质特征对齐与噪声鲁棒性问题。

2. 细粒度跨模态检索（FCMR）方法

（1）子类别级检索

非 VLP 方法：分为定位型（如 CRL 通过弱监督显著性提示提取判别区域）和度量学习型（如 HIST 通过超图语义三元组损失优化嵌入空间）；
VLP 方法：增强 CLIP 的细粒度对齐能力（如 FineCLIP 通过区域对比学习与自蒸馏，FineLIP 扩展长文本建模），或构建多模态参考（MMRef）弥补文本描述不足。

（2）实例局部检索

图像接地（IG）：
- 非 VLP 方法：两阶段（DDPN 生成多样化候选区域）、一阶段（MCN 联合理解与分割）、Transformer-based（TransVG++ 纯 Transformer 架构）；
- VLP 方法：通过低秩适配（HiVG）、掩码参考建模（OneRef）优化预训练模型的接地适配性；
- MLLM 方法：利用大模型推理能力（如 Shikra 将坐标作为词汇，CogVLM 插入视觉专家模块），支持开放词汇与复杂指令理解；
视频时序接地（VTG）：
- 非 VLP 方法：两阶段（SAP 基于视觉 - 语义相关性生成候选片段）、一阶段（UniVTG 统一标签格式实现大规模预训练）；
- MLLM 方法：分为预训练型（TimeChat 构建时序标注数据集）和无训练型（ChatVTG 通过对话生成片段描述匹配查询），零样本性能突出。

（3）弱监督方法

针对细粒度标注成本高的问题，通过粗粒度标注训练细粒度能力：如图像接地的 CPL 利用预训练模型生成区域描述，视频时序接地的 CNM 通过高斯掩码生成候选片段。

四、数据集与评估体系

1. 核心数据集统计

论文汇总了 15 + 主流数据集，覆盖不同任务与模态，关键信息如下：

表格

任务类型	代表性数据集	规模（实例数）	模态组合	核心特点
图像 - 文本检索	MS COCO	12.3 万	图像 + 文本	80 个类别，5 句 / 图标注
	Flickr30k	3.18 万	图像 + 文本	场景丰富，支持接地任务扩展
视频 - 文本检索	MSR-VTT	1 万	视频 + 文本	20 万句标注，1K 测试集常用
	ActivityNet Captions	2 万	视频 + 文本	长视频，平均片段 36.2 秒
图像接地	RefCOCO 系列	5 万（物体数）	图像 + 参考文本	支持人机、物体接地细分场景
视频时序接地	Charades-STA	6.6 万（视频数）	视频 + 文本	短片段为主，平均 8.1 秒
细粒度子类别检索	CUB-200-2011	1.18 万	图像 + 文本	200 种鸟类，细粒度差异显著
	PKU FG-XMedia	5.01 万	多模态（4 种）	200 个细粒度类别，跨模态检索

2. 评估指标

CCMR 核心指标：Recall@K（前 K 结果中正确实例占比）、mAP（平均精度，评估排序质量）、MdR/MnR（中位 / 平均排名，越低越好）；
FCMR 核心指标：IoU@m（交并比，图像 / 视频接地任务，m 取 0.3/0.5/0.7）、Recall@K（子类别检索）。

四、性能对比与关键发现

1. CCMR 性能对比

图像 - 文本检索：VLP 方法全面超越非 VLP，BLIP-2 在 Flickr30k 的文本查图像 Recall@1 达 89.7%，哈希方法（如 DIMCH）在 16 位编码下 mAP 达 77.51%，适合大规模场景；
视频 - 文本检索：CLIP 衍生模型表现突出，JM-CLIP 在 MSR-VTT 的文本查视频 Recall@1 达 62.5%，MdR 仅 1.0，平衡精度与效率；
多模态检索：DRCL 通过模态质量自适应加权，在 PKU XMedia 的平均 mAP 达 0.662，显著优于传统方法。

2. FCMR 性能对比

子类别检索：AdvRF 在 CUB-200-2011 的 Recall@1 达 88.0%，LAGC-MMC 在 PKU FG-XMedia 的多模态检索平均 mAP 达 0.622；
图像接地：MLLM 方法领先，Ferret-v2-13B 在 RefCOCO 的 IoU@0.5 达 92.64%，OneRef（VLP）达 92.87%，弱监督方法 CPL 接近部分全监督性能；
视频时序接地：Time-R1（MLLM）在 Charades-STA 的 IoU@0.5 达 72.2%，弱监督方法 PPS 的 IoU@0.3 达 69.06%，接近早期全监督水平。

3. 关键发现

VLP 模型是基础：CLIP 等模型为两类检索提供统一表征，其泛化性降低任务适配成本；
MLLM 优势在 FCMR：因计算成本高，MLLM 仅适用于实例级局部检索（如单图像 / 视频），但开放词汇与推理能力显著提升零样本性能；
细粒度方法依赖局部对齐：子类别检索与局部检索均需强化模态内局部特征交互，单纯全局对齐无法区分细微差异。

五、应用场景与未来方向

1. 核心应用

数字电商：支持文本 / 语音查询商品图像 / 视频，提升搜索直观性；
身份检索：通过外貌、行为描述从监控视频中定位特定人物；
智能内容创作：通过自然语言描述检索素材（如 “山巅日落暖光” 的图片 / 视频片段），优化创作流程。

2. 未来研究方向

开放域细粒度检索：突破封闭数据集限制，减少对细粒度标注的依赖，实现任意子类别的跨模态检索；
统一多模态基础模型：构建支持任意模态、任意粒度检索的通用框架，整合理解、检索、生成能力；
数据驱动革命：优化数据集筛选与合成（如 LLM 生成高质量标注），设计衡量 “概念丰富度”“难负样本分布” 的数据集评估指标；
用户中心检索：引入交互反馈机制，动态优化查询意图与检索结果，提升用户适配性；
新兴模态拓展：将检索扩展至机器人视觉 - 动作、自动驾驶多传感器（相机 + 激光雷达）、医疗多模态（EEG+MRI）等场景。

六、总结

该综述以 “检索粒度” 为核心重构了跨模态检索的分类体系，首次系统整合粗粒度与细粒度任务，全面覆盖非 VLP、VLP、MLLM 三大技术路线，通过数据集统计、性能对比揭示了领域发展规律。其核心贡献在于：明确了任务内在关联，凸显了新兴模型的应用价值，为研究者提供了清晰的学术地图，同时指出的开放域检索、统一基础模型等方向，为该领域的未来发展提供了关键指引。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

大模型AI测评｜算法优化迭代场景GPT-4与Claude3.5技术实测横评

AtomGit开源社区

GXUST AI通识课 1

在传统认知中，微信无法直接对接AI大模型实现智能自动回复。本次依托Wechaty 开源微信机器人框架，结合AI提示词工程优化技巧，完成了AI大模型接入微信的完整实战开发。本项目实现功能：微信扫码登录、长连接在线监听消息过滤自身消息、无效消息，避免无效响应对接主流AI大模型，实现私聊智能自动回复代码轻量化、适配新手部署，带完整异常处理同时本次实战严格按照课程要求，完整记录提示词设计优化过程、项目成果