DeepImageSearch翻译

nopSled

36人浏览 · 2026-04-25 14:58:48

nopSled · 2026-04-25 14:58:48 发布

⚠️ 在开始阅读之前，如果你对 实时 Agent / 数字人 / 多模态系统 / LiveKit 架构 感兴趣，
欢迎先到 GitHub 给项目点一个 ⭐ Star，这是对开源作者最大的支持。

🚀 AlphaAvatar 项目地址（强烈建议先收藏，该项目正在持续更新维护）：
👉 https://github.com/AlphaAvatar/AlphaAvatar
🚀 AIPapers 项目地址（具有更全的有关LLM/Agent/Speech/Visual/Omni论文分类）：
👉 https://github.com/AlphaAvatar/AIPaperNotes

摘要

现有的多模态检索系统在语义匹配方面表现出色，但它们隐含地假设 query-image 的相关性可以独立衡量。这种范式忽略了真实视觉流中固有的丰富依赖关系，其中信息分布在时间序列中，而非局限于单个快照。为了弥补这一不足，我们引入了DeepImageSearch，一种新的智能体范式，它将图像检索重新定义为一个自主探索任务。模型必须规划并对原始视觉历史进行多步骤推理，以基于隐式上下文线索定位目标。我们构建了 DISBench，这是一个基于互连视觉数据构建的具有挑战性的基准测试。为了解决创建上下文相关 query 的可扩展性挑战，我们提出了一种人机协作流程，该流程利用视觉语言模型挖掘潜在的时空关联，从而有效地将密集的上下文发现工作卸载到人工验证之前。此外，我们使用配备细粒度工具和用于长时域导航的双记忆系统的模块化智能体框架构建了一个稳健的基线。大量实验表明，DISBench 对最先进的模型提出了重大挑战，凸显了将智能推理融入下一代检索系统的必要性。

1.介绍

在这里插入图片描述

图像检索是信息访问的基础机制，使用户能够高效地在大型存储库（从网络规模的数据库到个人相册）中查找视觉内容。随着视觉语言模型（VLM）的发展，该领域取得了长足的进步，模型在匹配各种模态的项目方面展现出越来越强大的能力。这些模型的主流范式依赖于独立实例匹配。它衡量 query 与每个候选对象之间的语义相关性。

然而，这种范式在处理无法通过单一视觉嵌入完全捕捉的复杂用户意图时面临着巨大的挑战。近年来，推理密集型或智能体方法通过使用语言模型分解查询或整合外部知识来优化搜索目标，从而克服了这一局限性（如图 1(b) 所示，模型根据球员姓名推断出特定的球衣号码）。虽然这些方法提高了语义理解能力，但它们仍然基于独立匹配的假设，即一旦文本意图明确，目标图像就可以单独识别。然而，在现实中，用户意图通常需要分布在时间或因果图像序列中的信息，这就需要将文本和视觉证据交织在一起进行推理。例如，如图 1© 所示，用户正在搜索“只有主唱出现在舞台上”的演唱会照片。用户的照片库中可能包含大量视觉上相似的演唱会照片，而目标图像本身缺乏可用于验证特定事件的独特特征。然而，如果用户回忆起活动现场的“蓝白相间的活动标志”，这条线索可以作为锚点，首先识别出正确的活动，然后才能找到目标。关键在于，解决此查询所需的证据（标志）和目标（歌手）出现在不同的图像中。由于仅凭外观无法区分目标，模型必须执行语料库级别的上下文推理：主动探索并关联语料库中分散的视觉证据。与静态知识检索不同，这种动态能力在现有基准测试中仍未得到充分探索。

为了克服这一局限性，我们提出了 DeepImageSearch，一种将图像检索重新定义为主动探索任务的新型范式。与使用静态语料库进行被动排序的传统方法不同，DeepImageSearch 要求模型通过主动探索来发现数据本身蕴含的潜在逻辑结构。在这种范式下，模型必须自主规划搜索轨迹，协调细粒度的感知工具，并将分散的线索连接起来构建证据链。这使得检索从一次性匹配任务转变为多步骤推理过程，从而弥合了复杂用户查询与精确目标之间的鸿沟。

构建此类基准测试面临着巨大的可扩展性挑战：创建上下文相关的 query 需要标注者在海量数据集中识别细微的跨事件关联，这给人工处理带来了沉重的认知负担。为了解决这个问题，我们引入了一种人机协作流程，将耗时的上下文发现工作交给模型完成。具体来说，我们利用视觉语言模型解析视觉历史并构建时空记忆图，自动挖掘重复出现的线索和潜在的推理路径。然后，由人工标注者对这些候选结果进行验证和完善。这种方法产生了 DeepImageSearch-Bench（简称 DISBench），这是首个专门用于此任务的大规模基准测试，有效地平衡了推理深度和标注效率。

为了支持未来对该任务的研究，我们设计了一个基线 Agent 框架，其中包含专为视觉历史探索量身定制的工具和记忆机制。在 DISBench 上对最先进的多模态模型进行基准测试，结果显示存在显著的性能差距。性能最佳的模型仅获得了 28.7 的 EM 分数，而传统检索基准测试的结果几乎达到了上限。误差分析表明，现有模型在长时域探索方面仍然面临挑战，经常会丢失推理状态或无法发现跨事件关联。这些发现证实，语料库层面的上下文推理仍然是一个尚未解决的关键问题，这使得 DISBench 成为推进该方向研究的重要测试平台。

我们的贡献可以概括如下：

我们提出了一种名为 DeepImageSearch 的全新范式，它将图像检索从独立匹配重构为基于视觉历史的上下文相关推理。
我们构建了 DISBench，这是该任务的首个基准测试平台。DISBench 通过人机协作流程构建，确保了推理深度和数据质量。
我们开发了一个专门的智能体框架，并进行了大量实验，揭示了长时域探索中的关键能力差距，并为未来的研究建立了一个稳健的基准。

2.Related Work

2.1 Multimodal Retrieval and Benchmarks

多模态表征学习从基本的视觉-文本对齐发展到高级的多模态基础架构，重塑了检索技术。为了评估这些能力，人们建立了广泛的基准测试，评估范围从纯粹的语义匹配扩展到各种场景，例如复杂的组合理解和时序视频检索。然而，大多数现有的基准测试独立地评估 queyr 与目标的关联性，忽略了数据内部的结构化关联。DeepImageSearch 通过要求对视觉历史进行语料库级别的上下文推理来解决这一局限性。

2.2 Benchmarking Multimodal Agents

多模态智能体在复杂的交互任务中展现出了强大的规划和推理能力。相应地，一系列基准测试被提出用于评估这些能力，涵盖网络搜索、图形用户界面操作、游戏和具身智能等领域，有效地推动了该领域的快速发展。然而，这些基准测试尚未探索图像检索场景，而图像检索本身就需要智能体的推理能力。DeepImageSearch 代表了图像检索的一个新阶段，在这个阶段，如果不进行多步骤的语料库上下文探索，就无法识别目标图像，这使得智能体能力成为必不可少的要素，而非辅助手段。

3.DISBench: The Proposed Dataset

3.1 Task Formulation

我们将 DeepImageSearch 形式化为一个上下文感知的集合检索任务。给定用户按时间顺序排列的视觉历史记录 $C={I1,I2,...,IN}\mathcal C = \{I_1, I_2, ..., I_N\}$ ，每张图像 $I_i = (v_i, m_i)$ 包含视觉内容 $v_i$ 和元数据 $m_i$ ，其中元数据包括时间戳和 GPS 坐标。当接收到自然语言 query $Q\mathcal Q$ 时，系统会预测一个目标子集 $R⊆C\mathcal R ⊆ \mathcal C$ ，其中包含所有满足 query $Q\mathcal Q$ 的图像。与传统检索独立地对每张图像进行评分不同，我们的任务需要对 $P(R∣Q,C)P(\mathcal R|\mathcal Q, \mathcal C)$ 进行建模，其中每张图像的相关性可能取决于 $C\mathcal C$ 中的其他图像。

我们基准测试中的所有 query 均为纯文本，但此设计涵盖了用户提供参考图像的场景。我们将此类视觉参考转换为文本描述，要求模型首先在语料库中找到这些视觉锚点，然后才能进行时空推理。例如，如果 query 提及“带有蓝白标志的音乐会”，则模型需要先检索包含该标志的图像，然后将其用作推理的锚点。这增加了任务难度，防止模型通过直接视觉匹配来绕过探索过程。

3.2 Dataset Criteria and Source

在这里插入图片描述

我们的任务评估语料库层面的上下文推理能力，这要求模型能够发现图像间的潜在关联，从而解决独立语义匹配无法处理的问题。基于这一核心能力，我们将 query 分为两类，如图 2 所示。事件内查询需要先定位到特定事件，然后筛选出该事件中的目标图像。例如，用户搜索只有主唱在台上的演唱会照片时，必须先通过记忆中的标志识别出正确的演唱会，然后从该演唱会中选择符合条件的图像。事件间查询则需要扫描多个事件，以找到满足时间或空间约束的重复元素。例如，要找到半年内不同旅行中出现的特定雕像照片，需要比较时间线上的候选照片并验证它们的重复出现。

支持这两种查询类型对数据特征提出了要求。语料库必须展现时间连续性和以用户为中心的连贯性，即相同的实体在不同事件中重复出现，从而实现事件级定位和跨事件关联发现。与聚合来自不同来源的离散图像的检索基准不同，我们基于 YFCC100M 构建基准，该数据集自然地保留了用户、照片集和照片的层级结构。照片集指的是用户在上传过程中分组的照片集合，通常对应于单个事件，例如音乐会或旅行。这种结构为自动构建 query 提供了事件的真实边界，但在评估过程中对模型完全不可见，迫使模型自主发现事件。我们不断积累完整的照片集，直到每个用户的照片数量达到 2000 张，模拟了多年视觉历史的真实记忆搜索，同时确保了跨事件关联的足够规模。

3.3 Context Mining and Query Synthesis

在这里插入图片描述

构建上下文相关的 query 需要识别数千张图像之间的关联，这给人工标注者带来了巨大的认知负担。为了应对这一挑战，我们提出了一种半自动化流程，将上下文发现任务交给视觉语言模型，同时将人工工作保留给验证人员。如图 3 所示，我们的流程包含四个阶段。下文将对每个阶段进行描述，并在附录 C 中提供详细信息。

Visual Semantic Parsing。我们首先采用视觉语言模型解析每张图像及其元数据和照片集上下文。该模型提取视觉线索，这些线索被定义为表征场景独特性的特定实体，例如显著地标、突出物体或可见文本。对于人物身份识别，我们使用人脸检测和聚类来追踪重复出现的人物，然后提示模型描述当前帧中每个人的属性。此阶段为每张图像生成结构化描述，包括视觉摘要、视觉线索列表和人物状态，这些描述作为挖掘跨图像关联的原始素材。

Latent Association Mining。核心挑战在于发现提取出的线索在空间和时间上的潜在关联。我们提出了一种高效的检索验证流程，以避免繁琐的成对比较。对于每个视觉线索，我们将其源图像和文本描述编码成一个 query 向量，然后从源图像集内外检索 top-k 个候选图像。这种混合策略确保了长程关联不会被短期视觉重复所掩盖。检索到的候选图像进入验证阶段，其中视觉语言模型判断每个候选图像是否包含与源图像相同的视觉线索。这一步骤过滤掉视觉上相似但语义上无关的假阳性结果，从而得到高置信度的关联链接。

Memory Graph Construction。我们将提取的实体和已验证的关联组织成一个异构记忆图 $G=(V,E)\mathcal G = (\mathcal V, \mathcal E)$ 。

该图包含四种节点类型：作为原子视觉单元的照片节点、用于事件级上下文的照片集节点、用于细粒度实体的视觉线索节点以及用于通过人脸聚类追踪的人类身份的人物节点。
边集 $E\mathcal E$ 包含两类关系。结构边将每个照片集与其包含的照片节点连接起来，并将每张照片与其关联的视觉线索节点和人物节点连接起来，从而捕获成员关系和包含关系。关联边将视觉线索节点直接连接到同一实体再次出现的目标照片节点，每条边都带有解释连接理由的自然语言描述。这种结构展现了一种连接模式：同一事件内的节点通过其共享的照片集节点自然聚类，而跨事件的连接则完全依赖于视觉线索之间的关联边。因此，该记忆图明确地捕获了视觉历史的碎片化特性，并为后续阶段采样跨事件推理路径建立了拓扑基础。

Subgraph Sampling and Query Synthesis。由于完整的记忆图过于庞大，无法直接构建 query，因此我们对有意义的局部子图进行采样。从一个随机选择的照片节点开始，我们通过均匀采样边类型，然后采样所选类型的边，迭代地扩展子图。这种策略平衡了事件内部的边密度和事件间的关联性。当边数达到预定义的限制时，采样终止，之后我们会添加任何缺失的照片集节点，以确保事件上下文的完整性。对于 qeury 合成，我们将采样的子图序列化为包含节点属性和关联理由的结构化文本。我们引导视觉语言模型构建需要对事件上下文、人物身份和物体特征进行多步骤推理的 query。query 构建确保目标具有视觉歧义性，其可识别性源于上下文关联而非独特的外观。我们还检索了提及实体的外部知识，以生成用于人工验证的释义替代方案。

3.4 Human Verification and Refinement

我们组建了一支由七位计算机科学专业人士组成的标注团队，所有成员均拥有硕士及以上学位。标注人员使用专用的检索界面，该界面支持多模态搜索、时空过滤和基于事件的浏览。验证过程分为四个阶段。

(1) 质量过滤。标注人员首先检查候选 query 的正确性，验证引用的线索是否存在以及推理链是否逻辑有效。然后，标注人员评估难度，确保 query 无法通过直接语义匹配解决。具体而言，我们要求语料库包含视觉上与目标图像相似的干扰项，这些干扰项仅凭外观无法与目标图像区分，并且解决这种歧义需要基于事件或时间信息的上下文推理。此标准强制执行多步骤探索，而非一次性检索。应用这些严格的标准，我们从 2000 个候选 query 中保留了 122 个，保留率为 6.1%。

(2) 详尽的目标标注。对于保留的 query，标注人员通过系统探索识别所有符合条件的图像。他们采用多模态检索方法，在语料库中定位视觉上相似的候选图像，然后应用元数据过滤器和事件级检查来验证每个候选图像是否满足 query 约束。此过程确保不会因图像与非目标图像的视觉相似性而遗漏任何合格的图像。

(3) 语言优化。标注者进一步优化 query 语言，以提高其自然性和流畅性。必要时，他们会改写实体引用或重构描述，以增加检索难度，同时保留原始意图。

(4) 交叉验证。为确保标注质量，不同的标注者独立地对同一 query 的目标图像集进行标注。我们计算他们标注结果的交并比 (IoU) 来衡量一致性。平均 IoU 达到 0.91，表明一致性很高。所有分歧情况均由两位原始标注者和第三位标注者共同讨论解决。

3.5 Dataset Statistics

在这里插入图片描述

图 4 总结了 DISBench 的统计数据。该基准测试包含 122 个 query，分布在 57 位用户和 109,467 张照片中，每位用户的视觉历史记录平均跨越 3.4 年。每个 query 平均针对 3.84 张图像，模型必须在事先不知道预期图像数量的情况下识别所有符合条件的图像。我们根据 query 的推理模式将其分为两类。事件内查询 (46.7%) 需要首先通过上下文线索定位特定事件，然后检索该事件中的目标图像。事件间查询 (53.3%) 需要收集和比较多个不同事件的证据。这两种类型的查询都与传统的检索范式截然不同，因为它们都无法通过查询和单个图像之间的直接语义匹配来解决。图 4(b) 显示，目标图像涵盖了多种主题，包括肖像和人物（41.8%）、自然景观（18.9%）、日常用品（14.8%）以及风景名胜和建筑（11.5%），反映了现实世界视觉记忆的多样性。由于智能体推理具有开放性，单个 query 可能存在多条有效路径，因此我们不预设固定的推理步骤。

4.ImageSeeker: An Agentic Framework

为了支持对这项新任务的研究，我们设计了 ImageSeeker，一个简单而有效的基线 Agent 框架。这项任务带来了独特的挑战，这些挑战也影响了我们的设计。首先，Agent 必须通过语义检索、元数据推理和视觉验证相结合的方式来探索大型照片集，这需要一套协调的工具集。其次，回答单个查询可能涉及多个交互步骤，而处理大量图像会迅速耗尽上下文限制，因此需要 memory 机制来维护推理状态并管理上下文长度。我们的框架通过有针对性的工具和 memory 设计来应对这些挑战，并为未来的工作提供了借鉴。规划过程通过结构化 prompt 来实现，该 prompt 指导 query 分解和约束识别。我们将在下文中描述每个组件，并在附录 D 中提供完整的实现细节。

Tools for Visual History Navigation。探索视觉历史需要三个核心能力：从大型图库中检索相关照片、利用元数据进行精确约束以及执行细粒度的视觉验证。我们为每项能力都设计了相应的工具。对于检索，ImageSearch 接受文本、图像或交错 query，并返回语义相似的照片。对于元数据操作，GetMetadata 读取指定照片的时间戳和地址，而 FilterMetadata 选择满足时间或空间条件的照片。对于视觉验证，ViewPhotos 将照片注入到智能体的上下文中以供直接检查。此外，我们还提供了 WebSearch，用于解析用户查询中可能出现的外部实体。由于没有单一工具可以回答复杂的查询，智能体必须组合这些操作来构建推理路径。为了支持这一点，ImageSearch 和 FilterMetadata 允许智能体将结果保存为命名的照片子集，并在这些子集中执行后续的检索或筛选操作。例如，智能体可以先筛选出特定月份的所有照片，将其保存为一个子集，然后在该子集中搜索包含特定对象的照片。

Memory Mechanisms。我们设计了两种互补的记忆机制来支持多步骤推理。第一种是通过照片子集实现的显式状态记忆。由于查询需要迭代探索，每一步都建立在先前发现的基础上，因此智能体需要持久化中间结果。如上所述，智能体可以将检索或过滤结果保存为命名变量。这些子集在推理步骤中持续存在，并支持约束搜索和交集等操作，从而允许智能体缩小候选范围。第二种是压缩上下文记忆。由于此任务中的推理路径可能跨越多个步骤，不断增长的交互历史记录可能会超过上下文长度限制。我们通过在达到长度阈值时将历史记录概括为两个部分来解决这个问题。会话记忆保留高级目标和关键发现，而工作记忆记录当前子目标和计划。这种分离在上下文约束下既能保持全局方向，又能保持局部状态。