周报6.7

koo364

259人浏览 · 2026-06-07 21:00:00

koo364 · 2026-06-07 21:00:00 发布

AffordanceLLM: Grounding Affordance from Vision Language Models

1. 摘要 (Abstract) 与核心贡献 (Core Contribution)

一句话总结：本文提出了一种基于视觉语言模型（Vision Language Model, VLM）的Affordance定位方法——AffordanceLLM，通过从高质量预训练模型中挖掘出的丰富世界知识和3D信息推理，实现了在未知对象和未知动作上的强大泛化能力，特别是在AGD20K数据集上取得了显著的性能突破。
贡献列表：
1. 提出了一种全新的Affordance定位方式：AffordanceLLM不依赖于传统监督方案，而是利用VLM预训练知识与图像信息的联合推理能力，这正是对“Accordance grounding”的创造性拓展。
2. 引入3D信息与深度获取技术：通过估计伪深度（pseudo depth）增强视觉输入，显著提升了Affordance的个性化属性定位能力。
3. 构建了细分任务下的泛化模型评估：通过“Same / Easy / Hard / Random”的拆分方式，展示了模型在不同泛化压力下的性能差异，并试图量化泛化难度。这一设计首次为视觉推理项目带来了“任务难度”等级评估。
4. 探索模型提升路径：通过消融实验揭示了文本提示、视觉编码器与3D深度在Affordance推理中的独立贡献，为改进后续模型提供了直接的实验指导。

2. 引言 (Introduction)：问题背景与研究动机

问题定义：Affordance定位任务要求模型在输入图像和文本描述的指导下，找到能够执行某特定交互行为的对象区域，这是机器人自主行为识别和推理的核心环节。其对标准图像识别的推广与扩展性研究至关重要。
现有方法的局限：
- 传统基于监督的Affordance定位方法（如LOCATE、3DOI、Cross-View-AG等）虽然在部分任务上表现出色，但在面对“未见过的场景（wild）”时的泛化性能显著不足。
- 部分任务要求波特级的知识推理能力（如物体功能关系、动作关联），但现有的方法通常依赖于**
  物体特征的逐像素分割**，忽略了哪些功能是由可交互区域驱动的。
本文思路：通过将VLM的抽象世界知识（如手势、场景结构、交互的物理约束）与图像输入信息（如RGB和伪深度）进行联合建模，AffordanceLLM不仅实现了泛化的任务解决，还通过深度信息降低对视觉特征的依赖。它创造性地将视觉编码、文本策略与几何推理融合在一起，因此在泛化性能、负样本处理、无监督学习落地等方面颠覆了传统方法的思维路径。

3. 方法论深度解析 (In-depth Methodological Analysis)

3.1 整体架构 (Overall Architecture)

AffordanceLLM的总体架构如图3所示，其核心是一个多模态框架，融合了视觉特征提取（仅在输入图像上）、文本逻辑推理（用于指引模型作决策）和3D几何建模（提供背景信息与动态交互线索）。
- 输入：一张具有预处理伪深度信息的图像，以及一个文本提示（如“how to push the motorcycle?”）。
- 视觉编码器：基于OWL-ViT模型，增强了对图像中不同物体的显式捕捉能力和排序性能。
- 文本注解：编码目标文本（如“how to hold the knife?”）为注意力导向的词向量序列，这些向量将用于激活VLM的隐含知识。
- 解码器：是一个经过优化的Transformer解码器，它根据视觉和文本信息，生成区域关注热图（affordance map），并 максимально 精确地反映视觉引导的真正可交互区域。
- 装饰标志（）：这是作者的一个核心设计，通过一个特殊的标记将文本推理引入到图像特征中，使得模型能在没有具体监督下的场景中得到有效感知。
整体设计原理为：将视觉信息、文本语义和3D几何信息整合到统一的视觉-语言-空间映射中，这不仅提升了当前任务表现，也为更复杂的场景关系推理做了铺垫。
3.2 核心组件/模块拆解 (Core Component Breakdown)
- 组件1：VLM作为知识基础
  - 输入：用户提供的Query语句。
  - 处理方式：使用LLaVA-7B进行预训练，它已包含了多个基于文本的特征，在“功能”理解上具有优势。
  - 输出：它不仅仅预测动作实现，更通过一个特殊的mask token机制评估并调整物体与动作的关系。
- 组件2：图像与深度输入编码
  - 输入：图像与伪深度信息（DPT生成）。
  - 处理方式：利用相同的编码器结构提取两个模态的特征，并将它们融合至LLM中。通过扩展一个模型，将视觉深度与语义构建为一体的蹄子，使得模型能力评测更全面。
  - 输出：通过深度引入强大几何约束，从而提升Affordance与现实交互的关联。
- 组件3：文本提示（Prompt）嵌入
  - 输入：基于语义和任务的文本提示，如“We should hold the handle to push the motorcycle.”。
  - 处理方式：文本皆通过Transformer进行嵌入，模型在这种提示下不仅要识别交互区域，还要理解该区域的功能关联（如“handle”能实现“push”功能）。
  - 输出：生成一个推理热图，为模型学习提供语义先验。
3.3 关键公式与算法 (Key Equations and Algorithms)

传动机制公式中使用了两个重要的尺度加权计算：

$\tag{1}$
- 含义： $F I$ 是图像嵌入， $F T$ 是文本嵌入。通过世界知识带有强烈语义成分的VLM来提取交互动态的上下文，模型能生成可交互区域预测。
- 直觉与指标：模型通过预训练VLM获取对物体和操作的认知，通过Content-based reasoning（基于文本的推理）打破与图像的直接关联。性能框架通过KLD、SIM、NSS等指标评估模型是否准确表达了“功能区域内”的区域分明度和分布合理性。
计算类型公式捕获了文字和图像特征之间的多样性与对齐：

$\tag{2}$
- 含义： $F I$ 是图像特征， $q$ 是从mask token中提取的隐含查询向量。
- 直觉与指标：通过Deep and strong attention机制进一步解决“区域内的复杂动作交互”的问题。
KLD公式（Table 2）明确了单词和区域之间映射的分布差异性（类似Softmax）：

$\text{KLD}(M, M') = \sum_i \left( M'_i \log \frac{\epsilon + M'_i}{\epsilon + M_i} \right), \tag{6}$
- 含义： $M, M'$ 为预测结果和Ground truth的热力图像素分布。 $KLD$ 度量两者之间的差异大小。
- 直觉：它的重点在于非耦合情况下，预测与真实分布偏差越小，泛化性能越高。

4. 实验设计与结果分析 (Experimental Design and Results Analysis)

实验设置：
- 数据集：本文围绕AGD20K进行实验，这是目前最为完备的Affordance定位基准。数据集进行了四类子集划分（Same、Easy、Hard、Random），分别对应不同的泛化压力。
- 评估指标：使用KLD（测度分布差异）、SIM（交集方式最优匹配）、NSS（标准化活动映射）等三个指标进行深入性能分析。
- 基线模型：包括传统Affordance定位方法和基于深度学习的现代方案，如LOCATE、3DOI等。
主实验结果（Table 2 & Table 3）：
- 在**易泛化任务（Easy split）**中，AffordanceLLM的整体表现与LOCATE相当，但对特定功能的识别能力更高（如“push”对于摩托车的判断）。
- 在**难泛化任务（Hard split）**中，AffordanceLLM的KLD、SIM、NSS指标分别达到了1.661、0.361、0.947，这说明模型在复杂环境下具有更强的感知与推理能力。
结论：与传统方法相比，AffordanceLLM在利用文本启发、前进内在知识和泛化能力降低偏差方面显著领先。
消融实验（Table 4, Figure 5）：
- 文本提示（如“Hold”和“Push”）对模型精度提升有明显影响，编码为“Action + Object”的方式bringing unpredictable results。
- 图像编码器：使用OWL-ViT替代CLIP更具有泛化能力，它能捕获更丰富的物体潜在特征。
- 伪深度映射：在KLD和NSS上，包含伪深度的输入导致了显著的性能提升，表明深度信息是Affordance定位不可或缺的一部分。
可视化/案例分析（Figure 4, Figure 5, Figure 6）：
- 对象视角下的视觉定位：局部/全局区分的网络行为补充了简单的“场景属性分割”模型。
- Action+Object技术对比：例如，在“Hold a Knife”模型中，通过视觉-语义联合行为分析可以提升对精度的认知。
- 互联网图像泛化测试：AffordanceLLM在随机图片中表现出色，尤其在深度存在的情况下，赖减了对目标对象的“过大”一并推理感。
- 失败样本（Figure 7）：部分场景中，模型未能处理除“holding”和“cutting”之外的其他手段（如“blow”或“play”），这表明模型在某些抽象动作上还需要持续优化。

5. 讨论与思考 (Discussion and Reflection)

优点与创新点 (Strengths & Innovations)：
1. 创新性地引入了VLM中的文本启发机制：论文首次系统性地沿着“语言-guided visual grounding”的渐进路径，将语言与视觉信息进行联合编码，引导模型关注正确的动作区域，这是对图像相关性推理任务的重大提升。
2. Stronger Generalization Path：AffordanceLLM在未见过的动作与物体上均能表现良好（例如“play”和“blow”），这得益于其对物体潜在功能机制的泛化学习（基于VLM的物理模拟与物体热图强化）。
3. 强监督与弱监督的清晰区分：论文明确了接收“密集标注”输入与“稀疏监督”输入的条件，针对不同的测试环境采用不同的诣度，从而保证研究的全面性和可解释性。
4. 消融实验的数据求证：通过量化输入部件对结果的影响，不仅验证了VLM中语言干预作用低于图像理解的可能，也展示了深度的重要性，这是从原始研究到深入理解的典型范式。
局限性与可商榷之处 (Limitations & Debatable Points)：
1. 仅在部分领域验证了泛化能力：虽然获得了强监督下的显著性能提升，但对未知领域如质量动作、工具损坏等情况的预测效果尚未完全验证。
2. VLM的偏好性：模型强烈依赖于已有训练数据中生成的文本理解能力（如当前仅支持有限的“Hand Interaction”任务），因此在扩展任务时可能产生偏置（如同时考虑到“抱住”和“砍”对于庐山的连接性分析）。
3. 伪深度方法的可解释性边缘：深度信息虽然提升了精确度，但如何辨别模特的深度是否真的反映功能地图仍是一个开放性课题。
未来工作与启发 (Future Work & Inspirations)：
1. 探索更自然的文本交互方式：当前的文本提示为个性化节能低，未来的交互可以引入从自然语言中动态学习任务表述，这将进一步增进文本与图像的映射深度。
2. 增强模型的思想活跃性与非确定性：AffordanceLLM尚未处理Asymmetric Action-Affordance（如一个动作可能对多个平凡有功能差异），这可能需要更深层次的Natural Language Understanding介入。
3. 推广到多用途环境（如VR场景）：由于AffordanceLLM对未见过的区域有较强泛化能力，因此可以考虑跨模态推理（如文本与3D点云的少量结合），以构建完整的交互场景建模。
4. 与其他多模态模型的联合编码：最终，定居Anton Mackay式的多模态架构–语言+视觉+几何，将是对多任务场景推理的最佳选择。

6. 总结与展望 (Summary and Prospects)

这篇论文通过引入基于VLM的文本引用机制，将相对于传统步骤来说难以稳健建模的交互区域与行为意图的抽象联系，转化为可量化的可观测差异。它奠定了未来视觉-语言-几何融合模型在Affordance推理与泛化任务中的核心地位，并系统地验证了模型结构分化、强化学习能力转移、3D信息赋能等关键命题。

对于未来研究者，本研究带来了以下关键启示：

模型设计要以任务导向的合理性为出发点，将复杂关系的推理任务与提取图像特征的底座融合。
视觉知识的自主调和已具备强度，但如何令模型更“feel”特定场景中的动作影响，是下一步研究的重要方向。
多模态桥梁的构建是攻克Affordance难题的突破口。注意力机制和几何建模仅能辅助提取注意力区域，而给模型更大的“自然交互”能力，仍需进一步降低复杂性与提升泛化。

TEXT2AFFORD: Probing Object Affordance Prediction abilities of Language Models solely from Text

1. 摘要 (Abstract) 与核心贡献 (Core Contribution)

一句话总结：本文提出基于文本的Affordance理解任务TEXT2AFFORD，并对大型语言模型（LLMs）和视觉语言模型（VLMs）在无监督和少量样本场景下进行综合测试，揭示了这些模型在理解物体功能性和交互能力方面的显著局限性。
贡献列表：
1. 首次构建了一个基于文本的Affordance数据集：TEXT2AFFORD，覆盖15种常见Affordance类别，提供了一种完全依赖文本语境的推理范式。
2. 系统性地评估了language模型与视觉语言模型在Affordance理解任务中的性能：在零样本（zero-shot）和小样本（few-shot）设置中清楚地显示出其推理能力的不足。
3. 理论上证明了语言模型在理解物体功能和实现实物互动中的局限：采集真实的Affordance理解样本从而强调了真实视觉场景对模型推理的不可替代性。
4. 拓展了任务设计的多样性：探讨内容依赖（context-dependent）和内容无关（context-unrelated）Affordance分析，揭示了模型对语言模型运用的签名能力。

2. 引言 (Introduction)：问题背景与研究动机

问题定义：在本文中，作者提出了一个看似简单但实际上却极其复杂的任务**——从文本信息中理解物体的功能性（Affordance）**。具体而言，Affordance是指大厅中可供执行的操作，而理解这些操作需要模型从文本中获取物质性和互动相关的信息。如果没有实际物体的图像支持，语言模型表现较差，甚至无法理解和推理功能性。
现有研究的局限：
1. 传统语言模型缺乏对ωanticordination的引导：尽管它们在伦理、常识推理任务中表现优异，但无法像传统的预训练模型那样从文本中推断对话-Requested的Action-Object接地能力。
2. 视觉语言模型在文本无关状态下表现一般：有些模型虽然进行了一些小规模标注，却仍无法完全充分利用隐式的视觉语义来提高多功能推理。
本文思路：通过构建给力、透明的TEXT2AFFORD数据集，发现潜在问题。这不仅为研究者提供了额外的空间在具备信息的过程中进行语言模型的评估，更揭示了外观、功能性与语义推理之间的非对称匹配问题。

3. 方法论深度解析 (In-depth Methodological Analysis)

3.1 整体框架

文章描述了一种基于文本的Affordance推理框架，即：解析“文本 + 物体”对，并按照预设的15类功能给出相关性评分。它如图1所示，其输入是文本和物体，输出是相关功能的热图（heatmap）。
- 输入：
  - 一个文本语境（例如：“The salt from La Mata is often used as table salt.”）
  - 一个物体名称（例如：“table salt”）
- 输出：一个affordance标记（如“Grasp”、“Lift”等）及对应的评估权重。
- 整体设计思想：这个结构的核心是将语言模型的推理能力与感知知识进行解耦。使用语言模型直接标注Affordance类别而不过度依赖视觉信息，是一种有挑战性的任务，具有独特的潜力。
3.2 核心组件拆解
- 组件1：文本挖掘与标注设计
  - 输入和输出：输入是“物体名称 + 功能”对，输入是文本句，输出是是否可以执行此功能的标志。
  - 内部机理：构建了基于语义的监督机制，通过预设物体 + 功能的对，并生成15类功能标签。
  - 设计动机：这一设计允许研究者通过语言模型蛰伏视觉特性而做到某种程度的泛化。然而，目录聂谱暴露了一个核心问题：模型在缺乏视觉信息的情况下陷入主观性，无法客观缓解可视化多样性环境。
- 组件2：多模态任务设置
  - 输入和输出：通过合成图像（采用DPT和OWL-ViT）或上传真实图像，实现文本与图像信息的联合推理。
  - 内部机理：对部分upport性能进行测试时发现，图像的参与显著提升了，通过了文本局限于原则的局限性。
  - 设计动机：将图像作为控制变量进行输入，避免了文本仅仅依赖于语言模型自己对物的影像认知。
- 组件3：零样本设置下的能力评估
  - 输入和输出：语言模型在没有具体对象信息的情况下评估相应功能，输出Prediction权重均值。
  - 内部机理：思想解释依赖于语言模型的常识推理能力。但是对于像“SitOn”这一也许需要交互的粗细操作评估，零样本中语言模型未能表现出能力。
  - 设计动机：零样本可以迫使模型摆脱具象训练，是一种天然测试模型泛化能力的手段。
3.3 关键公式与算法

零样本推理评估公式 ：
- $\text{Accuracy} = \dfrac{Correct}{Correct + Wrong}$
  哪些AF在零样本推理中显示出高正确评比率？点评对象的组合 dissimilar 性通过 (user question → affordance → object) 的关系网络进行编码。
- 积分公式 ：
  $P_{ens}(y|x) = (1 - w)p_{La}(y|x) + wp_{VI}(y|x)$
  这个叠加于语言模型与视觉模型的方案，为模型提供了一个基础听证过程。
- 分布形式 ：
  $\text{KLD}(M, M') = \sum_i \left( M'_i \log \frac{\epsilon + M'_i}{\epsilon + M_i} \right)$
  与文本分析和技术学习对应的误差计算方式为文本与现实之间的距离属性值。

4. 实验设计与结果分析 (Experimental Design and Results Analysis)

实验设置：
- 数据集：使用TEXT2AFFORD，其中包含2368个句子-对象对，并分为三类：高共识（>0.75）的對、中共识（0.4-0.75）的对、低共识（<0.4）的对。
- 基线模型：包括多个zero-shot和few-shot设置（如BERT、RoBERTa等）和VLMs（如LLaVA、ViLT等）。
主实验结果：
- 在zero-shot设置下，模型的Accuracy显示深度显著的信息差异。例如，ChatGPT和Llama-3模型（自带IMAGE情景）在Affordance推理任务中表现优异，但语言模型无法通过文本感知足够的信息。
- 在few-shot设置下，模型又反复展现大的改善程度。例如：BERT大型模型（~340M params）的准确率提升了近15%。
- 在context-based推理设置下，带有额外图像信息的模型余下但他们相较于纯文本学习还显示出显著的improvement。
- 黑暗中的一角时，模型整体并未预设任何ground truth，只能通过模块的内在偏见来学习对象的操作目标。
消融实验：
- 文本标注质量：高共识（>0.75）改善了模型对具体形状和动作的理解能力，提供了更稳健的珷效率。
- 视觉输入对AVH的影响：含视觉信息的模型Precision显著提升，尤其对于复杂和稀有Affordance的任务钻石获得按摩Support。
可视化与案例分析：
- 原始数据中的文本与分点决定了classifty功能的优先级。例如：“Sit on”对应的冰雪滑板肢体动作并不可靠，但通过提供的图线索可以进一步评估。
- 图表10 (Fig 10) 进一步展示了数据集的多样性：物体和功能对很多具有代表性，样本本身则是代表了通过任何真实图像采集完任务的创作。

5. 讨论与思考 (Discussion and Reflection)

优点与创新点：
1. 设计了一个专注于文本的Affordance数据集：TEXT2AFFORD展现出在无监督和零样本设置下的辅助效率，较为干净地反的第一步走了幻觉盲点。
2. 完整的任务分析框架：从文本、图像输入。Zero-shot、Few-shot的双重设置进行了统一，显示了性能维度比传统任务更宏观。
3. 跨界能力成为研究亮点：语言模型的数据拓展，实现了类别为基础的推理。实际体现包括将默认假设变为具体规则。
局限性与可商榷之处：
1. 文本信息无法有效进行操作推理：当面对复杂的、互动性强的Affordance任务（如损坏物体、社会情境）时，语言模型表现不足。
2. 图像合成过程尚未良性的数据性：虽然数据集预留了伪深度（伪图像）作为输入，未在真实图像上进行充分验证。
3. 对动物对象的calling仍未完善：在这种设置下，猫、狗等对象的操作难以从语言上学习，存在大量overfitting issues。
未来研究方向与启发：
1. 将文本与图像数据进行更加精准的融合：扩展文本-图像联合推理，加强场景Dependability。
2. 将文本解释与操作-物体对应性研究扩展：挑战传统Affordance研究对Language Model专注领域下的falacy。
3. 进一步探索没有语义引导的Affordance任务：例如，在没有任何视觉信息的情况下理解ענה market, logistics平台等抽象操作对象。

6. 总结 (Summary)

本文提供了一个健全的Affordance理解数据集、推理架构以及评估方式。其核心在于揭示语言模型在竞争领域中尚未达到真实物体交互的级别，同时-rendered image比单纯文本更有效。这项研究具有开拓性，为文本-based narrowlyx 场景推理领域确立了坚实的基础，但更高的抽象场景中低频操作能力仍需加强。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐