VTAM融合GelSight提升触觉动作预测

梁智纲

10人浏览 · 2026-03-30 07:42:31

梁智纲 · 2026-03-30 07:42:31 发布

VTAM（视觉-触觉动作模型）通过将高分辨率触觉数据（如GelSight传感器数据）深度整合到其预测性世界建模框架中，显著提升了机器人在薯片抓取、黄瓜剥离等富接触任务中的动作预测能力和执行稳健性。其核心机制在于将触觉感知从传统的“辅助输入”提升为与视觉平等的“基础模态”，并进行联合动力学预测与正则化训练。

一、核心架构：多模态预测性世界模型

VTAM并非简单地将触觉特征与视觉特征在后期（决策层）拼接，而是构建了一个端到端的视觉-触觉世界动作模型。其架构主要包含两个关键部分：

多视角视觉-触觉隐世界建模：模型基于预训练的视频变分自编码器（VAE），将多视角RGB图像和高分辨率的GelSight触觉图像共同编码到一个共享的连续隐空间中。在这个空间里，模型采用扩散过程对视觉场景的动态变化和触觉传感器捕捉的细粒度物理变形（如剪切、滑动、压力分布） 进行联合建模。
条件扩散动作生成：学习到的联合视觉-触觉表征通过交叉注意力机制，注入到一个基于条件扩散模型的动作生成头中，用于预测时间一致且物理合理的机器人控制指令（如末端执行器位姿、夹爪宽度）。

这种设计使得模型能够预测未来时刻的视觉和触觉流的联合演化，而不仅仅是根据当前状态做出反应。这为机器人提供了预测接触动力学（如物体是否即将滑动或碎裂）的能力，从而提前调整动作。

二、触觉数据的关键作用与处理方式

高分辨率触觉数据（如来自GelSight）在VTAM中扮演着不可替代的角色，具体体现在以下几个方面：

作用维度	具体说明	对应技术实现
提供视觉盲区信息	在抓取、精密装配等任务中，手部或工具会对目标物体形成视觉遮挡。触觉数据直接感知接触界面的力与变形，弥补了视觉信息的缺失。	模型将触觉流 `z_t^tactile` 作为独立的输入模态，与视觉流 `z_t^vision` 一同输入到多视角注意力模块中进行融合。
编码高频物理细节	GelSight等传感器能捕捉物体表面的微观纹理、剪切力方向和法向压力的空间分布，这些是判断接触稳定性、物体材质和滑移趋势的关键。	利用预训练视频VAE的重构导向目标，其天然倾向于保留细粒度的空间和运动模式，使得模型无需专门设计触觉编码器也能有效编码这些高频细节。
实现时间动力学推理	连续帧的触觉数据构成了“触觉视频”，模型能从中学习力分布的时空演化规律，例如压力如何随抓握加深而扩散，或剪切力如何在滑动初期积累。	模型通过交替的视角内自注意力和视角间自注意力块，同时捕捉单个触觉帧内的空间结构以及跨帧的时间依赖关系，从而对接触演化进行预测性推理。

三、提升动作预测能力的关键技术：虚拟力正则化

在训练多模态模型时，一个常见的问题是模态坍缩：由于视觉信息通常更丰富、更容易学习，模型梯度会过度流向视觉通路，导致触觉信号被忽略，模型退化为一个纯视觉模型。VTAM通过引入变形感知的虚拟力预测正则化 巧妙地解决了这一问题。

这项技术的核心思想是：强制模型从触觉数据中预测一个与物理力相关的紧凑信号，从而在动作生成过程中保持对触觉通路的监督和敏感性。

其实现步骤如下：

虚拟力生成：给定一个无接触的参考触觉帧和当前触觉帧，计算它们之间的稠密光流场。从这个变形场中，推导出一个3D虚拟力向量 f_virtual，其中光流的空间期望近似于剪切力，光流的散度近似于法向压力。

# 伪代码示意：从触觉图像对计算虚拟力代理
def compute_virtual_force(tactile_ref, tactile_curr):
    # 计算稠密光流 (optical flow)
    flow = compute_optical_flow(tactile_ref, tactile_curr)  #  从变形场推导
    # 计算切向力代理（光流均值）
    tangential_force = flow.mean(dim=[1,2])  # 近似剪切力
    # 计算法向力代理（光流散度）
    divergence = compute_divergence(flow)    # 近似压力
    normal_force = divergence.mean()
    virtual_force = concatenate(tangential_force, normal_force)
    return virtual_force

联合训练目标：在动作生成头的训练中，模型不仅需要预测未来的动作 a_t，还需要联合预测这个虚拟力 f_virtual。损失函数包含了动作预测损失和虚拟力预测损失：
L_total = L_action + λ * L_force
其中 L_force 是虚拟力的预测误差。这确保了在优化动作策略时，触觉表征必须包含足够的信息来准确预测接触力，从而防止模态坍缩。

四、效果验证：在富接触任务中的性能飞跃

VTAM的设计在真实的富接触操作任务中得到了验证，其性能远超纯视觉或简单触觉融合的基线模型。

薯片抓取放置任务：VTAM成功率高达90%，而纯视觉基线（π模型）成功率为0%，仅后期融合触觉的模型成功率也为0%。这证明，预测性的视觉-触觉联合建模对于检测抓取成功与否、并施加精确的抓取力至关重要。VTAM能在触觉确认接触后才执行抬起动作，并在搬运中维持稳定夹持。
黄瓜剥离与白板擦拭任务：在这些需要持续力调节的任务中，VTAM同样表现出色（成功率85%-95%），而基线模型往往无法保持稳定接触或施加的力不稳定。这表明VTAM能够利用触觉数据实时感知并调整剪切力和法向力。

总结而言，VTAM通过将高分辨率触觉数据深度整合到预测性世界模型的建模过程中，并利用虚拟力正则化确保触觉信号在训练中的有效性，使机器人不仅能“看到”还能“感觉到”接触物理。这使得其动作预测不再是基于视觉语义的粗略估计，而是基于物理动力学的精确推断，从而在易碎、可变形物体的精细操作中实现了质的性能提升。