斯坦福李飞飞团队：低成本双目相机，强化机器人模仿学习能力

深蓝学院

195人浏览 · 2026-05-28 10:15:00

深蓝学院 · 2026-05-28 10:15:00 发布

仅用低成本双目相机+隐式几何融合，就能让机器人获得媲美3D感知的能力。

——为模仿学习打造更好视觉模块

01 StereoPolicy核心逻辑：双目特征融合，隐式3D感知

双目特征提取：复用2D预训练优势

立体Transformer：隐式捕捉空间关联

在机器人操控领域，单目视觉长期是主流方案。但单目视觉天生缺失精准深度信息，面对杂乱场景、透明/反光物体（如玻璃杯、金属杯）或精细操作（如插 Toast、挂杯子）时，空间感知模糊，操作成功率大幅下滑。

与此同时，RGB-D、点云等3D方案虽能提供深度，却受传感器噪声、标定复杂、数据稀缺、推理延迟高等问题制约，难以规模化落地。

斯坦福大学李飞飞团队推出的StereoPolicy，提出用同步双目图像直接增强机器人视觉运动策略。

该方法无需复杂相机标定、不用重建深度图或点云，仅通过双目特征融合，就能让机器人获得精准空间感知，在仿真与真实场景中全面超越单目、RGB-D、点云等基线，为机器人3D感知提供了低成本、高适配的新范式。

01 StereoPolicy核心逻辑：双目特征融合，隐式3D感知

StereoPolicy的核心设计思路是：

不用显式重建3D，直接用同步双目图像对，通过预训练2D编码器+立体Transformer，隐式捕捉空间对应与视差线索。

整体框架简洁高效，可无缝适配扩散策略与预训练VLA模型，无需修改骨干网络，兼顾兼容性与扩展性。

▲StereoPolicy 框架：双目特征提取 + 立体 Transformer 融合

双目特征提取：复用2D预训练优势

StereoPolicy采用“分编后融”策略，先独立处理左右目图像，再融合特征。

具体来说，对同步双目图像（左目 $I^L$ 、右目 $I^R$ ），分别用共享权重的预训练 2D 视觉编码器（如 ResNet18、DINOv2）提取单目特征图。

共享权重可保证左右目特征空间一致，避免几何错位，同时复用2D预训练模型的强大语义与特征提取能力，弥补3D模型泛化不足的短板。

为增强几何推理，外部视角图像会额外拼接冻结的DINOv2特征（腕部视角因域差异不添加），补充单目先验，提升弱纹理区域的特征可靠性。

立体Transformer：隐式捕捉空间关联

提取左右目特征后，核心模块立体Transformer通过交替自注意力与交叉注意力，融合双目特征。

自注意力捕捉单目图像内像素级关联，交叉注意力聚焦左右目间空间对应关系，同时引入2D旋转位置编码（2D RoPE），强化跨视角位置推理，让模型隐式学习视差与空间几何，无需显式计算深度。

这一设计的关键价值：避开显式3D重建的计算开销与噪声干扰，同时保留2D预训练特征的泛化能力，让模型既懂语义，又懂空间。

策略适配：无缝对接扩散与VLA模型

StereoPolicy可灵活集成两类主流机器人策略：

StereoPolicy-DP：面向从 scratch 训练的扩散策略，将融合后的立体特征作为条件输入去噪网络，让动作生成融入隐式空间信息，提升精细操作精度；
StereoPolicy-VLA：面向预训练视觉-语言-动作（VLA）模型，将单目嵌入替换为立体特征，轻量微调即可适配双目输入，无需重训骨干，高效增强VLA模型空间感知。

02 实验验证

StereoPolicy在RoboMimic、RoboCasa、OmniGibson三大仿真基准，以及桌面单臂、双手机器人真实场景中全面测试，对比RGB、RGB-D、点云、多视角四大基线，结果显示其在成功率、泛化性、鲁棒性上均显著领先。

真实场景：透明/反光物体也能稳操作

真实桌面任务（香蕉抓取、吐司插入、塑料杯/金属杯/玻璃杯悬挂）中，StereoPolicy-DP平均成功率达59%，远超RGB（42%）、RGB-D（41%）、点云（14%）、多视角（44%）基线。

▲真实桌面任务：双目策略全面优于单目、RGB-D、点云基线

双手机器人移动任务（吐司抓取、开收音机）中，StereoPolicy-VLA同样优于单目VLA，能精准完成 gripper 插入、按钮按压等精细动作，而单目VLA常因深度误判失败。

▲真实桌面与双手机器人任务示例

仿真场景：数据效率更高，复杂任务更强

三大仿真基准中，StereoPolicy在低数据（30-100个演示）与高数据（200-300个演示）设置下均最优。

▲仿真任务：双目策略在低 / 高数据下均最优

尤其在遮挡、精细对齐任务（如工具悬挂、倒水）中，优势更明显——例如RoboMimic工具悬挂任务，StereoPolicy成功率达94%，远超RGB（53%）。同时，它比多视角方案更优，验证立体Transformer特征融合的有效性。

▲三大仿真基准任务示例

关键参数：双目基线=物体距离10%最优

研究发现，双目性能核心取决于基线-距离比（双目间距/相机到物体距离），最优区间为9%-13%。

如桌面场景（相机距0.6-0.8m），6cm基线效果最佳：基线过小（2cm）视差弱、深度不准；

▲双目策略在不同相机角度下更稳健

基线过大（10cm）视角重叠少、几何不一致。此外，正面视角提升最显著（+18%），侧面视角增益较小，为硬件部署提供明确指导。

模型设计：大骨干+立体融合最优

消融实验显示：预训练大骨干（如SIGLIP-SO400M）+立体Transformer性能最优。DINOv2特征仅提升外部视角，腕部视角因域差异无效；

移除立体Transformer，成功率从94%跌至85，直接证明融合模块的核心作用。

▲骨干选择与双目融合模块的消融结果

03 价值与局限：落地可行，仍有挑战

1. 核心价值：低成本、强泛化、易落地

StereoPolicy的核心突破是重新定义机器人立体感知路径：

不用昂贵3D传感器、不用复杂标定、不用海量3D数据，仅用低成本双目相机+隐式几何融合，就能让机器人获得媲美3D感知的能力。

对行业而言，这意味着机器人操控可摆脱“高精度硬件依赖”，快速规模化部署；对科研而言，打通2D预训练模型与3D几何理解的鸿沟，为VLA、世界模型等大模型增强空间感知提供通用方案。

2. 现存局限：极端场景仍不足

▲真实场景：深度 / 点云对透明物体失效

StereoPolicy仍有短板：

其一，极端光照敏感，强光、弱光下双目匹配易出错；

其二，透明/反光物体仍难，虽优于基线，但绝对成功率仍低；

其三，动态场景适配弱，当前侧重静态环境，动态物体交互需进一步优化；

其四，推理延迟略增，比单目高约12%，但远低于3D重建方案。

04 双目隐式几何，操控新范式

从单目到显式3D，再到StereoPolicy的隐式双目几何，机器人视觉操控正走向“低成本、强泛化、高精度”的平衡态。

StereoPolicy的核心不是否定2D或3D，而是取两者之长：

复用2D预训练的语义与泛化，用双目隐式几何补全空间感知，避开显式3D的痛点。

Ref

论文标题：StereoPolicy: Improving Robotic Manipulation Policies via Stereo Perception

论文链接：https://arxiv.org/pdf/2605.09989

项目链接：https://stereopolicy.github.io/

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

鸿蒙 Flutter 实战：video_compress 3.1.4 适配 3.27-ohos 全流程

AtomGit开源社区

Java 内存模型（JMM）深度解析

在一个线程内，书写在前面的操作先行发生于书写在后面的操作。虽然 CPU 会为了性能进行指令重排，但 JMM 承诺"单线程执行结果的正确性"（即 as-if-serial 语义）。

AtomGit开源社区

DALL-E 系列模型详解

DALL-E 是 OpenAI 开发的一系列文本到图像生成模型，能够根据自然语言描述生成高质量、多样化的图像。DALL-E 的名字来源于：发展历程版本发布时间核心技术分辨率主要突破DALL-E 12021.1dVAE + Transformer256×256首次大规模文本到图像生成DALL-E 22022.4CLIP + Diffusion1024×1024照片级真实感DALL-E 32023.9