浙江大学：具身任务导向的时空推理模型，时序偏见误差降低至 0.1%！

深蓝学院

340人浏览 · 2026-04-28 10:15:00

深蓝学院 · 2026-04-28 10:15:00 发布

首创感知 - 评估 - 规划三阶段课程学习逻辑，贴合人类具身认知规律

——新具身任务导向时空推理模型

01 行业痛点：VLM在第一视角具身任务的核心困境

02 核心创新：EgoTSR的三大技术支柱

三阶段课程学习：从“一步步想”到“一眼看懂”再到“长远规划”

推理增强型任务分解：打通抽象语义与原子执行

双维度评估框架：同时度量“看没看清”与“想没想对”

当前主流视觉-语言模型（VLM）在静态感知已趋于成熟，但在动态交互的第一视角任务中存在明显短板：

依赖被动视频习得的时序先验，易产生时空幻觉，面对时序颠倒、动作失败、状态回退等真实扰动时泛化能力大幅下降。

学界与工业界虽通过Ego4D、EgoExo4D等数据集与VLM改进方案强化时序建模、多模态对齐与生成式规划，但大多默认“时序先后=任务进度”，未能从根源解决时序偏见与时空幻觉——

模型仅记住帧序，未真正理解动作对任务状态的改变，更无法建立感知-评估-规划的完整认知链路。

▲Ego4D数据集

近日，来自浙江大学、天津大学等团队提出的EgoTSR，选择了贴近人类认知的技术路径：

不堆砌生成模型，不强行引入世界模型，回归具身推理本质，以三阶段课程学习+可解释任务分解，系统性解决第一视角任务导向时空推理难题。

01 行业痛点：VLM在第一视角具身任务的核心困境

1、时空幻觉与时序偏见

VLM在被动视频中易学到捷径：默认后一帧更接近任务完成，不分析实际视觉变化。面对逆序、乱序、动作回退等场景，会出现错误判断，无法支撑可靠决策。

2、感知与规划割裂

系统普遍能力失衡：感知模型精于细节但缺乏长时序逻辑；规划模型懂步骤但对视觉变化不敏感。多数端到端方案还会出现灾难性遗忘，强化规划的同时丢失感知精度。

3、抽象指令与原子执行脱节

自然语言指令难以转化为有序、无冲突的原子动作，现有模型易出现逻辑漂移，步骤间缺乏因果约束，无法形成稳定可执行的逻辑骨架。

EgoTSR并未采用扩数据、加模型的常规思路，而是从认知演化、数据构建、模型结构、评估范式四方面，给出系统性解决方案。

02 核心创新：EgoTSR的三大技术支柱

EgoTSR的整体设计围绕一个核心思想展开：

具身时空推理应像人类认知一样，从显式到内化、从简单到复杂、从微观到宏观。

为此，研究构建了三大相互支撑的技术模块：

4600万样本的三阶段课程学习数据集EgoTSR-Data；
推理增强型任务分解机制；
双维度评估框架。

▲EgoTSR 框架总览

三阶段课程学习：从“一步步想”到“一眼看懂”再到“长远规划”

EgoTSR最具辨识度的创新，是模仿人类认知发育的课程学习范式，并配套构建了规模达4600万样本的EgoTSR-Data数据集，严格分为三个递进阶段：

▲EgoTSR-Data 构成与三阶段课程学习范式概览

阶段1：知识引导——CoT数据（1500万样本）

这一阶段的目标是建立显式“感知-规划-决策”通路。

模型输入一对帧、任务指令，输出不仅是任务状态判断，还要输出完整的推理链：先描述空间关系、物体位置、机械臂状态，再一步步推导任务进度。

▲CoT 数据（蓝色）：用于建立显式推理链

训练目标：最大化推理路径与最终结论的联合似然；

核心价值：强迫模型把视觉像素与抽象指令强绑定，建立透明的空间-逻辑映射，杜绝“凭感觉瞎猜”。

阶段2：能力内化——Tag数据（1600万样本）

当模型掌握显式推理后，进入弱监督内化阶段。

这一阶段去掉所有中间文本推理步骤，只保留视觉输入与最终标签，强迫模型把上一阶段的显式逻辑，内化为高效的视觉直觉——不用一步步描述，直接判断哪一帧更接近任务完成。

▲Tag 数据（绿色）：用于内化感知能力

训练目标：简化为直接预测标签；

核心价值：提升认知效率，让模型从“啰嗦的推理者”变成“精准的判断者”，同时保留底层空间感知能力。

阶段3：泛化巩固——LongTag数据（1500万样本）

最后用长时序、强干扰、多原子步骤的数据，强化模型在复杂场景下的全局控制能力。

数据包含正交原子任务序列，模型必须在多步骤、长跨度、环境扰动下保持逻辑一致性。

▲LongTag 数据（红色）：用于支持长时序任务的复杂决策

训练目标：结合任务逻辑骨架，保持多步操作中的推理稳定；

核心价值：解决长时序泛化难题，让模型既能“看得准局部”，又能“想得清全局”。

这种“易→难、显式→内化、微观→宏观” 的渐进式训练，从算法层面解决了时空幻觉，同时在认知层面赋予智能体可靠的长程规划能力，更关键的是避免了灾难性遗忘。

推理增强型任务分解：打通抽象语义与原子执行

长时序具身任务的最大痛点，是抽象指令无法稳定转化为可执行动作。

EgoTSR提出推理增强型任务分解机制，用一个子任务规划器（Subtask Planner），把抽象指令拆解为一系列功能正交、因果清晰的原子子任务序列。

▲推理增强型任务分解模块

例如“打开冰箱拿食物”，会被分解为：

左臂打开冰箱门→左臂从冰箱取出饮料→左臂把饮料放在桌上→右臂关上冰箱门。

这一设计有两个关键优势：

因果显式建模：不像端到端模型容易出现逻辑漂移，每一步都有明确依赖关系；

训练-推理对齐：训练时用真实子任务序列监督，推理时自主生成，保证逻辑路径高度一致。

它相当于给模型装上了“稳定的逻辑骨架”，把隐式规划变成可控制、可校验、可回溯的显式执行指南，大幅提升长时序任务的鲁棒性。

双维度评估框架：同时度量“看没看清”与“想没想对”

为了精准拆解模型错误来源，研究设计了双维度评估框架，同时衡量细粒度感知与长时序规划，并通过双向评估破解时序偏见：

▲双维度评估框架

维度1：原子感知（短期）

评估模型对微小物理变化的敏感度，相当于测试“空间感知专家”能力。

采用多粒度采样，帧间隔从短到长，强迫模型只靠视觉特征判断状态变化，杜绝依赖时序先验。

维度2：规划一致性（长期）

评估模型在多子任务序列中的逻辑连贯性，相当于测试“逻辑规划专家”能力。

按逻辑距离分为三类采样窗口：

子任务内（INTRA-TASK）；相邻子任务间（INTER-TASK）；多子任务跨段（MULTI-TASK）。

关键设计：双向评估消除时序偏见

传统评估只测“正序”，EgoTSR同时测正序与逆序。

一个真正理解任务的模型，正序与逆序准确率应几乎一致；若差距巨大，说明模型还在靠时序捷径作弊。

这一指标成为判断模型是否具备真正因果推理的核心标尺。

03 实验验证：效果背后的可信结论

EgoTSR基于Qwen-VL-7B微调，在NVIDIA H800上完成分布式训练，实验覆盖闭源API、开源2D VLM、开源3D LLM等多类基线，结果极具说服力。

核心性能：长时序与短时序双优

长时序逻辑推理准确率：92.4%；
细粒度感知精度：稳定保持88.2%；
双向评估差距仅0.1%，几乎完全消除时序偏见。

▲双维度评估框架综合性能对比

对比基线可以清晰看到：

传统开源模型（如InternVL-8B）正序长时序准确率超90%，逆序直接跌到10%以下，严重依赖时序捷径；
EgoTSR在正逆序下表现几乎一致，证明模型真正理解状态变化，而非记忆帧顺序。

感知与规划的平衡：无灾难性遗忘

训练过程中，长时序任务准确率从74.3%稳步提升至92.4%，而短期感知精度始终稳定在86.6%–88.7%之间，没有出现任何下滑。

这验证了课程学习范式的关键价值：升级高阶逻辑能力，不牺牲底层感知精度。

▲空间感知与逻辑分析精度变化曲线

消融实验：两大核心组件不可或缺

课程学习的必要性

a. 仅阶段1（CoT）：双向差距89.5%，时序偏见极严重；

b. 阶段1+2（CoT+Tag）：差距缩小至3.1%；

c. 完整三阶段：差距仅0.1%，准确率92.4%；

d. 混合乱序训练：准确率仅69.6%，差距4.9%。

结论：有序渐进训练是消除时序偏见的关键。

▲课程学习与子任务规划器消融轨迹

子任务规划器的必要性

a. 无规划器：准确率81.1%，双向差距4.3%；

b. 有规划器：准确率92.4%，差距0.1%。

▲EgoTSR 框架量化消融实验

真实场景验证：从仿真到实体机器人

研究在人类演示、LIBERO、SIMPLER等仿真环境，以及Franka、Agibot、So-100等实体机械臂上做了大量案例测试。

模型输出的任务完成曲线呈现清晰的阶梯式上升，与原子子任务完美对齐，对“抓取、放置、开关”等关键节点变化高度敏感，中间过程稳定。

▲任务完成进度曲线可视化

04 EgoTSR的价值、局限与行业启示

核心价值

回归具身推理本质

不追逐生成式、世界模型等热点，而是直面“时空幻觉、时序偏见、感知规划割裂”三大真问题，提供了可解释、可复现、可部署的稳健方案。

课程学习的范式意义

把人类认知演化规律引入具身VLM训练，证明“显式→内化→泛化” 的路径，比单纯端到端监督更适合长时序时空推理，为后续模型训练提供了通用范式。

双维度评估的标杆作用

用原子感知+长时序规划+双向校验，建立了一套可量化、无偏见的具身时空推理评估标准，后续研究可直接沿用，公平对比不同方案的真实能力。

▲机器人操作案例研究

落地友好

基于现有开源VLM微调，配合大规模结构化数据，可直接迁移到实体机器人平台，兼顾精度与实用性，符合工业界落地需求。

局限

任何技术都不是完美的，EgoTSR同样存在可改进空间：

数据依赖度高

三阶段数据总计4600万样本，数据采集、标注、清洗成本较高，小规模数据场景下难以复现同等效果。

任务类型仍偏结构化

实验集中在桌面整理、物品取放、开关容器等步骤清晰、目标明确的任务，面对完全开放式、多意图冲突的场景，泛化能力仍待验证。

未深度融合物理先验

模型侧重视觉-语言-时序逻辑，未显式融入力学、碰撞等物理约束，在高动态、强物理交互场景中，仍可能出现不符合物理常识的判断。

计算开销偏大

大规模数据+三阶段渐进训练，对算力要求较高，边缘端嵌入式设备直接部署仍有压力。

05 一条稳健的具身时空推理新通路

EgoTSR未追逐生成架构与世界模型热点，而是以课程学习为骨架、推理增强型任务分解为核心、双维度无偏评估为标尺，走出了一条稳健务实的具身时空推理路径，用实验证明其核心矛盾并非模型规模，而是推理路径、训练范式与评估机制的优化；

它在长时序逻辑推理与细粒度感知间实现平衡，近乎消除时序偏见，兼具强实体机器人迁移能力，为行业提供了回归问题本质、强化基础能力的可复用技术范式。

Ref

论文标题：From Perception to Planning: Evolving Ego-Centric Task-Oriented Spatiotemporal Reasoning via Curriculum Learning

论文作者：Xiaoda Yang, Yuxiang Liu, Shenzhou Gao, Can Wang, Jingyang Xue, Lixin Yang, Yao Mu, Tao Jin, Shuicheng Yan, Zhimeng Zhang, Zhou Zhao

论文链接：https://arxiv.org/abs/2604.10517

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Vibe Coding 爆火：不会写代码的人，也能把想法做成产品？一篇讲透它到底怎么做

AI 写完代码后，必须经过：一、本地启动。二、接口测试。三、单元测试。四、代码 Review。五、安全检查。六、灰度发布。不要让 AI 直接决定上线。用自然语言驱动 AI，把开发过程从手写代码，升级为描述需求、拆解任务、审查方案、验证结果。它最适合快速原型、小功能开发、代码解释、Bug 修复、页面搭建和自动化工具开发。AI 可以帮你提速，不能替你负责。真正靠谱的 Vibe Coding，一定不是“

AtomGit开源社区

【个人记账理财助手】大模型上下文管理选型文档

全部 DDL + 全部文档 + 全部示例 SQL → 塞进 prompt后果：├── 检索噪声：不相关的表结构干扰 LLM 判断├── Lost in the Middle：关键信息被淹没在长文本中间位置├── Token 浪费：每次请求都花冤枉钱（DeepSeek ¥2/百万输入 token）└── 延迟增加：长 prompt 的首 token 生成时间更长最终推荐：规则引擎降级 + 分层 RA