浙江大学:具身任务导向的时空推理模型,时序偏见误差降低至 0.1%!

首创感知 - 评估 - 规划三阶段课程学习逻辑,贴合人类具身认知规律
——新具身任务导向时空推理模型
目录
三阶段课程学习:从“一步步想”到“一眼看懂”再到“长远规划”
当前主流视觉-语言模型(VLM)在静态感知已趋于成熟,但在动态交互的第一视角任务中存在明显短板:
依赖被动视频习得的时序先验,易产生时空幻觉,面对时序颠倒、动作失败、状态回退等真实扰动时泛化能力大幅下降。
学界与工业界虽通过Ego4D、EgoExo4D等数据集与VLM改进方案强化时序建模、多模态对齐与生成式规划,但大多默认“时序先后=任务进度”,未能从根源解决时序偏见与时空幻觉——
模型仅记住帧序,未真正理解动作对任务状态的改变,更无法建立感知-评估-规划的完整认知链路。

▲Ego4D数据集
近日,来自浙江大学、天津大学等团队提出的EgoTSR,选择了贴近人类认知的技术路径:
不堆砌生成模型,不强行引入世界模型,回归具身推理本质,以三阶段课程学习+可解释任务分解,系统性解决第一视角任务导向时空推理难题。
01 行业痛点:VLM在第一视角具身任务的核心困境
1、时空幻觉与时序偏见
VLM在被动视频中易学到捷径:默认后一帧更接近任务完成,不分析实际视觉变化。面对逆序、乱序、动作回退等场景,会出现错误判断,无法支撑可靠决策。
2、感知与规划割裂
系统普遍能力失衡:感知模型精于细节但缺乏长时序逻辑;规划模型懂步骤但对视觉变化不敏感。多数端到端方案还会出现灾难性遗忘,强化规划的同时丢失感知精度。
3、抽象指令与原子执行脱节
自然语言指令难以转化为有序、无冲突的原子动作,现有模型易出现逻辑漂移,步骤间缺乏因果约束,无法形成稳定可执行的逻辑骨架。

EgoTSR并未采用扩数据、加模型的常规思路,而是从认知演化、数据构建、模型结构、评估范式四方面,给出系统性解决方案。
02 核心创新:EgoTSR的三大技术支柱
EgoTSR的整体设计围绕一个核心思想展开:
具身时空推理应像人类认知一样,从显式到内化、从简单到复杂、从微观到宏观。
为此,研究构建了三大相互支撑的技术模块:
- 4600万样本的三阶段课程学习数据集EgoTSR-Data;
- 推理增强型任务分解机制;
- 双维度评估框架。

▲EgoTSR 框架总览
三阶段课程学习:从“一步步想”到“一眼看懂”再到“长远规划”
EgoTSR最具辨识度的创新,是模仿人类认知发育的课程学习范式,并配套构建了规模达4600万样本的EgoTSR-Data数据集,严格分为三个递进阶段:

▲EgoTSR-Data 构成与三阶段课程学习范式概览
- 阶段1:知识引导——CoT数据(1500万样本)
这一阶段的目标是建立显式“感知-规划-决策”通路。
模型输入一对帧、任务指令,输出不仅是任务状态判断,还要输出完整的推理链:先描述空间关系、物体位置、机械臂状态,再一步步推导任务进度。

▲CoT 数据(蓝色):用于建立显式推理链
训练目标:最大化推理路径与最终结论的联合似然;
核心价值:强迫模型把视觉像素与抽象指令强绑定,建立透明的空间-逻辑映射,杜绝“凭感觉瞎猜”。
- 阶段2:能力内化——Tag数据(1600万样本)
当模型掌握显式推理后,进入弱监督内化阶段。
这一阶段去掉所有中间文本推理步骤,只保留视觉输入与最终标签,强迫模型把上一阶段的显式逻辑,内化为高效的视觉直觉——不用一步步描述,直接判断哪一帧更接近任务完成。

▲Tag 数据(绿色):用于内化感知能力
训练目标:简化为直接预测标签;
核心价值:提升认知效率,让模型从“啰嗦的推理者”变成“精准的判断者”,同时保留底层空间感知能力。
- 阶段3:泛化巩固——LongTag数据(1500万样本)
最后用长时序、强干扰、多原子步骤的数据,强化模型在复杂场景下的全局控制能力。
数据包含正交原子任务序列,模型必须在多步骤、长跨度、环境扰动下保持逻辑一致性。

▲LongTag 数据(红色):用于支持长时序任务的复杂决策
训练目标:结合任务逻辑骨架,保持多步操作中的推理稳定;
核心价值:解决长时序泛化难题,让模型既能“看得准局部”,又能“想得清全局”。
这种“易→难、显式→内化、微观→宏观” 的渐进式训练,从算法层面解决了时空幻觉,同时在认知层面赋予智能体可靠的长程规划能力,更关键的是避免了灾难性遗忘。
推理增强型任务分解:打通抽象语义与原子执行
长时序具身任务的最大痛点,是抽象指令无法稳定转化为可执行动作。
EgoTSR提出推理增强型任务分解机制,用一个子任务规划器(Subtask Planner),把抽象指令拆解为一系列功能正交、因果清晰的原子子任务序列。

▲推理增强型任务分解模块
例如“打开冰箱拿食物”,会被分解为:
左臂打开冰箱门→左臂从冰箱取出饮料→左臂把饮料放在桌上→右臂关上冰箱门。
这一设计有两个关键优势:
因果显式建模:不像端到端模型容易出现逻辑漂移,每一步都有明确依赖关系;
训练-推理对齐:训练时用真实子任务序列监督,推理时自主生成,保证逻辑路径高度一致。
它相当于给模型装上了“稳定的逻辑骨架”,把隐式规划变成可控制、可校验、可回溯的显式执行指南,大幅提升长时序任务的鲁棒性。
双维度评估框架:同时度量“看没看清”与“想没想对”
为了精准拆解模型错误来源,研究设计了双维度评估框架,同时衡量细粒度感知与长时序规划,并通过双向评估破解时序偏见:

▲双维度评估框架
- 维度1:原子感知(短期)
评估模型对微小物理变化的敏感度,相当于测试“空间感知专家”能力。
采用多粒度采样,帧间隔从短到长,强迫模型只靠视觉特征判断状态变化,杜绝依赖时序先验。
- 维度2:规划一致性(长期)
评估模型在多子任务序列中的逻辑连贯性,相当于测试“逻辑规划专家”能力。
按逻辑距离分为三类采样窗口:
子任务内(INTRA-TASK);相邻子任务间(INTER-TASK);多子任务跨段(MULTI-TASK)。
- 关键设计:双向评估消除时序偏见
传统评估只测“正序”,EgoTSR同时测正序与逆序。
一个真正理解任务的模型,正序与逆序准确率应几乎一致;若差距巨大,说明模型还在靠时序捷径作弊。
这一指标成为判断模型是否具备真正因果推理的核心标尺。
03 实验验证:效果背后的可信结论
EgoTSR基于Qwen-VL-7B微调,在NVIDIA H800上完成分布式训练,实验覆盖闭源API、开源2D VLM、开源3D LLM等多类基线,结果极具说服力。
核心性能:长时序与短时序双优
- 长时序逻辑推理准确率:92.4%;
- 细粒度感知精度:稳定保持88.2%;
- 双向评估差距仅0.1%,几乎完全消除时序偏见。

▲双维度评估框架综合性能对比
对比基线可以清晰看到:
- 传统开源模型(如InternVL-8B)正序长时序准确率超90%,逆序直接跌到10%以下,严重依赖时序捷径;
- EgoTSR在正逆序下表现几乎一致,证明模型真正理解状态变化,而非记忆帧顺序。
感知与规划的平衡:无灾难性遗忘
训练过程中,长时序任务准确率从74.3%稳步提升至92.4%,而短期感知精度始终稳定在86.6%–88.7%之间,没有出现任何下滑。
这验证了课程学习范式的关键价值:升级高阶逻辑能力,不牺牲底层感知精度。

▲空间感知与逻辑分析精度变化曲线
消融实验:两大核心组件不可或缺
- 课程学习的必要性
a. 仅阶段1(CoT):双向差距89.5%,时序偏见极严重;
b. 阶段1+2(CoT+Tag):差距缩小至3.1%;
c. 完整三阶段:差距仅0.1%,准确率92.4%;
d. 混合乱序训练:准确率仅69.6%,差距4.9%。
结论:有序渐进训练是消除时序偏见的关键。

▲课程学习与子任务规划器消融轨迹
- 子任务规划器的必要性
a. 无规划器:准确率81.1%,双向差距4.3%;
b. 有规划器:准确率92.4%,差距0.1%。

▲EgoTSR 框架量化消融实验
真实场景验证:从仿真到实体机器人
研究在人类演示、LIBERO、SIMPLER等仿真环境,以及Franka、Agibot、So-100等实体机械臂上做了大量案例测试。
模型输出的任务完成曲线呈现清晰的阶梯式上升,与原子子任务完美对齐,对“抓取、放置、开关”等关键节点变化高度敏感,中间过程稳定。

▲任务完成进度曲线可视化
04 EgoTSR的价值、局限与行业启示
核心价值
- 回归具身推理本质
不追逐生成式、世界模型等热点,而是直面“时空幻觉、时序偏见、感知规划割裂”三大真问题,提供了可解释、可复现、可部署的稳健方案。
- 课程学习的范式意义
把人类认知演化规律引入具身VLM训练,证明“显式→内化→泛化” 的路径,比单纯端到端监督更适合长时序时空推理,为后续模型训练提供了通用范式。
- 双维度评估的标杆作用
用原子感知+长时序规划+双向校验,建立了一套可量化、无偏见的具身时空推理评估标准,后续研究可直接沿用,公平对比不同方案的真实能力。

▲机器人操作案例研究
- 落地友好
基于现有开源VLM微调,配合大规模结构化数据,可直接迁移到实体机器人平台,兼顾精度与实用性,符合工业界落地需求。
局限
任何技术都不是完美的,EgoTSR同样存在可改进空间:
- 数据依赖度高
三阶段数据总计4600万样本,数据采集、标注、清洗成本较高,小规模数据场景下难以复现同等效果。
- 任务类型仍偏结构化
实验集中在桌面整理、物品取放、开关容器等步骤清晰、目标明确的任务,面对完全开放式、多意图冲突的场景,泛化能力仍待验证。
- 未深度融合物理先验
模型侧重视觉-语言-时序逻辑,未显式融入力学、碰撞等物理约束,在高动态、强物理交互场景中,仍可能出现不符合物理常识的判断。
- 计算开销偏大
大规模数据+三阶段渐进训练,对算力要求较高,边缘端嵌入式设备直接部署仍有压力。
05 一条稳健的具身时空推理新通路
EgoTSR未追逐生成架构与世界模型热点,而是以课程学习为骨架、推理增强型任务分解为核心、双维度无偏评估为标尺,走出了一条稳健务实的具身时空推理路径,用实验证明其核心矛盾并非模型规模,而是推理路径、训练范式与评估机制的优化;
它在长时序逻辑推理与细粒度感知间实现平衡,近乎消除时序偏见,兼具强实体机器人迁移能力,为行业提供了回归问题本质、强化基础能力的可复用技术范式。
Ref
论文标题:From Perception to Planning: Evolving Ego-Centric Task-Oriented Spatiotemporal Reasoning via Curriculum Learning
论文作者:Xiaoda Yang, Yuxiang Liu, Shenzhou Gao, Can Wang, Jingyang Xue, Lixin Yang, Yao Mu, Tao Jin, Shuicheng Yan, Zhimeng Zhang, Zhou Zhao
论文链接:https://arxiv.org/abs/2604.10517
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)