学习过程文档:VLA中的 Action、Latent 与 World Model 机制


一、学习目标(今日实际完成)

在有限时间内,建立以下最小认知闭环:

  • 理解 VLM 在 VLA 中的作用

  • 区分 action / latent action / latent state

  • 掌握 world model 的动力学本质

  • 明确 diffusion 与 world model 的关系(非继承)


二、核心概念梳理

1. VLM(Vision-Language Model)

定义:

将视觉与语言映射到统一语义空间的模型

形式化表示:

[ z = f(image, text) ]

作用:

  • 提供语义理解(perception + reasoning)

  • 输出统一的 latent 表示


2. VLA整体结构(关键框架)

image + text
    ↓
VLM(语义理解)
    ↓
latent state z_t
    ↓
action / latent action u_t
    ↓
world model(状态转移)
    ↓
z_{t+1}

三、Action 表达机制

1. 标准 Action(控制空间)

定义:

[ a_t \in \mathbb{R}^n ]

特点:

  • 高维

  • 与具体机器人绑定

  • 表示“如何控制”


2. Latent Action(核心)

定义:

[ u_t \in \mathbb{R}^k,\quad k \ll n ]

作用:

[ z_{t+1} = f(z_t, u_t) ]


本质区别:

类型 含义
action 控制信号(how to act)
latent action 状态变化模式(what happens)

关键结论:

latent action 描述“变化效果”,而不是“控制细节”


四、Latent 的本质(重要修正)

原始理解(不完整):

latent = 压缩后的低维表示


更严格定义:

latent 是去除冗余后保留语义结构的表示空间


三个作用:

  1. 降低计算量

  2. 降低学习难度

  3. 统一多模态接口(最关键)


注意:

latent 不一定来自 VAE,也可以来自 Transformer / VLM


五、World Model(核心机制)

1. 基本形式

[ z_{t+1} = f(z_t, u_t) ]


2. 本质

学习语义状态的演化规律(dynamics)


3. 变化量形式

[ \Delta z = f(z_t, u_t) ]

[ z_{t+1} = z_t + \Delta z ]


4. 连续形式(进阶)

[ \frac{dz}{dt} = f(z, u) ]


关键理解:

world model ≈ latent 空间中的动力系统


六、关键纠正(重要认知升级)

误区:

world model 预测“每个点的变化”


正确:

world model 预测“整个语义状态的演化”


七、Diffusion 与 World Model 的关系

❗结论:

diffusion ≠ world model 的发展


正确关系:

diffusion 是一种工具,可以用于实现 world model


对比:

维度 diffusion world model
目标 生成数据 预测状态
输入 noise state + action
本质 生成过程 动力学建模

八、Action 的作用(关键理解)

[ z_{t+1} = f(z_t, u_t) ]


核心作用:

action 决定状态演化路径


对比:

情况 含义
无 action 被动预测
有 action 可控未来

九、整体统一视角(重要)

Perception(VLM)
    ↓
Latent State(z)
    ↓
Dynamics(World Model)
    ↓
Action(u)

十、今日核心结论(必须掌握)

1️⃣

VLM 负责理解,不负责行动

2️⃣

latent 是语义空间,不只是压缩

3️⃣

world model 学的是状态演化规律

4️⃣

latent action 是“变化模式”,不是控制信号

5️⃣

action 的本质是“选择未来”


十一、你当前所处阶段(定位)

你已经完成:

  • 生成模型基础(VAE / Diffusion)

  • 多模态理解(CLIP / VLM)

  • 动力学建模初步(World Model)


当前阶段:

VLA核心机制理解阶段(中级)


十二、下一步学习建议(关键路径)

建议下一步进入:

👉 latent action 的学习机制

重点问题:

  • latent action 如何从数据中学习?

  • 是否需要 action 标注?

  • 如何从视频中反推 action?


后续方向:

  1. inverse dynamics

  2. video prediction → action inference

  3. world model + policy


十三、总结(一句话)

VLA = 在语义空间中,通过学习动力学与动作变量,实现对未来状态的可控生成


(完)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐