记录每天的学习内容2026.3.23--简单了解VLA中的语义空间和action行为(AI总结),与ai问答全部对话在https://github.com/101per/learning.git

101%87

337人浏览 · 2026-03-23 17:52:07

101%87 · 2026-03-23 17:52:07 发布

学习过程文档：VLA中的 Action、Latent 与 World Model 机制

一、学习目标（今日实际完成）

在有限时间内，建立以下最小认知闭环：

理解 VLM 在 VLA 中的作用
区分 action / latent action / latent state
掌握 world model 的动力学本质
明确 diffusion 与 world model 的关系（非继承）

二、核心概念梳理

1. VLM（Vision-Language Model）

定义：

将视觉与语言映射到统一语义空间的模型

形式化表示：

[ z = f(image, text) ]

作用：

提供语义理解（perception + reasoning）
输出统一的 latent 表示

2. VLA整体结构（关键框架）

image + text
    ↓
VLM（语义理解）
    ↓
latent state z_t
    ↓
action / latent action u_t
    ↓
world model（状态转移）
    ↓
z_{t+1}

三、Action 表达机制

1. 标准 Action（控制空间）

定义：

[ a_t \in \mathbb{R}^n ]

特点：

高维
与具体机器人绑定
表示“如何控制”

2. Latent Action（核心）

定义：

[ u_t \in \mathbb{R}^k,\quad k \ll n ]

作用：

[ z_{t+1} = f(z_t, u_t) ]

本质区别：

类型	含义
action	控制信号（how to act）
latent action	状态变化模式（what happens）

关键结论：

latent action 描述“变化效果”，而不是“控制细节”

四、Latent 的本质（重要修正）

原始理解（不完整）：

latent = 压缩后的低维表示

更严格定义：

latent 是去除冗余后保留语义结构的表示空间

三个作用：

降低计算量
降低学习难度
统一多模态接口（最关键）

注意：

latent 不一定来自 VAE，也可以来自 Transformer / VLM

五、World Model（核心机制）

1. 基本形式

[ z_{t+1} = f(z_t, u_t) ]

2. 本质

学习语义状态的演化规律（dynamics）

3. 变化量形式

[ \Delta z = f(z_t, u_t) ]

[ z_{t+1} = z_t + \Delta z ]

4. 连续形式（进阶）

[ \frac{dz}{dt} = f(z, u) ]

关键理解：

world model ≈ latent 空间中的动力系统

六、关键纠正（重要认知升级）

误区：

world model 预测“每个点的变化”

正确：

world model 预测“整个语义状态的演化”

七、Diffusion 与 World Model 的关系

❗结论：

diffusion ≠ world model 的发展

正确关系：

diffusion 是一种工具，可以用于实现 world model

对比：

维度	diffusion	world model
目标	生成数据	预测状态
输入	noise	state + action
本质	生成过程	动力学建模

八、Action 的作用（关键理解）

[ z_{t+1} = f(z_t, u_t) ]

核心作用：

action 决定状态演化路径

对比：

情况	含义
无 action	被动预测
有 action	可控未来

九、整体统一视角（重要）

Perception（VLM）
    ↓
Latent State（z）
    ↓
Dynamics（World Model）
    ↓
Action（u）

十、今日核心结论（必须掌握）

1️⃣

VLM 负责理解，不负责行动

2️⃣

latent 是语义空间，不只是压缩

3️⃣

world model 学的是状态演化规律

4️⃣

latent action 是“变化模式”，不是控制信号

5️⃣

action 的本质是“选择未来”

十一、你当前所处阶段（定位）

你已经完成：

生成模型基础（VAE / Diffusion）
多模态理解（CLIP / VLM）
动力学建模初步（World Model）

当前阶段：

VLA核心机制理解阶段（中级）

十二、下一步学习建议（关键路径）

建议下一步进入：

👉 latent action 的学习机制

重点问题：

latent action 如何从数据中学习？
是否需要 action 标注？
如何从视频中反推 action？

后续方向：

inverse dynamics
video prediction → action inference
world model + policy

十三、总结（一句话）

VLA = 在语义空间中，通过学习动力学与动作变量，实现对未来状态的可控生成

（完）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

多模态的端到端跃迁：SenseNova U1 原生图文交错生成能力与技术应用全景解析

AtomGit开源社区

API中转站横评：8个技术维度拆解词元无忧、硅基流动和One API

如果目标是「少改代码，尽快把主流模型接进业务」，先测词元无忧API。它的 OpenAI 兼容接入、主流模型覆盖、国内域名与结算方式，对开发者和企业团队都比较友好。如果目标是「模型服务平台化」或「国产/开源模型高吞吐推理」，硅基流动、云厂商方案要一起看。如果目标是「完全自主可控」，One API 可以自建，但需要接受运维成本。真正的选型不要停在表格。用同一批 prompt、同一组并发、同一套日志字段