具身智能TL常用算法面经：经典 VLA 模型与动作生成范式(二)

Hermit_Rabbit

64人浏览 · 2026-05-06 17:38:56

Hermit_Rabbit · 2026-05-06 17:38:56 发布

1. 博客导读

这篇适合在你已经知道 VLA 基础以后再看。它的目标不是把模型名字背下来，而是让你能在面试里快速回答“这个模型输入什么、怎么生成动作、为什么这样设计、和别的模型区别在哪”。

如果你只想应付面试，优先掌握 RT-2、OpenVLA、ACT、Diffusion Policy、π0、GR00T、SmolVLA、RDT-1B 这八个词。
如果你想讲出项目取舍，重点掌握“动作表示、推理延迟、数据规模、跨 embodiment、部署方式”这五个维度。

本文目标：把 RT-2、OpenVLA、ACT、Diffusion Policy、RDT-1B、π0、GR00T、SmolVLA 放到同一个框架里比较。面试时不要只背“某模型有什么创新”，而要能说清楚：输入输出、动作表示、训练数据、推理方式、适用场景、缺点和改进方向。

2. 阶段二总图谱

模型/方法	核心动作表示	典型优势	典型短板	面试关键词
RT-2	离散 `action token（动作 token）`	复用 VLM，语言和动作统一成 token	离散误差、推理延迟、闭环控制压力	`web knowledge transfer（互联网知识迁移）`、`action tokenization（动作 token 化）`
OpenVLA	开源 `action-token VLA（动作 token 路线 VLA）`	开源、可复现、适合二次微调	默认动作空间和数据混合要适配项目	Prismatic、7B、Open X 数据
ACT	`CVAE（条件变分自编码器）` + `action chunk（动作块）`	小数据友好、工程闭环快、动作连贯	语言泛化弱，依赖任务内数据	`CVAE latent（条件 VAE 潜变量）`、`temporal ensemble（时间集成）`
Diffusion Policy	条件扩散生成连续轨迹	多峰动作、平滑轨迹、接触任务友好	多步采样慢，部署需加速	`denoising（去噪）`、`trajectory distribution（轨迹分布）`
RDT-1B	`Diffusion Transformer（扩散 Transformer）` + action chunk	大模型策略、输入模态丰富	算力和数据要求更高	language + RGB + state
π0	VLA + `flow matching action model（流匹配动作模型）`	连续动作、跨 embodiment、推理更快	训练和数据工程复杂	`flow matching（流匹配）`、`action expert（动作专家模块）`
GR00T	快慢系统，VLM + DiT	人形机器人、合成数据、系统化生态	对硬件和数据链路要求高	System 1/2、humanoid foundation model
SmolVLA	轻量 VLM + `flow action expert（流式动作专家）`	小模型、开源、异步推理、低成本硬件	能力上限受模型和数据规模限制	450M、LeRobot、`async inference（异步推理）`

3. Q1：RT-2 为什么能把动作也用“文本 token”表示？工程优势和问题是什么？

3.1 面试官问法

RT-2 为什么可以直接用 VLM 生成机器人动作？
action tokenization 的好处是什么？
离散动作 token 相比连续动作有什么问题？

3.2 考察点

面试官想看你是否理解 RT-2 的关键不是“用了大模型”，而是把机器人动作序列纳入语言模型的 token 生成范式。

3.3 30 秒回答

RT-2 把连续机器人动作离散化，再映射成类似文本 token（离散序列单元） 的形式，让 VLM（Vision-Language Model，视觉语言模型） 可以在同一个序列建模框架里同时学习语言、视觉和动作。优势是能复用互联网图文预训练带来的语义知识，工程上也能沿用 autoregressive generation（自回归生成） 框架；问题是动作精度受离散 bin 限制，多 token 生成有延迟，而且机器人闭环控制需要额外安全层。

3.4 2-3 分钟展开回答

RT-2 的核心思想是把机器人动作当成一种“新语言”。原始动作可能是末端位姿增量、旋转、夹爪开合等连续值，模型先把每个维度离散化到有限 bin（离散区间），再编码成 token。这样训练时可以把 web-scale（互联网规模） VLM 数据和机器人轨迹数据混合，让模型既学视觉语言语义，也学在给定图像和指令下生成动作 token。

工程优势有三点。

第一，统一接口。语言 token 和动作 token 都能放进 Transformer（基于注意力机制的序列建模架构） 自回归框架，不需要完全重写模型范式。

第二，语义迁移。VLM 在互联网图文中学到的物体、关系、常识可以迁移到机器人任务，比如识别“可乐罐”“抽屉”“垃圾”这些类别。

第三，任务泛化。语言指令可以组合新目标和新动词，模型有机会把语义泛化到动作。

但问题也很明确。机器人动作是连续控制，离散化会带来量化误差；自回归生成多个动作 token 会增加延迟；动作 token 不天然保证平滑、限速和碰撞安全。因此真实部署时要加动作后处理、低层控制器、安全过滤和频率管理。

3.5 常见追问

为什么不是直接输出浮点数？
action token 的 bin 数怎么选？
RT-2 类方案是否适合高精度装配？

3.6 高分追问回答

直接输出浮点数更贴近控制，但很难直接复用语言模型的 token 生成目标。RT-2 选择 tokenization 是为了把动作纳入 VLM 的生成空间。bin 数是精度和学习难度的折中：bin 太少，动作粗糙；bin 太多，类别稀疏、训练更难、生成更慢。

高精度装配不适合完全依赖离散 action token。更合理的是 VLM 负责语义和阶段选择，低层用连续控制、力控、视觉伺服或专门策略完成精细操作。

4. Q2：OpenVLA 为什么重要？和 RT-2 最大区别是什么？

4.1 面试官问法

OpenVLA 的贡献是什么？
OpenVLA 为什么能成为很多 VLA 项目的 baseline？
参数少是否一定说明模型更强？

4.2 考察点

这题考论文理解和实验判断。不要把“开源”当成唯一答案，要讲训练配方、数据混合、动作输出和可复现价值。

4.3 30 秒回答

**OpenVLA 的重要性在于它提供了一个开源、可复现的通用 VLA baseline。**它基于开源 VLM 架构和大规模机器人数据训练，让研究者可以微调、部署和对比。和 RT-2 相比，OpenVLA 的重点不是提出 action token 概念，而是把 VLA 做成开放生态下可用的模型和训练流程。

4.4 2-3 分钟展开回答

OpenVLA 常被问，是因为它连接了两个需求：一是学术上需要可复现 baseline，二是工程上需要能拿来 fine-tune（微调） 的开源模型。RT-2 很有代表性，但不少实现细节和训练数据不完全开放；OpenVLA 则让大家可以在自己的机器人数据上做二次训练。

OpenVLA 的典型输入是图像和语言，输出是离散化的机器人动作。它仍然保留 action token 路线，但更强调开放训练、数据混合和模型适配。面试里可以这样比较：

RT-2 更像证明“VLM 的 web knowledge 可以迁移到机器人控制”。
OpenVLA 更像提供“开源 VLA 基座和微调起点”。
两者都受 action token 离散化和自回归延迟影响。
如果项目强调连续控制和低延迟，可能要接 diffusion/flow action head 或改成 chunked continuous action。

参数少但成功率高，不一定说明架构绝对更强。 机器人 benchmark 受数据分布、动作空间、评测任务、控制频率、相机设置影响很大。回答时要避免简单说“参数少 7 倍所以更优”，而要说它在特定评测协议下实现了更好的数据/模型匹配。

4.5 常见追问

如果用 OpenVLA 迁移到自己的机械臂，第一步改什么？
OpenVLA 的动作空间不匹配怎么办？
OpenVLA 适合做高频控制吗？

4.6 高分追问回答

第一步不是直接训练，而是对齐 data schema（数据格式规范）：相机视角、图像尺寸、语言标注、机器人状态、动作维度、控制频率和归一化方式。动作空间不匹配时，需要做 action adapter（动作适配器），例如把模型输出映射到本机 EEF delta（末端执行器增量） 或 joint command（关节命令）；必要时重新定义 tokenization 或改连续 action head。

OpenVLA 默认不适合直接做高频低层控制。更稳的做法是让它输出低频动作或短轨迹，再由低层控制器插补执行；或者把 OpenVLA 作为高层语义基座，下面接 ACT/Diffusion/Flow 策略。

5. Q3：ACT 的训练和推理流程是什么？

5.1 面试官问法

ACT 为什么要用 CVAE？
action chunking 解决了什么问题？
ACT 推理时 temporal ensemble 是怎么做的？

5.2 考察点

ACT 是小数据机器人项目里非常高频的 baseline。面试官会看你是否真懂训练/推理，而不是只知道名字。

5.3 30 秒回答

**ACT（Action Chunking with Transformers，基于 Transformer 的动作分块方法）用 Transformer 根据当前图像和机器人状态预测未来一段 action chunk（动作块）。**训练时用 CVAE（Conditional VAE，条件变分自编码器）学一个 latent style（潜在风格），让模型能处理同一任务下多种专家动作模式；推理时从 prior（先验分布） 采样或取均值，生成未来 $K$ 步动作。为了减少 chunk 边界抖动，通常用 temporal ensemble（时间集成）融合多个时间步预测到的重叠动作。

5.4 2-3 分钟展开回答

ACT 的输入通常是多视角图像、机器人 proprioception（本体感知） 和当前时间信息，输出是未来 $K$ 步动作。它和普通 BC 最大区别是：不是预测下一步，而是预测一段动作序列。这样可以降低有效 horizon，让模型学到局部行为片段，比如接近、闭合夹爪、抬起、移动。

**CVAE 的作用是建模动作多样性。**训练时 encoder（编码器） 看专家动作 chunk，把它压成 latent（潜变量） $z$ ；decoder（解码器） 根据视觉状态、机器人状态和 $z$ 重建动作 chunk。这样同一个观测下，如果专家有多种合理轨迹，模型不必用 MSE（Mean Squared Error，均方误差） 学成平均动作。

推理时没有专家动作，所以从先验 $z$ 采样或取均值，再由 decoder 输出动作 chunk。Temporal ensemble（时间集成） 的直觉是：每个时刻都会收到过去多次预测中对当前动作的估计，把它们加权平均，可以减少预测边界不连续和抖动。

ACT 的优点是工程简单、小数据可用、推理比多步 diffusion 快。缺点是语言泛化和跨任务泛化依赖数据；如果任务差异很大，需要引入语言条件或更强视觉语义 backbone（主干网络）。

5.5 常见追问

ACT 和普通行为克隆区别是什么？
CVAE 会不会 posterior collapse？
chunk size 怎么选？

5.6 高分追问回答

普通 BC（Behavior Cloning，行为克隆） 学 $a_t = f(o_t)$ ，ACT 学 $a_{t:t+K} = f(o_t)$ ，它更像短 horizon trajectory policy（短时域轨迹策略）。CVAE 确实可能 posterior collapse（后验坍塌），所以要关注 KL 权重、latent 维度、重建质量和采样多样性。chunk size（动作块长度） 要根据控制频率和任务反应性选：太短退化成单步 BC，太长容易对新观测反应慢。

6. Q4：Diffusion Policy 和传统 BC 相比优势在哪里？

6.1 面试官问法

Diffusion Policy 是怎么建模 action space 的？
它建模 joint distribution 还是 marginal？
为什么 diffusion 适合机器人连续动作？

6.2 考察点

这题是阶段四生成模型基础的预告。阶段二重点讲模型直觉和机器人意义。

6.3 30 秒回答

Diffusion Policy（扩散策略）把未来一段动作轨迹看作条件生成对象，在视觉和状态条件下从噪声逐步去噪得到 action trajectory（动作轨迹）。相比 BC 的单点回归，它能建模多峰动作分布和动作间相关性，通常是对整个 action chunk 的 joint distribution（联合分布） 建模，而不是每个时间步独立预测。

6.4 2-3 分钟展开回答

传统 BC 常用 MSE 回归动作。如果同一观测下有多种可行操作，比如从左边绕或从右边绕，MSE 会学到平均轨迹，而平均轨迹可能撞到物体。Diffusion Policy 用生成式建模，可以保留多峰分布。

它通常不是独立预测每一维动作，而是生成未来一段连续动作序列。模型在每个去噪步输入 noisy action chunk（加噪动作块）、视觉特征、机器人状态和时间步 embedding（向量表示），输出噪声或 denoised action（去噪后的动作）。这样动作维度之间、时间步之间的相关性都能被建模。

优势有三点：

连续性：动作轨迹天然连续，适合控制。
多峰性：能表达多个合理策略，而不是平均动作。
闭环性：每次只执行前几步，再根据新观测重采样。

缺点是采样步数多，推理延迟比 ACT 或直接回归高。工程上可以用 DDIM、少步采样、蒸馏、consistency model 或 flow matching 加速。

6.5 常见追问

diffusion policy 会不会动作抖动？
为什么不是每个 action dimension 独立扩散？
多步采样慢怎么解决？

6.6 高分追问回答

如果训练数据抖、条件信息不稳定或采样步数太少，diffusion policy 仍然会抖。解决方式包括动作 chunk、temporal smoothness（时间平滑约束）、低层限速、重叠 chunk 融合和更稳定的视觉状态对齐。每个维度独立扩散会破坏动作相关性，比如末端位移、旋转和夹爪开合必须配合，所以通常建模整个轨迹分布。

7. Q5：RDT-1B 和 Diffusion Policy 怎么选？

7.1 面试官问法

RDT-1B 和 Diffusion Policy 的定位差异是什么？
什么场景下小模型 DP 更好？
什么场景下应该上大模型策略？

7.2 考察点

这是选型题。面试官看你是否会根据任务、数据、算力做判断，而不是盲目追大模型。

7.3 30 秒回答

Diffusion Policy 更像任务专家，适合数据量中等、任务边界明确、需要平滑连续控制的场景；RDT-1B（Robotics Diffusion Transformer，机器人扩散 Transformer）更像通用机器人策略基座，适合多任务、多模态、多机器人数据和更强泛化需求。数据少、任务单一、部署算力有限时我会先用 DP/ACT；跨任务和语言泛化是主目标时再考虑 RDT/VLA。

7.4 2-3 分钟展开回答

选型可以看四个维度，核心是不要为了追大模型牺牲可验证性和部署闭环。

第一是任务范围。单任务或少数任务，比如固定桌面 pick-and-place，Diffusion Policy 足够强，训练和调试成本更低。多任务、多物体、多语言、多场景时，大模型策略更有优势。

第二是数据规模。DP 可以在相对有限的专家数据上训练出不错结果；RDT 这类大模型更依赖大规模、多样化数据，否则容易过拟合或发挥不出泛化能力。

第三是部署算力。DP 可以做小网络和少步采样，ACT 更快；RDT-1B 对 GPU、显存和推理优化要求更高。

第四是研究目标。如果目标是验证新的 action generation、数据策略或控制闭环，小模型更容易做干净实验；如果目标是做通用策略和跨 embodiment 泛化，大模型更有意义。

7.5 常见追问

如果只能采 100 条 demo，你会选哪个？
如果要支持 20 个任务呢？
大模型策略失败时怎么 debug？

7.6 高分追问回答

100 条 demo（示教轨迹） 我会先选 ACT 或 Diffusion Policy，配合预训练视觉 encoder 和数据增强。20 个任务且语言变化明显时，可以考虑 VLA/RDT，但要保证任务标注、动作 schema 和评测协议统一。大模型失败时要拆开看：视觉是否看对、语言是否理解、状态是否对齐、动作头是否平滑、数据是否覆盖当前场景。

8. Q6：π0、π0.5、GR00T、SmolVLA 的 flow/diffusion action expert 怎么理解？

8.1 面试官问法

π0 和传统 VLA 的差异是什么？
GR00T 的快慢系统具体怎么分工？
SmolVLA 为什么强调异步推理？

8.2 考察点

这是前沿模型理解题。核心不是记模型参数，而是理解“VLM 负责语义，连续生成模型负责动作”的趋势。

8.3 30 秒回答

这些模型共同趋势是把高层语义理解和低层连续动作生成分开：VLM/LLM 处理图像语言上下文，action expert 用 flow matching 或 diffusion transformer 生成连续 action chunk。这样比纯 action token 更适合机器人控制，也比纯小策略更有语义泛化潜力。GR00T 明确做快慢系统，SmolVLA 则把这种思路做轻量化，并通过异步推理减少执行等待。

8.4 2-3 分钟展开回答

π0 的代表性意义是把 VLA 和 flow matching（流匹配） 结合。它不是把动作完全当语言 token，而是让模型在语言和视觉条件下生成连续动作轨迹。Flow matching 学的是从噪声分布到真实动作分布的 velocity field（速度场），推理时沿着向量场把噪声搬运到动作，相比传统 diffusion 有潜在的少步推理优势。

GR00T 的表述更偏系统架构。System 2（慢系统） 类似高层 VLM，负责理解环境和指令、生成计划；System 1（快系统） 负责把计划转成连续机器人动作。这种架构适合人形机器人，因为人形任务既需要语义推理，也需要快速、稳定、全身协调的动作。

SmolVLA 的价值在轻量化和工程可用。它不是一味堆参数，而是强调 450M 级别模型、开源数据、flow matching action expert、视觉 token 减少和异步推理。异步推理的关键是机器人执行当前 action chunk 时，并行请求下一段 chunk，避免“执行完等模型”的空档。

8.5 常见追问

flow matching 和 diffusion action head 本质区别是什么？
异步推理会不会用过期观测？
快慢系统是不是一定优于端到端？

8.6 高分追问回答

Flow matching 和 diffusion 都是生成动作分布的方法，但训练目标不同。Diffusion 通常学逐步去噪；flow matching 学连续时间向量场。工程上更关心推理步数、稳定性和是否容易蒸馏。异步推理确实有 stale observation 风险，所以要控制 chunk 长度、队列阈值、融合规则和安全中断。快慢系统不是绝对优于端到端，但在真实部署中更容易调试、插入安全约束和优化延迟。

9. Q7：离散动作 token、ACT、Diffusion、Flow Matching 到底怎么选？

9.1 面试官问法

你项目里为什么不用 RT-2 那种 action token？
ACT 和 Diffusion Policy 谁更适合你的任务？
Flow matching 是不是一定比 diffusion 好？

9.2 考察点

这是综合 tradeoff 题。高分回答要把“任务类型、数据规模、动作精度、推理延迟、泛化需求”放到一起。

9.3 30 秒回答

如果任务语言语义复杂、动作精度要求中等，可以考虑 action token VLA；如果数据少、任务明确、想快速落地，ACT 是强 baseline；如果动作多峰、接触复杂、需要平滑轨迹，Diffusion Policy 更合适；如果要连续动作同时追求少步推理和大模型融合，可以考虑 flow matching action head。但最终要看数据和部署频率，不是范式越新越好。

9.4 2-3 分钟展开回答

我会先问五个问题。

第一，任务是否强依赖语言泛化？如果只是固定任务，没必要上大 VLA；如果语言组合多，VLA 更有价值。

第二，动作是否需要高精度连续控制？高精度装配、接触、插拔等任务不适合粗离散 token，连续 action head 更合理。

第三，数据量有多少？几十到几百条 demo，ACT/DP 更现实；大规模多任务数据才支撑通用 VLA。

第四，推理预算是多少？自回归 token 和多步 diffusion 都可能慢，需要 action chunk、缓存、少步采样或异步推理。

第五，失败成本多高？如果失败成本高，必须保留安全层、低层控制和 fallback（失败兜底策略），不应该让端到端模型直接裸控。

面试里可以给一个明确结论：我会把 ACT 作为最小可行 baseline，把 Diffusion/Flow 作为动作质量升级方向，把 OpenVLA/π0/SmolVLA 作为语言泛化和多任务扩展方向。

在这里插入图片描述

10. Q9：UniVLA、late action model、VQ-VAE 这类思路怎么理解？

10.1 面试官问法

UniVLA 的 late action model 是什么？
latent action 和直接 action 输出有什么区别？
为什么要在中间加 VQ-VAE 这类模块？

10.2 考察点

这类问题通常是在看你是否理解“先压缩再解码”的分层建模思路。即使你没完整复现过，也要能讲清楚它解决的是动作空间太复杂、直接回归太难、长时序太不稳定这几个问题。

10.3 30 秒回答

UniVLA 这类思路一般是先把复杂动作压缩成 latent action，再通过解码器生成最终动作。late action 的意思是 “先做语义或潜在规划，后做具体动作展开”。这样可以 减少动作空间维度、提高序列建模稳定性，也方便把高层语义和低层控制分开。

10.4 2-3 分钟展开回答

如果面试官提 UniVLA，你可以把它理解成 “分层式 VLA”。它的核心不是某个具体名字，而是这种建模逻辑：

在这里插入图片描述

先用视觉语言模块理解当前场景和任务。
再把动作映射到一个更低维、更结构化的 latent space（潜空间）。
最后由 action decoder（动作解码器） 或 VQ-VAE 解码成可执行动作。

这样做的原因有两个。

第一，动作直接回归太难。特别是长时序任务、连续控制、多人类风格示教时，动作分布会非常复杂。latent action 可以把**“连续多解”压缩成更紧凑的表示**。

第二，分层更适合工程。高层可以先决定“做什么”，低层再决定“怎么做”。这和大脑/小脑、快慢系统的思路一致。

VQ-VAE（Vector Quantized VAE，向量量化变分自编码器） 在这里通常承担 “离散化 latent” 的角色。VQ（Vector Quantization，向量量化） 意味着把连续 latent 映射到一组 codebook（码本） 向量里，形成更稳定的符号空间。它的优点是更容易序列化，缺点是会引入量化误差。

10.5 常见追问

latent action 为什么有时比直接回归更稳？
VQ-VAE 会不会损失动作细节？
这种结构适合什么任务？

10.6 高分追问回答

latent action 更稳，是因为它把高维连续动作先投影到一个结构化空间，减少了直接学习复杂动作分布的难度。VQ-VAE 确实会损失一部分细节，所以它更适合中高层动作计划或短轨迹块，而不是特别精细的力控任务。它适合长时序、多任务、需要层次结构的 VLA 场景。

在这里插入图片描述

11. Q10：RTC / real-time chunking 是什么？为什么它和动作 chunk 一起被问？

11.1 面试官问法

RTC 你看过吗？解决什么问题？
动作分块增大时，怎么平衡推理延迟和控制精度？
异步推理怎么避免模型等控制器？

11.2 考察点

这题本质是在看你是否理解“机器人不是一次性生成答案，而是边执行边推理”。RTC 的价值在于把大模型生成和机器人执行解耦，减少空等时间。

11.3 30 秒回答

RTC（Real-Time Chunking，实时动作分块）可以理解成边执行边生成动作块：模型不是每次只输出一个动作，而是输出一段短动作块，并在执行当前块时并行生成下一块。这样能降低等待推理的空档，兼顾连续性和实时性。chunk 越大，动作越平滑，但响应越慢；chunk 越小，响应越快，但推理开销和边界抖动会更明显。

11.4 2-3 分钟展开回答

RTC 这类问题通常和 action chunk 一起问，是因为它们解决的是同一个矛盾：机器人需要实时控制，但大模型推理不是瞬时完成的。

在这里插入图片描述

可以把控制过程理解为：

当前时刻 $t$ ，模型根据观测输出 $K$ 步动作。
机器人先执行前 $M$ 步， $\le K$ 。
在执行期间，模型并行预测下一段动作块。
两段动作之间通过重叠、interpolation（插值） 或 temporal ensemble 缝合。

这样做的好处是减少“机器人在等模型”的空档，也让动作更连续。风险是观测会过期，所以需要设置 chunk 长度上限、重规划触发条件和安全中断机制。

在这里插入图片描述

11.5 常见追问

RTC 和低层控制器插补是什么关系？
异步推理会不会带来 stale observation？
什么时候不适合用 RTC？

11.6 高分追问回答

RTC 不能替代低层控制器。它只是让策略层推理更符合实时系统。低层控制器负责高频稳定跟踪，RTC 负责中频动作生成。stale observation（过期观测） 可以通过缩短 chunk、实时重规划、冲突检测和安全层来缓解。特别是接触任务、动态障碍任务和高频视觉伺服任务，不适合过长的 chunk。

在这里插入图片描述

传统的 Action Chunking（动作分块）范式（图 A 部分）通过让策略模型一次性预测未来的一段时间步序列（动作块），有效减少了逐帧推理的复合误差。然而，其本质上是一种开环执行模式：机器人完整执行完上一个动作块后，才开始根据最新的观测进行下一次推理。这种方式在块与块的切换处容易产生物理上的不连续跳跃，增加安全中断风险，且难以应对Stale Observation（过期观测）。

相比之下， $\pi_0$ 模型提出的 Real-Time Chunking（RTC，实时动作分块）（图 B 部分）则是针对大范式模型（如 Diffusion/Flow-based）高推理延迟问题的一种闭环工程优化。RTC 的核心在于引入了异步执行和局部修复（Inpainting）机制：在生成新的动作块时，RTC 算法利用上一个动作块的末端（冻结前缀）作为强约束点，通过轨迹修复（Inpainting）技术生成与当前运动状态完美对齐的新轨迹。这种方式避免了传统的“时序集成”可能带来的“平均动作”偏差，在保证动作稳定连贯的同时，实现了基于实时反馈的闭环控制。

在这里插入图片描述

12. Q11：π0.5、π*0.6、π0.7 到底怎么区分？

…详情请参照古月居

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

瑞萨联姻 Irida Labs：嵌入式开发者如何玩转“端侧视觉 AI”新范式？

摘要： 2026年5月，瑞萨电子收购视觉AI软件商Irida Labs，标志着嵌入式视觉进入软硬协同新阶段。通过整合Irida的PerCV平台与瑞萨RZ/V、RA系列硬件，开发者可在资源受限的MCU/MPU上实现高效视觉AI。关键技术包括：1）DRP-AI异构加速架构，通过动态重构电路实现零数据拷贝；2）极致量化与模型蒸馏，优化算子融合；3）物理AI集成需解决确定性、光照稳健性及延迟累加等挑战。瑞

AtomGit开源社区

超越 Prompt Engineering：2026 年多智能体编排（Multi-Agent Orchestration）架构深度解析

摘要： 2026年AI领域已从单一模型对话转向多智能体编排（MAO），通过动态规划、工具调用和反思循环三大核心能力构建自主任务执行的“数字员工集群”。动态规划使Agent能自主调整任务序列；工具调用赋予其环境操作能力；反思循环通过Critic Agent实现质量控制。实战案例展示了基于状态机的多角色协作开发流程（PM、Coder、Tester），并指出未来趋势包括交叉审计、Token效率优化和异构

AtomGit开源社区

操作系统核心概念全解析：从基础特征到进程状态模型

AtomGit开源社区

所有评论(0)

查看更多评论

Hermit_Rabbit

@lovely_yoshino

已为社区贡献56条内容

具身智能TL常用算法面经：经典 VLA 模型与动作生成范式(二)

Hermit_Rabbit

1. 博客导读

2. 阶段二总图谱

3. Q1：RT-2 为什么能把动作也用“文本 token”表示？工程优势和问题是什么？

3.1 面试官问法

3.2 考察点

3.3 30 秒回答

3.4 2-3 分钟展开回答

3.5 常见追问

3.6 高分追问回答

4. Q2：OpenVLA 为什么重要？和 RT-2 最大区别是什么？

4.1 面试官问法

4.2 考察点

4.3 30 秒回答

4.4 2-3 分钟展开回答

4.5 常见追问

4.6 高分追问回答

5. Q3：ACT 的训练和推理流程是什么？

5.1 面试官问法

5.2 考察点

5.3 30 秒回答

5.4 2-3 分钟展开回答

5.5 常见追问

5.6 高分追问回答

6. Q4：Diffusion Policy 和传统 BC 相比优势在哪里？

6.1 面试官问法

6.2 考察点

6.3 30 秒回答

6.4 2-3 分钟展开回答

6.5 常见追问

6.6 高分追问回答

7. Q5：RDT-1B 和 Diffusion Policy 怎么选？

7.1 面试官问法

7.2 考察点

7.3 30 秒回答

7.4 2-3 分钟展开回答

7.5 常见追问

7.6 高分追问回答

8. Q6：π0、π0.5、GR00T、SmolVLA 的 flow/diffusion action expert 怎么理解？

8.1 面试官问法

8.2 考察点

8.3 30 秒回答

8.4 2-3 分钟展开回答

8.5 常见追问

8.6 高分追问回答

9. Q7：离散动作 token、ACT、Diffusion、Flow Matching 到底怎么选？

9.1 面试官问法

9.2 考察点

9.3 30 秒回答

9.4 2-3 分钟展开回答

10. Q9：UniVLA、late action model、VQ-VAE 这类思路怎么理解？

10.1 面试官问法

10.2 考察点

10.3 30 秒回答

10.4 2-3 分钟展开回答

10.5 常见追问

10.6 高分追问回答

11. Q10：RTC / real-time chunking 是什么？为什么它和动作 chunk 一起被问？

11.1 面试官问法

11.2 考察点

11.3 30 秒回答

11.4 2-3 分钟展开回答

11.5 常见追问

11.6 高分追问回答

12. Q11：π0.5、π*0.6、π0.7 到底怎么区分？

…详情请参照古月居

所有评论(0)

温馨提示：您尚未绑定手机号

Hermit_Rabbit