NVIDIA具身智能版图初探

m0_38116472

783人浏览 · 2026-04-21 14:55:14

m0_38116472 · 2026-04-21 14:55:14 发布

在具身智能（Embodied AI）和物理智能（Physical AI）的前沿技术中，NVIDIA无疑占据了一个重要的位置。

作为全球领先的图形计算与AI技术供应商，NVIDIA凭借其强大的GPU加速平台、深度学习框架、以及仿真工具，为机器人、自动驾驶、智能制造等领域提供了核心计算和感知支持。

随着其Jetson系列、Isaac平台、Omniverse、Cosmos等技术的推出，NVIDIA成功推动了AI模型、计算力和仿真环境的深度融合，进一步推动了具身智能的实际落地应用，实现了智能体的感知、决策和物理执行能力，成为行业内不可或缺的技术供应商。

一、JetsonTK1计算平台

2014年，NVIDIA推出了NVIDIA Jetson TK1计算平台，这是NVIDIA最早面向边缘嵌入式AI/机器人/自动驾驶的硬件平台，也是后来Jetson Nano、Xavier、Orin、Thor等机器人/车规级芯片的初代起点。

基于这个平台有两款处理器：适用于计算机视觉、机器人、医疗等通用型的算力密集型嵌入式系统开发的Jetson TK1，以及面向汽车级开发的Jetson TK1 Pro。

初代JETSON

现在的Jetson系列芯片

目前在NVIDIA的具身智能（Embodied AI/Physical AI）版图中，Jetson系列仍然是核心支撑层之一，主要负责在物理实体上提供边缘推理与实时智能执行能力。具体来说，它的地位可以概括如下：

1.边缘算力基石：

Jetson是NVIDIA面向边缘物理AI与机器人的关键硬件平台，为机器人、自动驾驶、工业自动化等自主系统提供本地感知、推理和控制能力。

其设计目标是让具身智能系统能在没有依赖云的情况下，在现场完成复杂任务，如多传感融合、实时决策等。

2.从JetsonOrin到JetsonThor的演进：

最新的Jetson AGX Thor是专为物理AI和具身智能设计的高性能平台。

具备大规模生成式模型推理能力及强实时计算能力，可运行机器人基础模型（如Isaac GR00T、Cosmos Reason等），大幅提升机器人执行复杂动作、环境理解等能力。

3.全栈软硬件融合：

Jetson和NVIDIA的AI软件生态（如JetPack SDK、Isaac机器人工具、Metropolis、Holoscan等）深度集成，使其既能支撑底层传感器处理和控制逻辑，又能执行高层智能策略推理，是实现“知觉→推理→行动”闭环执行的核心节点。

4.生态与应用落地枢纽

由于其强劲算力、高能效比和丰富接口，Jetson已被大量机器人、智能设备厂商采用，并成为在实际场景（从工业机器人到服务机器人）中部署具身智能的主要计算平台。

Jetson软硬件框图

二、Isaac

Isaac这个名字可能是为了致敬《圣经》中的人物以撒（Isaac），因为其象征着智慧、创新和未来的愿景。

Isaac是NVIDIA于2018年推出的开放式机器人开发平台，由仿真和机器人学习框架、基于NVIDIA CUDA加速库、AI模型以及参考工作流组成，用于创建自主移动机器人（AMR）、机器人臂、操控器和类人机器人。

Isaac的主要组成部分如下：

1．仿真与算法训练

（1）IsaacSim

基于NVIDIA Omniverse，提供物理精确、高保真机器人物理仿真与合成数据生成，内置Omniverse Physics高精度物理引擎，实现刚体/柔体碰撞、材质交互、抓取操作高度保真，让仿真与现实高度对齐。

（2）Isaac Lab

基于Isaac Sim的GPU加速机器人学习框架，专注于强化学习、模仿学习等策略训练。

2．加速库与模型

（1）NVIDIA CUDA加速库+应用框架

提供CUDA加速算法，用于感知、SLAM、运动规划等。

（2）AI模型（如基础感知模型）

包括用于姿态估计、深度估计、物体检测等预训练模型，可直接用于机器人感知组件。

3．机器人软件组件

（1）Isaac ROS

基于ROS2的CUDA加速包与参考工作流，简化高级机器人应用的开发（自主导航、控制等）。

（2）Isaac Perceptor

针对自主移动机器人（AMR）的感知库与参考流程集成，用于3D重建、SLAM和环境理解。

（3）Isaac Manipulator

专注于机械臂和操控器的AI加速库与参考工作流程，支持抓取、跟踪等任务。

4．具身智能核心大脑（2025–2026关键新增）

（1）Isaac GR00T

全球首个开源通用VLA（视觉-语言-动作）机器人基础模型，支持自然语言指令、多步任务规划、零/少样本泛化、连续动作生成，是人形机器人的通用大脑。

（2）CAP-X可编程具身框架

将机器人技能代码化、可编辑、可复用、可验证，融合数据驱动与逻辑规则，解决端到端模型不可解释、难调试、难商用的痛点。

三、Ominiverse

Omniverse是发布于2020年12月的多用户协作和仿真平台，旨在为3D内容创作、虚拟世界建模、物理仿真和数字孪生提供统一的开发环境。

它通过集成实时渲染、物理模拟、AI和大规模协作功能，允许不同领域的开发者、设计师和工程师在虚拟环境中进行无缝协作。

Omniverse是一个跨行业、跨工具的开放平台，适用于从游戏开发、电影制作到工业设计和自动驾驶仿真等多个领域。

1.主要特点和功能：

(1)实时协作与同步

Omniverse允许多用户在同一个虚拟世界中进行实时协作。

多个开发者可以同时编辑和渲染同一个3D场景，从而显著提高项目的开发效率。

它支持与多种3D工具和应用（如Autodesk Maya、3ds Max、Blender等）进行无缝协作，通过USD（Universal Scene Description）文件格式进行跨平台的数据交换，使得不同的设计工具可以互操作。

(2)高级物理仿真

Omniverse利用NVIDIARTX GPU的强大计算能力，提供高保真物理仿真。

这包括光线追踪渲染、流体、烟雾、布料等物理效果的模拟，让虚拟世界更贴近真实。

Omniverse Physics模块支持碰撞、重力、物理交互等多种仿真，可以在复杂场景中模拟物理行为，确保模拟的真实性。

(3)数字孪生

Omniverse通过将现实世界的物理对象（如建筑、工厂、城市等）转化为数字化模型，用户可以在虚拟环境中进行测试、优化和预测。

这对于工业仿真和自动驾驶仿真等领域非常重要，通过数字孪生，工程师可以在虚拟世界中验证现实中的系统行为，减少物理原型的开发成本。

(4)AI驱动的工具和功能

Omniverse融合了NVIDIA的AI技术，如Omniverse Audio2Face，可以基于语音自动生成角色的面部表情，使得虚拟人物更加生动。

利用深度学习和AI，Omniverse还提供了自动化生成环境和资产的功能，进一步加速了内容创作。

(5)扩展性与插件

Omniverse是一个开放平台，支持各种插件和扩展，用户可以根据自己的需求进行定制化开发。

例如，开发者可以通过Omniverse Kit构建自己的应用程序，或将Omniverse集成到现有的工作流程中。

(6)虚拟世界的多样性应用

游戏和电影制作：游戏开发者和电影工作室可以在其中创建高保真、实时渲染的场景。

工业仿真和工程设计：汽车、航空航天、建筑等行业的从业人员可以用它来进行虚拟原型设计、生产线模拟、建筑施工仿真等。

自动驾驶：通过与NVIDIA DRIVE平台结合，Omniverse可以用于自动驾驶仿真，帮助开发者在虚拟世界中测试驾驶算法，确保安全性和效率。

2.Omniverse主要组成部分：

(1)Omniverse Nucleus：

Nucleus是Omniverse的核心组件，负责数据管理和协作同步，确保多用户和多工具之间的无缝协作。

它管理虚拟世界中的所有资源和数据，并协调各个模块的交互。

(2)Omniverse Kit：

Kit是开发者工具包，允许开发者通过脚本和插件扩展Omniverse的功能。

开发者可以使用Kit创建自定义的应用程序，构建与Omniverse兼容的工具和系统。

(3)Omniverse Connectors：

Connectors是将Omniverse与其他行业标准3D软件（如Autodesk、Blender、Unreal Engine等）集成的插件。

这使得用户能够在现有工具中继续工作，同时将数据无缝传输到Omniverse平台进行进一步的仿真和渲染。

(4)Omniverse Create：

Create是Omniverse的主要创作工具，专为设计师、工程师和艺术家打造。

它提供了一个交互式的3D创建和编辑环境，用户可以在其中进行模型设计、材质设置和实时渲染。

(5)Omniverse View：

View是一个轻量级的查看器，主要用于查看和呈现Omniverse场景。

它为用户提供了实时光线追踪渲染和互动功能，适用于项目审阅和展示。

四、Cosmos

NVIDIA Cosmos是于2025 年初正式发布的世界基础模型平台（WFM），专为具身智能/物理AI场景设计，通过生成式世界模拟、可控合成数据生成、多模态推理等技术来加速机器人、自动驾驶等自主系统的开发。

Cosmos由有五个核心模块组成，分别聚焦于不同的AI开发工作流程。这些模块互相配合，以推动从数据准备到模型训练、推理和优化的全流程。

1.Cosmos Curator

一个基于Ray构建的GPU加速视频策展流水线，用于推理和训练数据准备。

支持多模型分析、内容过滤、注释和重复去重，确保数据质量。

可加速数据准备，尤其是在大规模视频和传感器数据集上。

适用于数据预处理，在大规模模型训练前对数据进行优化。

适合需要处理和标注大量传感器数据或视频的任务，如机器人感知训练、自动驾驶仿真等。

2.Cosmos Predict

一种用于未来状态预测的扩散变压器（Diffusion Transformer）。

提供文本到图像和视频到世界生成能力，能够生成逼真的虚拟场景。

专门的机器人和仿真变体，适应于不同仿真环境和任务。

支持定制训练，可以根据具体领域（如机器人、自动驾驶）进行任务特定的训练。

用于生成仿真环境和虚拟世界，支持机器人和自动驾驶系统的场景预测和数据生成。

3.Cosmos Transfer

一套多控制视频生成系统，支持复杂的条件处理和生成。

支持Control Net和Multi Control Net，可以处理深度、分段、激光雷达、HDMap等信息，生成多模态仿真数据。

包含4K放大功能，支持高分辨率数据生成。

提供自定义控制模式和域适配训练，可以根据特定领域的需求进行定制。

广泛应用于自动驾驶仿真、机器人训练和数据生成，特别适合需要精确环境控制和多感知输入的任务。

4.Cosmos Reason

一款7B视觉语言模型（VLM），用于物理基础推理。

可处理空间/时间理解和思维链任务，通过多步推理进行决策。

支持具身AI应用和领域特定推理的微调，可以根据实际应用进行定制训练。

提供跨学科推理支持，例如针对机器人的物理行为推理。

用于物理推理和任务规划，特别适合涉及空间/时间推理、决策优化等任务的领域，如机器人自主决策和自动驾驶决策。

5.CosmosRL

一个分布式训练框架，支持监督式微调SFT和强化学习方法。

支持FP8/FP4精度，提高训练效率并减少计算负担。

具备弹性策略推广，支持大规模VLM和LLM（大型语言模型）训练的优化功能。

提供多种训练方法的支持，使其能够适应不同的智能体学习任务。

主要用于训练具身智能系统，例如机器人自主学习、自动驾驶的智能决策训练等。

Cosmos系列的五个核心模块共同为物理AI和具身智能提供了一个完整的开发、训练、推理和优化平台。每个模块都针对AI开发工作流中的一个具体能力，提供了以下功能：

1.数据准备和优化：通过Cosmos Curator提供高效的GPU加速数据准备。

2.生成能力：通过Cosmos Predict进行未来状态的预测和生成虚拟世界场景。

3.多模态控制和生成：通过Cosmos Transfer生成高质量、多感知模式的仿真数据。

4.物理推理和决策：通过Cosmos Reason提供推理能力，使机器人能够进行物理和空间决策。

5.分布式训练与强化学习：通过Cosmos RL支持高效的大规模训练，提升智能体在复杂任务中的表现。

五、NVIDIA具身智能全栈闭环

NVIDIA具身智能技术的成功不仅仅依赖于单一的硬件或软件平台。

它通过全栈闭环解决方案将从训练算力到模型部署、再到端侧加速的所有环节无缝衔接，推动智能体在现实世界中的应用。

以下是NVIDIA具身智能全栈闭环的关键组成部分：

1.训练算力：Blackwell+Vera Rubin超算平台

为了支撑世界模型和具身大模型（如Isaac GR00T和Cosmos Reason）的训练，NVIDIA提供了强大的计算平台。

Blackwell架构和Vera Rubin超算平台为大规模深度学习模型的训练提供了必要的算力支持，确保在处理复杂的物理推理和自主决策任务时，能够高效完成训练工作。

2.模型部署：NVIDIA NIM提供标准化模型打包与加速

NVIDIA NIM（NVIDIA Intelligence Model）为大模型的标准化部署提供了工具，使得训练好的模型可以在各种硬件平台上顺利运行。

NIM提供了模型打包、加速和跨平台部署的解决方案，简化了从开发到实际应用的过渡过程，确保大模型能够在机器人、自动驾驶等系统中高效执行。

3.端侧加速：TensorRT-Edge LLM实现低延迟推理

TensorRT-Edge LLM专为Jetson系列平台提供了优化的大模型推理支持。

通过低延迟实时推理，机器人和智能系统能够快速决策和执行动作，保证在复杂环境中的动作流畅性和安全性。

这一技术确保了大规模视觉语言模型（VLM）和大语言模型（LLM）在边缘设备上也能高效运行，极大提升了设备的自主决策能力。

4.统一标准：USD数字世界通用语言，实现虚拟–现实数据互通

USD（Universal Scene Description）是NVIDIA提出的数字世界通用语言，它在Omniverse和Isaac Sim中扮演着重要角色。

USD使得虚拟世界与现实世界之间的数据互通成为可能，促进了虚拟仿真与物理系统的高度同步。通过USD，用户能够无缝地交换数据和模型，在仿真环境中进行训练，然后直接将模型和算法部署到真实世界中进行验证和优化。

随着NVIDIA 具身智能平台的不断发展，NVIDIA 已经不仅仅是 AI 算力的提供者，更成为物理智能和具身智能革命的关键推动者。

就像在AI 时代早期，NVIDIA 通过 GPU 和 CUDA 平台为智能应用提供了强大支持，成为了AI 卖铲人。

如今，凭借Jetson、Isaac、Omniverse和Cosmos等技术，NVIDIA 正在为机器人、自动驾驶、智能制造等领域提供全栈解决方案，推动从虚拟环境到现实世界的智能应用落地。

未来，NVIDIA 将继续以其技术为基础，推动具身智能在更多行业的普及和发展。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Gemini3.1Pro：元学习开启AI新纪元

AtomGit开源社区

全栈国产智能决策：数字孪生2.0正式到来

AtomGit开源社区

第二篇：深入量化——Tushare数据处理与策略开发实战

AtomGit开源社区

所有评论(0)

查看更多评论

m0_38116472

@m0_38116472

已为社区贡献3条内容

NVIDIA具身智能版图初探

m0_38116472

所有评论(0)

温馨提示：您尚未绑定手机号

m0_38116472