NVIDIA具身智能版图初探
在具身智能(Embodied AI)和物理智能(Physical AI)的前沿技术中,NVIDIA无疑占据了一个重要的位置。
作为全球领先的图形计算与AI技术供应商,NVIDIA凭借其强大的GPU加速平台、深度学习框架、以及仿真工具,为机器人、自动驾驶、智能制造等领域提供了核心计算和感知支持。
随着其Jetson系列、Isaac平台、Omniverse、Cosmos等技术的推出,NVIDIA成功推动了AI模型、计算力和仿真环境的深度融合,进一步推动了具身智能的实际落地应用,实现了智能体的感知、决策和物理执行能力,成为行业内不可或缺的技术供应商。
一、JetsonTK1计算平台
2014年,NVIDIA推出了NVIDIA Jetson TK1计算平台,这是NVIDIA最早面向边缘嵌入式AI/机器人/自动驾驶的硬件平台,也是后来Jetson Nano、Xavier、Orin、Thor等机器人/车规级芯片的初代起点。
基于这个平台有两款处理器:适用于计算机视觉、机器人、医疗等通用型的算力密集型嵌入式系统开发的Jetson TK1,以及面向汽车级开发的Jetson TK1 Pro。

初代JETSON

现在的Jetson系列芯片
目前在NVIDIA的具身智能(Embodied AI/Physical AI)版图中,Jetson系列仍然是核心支撑层之一,主要负责在物理实体上提供边缘推理与实时智能执行能力。具体来说,它的地位可以概括如下:
1.边缘算力基石:
Jetson是NVIDIA面向边缘物理AI与机器人的关键硬件平台,为机器人、自动驾驶、工业自动化等自主系统提供本地感知、推理和控制能力。
其设计目标是让具身智能系统能在没有依赖云的情况下,在现场完成复杂任务,如多传感融合、实时决策等。
2.从JetsonOrin到JetsonThor的演进:
最新的Jetson AGX Thor是专为物理AI和具身智能设计的高性能平台。
具备大规模生成式模型推理能力及强实时计算能力,可运行机器人基础模型(如Isaac GR00T、Cosmos Reason等),大幅提升机器人执行复杂动作、环境理解等能力。
3.全栈软硬件融合:
Jetson和NVIDIA的AI软件生态(如JetPack SDK、Isaac机器人工具、Metropolis、Holoscan等)深度集成,使其既能支撑底层传感器处理和控制逻辑,又能执行高层智能策略推理,是实现“知觉→推理→行动”闭环执行的核心节点。
4.生态与应用落地枢纽
由于其强劲算力、高能效比和丰富接口,Jetson已被大量机器人、智能设备厂商采用,并成为在实际场景(从工业机器人到服务机器人)中部署具身智能的主要计算平台。

Jetson软硬件框图
二、Isaac
Isaac这个名字可能是为了致敬《圣经》中的人物以撒(Isaac),因为其象征着智慧、创新和未来的愿景。
Isaac是NVIDIA于2018年推出的开放式机器人开发平台,由仿真和机器人学习框架、基于NVIDIA CUDA加速库、AI模型以及参考工作流组成,用于创建自主移动机器人(AMR)、机器人臂、操控器和类人机器人。
Isaac的主要组成部分如下:
1.仿真与算法训练
(1)IsaacSim
基于NVIDIA Omniverse,提供物理精确、高保真机器人物理仿真与合成数据生成,内置Omniverse Physics高精度物理引擎,实现刚体/柔体碰撞、材质交互、抓取操作高度保真,让仿真与现实高度对齐。
(2)Isaac Lab
基于Isaac Sim的GPU加速机器人学习框架,专注于强化学习、模仿学习等策略训练。
2.加速库与模型
(1)NVIDIA CUDA加速库+应用框架
提供CUDA加速算法,用于感知、SLAM、运动规划等。
(2)AI模型(如基础感知模型)
包括用于姿态估计、深度估计、物体检测等预训练模型,可直接用于机器人感知组件。
3.机器人软件组件
(1)Isaac ROS
基于ROS2的CUDA加速包与参考工作流,简化高级机器人应用的开发(自主导航、控制等)。
(2)Isaac Perceptor
针对自主移动机器人(AMR)的感知库与参考流程集成,用于3D重建、SLAM和环境理解。
(3)Isaac Manipulator
专注于机械臂和操控器的AI加速库与参考工作流程,支持抓取、跟踪等任务。
4.具身智能核心大脑(2025–2026关键新增)
(1)Isaac GR00T
全球首个开源通用VLA(视觉-语言-动作)机器人基础模型,支持自然语言指令、多步任务规划、零/少样本泛化、连续动作生成,是人形机器人的通用大脑。
(2)CAP-X可编程具身框架
将机器人技能代码化、可编辑、可复用、可验证,融合数据驱动与逻辑规则,解决端到端模型不可解释、难调试、难商用的痛点。

三、Ominiverse
Omniverse是发布于2020年12月的多用户协作和仿真平台,旨在为3D内容创作、虚拟世界建模、物理仿真和数字孪生提供统一的开发环境。
它通过集成实时渲染、物理模拟、AI和大规模协作功能,允许不同领域的开发者、设计师和工程师在虚拟环境中进行无缝协作。
Omniverse是一个跨行业、跨工具的开放平台,适用于从游戏开发、电影制作到工业设计和自动驾驶仿真等多个领域。
1.主要特点和功能:
(1)实时协作与同步
Omniverse允许多用户在同一个虚拟世界中进行实时协作。
多个开发者可以同时编辑和渲染同一个3D场景,从而显著提高项目的开发效率。
它支持与多种3D工具和应用(如Autodesk Maya、3ds Max、Blender等)进行无缝协作,通过USD(Universal Scene Description)文件格式进行跨平台的数据交换,使得不同的设计工具可以互操作。
(2)高级物理仿真
Omniverse利用NVIDIARTX GPU的强大计算能力,提供高保真物理仿真。
这包括光线追踪渲染、流体、烟雾、布料等物理效果的模拟,让虚拟世界更贴近真实。
Omniverse Physics模块支持碰撞、重力、物理交互等多种仿真,可以在复杂场景中模拟物理行为,确保模拟的真实性。
(3)数字孪生
Omniverse通过将现实世界的物理对象(如建筑、工厂、城市等)转化为数字化模型,用户可以在虚拟环境中进行测试、优化和预测。
这对于工业仿真和自动驾驶仿真等领域非常重要,通过数字孪生,工程师可以在虚拟世界中验证现实中的系统行为,减少物理原型的开发成本。
(4)AI驱动的工具和功能
Omniverse融合了NVIDIA的AI技术,如Omniverse Audio2Face,可以基于语音自动生成角色的面部表情,使得虚拟人物更加生动。
利用深度学习和AI,Omniverse还提供了自动化生成环境和资产的功能,进一步加速了内容创作。
(5)扩展性与插件
Omniverse是一个开放平台,支持各种插件和扩展,用户可以根据自己的需求进行定制化开发。
例如,开发者可以通过Omniverse Kit构建自己的应用程序,或将Omniverse集成到现有的工作流程中。
(6)虚拟世界的多样性应用
游戏和电影制作:游戏开发者和电影工作室可以在其中创建高保真、实时渲染的场景。
工业仿真和工程设计:汽车、航空航天、建筑等行业的从业人员可以用它来进行虚拟原型设计、生产线模拟、建筑施工仿真等。
自动驾驶:通过与NVIDIA DRIVE平台结合,Omniverse可以用于自动驾驶仿真,帮助开发者在虚拟世界中测试驾驶算法,确保安全性和效率。

2.Omniverse主要组成部分:
(1)Omniverse Nucleus:
Nucleus是Omniverse的核心组件,负责数据管理和协作同步,确保多用户和多工具之间的无缝协作。
它管理虚拟世界中的所有资源和数据,并协调各个模块的交互。
(2)Omniverse Kit:
Kit是开发者工具包,允许开发者通过脚本和插件扩展Omniverse的功能。
开发者可以使用Kit创建自定义的应用程序,构建与Omniverse兼容的工具和系统。
(3)Omniverse Connectors:
Connectors是将Omniverse与其他行业标准3D软件(如Autodesk、Blender、Unreal Engine等)集成的插件。
这使得用户能够在现有工具中继续工作,同时将数据无缝传输到Omniverse平台进行进一步的仿真和渲染。
(4)Omniverse Create:
Create是Omniverse的主要创作工具,专为设计师、工程师和艺术家打造。
它提供了一个交互式的3D创建和编辑环境,用户可以在其中进行模型设计、材质设置和实时渲染。
(5)Omniverse View:
View是一个轻量级的查看器,主要用于查看和呈现Omniverse场景。
它为用户提供了实时光线追踪渲染和互动功能,适用于项目审阅和展示。

四、Cosmos
NVIDIA Cosmos是于2025 年初正式发布的世界基础模型平台(WFM),专为具身智能/物理AI场景设计,通过生成式世界模拟、可控合成数据生成、多模态推理等技术来加速机器人、自动驾驶等自主系统的开发。
Cosmos由有五个核心模块组成,分别聚焦于不同的AI开发工作流程。这些模块互相配合,以推动从数据准备到模型训练、推理和优化的全流程。
1.Cosmos Curator
一个基于Ray构建的GPU加速视频策展流水线,用于推理和训练数据准备。
支持多模型分析、内容过滤、注释和重复去重,确保数据质量。
可加速数据准备,尤其是在大规模视频和传感器数据集上。
适用于数据预处理,在大规模模型训练前对数据进行优化。
适合需要处理和标注大量传感器数据或视频的任务,如机器人感知训练、自动驾驶仿真等。
2.Cosmos Predict
一种用于未来状态预测的扩散变压器(Diffusion Transformer)。
提供文本到图像和视频到世界生成能力,能够生成逼真的虚拟场景。
专门的机器人和仿真变体,适应于不同仿真环境和任务。
支持定制训练,可以根据具体领域(如机器人、自动驾驶)进行任务特定的训练。
用于生成仿真环境和虚拟世界,支持机器人和自动驾驶系统的场景预测和数据生成。
3.Cosmos Transfer
一套多控制视频生成系统,支持复杂的条件处理和生成。
支持Control Net和Multi Control Net,可以处理深度、分段、激光雷达、HDMap等信息,生成多模态仿真数据。
包含4K放大功能,支持高分辨率数据生成。
提供自定义控制模式和域适配训练,可以根据特定领域的需求进行定制。
广泛应用于自动驾驶仿真、机器人训练和数据生成,特别适合需要精确环境控制和多感知输入的任务。
4.Cosmos Reason
一款7B视觉语言模型(VLM),用于物理基础推理。
可处理空间/时间理解和思维链任务,通过多步推理进行决策。
支持具身AI应用和领域特定推理的微调,可以根据实际应用进行定制训练。
提供跨学科推理支持,例如针对机器人的物理行为推理。
用于物理推理和任务规划,特别适合涉及空间/时间推理、决策优化等任务的领域,如机器人自主决策和自动驾驶决策。
5.CosmosRL
一个分布式训练框架,支持监督式微调SFT和强化学习方法。
支持FP8/FP4精度,提高训练效率并减少计算负担。
具备弹性策略推广,支持大规模VLM和LLM(大型语言模型)训练的优化功能。
提供多种训练方法的支持,使其能够适应不同的智能体学习任务。
主要用于训练具身智能系统,例如机器人自主学习、自动驾驶的智能决策训练等。
Cosmos系列的五个核心模块共同为物理AI和具身智能提供了一个完整的开发、训练、推理和优化平台。每个模块都针对AI开发工作流中的一个具体能力,提供了以下功能:
1.数据准备和优化:通过Cosmos Curator提供高效的GPU加速数据准备。
2.生成能力:通过Cosmos Predict进行未来状态的预测和生成虚拟世界场景。
3.多模态控制和生成:通过Cosmos Transfer生成高质量、多感知模式的仿真数据。
4.物理推理和决策:通过Cosmos Reason提供推理能力,使机器人能够进行物理和空间决策。
5.分布式训练与强化学习:通过Cosmos RL支持高效的大规模训练,提升智能体在复杂任务中的表现。

五、NVIDIA具身智能全栈闭环
NVIDIA具身智能技术的成功不仅仅依赖于单一的硬件或软件平台。
它通过全栈闭环解决方案将从训练算力到模型部署、再到端侧加速的所有环节无缝衔接,推动智能体在现实世界中的应用。
以下是NVIDIA具身智能全栈闭环的关键组成部分:
1.训练算力:Blackwell+Vera Rubin超算平台
为了支撑世界模型和具身大模型(如Isaac GR00T和Cosmos Reason)的训练,NVIDIA提供了强大的计算平台。
Blackwell架构和Vera Rubin超算平台为大规模深度学习模型的训练提供了必要的算力支持,确保在处理复杂的物理推理和自主决策任务时,能够高效完成训练工作。
2.模型部署:NVIDIA NIM提供标准化模型打包与加速
NVIDIA NIM(NVIDIA Intelligence Model)为大模型的标准化部署提供了工具,使得训练好的模型可以在各种硬件平台上顺利运行。
NIM提供了模型打包、加速和跨平台部署的解决方案,简化了从开发到实际应用的过渡过程,确保大模型能够在机器人、自动驾驶等系统中高效执行。
3.端侧加速:TensorRT-Edge LLM实现低延迟推理
TensorRT-Edge LLM专为Jetson系列平台提供了优化的大模型推理支持。
通过低延迟实时推理,机器人和智能系统能够快速决策和执行动作,保证在复杂环境中的动作流畅性和安全性。
这一技术确保了大规模视觉语言模型(VLM)和大语言模型(LLM)在边缘设备上也能高效运行,极大提升了设备的自主决策能力。
4.统一标准:USD数字世界通用语言,实现虚拟–现实数据互通
USD(Universal Scene Description)是NVIDIA提出的数字世界通用语言,它在Omniverse和Isaac Sim中扮演着重要角色。
USD使得虚拟世界与现实世界之间的数据互通成为可能,促进了虚拟仿真与物理系统的高度同步。通过USD,用户能够无缝地交换数据和模型,在仿真环境中进行训练,然后直接将模型和算法部署到真实世界中进行验证和优化。
随着NVIDIA 具身智能平台 的不断发展,NVIDIA 已经不仅仅是 AI 算力的提供者,更成为 物理智能和具身智能革命的关键推动者。
就像在AI 时代早期,NVIDIA 通过 GPU 和 CUDA 平台为智能应用提供了强大支持,成为了AI 卖铲人。
如今,凭借Jetson、Isaac、Omniverse和Cosmos等技术,NVIDIA 正在为机器人、自动驾驶、智能制造等领域提供全栈解决方案,推动从虚拟环境到现实世界 的智能应用落地。
未来,NVIDIA 将继续以其技术为基础,推动具身智能在更多行业的普及和发展。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)