技术视界|仿真平台驱动机器人技术跃迁 - 下篇
本篇将着重介绍世界模型的有关知识,并结合青龙机器人的仿真训练,更直观地展示机器人仿真平台的实际应用价值。
机器人仿真平台在机器人开发中发挥着重要作用,其发展历程值得深入探讨。它由模型描述、物理引擎和渲染引擎三大核心组成,并广泛应用于 Webots 、PyBullet、MuJoCo 和 Isaac 等常见仿真工具。此外,NVIDIA 的 Cosmos 平台和 World Labs 等世界模型技术,能够通过生成合成数据、优化数据处理和提升仿真环境的逼真度,为机器人开发提供高效、低成本的解决方案。
上篇为大家介绍了机器人仿真平台及 NVIDIA 机器人仿真环境相关内容;本篇则会着重介绍世界模型的有关知识,并结合青龙机器人的仿真训练,更直观地展示机器人仿真平台的实际应用价值。
世界模型
Cosmos 世界基础模型平台
Cosmos 世界基础模型平台是 NVIDIA 在 2025 年消费电子展(CES)上推出的综合框架,旨在加速物理人工智能(Physical AI)系统的开发,尤其是在自动驾驶车辆和机器人领域。该平台集成了生成式世界基础模型(WFM)、视频标记器、安全防护机制和加速的数据处理管道,帮助开发者在减少对真实世界数据依赖的情况下创建和优化 AI 模型。
世界基础模型(WFMs)
WFM 对物理 AI 构建者有多种用途,包括但不限于:
策略评估
在未见过的环境中部署策略模型,这些环境在现实中可能无法获得。
策略初始化
根据当前观测和任务生成动作,高质量的 WFM 可作为策略模型的良好初始化。
策略训练
在强化学习中,WFM 与奖励模型配对,作为物理世界的代理,为策略模型提供反馈,帮助智能体掌握任务能力。
规划或模型预测控制
WFM 可模拟执行不同动作序列后的未来状态,并通过成本/奖励模块量化表现,从而执行最佳动作序列。
合成数据生成
WFM 用于生成训练数据,并可微调为基于渲染元数据(如深度图或语义图)的条件生成,适用于 Sim2Real 场景。
后训练(用于机器人的 WFM 后训练)
基于指令的视频预测:输入为机器人当前视频帧和文本指令,输出为预测视频。
基于动作的下一帧预测:输入为当前视频帧和动作向量,输出为预测的下一帧。
数据集
Cosmos-1X 数据集:包含约200小时的第一视角视频,由 EVE(1x.Tech 公司的人形机器人)捕捉,涵盖导航、折叠衣物、清洁桌面、拾取物体等任务。
Bridge 数据集:包含约20,000个第三人称视角视频,展示机器人手臂在厨房环境中执行任务的过程。
Cosmos 平台的意义
Cosmos 平台通过以下方式解决了物理人工智能系统日益复杂的问题:
- 显著减少对真实世界数据的采集需求。
- 通过高效的标记和数据处理工具简化开发流程。
- 以最小的计算开销支持多样化的应用场景定制。
World Labs
World Labs 专注于空间智能和大世界模型(Large World Model, LWM)研究,其研发的世界生成系统能够通过单张图像快速生成3D物理世界。凭借在该领域的前沿技术,World Labs迅速成为行业焦点。
空间智能
空间智能是World Labs的核心技术之一,也是未来AI发展的重要方向。World Labs 创始人李飞飞将“空间智能”定义为在3D世界中进行感知、理解和行动的能力,具体包括:
- 视觉化为洞察:通过计算机视觉技术,AI不仅能“看见”物体,还能洞察其物理特性和空间关系。
- 看见成为理解:AI需识别物体在空间中的位置、形状和动向。
- 理解导致行动:基于理解,AI能在三维世界中进行合理互动和操作。
大世界模型(LWM)
LWM旨在创建一个能够感知、理解、推理和生成3D世界的模型,支持人机互动,可应用于虚拟现实、增强现实和自动驾驶等领域。其主要功能包括:
- 3D世界生成:通过深度学习生成逼真的3D环境,既能模仿现实世界,也能创造虚拟宇宙。
- 人机交互:与传统AI不同,LWM支持在虚拟世界中生成并交互3D物体,为机器人技术、自动驾驶和AR/VR等领域带来新可能性。
在3D生成方面,AI已取得显著进展,能够通过文本提示生成复杂图像和视频。LWM的目标是进一步增强AI对空间感知和物理规律的理解,使其能够处理三维场景。
功能
从单张图片生成3D世界
用户只需提供一张照片,模型即可快速分析并构建出具有深度和立体感的三维场景,支持多角度观看和交互操作。
高精度重建
模型能够精确还原图像中物体的形状、大小和位置关系,生成高度真实的3D世界,无论是自然景观还是人造物体都能出色重建。
智能交互
生成的3D世界支持智能交互,用户可通过点击、拖动等操作与物体互动,例如查看材质信息或调整布局,提供直观且有趣的体验。
Genie 2
Genie 2 是 DeepMind 在今年早些时候发布的 Genie 模型的升级版。它能够根据单张图像和文本描述(例如“一个可爱的类人机器人在森林中”)实时生成互动场景。与李飞飞的 World Labs 和以色列初创企业 Decart 开发的模型类似,Genie 2 专注于创造独特的虚拟空间。
Genie 2 的最大亮点是以极其简单的方式构建复杂的 3D 场景。用户只需提供一张提示图像,即可进入一个完全动态的世界,这些世界不仅在视觉上逼真,还具备互动性和复杂的物理效果。
功能
动作交互
角色的动作会对世界产生真实反馈,例如开门、跳跃甚至射击目标。
长记忆能力
在未见过的环境中部署策略模型,这些环境在现实中可能无法获得。
动态物理效果
包括水波、烟雾、重力和光影等自然现象,提供近乎真实的沉浸感。
多样视角
支持第一人称、第三人称、等距视角等,为用户带来多维体验。
复杂动画
模拟角色动作和物体互动,例如爆炸场景和NPC行为。
1X 世界模型
直接从真实数据中学习建立模拟器,然后用它在数百万种场景中评估机器人策略。这种方式吸收了现实世界的复杂性,避免了手动创建场景的繁琐工作,更贴近真实环境。
1X收集了数千小时的EVE人形机器人数据,涵盖在家庭和办公室中执行的各种移动操作任务以及与人互动。我们将视频和动作数据结合,训练了一个世界模型,该模型可以根据观察和动作预测未来的视频,并通过视频内容判定策略输出是否正确。
举例
世界模型能够根据不同的动作命令生成不同的结果。下图展示了在三个不同轨迹上对世界模型进行条件化的生成结果,每个轨迹都从相同的初始帧开始。这些示例未包含在训练过程中。
EnerVerse 智元4D世界模型
功能
智能建模
通过图像块的分步生成,降低复杂度,减少重复内容,仅保留对任务有帮助的信息。
灵活视角
提供多角度观察(FAV),帮助机器人在狭窄或受限环境中更灵活地完成任务。
数据生成
通过“数据引擎”生成高质量、低成本的虚拟数据,采用4D Gaussian Splatting(4DGS)技术,使数据更准确且节省空间。
举例
真实场景中生成的多视角视频质量
功能
多视角视频质量
在真实场景中生成的多视角视频质量优异。
从单张图片生成3D世界
用户只需提供一张照片,模型即可快速生成交互式3D世界,支持多角度观看和交互操作(旋转、缩放、平移等)。
高精度重建
模型能够精确还原图像中物体的形状、大小和位置关系,生成高度真实的3D世界。
智能交互
用户可通过点击、拖动等操作与场景中的物体互动,例如查看材质信息或调整布局,提供直观且有趣的体验。
仿真平台在青龙机器人上的应用
世界模型赋能
世界模型技术在机器人具身智能领域发挥着关键作用,特别是在合成数据生成、策略评估和安全性测试方面。它提供了高保真模拟环境,使机器人能够在虚拟环境中大规模学习,减少对真实环境的依赖,提高数据效率,从而优化决策、提升复杂任务学习能力,并增强泛化能力。
目前,世界模型已成为具身智能实训的重要组成部分,虚实结合加速了机器人在多场景下的适应性训练。国家地方共建机器人创新中心(以下简称:国地中心)计划依托该技术,设计开发青龙仿真应用,构建特色化的模型测试与安全评估体系,并将其作为策略评估和初始化平台。同时,国地中心正密切关注国内外高校与企业的最新进展,并与国内领先机构探讨合作,推动世界模型技术在实际机器人系统中的应用落地。
实际仿真训练
位于上海张江模力社区的人形机器人训练场内,设有一块专门的模拟训练区域,用于开展机器人实际仿真训练。该区域包含四大核心板块,每个板块通过独立的屏幕展示不同的仿真训练方案,全面支持机器人在虚拟环境中的策略学习、任务执行和性能评估。
四大板块
1. 上海交通大学:上海交通大学穆尧老师团队提供的解决方案,实现了数据资产的自动化标注,完成了抓取、放置等空间信息操作,驱动自动化轨迹生成,完成数据自动化采集,并通过并行仿真合成海量数据,显著提升了虚拟仿真效率。
2. 华为:华为技术团队提供的解决方案,利用数字孪生技术快速构建虚拟训练场,采集数据可节省成本,有力地补充了真实场景。
3. 松应:松应技术团队提供的解决方案,面向可变虚拟环境的机器人快速低成本训练,借助高保真仿真技术还原场景,避免机器人在真实环境中的高风险操作,降低了训练和数据采集成本。
4. 穹彻智能 & 上海中心:穹彻智能与上海中心联合提供的解决方案,聚焦于机器人在复杂操作任务中的精细化控制与作业能力提升。该方案结合穹彻外骨骼穿戴设备与上海中心夹爪设备,通过高保真仿真环境模拟人类动作与物体操作过程,实现了机器人在抓取、搬运、组装等场景中的精准操作训练。
挑战与发展
青龙人形机器人融合了具身智能、仿真训练和端到端学习等技术,其中,在仿真环境中进行学习、测试和优化是关键步骤。然而,仿真仍存在诸多挑战。例如,仿真中的摩擦模型通常过于简化,可能导致步态控制和物体抓取效果与真实环境存在偏差;碰撞检测往往基于近似几何体,而真实物体表面形态复杂,可能影响机器人在抓取和平衡等任务中的表现。
为提升仿真与现实的匹配度,开发者未来将进一步优化物理建模方法、引入更精确的感知反馈机制,并结合自适应调整策略,确保青龙人形机器人在实际应用中具备更强的稳定性和泛化能力。
"OpenLoong" 是全球领先的人形机器人开源社区,秉承技术驱动与开放透明的价值观,致力于汇聚全球开发者推动人形机器人产业发展。由国家地方共建人形机器人创新中心发起的 OpenLoong 项目,是业内首个全栈、全尺寸的开源人形机器人项目,有着人人都可以打造属于自己的机器人的美好愿景,旨在推动人形机器人全场景应用、助力具身智能时代的到来。
注册成为 OpenLoong 开源社区的一员,加入开发者阵营,解锁开源力量,与机器人研究者和爱好者共同开启人形机器人探索之旅吧!
注册地址:潜龙在源

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)