Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning

目录

1. 引言

1.1 关键词

2. Physical AI 推理

2.1 物理常识推理

2.2 具身推理

3. Cosmos-Reason1 模型设计

3.1 多模态架构

3.2 混合 Mamba-MLP-Transformer 主干架构

4. 数据构建与训练阶段

4.1 视觉预训练

4.2 通用监督微调

4.3 物理 AI 监督微调

4.3.1 物理常识数据构建流程

4.3.2 具身推理数据构建流程

4.3.3 直觉物理数据

4.4 物理 AI 强化学习

5. 基准测试

5.1 物理常识推理基准

5.2 具身推理基准

6. 实验

6.1 物理 AI 监督微调实验结果

6.1.1 物理常识评估结果

6.1.2 具身推理评估结果

6.1.3 直觉物理能力评估

6.2 物理 AI 强化学习实验结果

6.2.1 RL 基础设施设计

6.2.2 RL 后训练效果

7. 相关工作

7.1 视觉物理理解

7.2 视频问答

7.3 具身 AI

7.4 多模态大模型

7.5 RLHF 与物理推理奖励优化

8. 结论


1. 引言

本文提出了 Cosmos-Reason1 系列多模态大语言模型,专注于提升 物理人工智能(Physical AI)系统在 物理常识(Physical Common Sense)与具身推理(Embodied Reasoning)方面的能力。模型能够通过对视频等视觉输入的理解,结合长链式思维(Chain-of-Thought, CoT)过程,在自然语言中做出符合物理逻辑的推理与决策。

为实现上述目标,作者提出了两个核心本体论(ontology):

  • 物理常识本体论:从空间、时间和基本物理三大类别出发,细分为 16 个子类别,系统描述了与物理世界相关的基本规律与直觉性知识。

  • 具身推理本体论:定义了适用于五类具身智能体(embodied agents,例如人类、机械臂、类人机器人、自动驾驶等)的四种推理能力(如感知处理、行动预测、物理约束等)。

在模型构建方面,Cosmos-Reason1 包括两个规模的版本:

  • Cosmos-Reason1-8B(约 8B 参数)

  • Cosmos-Reason1-56B(约 56B 参数)

其训练共分四个阶段:

  • 视觉预训练:通过图像与视频数据将视觉输入对齐至语言token空间;

  • 通用监督微调(SFT):构建通用视觉语言理解能力;

  • 物理 AI 监督微调:使用专门数据增强物理常识与具身推理;

  • 物理 AI 强化学习(RL):基于规则设计奖励函数,进一步提升模型在推理准确性上的表现。

作者还构建了多个涵盖物理常识和具身推理任务的评测基准(benchmark),并在多个维度上将 Cosmos-Reason1 与其他主流模型(如 GPT-4o、Gemini 2.0、Qwen 等)进行对比。结果显示,该模型在多个物理推理任务上均表现优越,尤其是在时间顺序、因果关系、物体永恒性等方面。

1.1 关键词

物理常识(Physical Common Sense)、具身推理(Embodied Reasoning)、多模态大模型(Multimodal LLM)、直觉物理(Intuitive Physics)

2. Physical AI 推理

本节定义了构建具备真实世界推理能力的物理 AI 模型所需的两项关键能力:物理常识推理(Physical Common Sense Reasoning)具身推理(Embodied Reasoning)

此外,作者也引入了 “系统 1 / 系统 2 ”的认知模型,以模拟人类快速直觉与深度理性推理过程。

本节奠定了 Cosmos-Reason1 模型能力的理论基础:以 本体论体系定义能力边界与目标,从而指导后续数据构建、模型训练与评估指标设计。

2.1 物理常识推理

人类通过观察世界,能自然形成直觉性的物理常识,比如重力、物体恒常性(Object Permanence)、因果性等。类似地,作者指出,AI 系统若能具备这类通用、与身体无关的物理知识,可在未直接交互的情况下进行有效预测与推理。

为此,作者构建了一个物理常识本体论,分为 3 大类、16 个子类,如下所示:

1)空间(Space)

  • 空间关系(Relationship):如“左侧”、“上方”,需考虑视角。
  • 可行性(Plausibility):判断空间关系是否合理。
  • 可供性(Affordance):判断人/机器人对物体的交互能力。
  • 环境理解(Environment):理解整体场景或环境。

2)时间(Time)

  • 动作(Actions):动作类型、强度、目标等。
  • 顺序(Order):事件发生顺序。
  • 因果性(Causality):是否存在因果关系。
  • 摄像机(Camera):摄像机位置、运动与视角变换。
  • 计划(Planning):基于观察做出合理未来计划。

3)基本物理(Fundamental Physics)

  • 属性(Attributes):如颜色、质量、材质等。
  • 状态(States):状态及变化,如冰变水。
  • 物体永恒性(Object Permanence):隐藏或遮挡后是否还存在。
  • 力学(Mechanics):静力学、运动学与动力学。
  • 电磁学(Electromagnetism):包括光学、电与磁相关知识。
  • 热力学(Thermodynamics):温度、热传导、蒸发等。
  • 反物理(Anti-Physics):判断违反物理定律的情形,如时间倒流。

2.2 具身推理

具身推理(Embodied Reasoning)强调与物理世界交互中做出合理决策的能力,区别于数学或编程中的抽象符号处理。作者将其细化为以下四项能力:

1)处理复杂感官输入

  • 模型需从不完整、模糊的原始感知(如视频帧)中提取有意义的模式。
  • 例如:自动驾驶识别前方障碍物,或机器人识别抓取物体。

2)预测行动后果:行为具备物理后果,AI需直觉理解因果关系(如机器人移动对周围物体的影响)。

3)遵守物理约束:包括摩擦力、惯性、材质限制等,AI需考虑物理可行性进行长远计划。

4)从交互中学习:如:通过动作反馈不断修正策略。(本文暂未实现,留作未来研究) 

能力 人类/动物示例 机器人/系统示例
处理感知输入 人类看烹饪视频;蝙蝠用回声定位 机器人识别物体;自动车识别交通标志
预测行为后果 木匠预测木材劈裂;狗接球 机械臂预判惯性;自动车预判打滑
遵守物理约束 飞行员控制升力;猎豹控制肌肉负荷 机械臂限力防碎;无人机避风

3. Cosmos-Reason1 模型设计

本节介绍 Cosmos-Reason1 模型的架构设计,强调其专为物理推理任务构建的多模态系统,结合了视觉编码器、投影器与语言模型主干。整体架构旨在实现输入视频与文本的融合理解,并生成包含长链式思维过程的自然语言输出。

3.1 多模态架构

(2023|NIPS,LLaVA,指令遵循,预训练和指令微调,Vicuna,ViT-L/14,LLaVABench)视觉指令微调

(2024|CVPR,LLaVA-1.5,LLaVA-1.5-HD,CLIP-ViT-L-336px,MLP 投影,高分辨率输入,组合能力,模型幻觉)通过视觉指令微调改进基线

(2024,LLaVA-NeXT(LLaVA-1.6),动态高分辨率,数据混合,主干扩展)

Cosmos-Reason1采用 decoder-only 结构,与 LLaVA 架构类似,具备处理图像与视频输入能力。

视觉编码器(Vision Encoder)

  • 采用 InternViT-300M-V2.5(ViT 架构)提取视觉特征。  
  • 图像预处理:输入图像被分割成 1~12 块(tile),每块为 448×448 分辨率,并生成缩略图保留全局信息。
  • 视频处理:从视频中均匀采样最多 32 帧(最大 2fps),每帧大小为 448×448 像素。

投影器(Projector)

  • 使用两层 MLP 进行特征下采样与映射
  • 输入维度:4096
  • 输出维度:8B 模型为 4096,56B 模型为 8192
  • 降采样方式:使用 PixelShuffle 将 1024 个视觉 token 降至 256 个token

语言模型主干(LLM Backbone)

  • 将视觉 token 与文本 token 拼接后输入主干模型,输出含长链式思维的自然语言响应。
  • 主干采用混合架构,详见 3.2 节。

3.2 混合 Mamba-MLP-Transformer 主干架构

(2023,SSM,门控 MLP,选择性输入,上下文压缩)Mamba:具有选择性状态空间的线性时间序列建模

(2024|ICML,Mamba2,SSD,SSM,SMA,矩阵变换,张量收缩,张量并行)Transformer 是 SSM

(2024,Attention-Mamba,MoE 替换 MLP)Jamba:混合 Transformer-Mamba 语言模型

(2024,Jamba1.5,ExpertsInt8量化,LLM,激活损失)大规模混合 Transformer-Mamba 模型

主干采用混合架构,该结构融合了 Transformer 与 Mamba 的优势,提升了对长序列的处理能力和计算效率。 

背景与动机

  • Transformer 结构虽然强大,但其自注意力机制的时间复杂度为 𝑂(𝑛²),在长文本或视频处理中存在性能瓶颈。
  • Mamba 架构则引入选择性状态空间模型(selective state-space models),具备线性复杂度,适合长序列建模。

4. 数据构建与训练阶段

本节详细介绍 Cosmos-Reason1 的训练流程与数据来源,强调其为物理 AI 任务量身定制的四阶段训练策略

  • 视觉预训练(Vision Pre-Training)
  • 通用监督微调(General Supervised Fine-Tuning)
  • 物理 AI 监督微调(Physical AI Supervised Fine-Tuning)
  • 物理AI 强化学习(Physical AI Reinforcement Learning)

每一阶段均有专属的数据策划流程,确保模型具备从感知到推理的完整能力。

4.1 视觉预训练

目标:将图像与视频视觉 token 映射到语言 token 嵌入空间,实现多模态统一表示。
方法

  • 冻结视觉编码器与 LLM 主干,仅训练两层 MLP 投影器。
  • 使用 130M 样本(人类注释 + 模型生成标题 caption),任务包括图像标题生成与视觉问答(VQA)。

4.2 通用监督微调

目标:建立基础的视觉-语言联合理解能力。
方法

  • 开始训练视觉编码器、投影器与语言模型主干。
  • 使用 8M 样本:6M 图文对(静态图像+文本),2M 视文对(视频+文本)

数据来源涵盖多任务、多领域,如视频描述、QA、多选题、推理等,目标为打造全面、多样化的感知-理解能力。

4.3 物理 AI 监督微调

这是 Cosmos-Reason1 构建的核心能力阶段,涵盖两个子任务:

  • 物理常识推理
  • 具身推理

为此,作者提出了严格的数据策划流程,并引入 “理解” 与 “推理” 双重注释:

  • 理解:包括状态-动作描述或结构化视频标题(caption)。
  • 推理:包括问题、长链式思维轨迹、最终答案。

4.3.1 物理常识数据构建流程

数据构建流程: 

  • 视频筛选:由人类偏好选取高质量视频,截取片段。
  • 详细标题生成:由人工或 VLM 生成视频结构化描述。
  • 问题构建:LLM 基于标题生成理解类(可由描述直接回答)与推理类(需要常识或推理)问题。
  • 思维轨迹提取:调用 DeepSeek-R1 模型回答推理问题,解析为 “思考过程 + 答案” 格式。
  • 清洗与重写:移除多余信息、优化语言表达,生成标准训练样本。

示例: 

  • 自由形式(Free-form):视频片段 + 标题 → 提问“这个物体可能会去哪?” → DeepSeek-R1生成完整CoT。
  • 多选(Multiple-choice,MC):采样高质量视频 1.2M 段,自动构造 2.4M 理解类与 0.6M 推理类 MCQ。

4.3.2 具身推理数据构建流程

目标任务(三类):

  • 任务完成验证(task-completion verification)
  • 动作可行性评估(action affordance)
  • 下一步子任务预测(next plausible subtask prediction)

构建流程

  • 视频分割为短时段动作片段
  • 用 VLM 生成结构化标题(state-action context)
  • 基于动作标签与标题生成 QA 对
  • 使用 DeepSeek-R1 生成推理轨迹
  • 清洗与重写生成标准样本

数据来源

  • BridgeData V2:物体操作(移动、堆叠等)
  • RoboVQA:六类问答任务(规划、验证、预测等)
  • AgiBot:家庭任务序列(如“从冰箱拿出红椒 → 放入塑料袋”)
  • HoloAssist:第一人称操作,包含错误与修复动作
  • AV(自动驾驶):真实交通环境,带有人工标注的三类caption(场景、难度、提示)

4.3.3 直觉物理数据

为提升基础物理能力,作者引入三种高度结构化、接近自监督的数据子集:

空间拼图(Puzzle)

  • 将图像打乱为 2×2 块,预测原始相对位置
  • 构建身份识别题,引入干扰项
  • 总样本:11K

时间箭头(Arrow of Time, AoT)

  • 视频正/逆播放
  • 判断是否违反时间单向性(如 “破碎变完整”)
  • 总样本:30K

物体永恒性(Object Permanence)

  • 使用 Libero 模拟器生成视频,包含遮挡与物体消失
  • 提示模型观察异常情况
  • 样本量:10K,推理轨迹由中间版本的 Cosmos-Reason1-8B 生成

4.4 物理 AI 强化学习

目标:在已有能力基础上,进一步精炼物理推理表现。

奖励构建

  • 准确性奖励:答案正确得分,基于 MCQ 格式实现可验证性。
  • 格式奖励:要求模型输出与格式。

数据改写:将推理监督微调样本转换为选择题,特别是物理常识、具身推理与直觉物理三类。

训练框架

  • 自建基于Ray的分布式 RL 框架
  • 采用 GRPO 算法:无需 critic,按样本分组归一化奖励,简洁高效

参数配置

  • 每轮采样 128 个问题,每个问题生成 9 个回答
  • 学习率:4e-6,KL 损失惩罚:0.005,训练 500 轮

5. 基准测试

为了全面评估 Cosmos-Reason1 模型在物理 AI 任务中的表现,作者设计并构建了两个专门基准:

  • 物理常识推理基准(Physical Common Sense Reasoning)
  • 具身推理基准(Embodied Reasoning)

这些基准围绕模型本体论中定义的能力展开,采用 基于视频的多项选择题(MCQ)与二选一(Yes/No)格式,确保回答需要真实的物理理解与多步推理,而不仅是文本匹配或检索。

5.1 物理常识推理基准

构建流程

  • 起始问题库:5737 个问题(2828 个二选一,2909 个多选题)
  • 按照第二节定义的本体论分类(图 7),覆盖 16 个子类别
  • 从中精选 604 题组成正式评估集

问题类型分布

  • 空间类(Space):80 题(13.25%)
  • 时间类(Time):298 题(49.33%)
  • 基本物理类(Fundamental Physics):226 题(37.42%)

设计原则

  • 所有问题均基于视频片段生成
  • 强制要求推理过程,避免凭直觉判断
  • 仅评估最终答案是否正确,暂不评估思维链质量

5.2 具身推理基准

此基准主要评估模型是否具备以下三类关键能力:

  • 任务完成验证(Task-completion verification)
  • 动作可行性评估(Action affordance)
  • 下一步子任务预测(Next plausible action prediction)

问题格式:全部为多选题(MCQ),基于视觉上下文设计。

设计原则:

  • 统一问题模板:所有问题使用一致格式,避免被语言模式提示干扰
  • 统一动作粒度:通过预定义的 “动作-子任务-目标” 三层级避免歧义
  • 人工精调选项:确保干扰项具备 “视觉可判别性” 与 “逻辑错位”,增加挑战性

子集说明:

1)BridgeData V2

  • 来源于val集
  • 每题提供机器人目标任务与视频,询问下一步最合理动作
  • 问题数:100

2)RoboVQA

  • 从val集中采样101段视频
  • 聚焦任务完成验证与动作可行性
  • 转换为二选一形式的问题

3)RoboFail

  • 手工精选100例,强调失败/异常动作处理
  • 更关注复杂的物理约束与细节识别(如误抓、场景遮挡)

4)AgiBot

  • 从测试集采样100个视频片段
  • 每题提供任务背景,要求选择最可能的下一子任务

5)HoloAssist

  • 从 34 个排除训练集的视频中选出 100 段
  • 提供当前粗粒度目标与动作,预测下一步操作

6)AV(自动驾驶):精选100段视频,问题涉及:

  • 下一动作预测
  • 行为验证
  • 某动作是否可行
  • 所有问题基于人工高质量 caption 设计,确保评估有效性

6. 实验

本节详细评估 Cosmos-Reason1 在三个关键维度的表现:

  • 物理常识推理
  • 具身推理
  • 直觉物理推理

作者不仅对比了多个主流多模态大模型(如 GPT-4o、Gemini 2.0、Qwen2.5 等)在这些任务上的准确率,还评估了 Cosmos-Reason1 在监督微调(SFT)与强化学习(RL)阶段的增益效果,并展示了用于训练的 RL 基础设施与策略。

6.1 物理 AI 监督微调实验结果

模型 学习率 训练轮数 优化器 批量大小
8B 1e-5 → 1e-6(分两阶段) 共 80 K Fused Adam (β1=0.9, β2=0.95) 32
56B 1e-5 → 1e-6 共 50 K 同上 32

采样策略为领域均衡,防止某类任务过拟合。评估中使用温度 0.6、top-p 0.95,共采样 5 次平均准确率。对其他模型使用零样本链式提示(zero-shot CoT)调用 API 或公开模型。

6.1.1 物理常识评估结果

分析

  • 56B 模型超越所有对比模型,包括 OpenAI o1 与 GPT-4o
  • 8B 模型也显著优于同尺寸的 Qwen 7B,验证物理常识数据的有效性

6.1.2 具身推理评估结果

分析

  • Cosmos-Reason1 显著领先其他模型(提升幅度 10~13 %)
  • AV 与 Bridge 子任务提升尤为明显,体现其对 “预测下一个动作” 的优势
  • 56B 模型综合能力最强,特别适应高复杂任务如 RoboFail

6.1.3 直觉物理能力评估

分析

  • 主流 VLM 在 Object Permanence 和 Arrow of Time 上接近随机水平,暴露出 对基本物理原理的理解不足
  • Cosmos-Reason1-8B 在三项任务上均大幅领先,证明直觉物理监督微调数据有效

6.2 物理 AI 强化学习实验结果

6.2.1 RL 基础设施设计

  • 构建了类 veRL 与 OpenRLHF 的 自定义强化学习框架
  • 采用 Ray分布式架构 管理 rollout、reward、policy 同步
  • 实现了 渐进批处理机制 提高吞吐,优化 NCCL 通信

RL 算法:GRPO(Generalized Reward Propagation Optimization)

1)无需 Critic,仅基于组内标准化奖励计算优势函数:

其中,R 为奖励函数,o 为相应,G 为响应组 𝒢 = {𝑜_1, 𝑜2, . . . , 𝑜_𝐺}

2)训练参数:

  • 学习率:4e-6
  • 批次大小:128 问题 × 每问题 9 个生成
  • KL 惩罚项:0.005
  • 最大 token 数:6144

6.2.2 RL 后训练效果

分析

  • 平均提升 +8.2%,RL后训练有效巩固推理能力
  • 提升最显著的任务包括Bridge(+16.4%)、HoloAssist(+14.6%)、AV(+13.9%)
  • 常识任务也获得稳定提升(+2.8%)

7. 相关工作

7.1 视觉物理理解

IntPhysPHYREPhysical VQA 等数据集致力于测评模型对基本物理规律的理解(如物体连续性、力与结果等)。

DynamicsNetVisual Interaction Networks (VINs) 等方法强调对物体状态和交互动态建模,支持轨迹预测。

这些方法大多依赖于显式物理模拟或结构化输入,缺乏复杂视觉条件下的高层次语言推理能力

7.2 视频问答

传统视频 QA 模型如 TVQANext-QAVideoChatGPT 等,主要聚焦于 “谁做了什么” 类事实性问题。

VideoCoCaVideo-LLAVA 尝试将多模态预训练扩展到视频场景,但缺少 链式思维输出能力,不适合复杂物理问题。

本文所构建的 Cosmos-Reason1,更注重 因果性理解、物理可行性推理与直觉物理建模,超越了传统视频 QA 范畴。

7.3 具身 AI

数据集如 ALFREDTEAChEgo4D 强调基于第一人称视频的动作预测与场景交互,适用于训练具身代理。

EAI Benchmarks(如BridgeData、RoboVQA) 提供语义任务标注、动作图谱和物理反馈,强调行动合理性。

但现有系统往往采用模块化 pipeline 或强化学习策略,不具备语言模型驱动的 可解释长链推理能力

7.4 多模态大模型

模型如 GPT-4V、Gemini、Qwen-VL、InternVL、LLaVA 提供图文/视文理解能力,已被广泛用于问答与生成任务。

GPT-4o 具备多模态输入能力,但在直觉物理和具身预测方面仍表现接近随机。

本文方法结合了 Mamba 模块的效率与 Transformer 的推理能力,并引入任务专属训练策略,形成针对物理智能任务的优化路径

7.5 RLHF 与物理推理奖励优化

强化学习在人类偏好对齐(如 ChatGPT)中已广泛应用。

本文首次提出适用于视频物理任务的可验证性奖励机制(accuracy + formatting),配合无 critic 的 GRPO 算法,在 MCQ 格式上实现稳定增益。

相比之前使用隐式奖励或人类偏好评分的方式,本方法更可控、更高效、适用于复杂推理验证

8. 结论

Cosmos-Reason1 是专为物理 AI 推理任务设计的多模态大语言模型,创新地引入物理常识与具身推理双本体论,融合预训练、监督学习与强化学习,显著提升模型在真实物理场景中的理解与决策能力。文中还提出多个挑战性基准,填补当前多模态模型在基础物理推理能力上的评估空白。


论文地址:https://arxiv.org/abs/2503.15558

项目页面:https://github.com/nvidia-cosmos/cosmos-reason1

进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐