Hacker News 热门（buzzing.cc 中文翻译）

精选75

英伟达 Cosmos 3

2026-06-02 00:57·19天前·tosh

精选理由

Cosmos 3 把物理推理、世界生成和行动生成塞进一个开源模型，从机器人到自动驾驶都能用，英伟达这次是真的想定义物理 AI 的训练范式。

AI 摘要

英伟达发布了 Cosmos 3，这是一个用于物理 AI 推理的世界和行动模型。该信息来源于英伟达开发者博客，发布日期为 2026 年 6 月 1 日。

AI 翻译 · 中文

模拟/建模/设计

使用 NVIDIA Cosmos 3 开发物理 AI 推理、世界和动作模型

2026年5月31日

作者：Asawaree Bhide 和 Alexander Schwarz

物理 AI 系统在现实世界中采取行动之前，必须先理解这个现实世界。机器人、自动驾驶车辆和智能空间需要理解其环境中正在发生的事情，预测接下来可能发生什么，并为特定环境、具身形态和任务生成动作。

NVIDIA Cosmos 3 是一个面向物理 AI 的前沿基础模型，它将物理推理、世界生成和动作生成统一在单个开放模型之中。

NVIDIA 正在开源 Cosmos 3 模型、训练脚本、部署工具和数据集，以使物理 AI 开发更加开放和可复现。这篇博文涵盖了 Cosmos 3 的基础知识，突显了技术报告中的关键概念，指导用户完成技术工作流程，并展示了构建机器人操作系统、自动驾驶车辆和仓库监控解决方案的团队如何开始使用。

A video clip generated by Cosmos 3 for the autonomous driving domain. The video is from a vehicle’s point-of-view at an intersection. Another car crosses the intersection in front of this vehicle, and then the vehicle takes a left turn. The video looks realistic and shows houses, trees, and cars in the surroundings. — 图1. Cosmos 3 为自动驾驶领域生成的视频片段

A video shows a corridor with shelves of boxes on either side and a pile of boxes on the ground. Three people are standing next to the pile of boxes. There’s a small explosion from one of the boxes on the floor, and it starts smoking. — 图2. 使用 Cosmos 3 为仓库安全数据生成的视频。

本次发布的主要亮点包括：

NVIDIA Cosmos 3 Nano 和 NVIDIA Cosmos 3 Super 模型检查点，托管在 Hugging Face 上，代码在 GitHub 上。
面向物理 AI 应用（如机器人和自动驾驶）的开放数据集。
用于将 Cosmos 3 适配到您领域的开放后训练脚本。
Cosmos NIM 微服务，用于在 NVIDIA GPU 上轻松、优化地部署。

Cosmos 3 的新特性

之前的 Cosmos 版本将世界生成、物理理解和受控场景生成分离到不同的模型和工作流程中。本次发布通过一个基于双塔的混合 Transformer (MoT) 架构统一了这些能力。

推理器塔：一个视觉语言模型 (VLM)，用于解释多模态观测数据，如图像、视频和文本。该塔使用自回归架构来解释输入，理解运动、物体交互和其他物理上下文。它充当“大脑”，在任何生成发生之前对世界进行推理。
生成塔：生成未来的观测结果和动作序列。该塔采用基于扩散模型的过程，生成具备物理感知的视频和动作输出，这些输出以推理塔的理解为条件。推理塔可独立调用，但生成塔始终同时激活两座塔以实现引导式生成。

Cosmos 3 architecture diagram: an autoregressive reasoner tower that takes in text, image, video, audio, and action inputs is connected to a diffusion-based generator tower that outputs text, image, video, audio, and action. Information from the reasoner tower feeds unidirectionally into the generator tower, which enables coherent generation. — 图 3. Cosmos 3 架构

该架构使单个模型能够同时执行推理与生成任务，无需在多个模型和推理管线之间进行编排，从而简化了开发流程。

选择正确的模型规模

目前提供两款 Cosmos 3 模型：

Cosmos 3 Nano 是紧凑版本，拥有 160 亿参数，针对高效推理进行了优化。它旨在运行在工作站级算力上，例如 NVIDIA RTX PRO 6000 GPU，适用于实时机器人推理和物理 AI 应用。
Cosmos 3 Super 是一款 640 亿参数的模型，专为最高质量和能力而设计。它提供了最高的基准测试分数，并面向 NVIDIA Hopper 和 NVIDIA Blackwell GPU 的数据中心部署，因此适用于大规模合成数据生成和高级物理推理工作负载。

支持的模态

Cosmos 3 通过其统一架构支持以下输入与输出模态：

输入	输出	应用场景
文本	图像	物理合理的图像生成
文本 \| 视频	视频	用于罕见边缘案例视频数据生成的世界模型
文本 \| 图像	视频	用于预测的世界模型
文本 \| 图像 \| 视频	文本	用于推理的视觉语言模型（VLM）
动作 \| 视频 \| 文本	视频	以动作为条件的世界模型
视频 \| 文本	视频 \| 动作	世界动作模型、视频动作模型、视觉语言动作模型、机器人学习的策略模型

表 1. Cosmos 3 在不同应用场景下支持的输入与输出模态

面向物理 AI 的开放数据集

随着 Cosmos 3 的发布，NVIDIA 在 Hugging Face 上开源了六个合成数据生成（SDG）数据集。这些数据集涵盖了机器人技术、物理仿真、空间推理、人体运动、驾驶和仓库环境，可用于对 Cosmos 3 及其他模型进行后训练：

物理 AI 世界模型合成数据集包括：

具身机器人场景
物理交互场景
空间推理
数字人场景
自动驾驶场景
仓库操作场景

A collection of videos in the Embodied Robot Scenes dataset. The videos show different humanoid robots doing manipulation tasks in different environments. — 图4. 来自具身机器人场景数据集的操作示例

A collection of videos in the Physical Interaction Scenes dataset. The videos show simulated scenes like a wrecking ball hitting objects, a toy tower collapsing, and dominoes falling. For each scene, the dataset has corresponding ground-truth physics annotations like per-object velocity, center-of-mass displacement, and per-frame semantic segmentation. — 图5. 来自物理交互场景数据集的示例

A collection of images showing the Spatial Reasoning dataset, including scenes like kitchens, corridors, offices, and utility rooms. It also includes question-answer pairs like, “How far is the coffee table from the sofa?” and “What is the best route for the robot to reach the study room?” — 图6. 来自空间推理数据集的示例

A collection of videos in the Digital Human Scenes dataset. The videos show some simulated indoor and outdoor environments with digital people standing and moving. These videos provide diverse human appearance, motion, scene context, lighting, and camera motion. — 图7. 来自数字人场景数据集的示例

A collection of videos from the Autonomous Driving Scenarios dataset. The videos are from the ego point of view of an autonomous vehicle and show the vehicle driving on roads in different scenarios. The videos show diverse weather and lighting conditions and driving behaviors like lane changing and pedestrian interactions. — 图8. 来自自动驾驶场景数据集的示例

A collection of videos from the Warehouse Operations Scenes dataset. The videos show simulated warehouse scenes from different camera angles. Some videos show a forklift moving and colliding with people or objects. In another video, a person drops a cardboard box on the floor. — 图9. 来自仓库操作场景数据集的示例

NVIDIA Cosmos 人工评测基准

NVIDIA Cosmos 人工评测（HUE）框架评估 Cosmos 3 生成器在代表性领域任务上的质量。

随着 SOTA 视频生成模型在现有自动化排行榜上趋于饱和，不同版本之间的分数差异往往过小，难以进行有意义的比较。HUE 将评估从主观评分转变为客观事实验证，从而实现对顶级模型之间的细粒度比较。结果是在全面人工评估支持下，为快速迭代和严格的发布决策提供更可靠的质量信号。

HUE 使用原子二元验证来评估视频生成质量。每个生成的视频被分解为涵盖四个维度（语义对齐、物理规律、几何推理和视觉完整性）的单一事实判断题，涉及七个物理 AI 领域，包括机器人、自动驾驶和物理。这些问题由 VLM 管道生成，经人类专家精炼，并在 Hugging Face 上以开源形式发布。

基准测试结果

Cosmos 3 已在多个基准测试套件上进行了评估，涵盖物理 AI 推理、生成质量和特定领域性能。

推理基准测试

Cosmos 3 Super 和 Cosmos 3 Nano 分别在 32B 和 8B 参数量级别上领先 VANTAGE-Bench：

VANTAGE-Bench：首个公开基准测试，用于评估视觉语言模型在仓库、运输和智能空间等真实世界固定摄像头视频上的表现。
交通异常推理（TAR）：一个用于检测和推理交通视频中异常事件的新排行榜，同时也是 AI City Challenge 2026 Track 3 的官方排行榜。

生成器基准测试

Cosmos 3 是开源 SOTA 模型，目前在 PAI-Bench、R-Bench Physics-IQ 和 RoboLab 等多个公开排行榜上领先。

Artificial Analysis：一个对文本、图像和视频生成 AI 模型进行排名的基准测试平台。Cosmos 3 在文本到图像排行榜和图像到视频（无音频）排行榜上均位居开源模型之首。
R-Bench：一个用于评估机器人视频生成中基于视频的世界模型的基准测试。它通过结构一致性、物理合理性和执行完整性等子指标，来衡量任务完成度和视觉质量。
PAI-Bench：一个统一的基准测试，横跨视频理解与视频生成两个方向评估物理 AI，涵盖机器人、自动驾驶和物理常识等领域。
Physics-IQ：一个基于真实世界视频的基准测试，用于检验生成式视频模型是否真正理解物理原理，而不仅仅是追求视觉真实感。
RoboLab：一个用于评估通用任务机器人策略的仿真基准测试。

训练配方

Cosmos 3 版本的核心组成部分是一套完全开源的训练配方。除了模型权重检查点之外，本次发布还提供了代码、配置和工作流，用于将 Cosmos 3 适配到新的领域、具身形态和数据集。

监督微调后训练

监督微调（SFT）使开发者能够将 Cosmos 3 模型适配到自己的数据上。本次发布的配方包括针对自定义视频数据集的视觉生成后训练，以及面向机器人技术和物理 AI 工作流的行动导向型配方。开发者可以在机器人、自动驾驶和仓库自动化等目标领域中对 Cosmos 3 进行定制。

后训练代码和配置已在 GitHub 上发布。

行动后训练

行动后训练使 Cosmos 3 能适配面向行动的具身物理 AI 应用，包括正向动力学、逆向动力学和策略生成。开发者可以在带行动标签的数据上对 Cosmos 3 进行后训练。对于机器人应用，这涉及几个重要工作流：基于机器人行动生成未来观测结果、推断观测演示背后的行动，以及从当前观测和任务提示中预测行动序列。这使得 Cosmos 3 成为世界行动建模和策略学习的强大基础。

视频 1. 展示如何对 Cosmos 3 进行后训练的教程视频

使用 NVIDIA NIM 微服务进行部署

Cosmos 3 模型也以 NVIDIA NIM 微服务的形式提供，用于优化且可投入生产的部署。NIM 微服务将模型与优化后的推理运行时打包在一起，无需手动调整服务基础设施即可提供高性能。对于推理工作流，NIM 微服务比 GitHub 上的 Cosmos 3 仓库更易于使用，而后者更适合后训练工作流。

Cosmos 3 Reasoner NIM 现已可用，提供 Cosmos 3 模型的推理能力。请关注即将推出的 Cosmos 3 Generator NIM，它将提供 Cosmos 3 模型的完整生成能力。

为加速推理所做的优化

量化：Cosmos 3 NIM 支持选择 BF16、FP8 或 NVFP4 量化检查点。NVFP4 量化将模型的数值精度从 BF16 降低到 4 位浮点数，可实现高达 2 倍的推理加速。
vLLM：一个开源推理引擎，利用连续批处理、分页注意力和张量并行等技术高效服务大语言模型。Cosmos 3 Reasoner NIM 的服务栈基于 vLLM 构建，与传统的服务方式相比吞吐量更高。Cosmos 3 Nano 已准备好与 vLLM-omni 和 NVIDIA Dynamo 配合运行，以获得顶级性能。
高效视频采样（EVS）：该技术能够减少推理阶段馈入视觉语言模型（VLM）的视频 token 数量，从而加速 Cosmos Reason NIM 的运行。EVS 以分块（chunk）为单位工作，保留每一帧中最独特的分块，并修剪其余部分。较小显存的 GPU 通常能从此技术中获得更大的性能提升。

如何运行 NIM

需要一个 NVIDIA NGC API 密钥才能从 NGC 拉取容器并下载 Cosmos 3 模型。

要拉取并运行 Cosmos 3 Nano Reasoner NIM，请执行相应命令。对于 Cosmos 3 Super Reasoner NIM，请指定 NIM_MODEL_SIZE=super。

docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest

更多 API 使用方式和详细信息请参阅文档。

视频 2. 教程视频，演示如何使用 Cosmos Reasoner NIM

在 Hugging Face 上下载 Cosmos 3 Nano 和 Super 检查点（checkpoints）。
在 Cosmos 3 GitHub 上查找示例代码。
体验 Cosmos 3 Nano Reasoner 模型和 Cosmos 3 Nano 模型。
加入社区，在 GitHub 和 Discord 上提交 issue 并为 Cosmos 生态系统做出贡献。

致谢

Cosmos 3 是 NVIDIA 多个团队和众多人员精彩合作的成果，参与人员包括：Aditi、Niket Agarwal、Arslan Ali、Jon Allen、Martin Antolini、Adeline Aubame、Alisson Azzolini、Junjie Bai、Maciej Bala、Yogesh Balaji、Josh Bapst、Aarti Basant、Mukesh Beladiya、Mohammad Qazim Bhat、Zaid Pervaiz Bhat、Dan Blick、Vanni Brighella、Han Cai、Tiffany Cai、Eric Cameracci、Jiaxin Cao、Yulong Cao、Mark Carlson、Carlos Casanova、Ting-Yun Chang、Yan Chang、Yu-Wei Chao、Prithvijit Chattopadhyay、Roshan Chaudhari、Chieh-Yun Chen、Junyu Chen、Ke Chen、Qizhi Chen、Wenkai Chen、Xiaotong Chen、Yu Chen、An-Chieh Cheng、Click Cheng、Xiu Chia、Jeana Choi、Chaeyeon Chung、Wenyan Cong、Yin Cui、Magdalena Dadela、Nalin Dadhich、Wenliang Dai、Joyjit Daw、Alperen Degirmenci、Rodrigo Vieira Del Monte、Robert Denomme、Sameer Dharur、Marco Di Lucca、Ke Ding、Wenhao Ding、Yifan Ding、Yuzhu Dong、Nicole Drumheller、Yilun Du、Aigul Dzhumamuratova、Aleksandr Efitorov、Hamid Eghbalzadeh、Naomi Eigbe、Imad El Hanafi、Hassan Eslami、Benedikt Falk、Jiaojiao Fan、Jim Fan、Amol Fasale、Sergiy Fefilatyev、Liang Feng、Francesco Ferroni、Sanja Fidler、Xiao Fu、Vikram Fugro、Prashant Gaikwad、TJ Galda、Katelyn Gao、Yihuai Gao、Wenhang Ge、Sreyan Ghosh、Arushi Goel、Vivek Goel、Akash Gokul、Rama Govindaraju、Jinwei Gu、Miguel Guerrero、Elfie Guo、Aryaman Gupta、Siddharth Gururani、Hugo Hadfield、Song Han、Ankur Handa、Zekun Hao、Mohammad Harrim、Ali Hassani、Nathan Hayes-Roth、Yufan He、Chris Helvig、Cyrus Hogg、Madison Huang、Michael Huang、Sophia Huang、Yufan Huang、Jacob Huffman、DeLesley Hutchins、Suneel Indupuru、Boris Ivanovic、Arihant Jain、Joel Jang、Ryan Ji、Yanan Jian、Dongfu Jiang、Jingyi Jin、Atharva Joshi、Nikhilesh Joshi、Pranjali Joshi、Jaehun Jung、Weiwei Kang、Scott Kassekert、Jan Kautz、Ashna Khetan、Julia Kiczka、Slawek Kierat、Gwanghyun Kim、Kuno Kim、Sunny Kim、Kezhi Kong、Xin Kong、Zhifeng Kong、Tomasz Kornuta、Egor Krivov、Hui Kuang、Saurav Kumar、Chia-Wen Kuo、George Kurian、Wojciech Kutak、JF Lafleche、Himangshu Lahkar、Omar Laymoun、Jayjun Lee、Sanggil Lee、Gabriele Leone、Boyi Li、Freya Li、Jiajun Li、Jinfeng Li、Ling Li、Pengcheng Li、Shangru Li、Tingle Li、Xiaolong Li、Xuan Li、Zhaoshuo Li、Zhiqi Li、Hao Liang、Maosheng Liao、Chen-Hsuan Lin、Tsung-Yi Lin、Ming-Yu Liu、Sifei Liu、Zihan Liu、Hai Loc Lu、Xiangyu Lu、Alice Luo、Ruipu Luo、Wenjie Luo、Jiangran Lyu、Martin Ding Ma、Nic Ma、Qianli Ma、Dawid Majchrowski、Louis Marcoux、Miguel Martin、Qing Miao、Ashkan Mirzaei、Shreyas Misra、Kaichun Mo、Durra Mohsin、Hyejin Moon、Pawel Morkisz、Saeid Motiian、Kirill Motkov、Seungjun Nah、Yashraj Narang、Deepak Narayanan、Thabang Ngazimbi、Julian Ouyang、David Page、Yatian Pang、Sehwi Park、Mahesh Patekar、Mostofa Patwary、Marco Pavone、Trung Pham、Wei Ping、Soha Pouya、Shrimai Prabhumoye、Varun Praveen、Delin Qu、Hesam Rabeti、Morteza Ramezanali、Marilyn Reeb、Xuanchi Ren、Kristen Rumley、Wojciech Rymer、Jun Saito、Yeongho Seol、John Shao、Piyush Shekdar、Tianwei Shen、Humphrey Shi、Min Shi、Stella Shi、Kevin Shih、Mohammad Shoeybi、Mateusz Sieniawski、Shuran Song、Alexander Sotelo、Amir Sotoodeh、Sunil Srinivasa、Vignesh Srinivasakumar、Bartosz Stefaniak、Rahul Heinrich Steiger、Shangkun Sun、Jiaxiang Tang、Shitao Tang、Yangyang Tang、Yue Tang、Tolou Tavakkoli、Kayley Ting、Krzysztof Tomala、Wei-Cheng Tseng、Jibin Varghese、Sergei Vasilev、Thomas Volk、Raju Wagwani、Roger Waleffe、Andrew Z. Wang、Boxiang Wang、Haoxiang Wang、Qiao Wang、Shihao Wang、Shijie Wang、Ting-Chun Wang、Yan Wang、Yu Wang、David Wehr、Fangyin Wei、Xinshuo Weng、Jay Zhangjie Wu、Kedi Wu、Hongchi Xia、Summer Xiao、Tianjun Xiao、Kevin Xie、Daguang Xu、Jiashu Xu、Mengyao Xu、Ruqing Xu、Xingqian Xu、Yao Xu、Dinghao Yang、Dong Yang、Hans Yang、Xiaodong Yang、Xuning Yang、Yichu Yang、Yurong You、Zhiding Yu、Hao Yuan、Simon Yuen、Xiaohui Zeng、Pengcuo Zeren、Cindy Zha、Haotian Zhang、Jenny Zhang、Jing Zhang、Liangkai Zhang、Paris Zhang、Shun Zhang、Xuanmeng Zhang、Zhizheng Zhang、Ann Zhao、Yilin Zhao、Yuliya Zhautouskaya、Charles Zhou、Fengzhe Zhou、Shilin Zhu、Yuke Zhu、Dima Zhylko、以及 Artur Zolkowski。

关于作者

About Asawaree Bhide
Asawaree Bhide is a technical marketing engineer at NVIDIA, working on robotics and deep learning applications on the Jetson platform. She did her master’s in computer science at Georgia Tech and is interested in solving complex perception tasks in autonomous navigation for embodied agents.

查看 Asawaree Bhide 的所有文章

About Alexander Schwarz
Alexander Schwarz is a robotics solutions architect at NVIDIA, where he guides developers building next-generation robot brains and world foundation models with NVIDIA Cosmos and Isaac. He holds an M.Sc. in Robotics, Cognition, and Intelligence from TU Munich and conducted research at Johns Hopkins University, TU Delft, and ETH Zurich.

查看 Alexander Schwarz 的所有文章

具身智能多模态模型发布

阅读原文