让机器人看懂世界:英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3
阅读原文· ithome.com英伟达推出全球首款全开源全模态物理AI大模型Cosmos 3。该模型基于混合Transformer架构,可在单一系统中融合文本、图像、视频、音效及动作内容的理解与生成,将物理AI的训练与评估周期从数月缩短至数日。Cosmos 3在Artificial Analysis、Physics-IQ等多个评测基准上排名第一,提供Super和Nano版本用于机器人与自动驾驶的训练与实时推理,Edge版本即将推出。
IT之家 6 月 1 日消息,英伟达今日正式推出英伟达 Cosmos 3,这是一款面向物理人工智能的开放世界基础大模型,依托混合 Transformer 架构打造,在单一系统中融合视觉推理、世界生成与动作预测能力。
英伟达称,Cosmos 3 是全球首款全开源的全模态大模型,可原生理解并生成文本、图像、视频、环境音效及动作内容,物理仿真精度业界领先。它能将物理人工智能的训练与评估周期从数月缩短至数日。
英伟达同时发起英伟达宇宙联盟(NVIDIA Cosmos Coalition),汇聚全球世界模型研发团队与人工智能开发者携手合作,成员包括 Agile Robots、Black Forest Labs、Generalist、LTX、Runway 以及 Skild AI,共同推动下一代世界模型技术发展。
英伟达创始人兼首席执行官黄仁勋表示:“多模态推理语言、视觉与世界模型接连取得突破,物理人工智能的变革时代即将到来。Cosmos 3 系列开源前沿全模态模型,将助力开发者实现技术跨越,打造能在现实世界中感知、推理、规划并执行动作的机器人、自动驾驶汽车及视觉人工智能系统。”
物理人工智能长期面临一大核心难题:如何让机器人、自动驾驶车辆与视觉智能体,依托有限训练数据和零散仿真框架,在真实场景中具备泛化能力。Cosmos 3 就此给出解决方案。
该模型采用混合 Transformer 架构,将推理 Transformer 与专精生成类 Transformer 相结合。模型会先解析物体交互、运动规律以及时空关联关系,再完成视频生成与动作轨迹预测。