NVIDIA 发布 Cosmos 3,基于 Mixture-of-Transformers(MoT)架构的开源全能模型,统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力,在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本:Cosmos 3 Nano(16B 参数,8B 推理器 + 8B 生成器,面向工作站级 GPU)和 Cosmos 3 Super(64B 参数,32B + 32B,面向 Hopper 和 Blackwell GPU,用于大规模合成数据生成与研究)。两者均已上架 Hugging Face,并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。
关联讨论 8 条X:Kim (@kimmonismus)IT之家(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)