Hugging Face:Blog(RSS)
NVIDIA 发布 Cosmos 3:首个面向物理AI推理与动作的开源全能模型
AI 摘要
NVIDIA 发布 Cosmos 3,基于 Mixture-of-Transformers(MoT)架构的开源全能模型,统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力,在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本:Cosmos 3 Nano(16B 参数,8B 推理器 + 8B 生成器,面向工作站级 GPU)和 Cosmos 3 Super(64B 参数,32B + 32B,面向 Hopper 和 Blackwell GPU,用于大规模合成数据生成与研究)。两者均已上架 Hugging Face,并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。
这是一则列表来源,站内未收录完整正文。
阅读完整原文huggingface.co