英伟达推出 Nemotron 3 Nano Omni 模型:采用 30B-A3B 混合 MoE 架构,吞吐量最高提升 9.2 倍
阅读原文· ithome.com英伟达发布开源全模态推理模型Nemotron 3 Nano Omni,采用30B‑A3B混合MoE架构,集视频、音频、图像和文本处理于一体。该模型旨在替代多模型链,降低推理成本与编排复杂度。在多项基准测试中表现领先,尤其在视频推理任务中,其系统吞吐量相比其他开放式全模态模型最高提升约9.2倍,文档推理任务最高提升约7.4倍。模型权重、训练配方及数据集已完全开放,支持开发者在各类环境中定制部署。
IT之家 4 月 29 日消息,当地时间 4 月 28 日,英伟达宣布推出名为 Nemotron 3 Nano Omni 的开源全模态推理模型,旨在为企业级 AI Agent 提供一体化基础模型底座。
据介绍,这是一款将视频、音频、图像和文本的统一多模态推理集成于单个高效开放模型中的产品。该模型旨在替代智能体系统中常见的碎片化视觉-语音-语言模型链,从而减少推理跳数与编排复杂度,降低推理成本,同时增强跨模态上下文一致性。
Nemotron 3 Nano Omni 可在智能体系统中充当多模态感知与上下文子 Agent,使智能体能够在单个共享的“感知-行动”循环中处理视觉、音频和文本输入,提升收敛速度,降低编排复杂度和推理成本。
在文档智能榜单(如 MMlongbench-Doc 和 OCRBenchV2)上,该模型取得了同类领先的准确率;同时在视频与音频理解基准(WorldSense、DailyOmni、VoiceBench)中也表现优异。
行业基准 MediaPerf(基于真实媒体数据和生成任务评估视频理解模型的性能、成本和吞吐量)显示,Nemotron 3 Nano Omni 在所有任务上实现了最高吞吐量,且视频级标注的推理成本最低。
▲ 在固定的用户交互阈值下,各模型所能维持的总系统吞吐量
该模型基于 30B‑A3B 混合专家(MoE)架构,可根据任务和模态进行激活,实现高吞吐量与可扩展的多模态性能。IT之家注意到,其模型权重、数据集和训练配方完全开放,开发者可在本地、云端或企业环境中定制、部署和集成多模态子 Agent。