NVIDIA 首次在 AgentPerf(由 Artificial Analysis 开发)中评测智能体 AI。该基准测试的不是传统 token 生成速度,而是每兆瓦可同时运行且保持响应性的编码智能体数量。工作负载模拟真实编码智能体路径(长链模型调用、代码编辑、命令运行、工具延迟、增长上下文),涵盖 12+ 编程语言,请求长度 5K–131K tokens(平均 27K)。结果:GB300 NVL72 在最低服务层每兆瓦达 61.4K 并发智能体,H200 仅为 2.6K(20 倍提升)。性能提升源于 72 GPU 通过 NVLink 组成的机架级系统,配合软件优化(MoE 专家分布、通信与计算重叠、大批量保持)。