ZCube：超大规模大模型推理的网络优化

2026-05-21 03:51·43天前

精选理由

千卡以上推理集群的团队该看一眼，智谱这个网络设计砍掉三分之一交换机成本，吞吐还涨15%，尾时延降四成，有实测数据不是白皮书。

AI 摘要

针对超大规模大模型推理，ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计，有效解决了推理网络的拥塞问题。该架构在集群实测中，实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%，同时将首token延迟的P99值大幅降低40.6%，在降低成本的同时显著提升了推理性能。

该来源未收录可展示正文，站内仅提供摘要。

推理论文/研究部署/工程

阅读原文导出 Markdown

智谱：研究（网页内嵌数据）

精选69导出 Markdown