# ZCube：超大规模大模型推理的网络优化

- 来源：智谱：研究（网页内嵌数据）
- 发布时间：2026-05-21 03:51
- AIHOT 分数：69
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpenfnvr0dw7slk14rnyifac
- 原文链接：https://www.zhipuai.cn/zh/research/160

## 精选理由

千卡以上推理集群的团队该看一眼，智谱这个网络设计砍掉三分之一交换机成本，吞吐还涨15%，尾时延降四成，有实测数据不是白皮书。

## AI 摘要

针对超大规模大模型推理，ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计，有效解决了推理网络的拥塞问题。该架构在集群实测中，实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%，同时将首token延迟的P99值大幅降低40.6%，在降低成本的同时显著提升了推理性能。

## 正文

该来源未收录可展示正文，站内仅提供摘要。