智谱:研究(网页内嵌数据)
ZCube:超大规模大模型推理的网络优化
精选理由
千卡以上推理集群的团队该看一眼,智谱这个网络设计砍掉三分之一交换机成本,吞吐还涨15%,尾时延降四成,有实测数据不是白皮书。
AI 摘要
针对超大规模大模型推理,ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计,有效解决了推理网络的拥塞问题。该架构在集群实测中,实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%,同时将首token延迟的P99值大幅降低40.6%,在降低成本的同时显著提升了推理性能。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文zhipuai.cn