Qwen@Alibaba_Qwen

精选69

2026-05-28 00:34·36天前

精选理由

Qwen3.5在TokenSpeed上跑出580 tps，这是开源LLM推理的极限突破，对agent类应用是实实在在的性能跃进，PyTorch这篇博客值得每一个做推理部署的细读。

AI 摘要

Qwen3.5在TokenSpeed推理引擎上，针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现，并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动，相关详情可查阅PyTorch社区博客。

AI 翻译 · 中文

快，更快，Qwen。🚀

非常高兴地看到，Qwen3.5 在 TokenSpeed 引擎上针对智能体工作负载实现了破纪录的 580 tps！这一里程碑的实现离不开我们优秀的合作伙伴。

特别感谢 @lightseekorg、@NVIDIAAI、Mooncake 团队和 @tri_dao 在 FA4 优化方面做出的开创性工作。我们携手合作，共同推动开源大语言模型推理的边界。🤝✨

点击下方链接查看完整的 @PyTorch 博客文章！👇 https://pytorch.org/blog/up-to-580tps-new-speed-record-of-qwen3-5-397b-a17b-on-gpu-for-agentic-workloads-with-tokenspeed/

#Qwen #Qwen3_5 #TokenSpeed #LLM #推理 #AI #PyTorch #开源 #智能体AI #高性能

PyTorchThe speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a record-breaking 580 tokens per second (tp...

智能体开源/仓库推理论文/研究

在 X 查看原推

Qwen@Alibaba_Qwen · X

精选69导出 Markdown