Qwen3.5在TokenSpeed上跑出580 tps,这是开源LLM推理的极限突破,对agent类应用是实实在在的性能跃进,PyTorch这篇博客值得每一个做推理部署的细读。
Qwen3.5在TokenSpeed推理引擎上,针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现,并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动,相关详情可查阅PyTorch社区博客。
快,更快,Qwen。🚀
非常高兴地看到,Qwen3.5 在 TokenSpeed 引擎上针对智能体工作负载实现了破纪录的 580 tps!这一里程碑的实现离不开我们优秀的合作伙伴。
特别感谢 @lightseekorg、@NVIDIAAI、Mooncake 团队和 @tri_dao 在 FA4 优化方面做出的开创性工作。我们携手合作,共同推动开源大语言模型推理的边界。🤝✨
点击下方链接查看完整的 @PyTorch 博客文章!👇 https://pytorch.org/blog/up-to-580tps-new-speed-record-of-qwen3-5-397b-a17b-on-gpu-for-agentic-workloads-with-tokenspeed/
#Qwen #Qwen3_5 #TokenSpeed #LLM #推理 #AI #PyTorch #开源 #智能体AI #高性能