# Fast， faster， Qwen. 🚀

- 来源：Qwen (@Alibaba_Qwen)
- 发布时间：2026-05-28 00:34
- AIHOT 分数：69
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmpobap4x04leslv4yn3zhvqo
- 原文链接：https://x.com/Alibaba_Qwen/status/2059674574397313277

## 精选理由

Qwen3.5在TokenSpeed上跑出580 tps，这是开源LLM推理的极限突破，对agent类应用是实实在在的性能跃进，PyTorch这篇博客值得每一个做推理部署的细读。

## AI 摘要

Qwen3.5在TokenSpeed推理引擎上，针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现，并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动，相关详情可查阅PyTorch社区博客。

## 正文

快，更快，Qwen。🚀

非常高兴地看到，Qwen3.5 在 TokenSpeed 引擎上针对智能体工作负载实现了破纪录的 580 tps！这一里程碑的实现离不开我们优秀的合作伙伴。

特别感谢 @lightseekorg、@NVIDIAAI、Mooncake 团队和 @tri_dao 在 FA4 优化方面做出的开创性工作。我们携手合作，共同推动开源大语言模型推理的边界。🤝✨

点击下方链接查看完整的 @PyTorch 博客文章！👇 https://pytorch.org/blog/up-to-580tps-new-speed-record-of-qwen3-5-397b-a17b-on-gpu-for-agentic-workloads-with-tokenspeed/

#Qwen #Qwen3_5 #TokenSpeed #LLM #推理 #AI #PyTorch #开源 #智能体AI #高性能

### 引用推文

> PyTorch：The speed-of-light optimization for Qwen3.5 on the TokenSpeed inference engine is a significant milestone, achieving a record-breaking 580 tokens per second (tp...
