DeepSeek V4 的 1M 上下文不是靠堆显存硬撑,而是用压缩注意力把 KV 状态压到 V3 的 1/8.7,vLLM Day-0 就跟上了。做长上下文推理部署的团队,这条是必读的工程路线图。
vLLM宣布对DeepSeek-V4 Pro和Flash模型提供即日支持,该模型专为长达100万token的上下文任务设计。vLLM通过共享K/V、逆RoPE、c4a/c128a KV压缩及稀疏注意力四项关键技术,在100万上下文长度下,将每层KV状态大小缩减至DeepSeek-V3.2风格堆栈的约1/8.7。系统侧采用统一混合KV缓存、三页面大小分桶、融合内核及多流重叠等技术,显著提升性能并减少内存碎片。同时支持开箱即用的解耦部署,并为NVIDIA Blackwell和Hopper平台提供了已验证的配置方案。
祝贺 vLLM 在首日即支持 DeepSeek v4!性能结果即将在 InferenceX 上发布……