vLLM实现对DeepSeek-V4模型的即日支持并详解长上下文优化技术

SemiAnalysis@SemiAnalysis_

精选77

2026-04-24 12:57·58天前

精选理由

DeepSeek V4 的 1M 上下文不是靠堆显存硬撑，而是用压缩注意力把 KV 状态压到 V3 的 1/8.7，vLLM Day-0 就跟上了。做长上下文推理部署的团队，这条是必读的工程路线图。

AI 摘要

vLLM宣布对DeepSeek-V4 Pro和Flash模型提供即日支持，该模型专为长达100万token的上下文任务设计。vLLM通过共享K/V、逆RoPE、c4a/c128a KV压缩及稀疏注意力四项关键技术，在100万上下文长度下，将每层KV状态大小缩减至DeepSeek-V3.2风格堆栈的约1/8.7。系统侧采用统一混合KV缓存、三页面大小分桶、融合内核及多流重叠等技术，显著提升性能并减少内存碎片。同时支持开箱即用的解耦部署，并为NVIDIA Blackwell和Hopper平台提供了已验证的配置方案。

AI 翻译 · 中文

祝贺 vLLM 在首日即支持 DeepSeek v4！性能结果即将在 InferenceX 上发布……

vLLM🎉 Day-0 support for @deepseek_ai V4 Pro and Flash on vLLM - a new generation of DeepSeek model, purpose-built for tasks up to 1M tokens. Alongside the release,...

DeepSeek产品更新开源/仓库部署/工程

在 X 查看原推

SemiAnalysis@SemiAnalysis_ · X