DeepSeek 推出硬件对齐稀疏注意力 NSA,长上下文训练推理双提速,预训练成本显著降低
NSA是一种硬件对齐且原生可训练的稀疏注意力机制,专为超快速长上下文训练与推理设计。其核心采用动态分层稀疏策略,结合粗粒度token压缩与细粒度token选择。通过针对现代硬件的优化,NSA在加速推理、降低预训练成本的同时不损失性能,在通用基准、长上下文任务及指令推理中匹配或超越Full Attention模型。
🚀 我们正式推出 NSA:一种硬件对齐且原生可训练的稀疏注意力机制,可实现超快长上下文训练与推理!
NSA 的核心组件包括: • 动态分层稀疏策略 • 粗粒度模型 token 压缩 • 细粒度模型 token 选择
💡 凭借针对现代硬件优化的设计,NSA 在加速推理的同时降低了预训练成本——且不牺牲性能。它在通用基准测试、长上下文任务和基于指令的推理中均达到或超越全注意力模型的表现。
📖 更多详情,请查阅我们的论文:https://arxiv.org/abs/2502.11089