DeepSeek-V4支持1M上下文,显存约10GB(对比DeepSeek-V3.2约84GB)。FlashMemory论文进一步将显存压至1.3GB,并在LongBench-v2等长文本评测上准确率平均提升0.6%。核心是神经内存索引器(小模型),通过预测所需历史片段按需加载,实现注意力降噪。训练采用解耦双编码器架构,无需加载DeepSeek-V4基座模型,训练成本大幅下降。论文:arxiv.org/abs/2606.09079;项目:github.com/libertywing/FlashMemory-Deepseek-V4。